English logga in

StartLingvistiska program

Granska Tagger

Granska Tagger

Granska Tagger is an efficient Hidden Markov Model part-of-speech tagger for Swedish. This is the same tagger used internally by the grammar checker Granska.

Detta enligt sidan på KTH där man kan hämta detta program.

Det finns installerat här, med medföljande lexikon. Lexikonen är kodade med Latin1, så det ska texterna också vara. Jag vet inte om det går att bygga lexikon för att klara andra teckenkodningar.

Kommandot heter tagg och kan användas såhär för att tagga en vanlig textfil (med utf8) med namnet svenska.txt och innehållet Detta är ett exempel.. Det man själv skriver visas i denna färg. En version av filen med latin1 skapas först.

$ iconv -t l1 -o svenska1.txt svenska.txt
$ tagg svenska1.txt 2>/dev/null | iconv -f l1
Detta [8515 1 qs TOKEN_SIMPLE_WORD]~ pn.neu.sin.def.sub/obj
är [115520 1 s TOKEN_SIMPLE_WORD] vb.prs.akt.kop
ett [74997 1 s TOKEN_SIMPLE_WORD] dt.neu.sin.ind
exempel [2394 1 bqs TOKEN_SIMPLE_WORD] nn.neu.sin.ind.nom
. [722211 1 fs TOKEN_PERIOD] mad

Delen 2>/dev/null kan utelämnas. Det är för att slippa se debuginfo. Anropet av iconv på slutet är för att få ut svaret som utf8.