Granska Tagger
Granska Tagger is an efficient Hidden Markov Model part-of-speech tagger for Swedish. This is the same tagger used internally by the grammar checker Granska.
Detta enligt sidan på KTH där man kan hämta detta program.
Det finns installerat här, med medföljande lexikon. Lexikonen är kodade med Latin1, så det ska texterna också vara. Jag vet inte om det går att bygga lexikon för att klara andra teckenkodningar.
Kommandot heter tagg
och kan användas såhär för att
tagga en vanlig textfil (med utf8) med
namnet svenska.txt
och innehållet Detta är ett exempel.
.
Det man själv skriver visas i denna färg.
En version av filen med latin1 skapas först.
$ iconv -t l1 -o svenska1.txt svenska.txt
$ tagg svenska1.txt 2>/dev/null | iconv -f l1
Detta [8515 1 qs TOKEN_SIMPLE_WORD]~ pn.neu.sin.def.sub/obj
är [115520 1 s TOKEN_SIMPLE_WORD] vb.prs.akt.kop
ett [74997 1 s TOKEN_SIMPLE_WORD] dt.neu.sin.ind
exempel [2394 1 bqs TOKEN_SIMPLE_WORD] nn.neu.sin.ind.nom
. [722211 1 fs TOKEN_PERIOD] mad
Delen 2>/dev/null
kan utelämnas. Det är för att slippa
se debuginfo.
Anropet av iconv
på slutet är för att få ut svaret som utf8.