English logga in

Start

Lingvistiska program

Egen sida finns för Granska Tagger, an efficient Hidden Markov Model part-of-speech tagger for Swedish.

Övrigt: [Brill] [HTK] [NLTK] [SRILM] [svannotate] [TnT]

Brill

Eric Brill har skrivit en taggare som inte verkar ha nåt mer specifikt namn än Rule Based Tagger. Se dess anvisningar om upphovsrätt i /local/ling/brill/RBT/COPYRIGHT. Den utgår lite fånigt från att man står i en viss katalog när man ska använda den, så man kan göra så här för att använda den:

Argumenten är LEXICON YOUR-CORPUS BIGRAMS LEXICALRULEFILE CONTEXTUALRULEFILE. Det gör det behändigt att ge argument som är filer i den katalogen, t.ex. LEXICON.BROWN som lexikon, men för andra filer, såsom dina egna, t.ex. själva korpusen, innebär det att du måste ge ett fullständigt filnamn.

Mer information finns i katalogen /local/ling/brill/RBT/Docs/.

HTK

HTK (Hidden Markov Model Toolkit) används framförallt för taligenkänning. Dokumention finns lokalt i katalogen /local/share/doc/htk/.

Programmen som ingår i paketet är LSubset, LMerge, LNewMap, LNorm, LPlex, LGList, LGPrep, LLink, LBuild, LFoF, LGCopy, HLMCopy, LAdapt, Cluster, HSmooth, HVite, HResults, HSGen, HParse, HQuant, HRest, HLRescore, HLStats, HMMIRest, HInit, HLEd, HList, HDMan, HERest, HHEd, HBuild, HCompV, HCopy, HSLab.

NLTK

NLTK (Natural Language Toolkit) är en serie programmoduler och korpusar för forskning och undervisning i NLP i Python. Se mer på Pythonsidan.

SRILM

I The SRI Language Modeling Toolkit ingår en mängd program. De ligger i /local/ling/srilm/bin och är dokumenterade med man-sidor. Det finns även några särskilda man-sidor som är för mer än ett program, se t. ex. man training-scripts.

svannotate

Tokeniserar, segmenterar, taggar och parsar textfiler på svenska.

Kör svannotate --help för att få lite hjälp. Läs /local/ling/svannotate/README för mer. I samma katalog ligger de suc.hun och talbanken-default+splitmorph2.mco som programmet använder om man inte anger annat.

Trigrams’n’Tags (TnT)

TnT presenteras som a very efficient statistical part-of-speech tagger that is trainable on different languages and virtually any tagset. Vi har licens (för hela institutionen) för icke-kommersiell användning. Fyra program tnt, tnt-diff, tnt-para och tnt-wc ingår. Se katalogen /local/ling/tnt med underkataloger för dokumentation och licens.