Uppsala Universitet * Inst. för lingvistik och filologi * Datorlingvistik

Metoder och verktyg för automatisk grammatikextraktion

Projektet finansieras av Vetenskapsrådet

In EnglishProjektöversikt

Så gott som alla språkteknologiska tillämpningar behöver grammatik i någon form men det råder brist på datoriserade grammatiker för de många skiftande ändamålen, inte minst för svenska. Det övergripande syftet med projektet är att utveckla verktyg, som utifrån en partiell grammatik och en given korpus automatiskt, med hjälp av maskininlärning, skapar en grammatik för den texttyp som korpusen representerar.

En förlaga för maskininlärningen skapas genom lingvistisk annotering av en del av en omfattande svensk korpus. Annoteringen sker inkrementellt och huvudsakligen automatiskt. Efter att korpusen annoterats används en kombination av deduktiv och induktiv inlärning för att introducera specifika grammatiker.

Traditionellt har syntaktisk analys realiserats antingen genom grammatikbaserade eller datadrivna metoder. På senare år har man dock sett en intressant konvergens mellan dessa två ansatser och möjligheter till förhöjd kvalitet genom synergi. Projektet avser att bidra till denna utveckling.

För att utvärdera metoden provas de inducerade grammatikerna ut i ett maskinöversättningssammanhang och resultatet jämförs med det man uppnår med en handskriven grammatik. Ett annat resultat är en omfattande svensk korpus som är annoterad med lingvistisk information. Det blir en trädbank, som kan användas som förlaga i andra sammanhang och som en allmän resurs för såväl språkteknologisk som annan språkvetenskaplig forskning.

Interna sidor

Deltagare

Anna Sågvall Hein
Joakim Nivre
Beáta Megyesi
Bengt Dahlqvist
Mats Dahllöf
Eva Forsbom
Sofia Gustafson-Capková
Marco Kuhlmann
Mattias Nilsson
Eva Pettersson
Markus Saers
Filip Salomonsson
Per Starbäck

Material

Nedan listas de korpusar som vi inom projektet arbetar med.

Publikationer

Dahlqvist, B. and Megyesi, B. 2007. Changing the tokenization in Talbanken to SUC2.0. Department of Linguistics and Philology, Uppsala University.

Megyesi, B. B. and Dahlqvist, B. 2006. Trädgårdens struktur - Om korpusformat, December 6, 2006. Uppsala University.

Megyesi, B. B. 2006. Trädgårdens storlek och dess växter - Om korpusinsamling, November 15, 2006. Uppsala University.

Nivre, J. 2006. Projektpresentation (på engelska), September 26, 2006. Uppsala University.

Evenemang

CoNLL Shared Task 2007, Chair: prof. Joakim Nivre. Shared task on dependency parsing at the Conference on Computational Natural Language Learning 2007