Metoder och verktyg för automatisk grammatikextraktion
Projektet finansieras av Vetenskapsrådet
Projektöversikt
Så gott som alla språkteknologiska tillämpningar
behöver grammatik i någon form men det råder brist
på datoriserade grammatiker för de många skiftande
ändamålen, inte minst för svenska. Det
övergripande syftet med projektet är att utveckla verktyg,
som utifrån en partiell grammatik och en given korpus
automatiskt, med hjälp av maskininlärning, skapar en
grammatik för den texttyp som korpusen representerar. En förlaga för maskininlärningen skapas genom lingvistisk annotering av en del av en omfattande svensk korpus. Annoteringen sker inkrementellt och huvudsakligen automatiskt. Efter att korpusen annoterats används en kombination av deduktiv och induktiv inlärning för att introducera specifika grammatiker.
Traditionellt har syntaktisk analys realiserats antingen genom grammatikbaserade eller datadrivna metoder. På senare år har man dock sett en intressant konvergens mellan dessa två ansatser och möjligheter till förhöjd kvalitet genom synergi. Projektet avser att bidra till denna utveckling.
För att utvärdera metoden provas de inducerade grammatikerna ut i ett maskinöversättningssammanhang och resultatet jämförs med det man uppnår med en handskriven grammatik. Ett annat resultat är en omfattande svensk korpus som är annoterad med lingvistisk information. Det blir en trädbank, som kan användas som förlaga i andra sammanhang och som en allmän resurs för såväl språkteknologisk som annan språkvetenskaplig forskning.
Deltagare
Anna Sågvall HeinJoakim Nivre
Beáta Megyesi
Bengt Dahlqvist
Mats Dahllöf
Eva Forsbom
Sofia Gustafson-Capková
Marco Kuhlmann
Mattias Nilsson
Eva Pettersson
Markus Saers
Filip Salomonsson
Per Starbäck
Material
Nedan listas de korpusar som vi
inom projektet arbetar med.
Publikationer
Dahlqvist, B. and Megyesi, B. 2007.
Changing the tokenization in Talbanken to SUC2.0. Department of
Linguistics and Philology, Uppsala University.
Megyesi, B. B. and Dahlqvist, B. 2006. Trädgårdens struktur
- Om korpusformat, December 6, 2006. Uppsala University.
Megyesi, B. B. 2006.
Trädgårdens storlek och dess växter - Om korpusinsamling,
November 15, 2006. Uppsala University.
Nivre, J. 2006. Projektpresentation
(på engelska), September 26, 2006. Uppsala University.