UPPSALA UNIVERSITET * Inst. för lingvistik och filologi * Datorlingvistik * Beata Megyesi

Parallella korpusar för mindre utforskade språk

Projekt vid Institutionen för lingvistik och filologi
Finansierat av Vetenskapsrådet och den språkvetenskapliga fakulteten vid Uppsala universitet

In EnglishProjektöversikt

Det övergripande syftet med projektet är att främja forskning och undervisning i språk. Vi bygger kontrastivt inriktade textkorpusar vars texter står i översättningsrelation till varandra. Korpusarna organiseras som en s.k. parallellkorpus, vilket innebär att källtext (som man översätter från) och måltext (som man översätter till) relateras till varandra på olika nivåer: text, stycke, mening, fraser och ord. Härmed underlättas utforskandet av korpusen ur olika kontrastiva perspektiv. Exempelvis kan forskaren/studenten undersöka olika översättningsfenomen eller olika lingvistiska förekomster i översättningarna.

Lingvistiskt medveten sökning i korpusen förutsätter att texterna annoteras med avseende på språkliga aspekter. Dit hör ordklasstaggning, morfologisk analys och/eller segmentering, parsning där meningen delas in i fraser och satser, och till sist menings- och styckesegmentering.

Manuellt byggande av sådana parallella korpusar är alltför tids- och resurskrävande. Idag finns det metoder som man kan utnyttja för såväl automatisk lingvistisk analys för ett språk som för automatisk menings- och ordlänkning mellan texterna på båda språken. I tidigare studier har man också visat att viss lingvistisk analys kan förbättra menings- och ordlänkningsprocessen som är ett nödvändigt steg i det automatiska uppbyggandet av parallella korpusar.

Delprojekt

Engelsk-hindi-svensk parallellkorpus

Engelsk-svensk-turkisk-svensk parallellkorpus

Deltagare

Éva Á. Csató Johanson
Bengt Dahlqvist
Beáta B. Megyesi
Joakim Nivre
Eva Pettersson
Anju Saxena
Anna Sågvall Hein