Parallella korpusar för mindre utforskade språk
Projekt vid Institutionen för lingvistik och filologi
Finansierat av Vetenskapsrådet och den språkvetenskapliga
fakulteten vid Uppsala universitet
Projektöversikt
Det övergripande syftet med projektet är att främja forskning och undervisning i språk. Vi bygger kontrastivt inriktade textkorpusar vars texter står i översättningsrelation till varandra. Korpusarna organiseras som en s.k. parallellkorpus, vilket innebär att källtext (som man översätter från) och måltext (som man översätter till) relateras till varandra på olika nivåer: text, stycke, mening, fraser och ord. Härmed underlättas utforskandet av korpusen ur olika kontrastiva perspektiv. Exempelvis kan forskaren/studenten undersöka olika översättningsfenomen eller olika lingvistiska förekomster i översättningarna.
Lingvistiskt medveten sökning i korpusen förutsätter att texterna annoteras med avseende på språkliga aspekter. Dit hör ordklasstaggning, morfologisk analys och/eller segmentering, parsning där meningen delas in i fraser och satser, och till sist menings- och styckesegmentering.
Manuellt byggande av sådana parallella korpusar är alltför tids- och resurskrävande. Idag finns det metoder som man kan utnyttja för såväl automatisk lingvistisk analys för ett språk som för automatisk menings- och ordlänkning mellan texterna på båda språken. I tidigare studier har man också visat att viss lingvistisk analys kan förbättra menings- och ordlänkningsprocessen som är ett nödvändigt steg i det automatiska uppbyggandet av parallella korpusar.
Delprojekt
Engelsk-hindi-svensk parallellkorpusEngelsk-svensk-turkisk-svensk parallellkorpus
Deltagare
Éva Á. Csató JohansonBengt Dahlqvist
Beáta B. Megyesi
Joakim Nivre
Eva Pettersson
Anju Saxena
Anna Sågvall Hein