Uppsala universitet * Inst. för lingvistik och filologi * Datorlingvistik * Beata Megyesi

Engelsk-Svensk-Turkisk Korpus

Projekt vid Institutionen för lingvistik och filologi
Finansierat av Vetenskapsrådet och den Språkvetenskapliga fakulteten

In English


Projektöversikt

Det övergripande syftet med projektet är att främja forskning och undervisning i turkiska. Mer specifikt syftar projektet till att bygga upp språkteknologiska basresurser för turkiska, svenska och engelska med kontrastiva frågeställningar i fokus.

Språkteknologiska basresurser omfattar dels en samling språkliga data, s.k. korpusar, samt en uppsättning av analysverktyg för automatisk bearbetning av dessa språkliga data.

Den kontrastivt inriktade textkorpusen består av tre delar, en turkisk, en svensk och en engelsk som står i översättningsrelation till varandra. Korpusen organiseras som en s.k. parallellkorpus, vilket innebär att källtext (som man översätter från) och måltext (som man översätter till) relateras till varandra på olika nivåer: text, stycke, mening, fraser och ord. Härmed underlättas utforskandet av korpusen ur olika kontrastiva perspektiv. Exempelvis kan forskaren/studenten undersöka olika översättningsfenomen eller olika lingvistiska förekomster i översättningarna.

Lingvistiskt medveten sökning i korpusen förutsätter att texterna annoteras med avseende på språkliga aspekter. Dit hör ordklasstaggning, morfologisk analys och/eller segmentering, parsning där meningen delas in i fraser och satser, och menings- och styckesegmentering.

Manuellt byggande av sådana parallella korpusar är alltför tids- och resurskrävande. Idag finns det metoder som man kan utnyttja för såväl automatisk lingvistisk analys för ett språk som för automatisk menings- och ordlänkning mellan texterna på båda språken.

Demo

Interna sidor

Deltagare

Beáta Megyesi
Éva Á. Csató Johanson
Bengt Dahlqvist
Joakim Nivre
Eva Pettersson

Publikationer

Megyesi, B., Dahlqvist, B., Csato, E., Nivre, J. 2010. The English-Swedish-Turkish Parallel Treebank. 2010. In Proceedings of Language Resources and Evaluation (LREC 2010) [.pdf]

Saxena, A., Megyesi, B., Csato Johanson, E., Dahlqvist, B. 2009. Using Paralell Corpora in Teaching and Research: The Swedish-Hindi-English and Swedish-Turkish-English Parallel Corpora. 2008. In Proceedings of Swedish Linguistic Conference (SLC 2008) [.pdf]

Megyesi, B., Csato Johanson, E., Dahlqvist, B., Gustafson-Capkova, S., Nivre, J., Pettersson, E., Sågvall Hein, A. 2008. Supporting Research Environment for Swedish and Turkish. Project Report. Department of Linguistics and Philology, Uppsala University [.pdf]

Megyesi, B., Dahlqvist, B., Petterson, E. and Nivre J. 2008. Swedish-Turkish Parallel Treebank. In Proceedings of Language Resources and Evaluation Conference, LREC 2008. [.pdf]

Megyesi, B. and Dahlqvist, B. 2007. The Swedish-Turkish Parallel Corpus and Tools for its Creation. In Proceedings of NoDaLida 2007. May 24-26 2007, Tartu, Estonia [.pdf]

Bandmann Megyesi, B., Sågvall Hein, A., Csató Johansson, E. 2006. Building a Swedish-Turkish Parallel Corpus. In Proceedings of Language Resources and Evaluation Conference. May 22-28, 2006. Genoa, Italy [.pdf]

Dadasheva, S., 2005. Den turkiska indirektiva kategorin. En undersökning av återgivningen av den turkiska indirektiva kategorin i ryska och svenska autentiska översättningar. C-uppsats. Turkiska språk, Institutionen för lingvistik och filologi, Uppsala universitet

Presentationer, symposier, mm.

Csato Johanson, E., Dahlqvist, B., Megyesi, B., Nivre, J., Saxena, A. 2009. "The English-Hindi-Swedish-Turkish Parallel Treebank" presenterat på SALT workshop on Corpus Linguistics: Ways forward.
October 8, 2009.

Inbjuden gästföreläsning av prof. Kemal Oflazer (Sabancı University, Turkiet): The design and implementation of a pronunciation lexicon for Turkish
5 May 2006 13:15-15.00

Minisymposium om "Computational aspects of building an annotated Swedish-Turkish parallel corpus"
4 maj 2006 10:15-16.00

Inbjuden gästföreläsning av Dr. G.J. van Schaaik (Department of Arabic, Persian and Turkish Languages and Cultures (TCMO), Leiden University): Information Technology & Teaching Turkish
31 mars 2006 10:15-12:00