Engelsk-Svensk-Turkisk Korpus
Projekt vid Institutionen för lingvistik och filologi
Finansierat av Vetenskapsrådet och den Språkvetenskapliga
fakulteten
Projektöversikt
Det övergripande syftet med projektet är att främja forskning och undervisning i turkiska. Mer specifikt syftar projektet till att bygga upp språkteknologiska basresurser för turkiska, svenska och engelska med kontrastiva frågeställningar i fokus.
Språkteknologiska basresurser omfattar dels en samling språkliga data, s.k. korpusar, samt en uppsättning av analysverktyg för automatisk bearbetning av dessa språkliga data.
Den
kontrastivt inriktade textkorpusen består av tre delar,
en turkisk, en svensk och en engelsk som står i
översättningsrelation
till varandra. Korpusen organiseras som en s.k. parallellkorpus,
vilket innebär att källtext (som man översätter
från) och måltext (som man översätter till)
relateras till varandra på olika nivåer: text, stycke,
mening, fraser och ord. Härmed underlättas utforskandet av
korpusen ur olika kontrastiva perspektiv. Exempelvis kan
forskaren/studenten undersöka olika översättningsfenomen
eller olika lingvistiska förekomster i översättningarna.
Lingvistiskt medveten sökning i korpusen förutsätter att texterna annoteras med avseende på språkliga aspekter. Dit hör ordklasstaggning, morfologisk analys och/eller segmentering, parsning där meningen delas in i fraser och satser, och menings- och styckesegmentering.
Manuellt byggande av sådana parallella korpusar är alltför tids- och resurskrävande. Idag finns det metoder som man kan utnyttja för såväl automatisk lingvistisk analys för ett språk som för automatisk menings- och ordlänkning mellan texterna på båda språken.
Deltagare
Beáta MegyesiÉva Á. Csató Johanson
Bengt Dahlqvist
Joakim Nivre
Eva Pettersson
Publikationer
Megyesi, B., Dahlqvist, B., Csato, E., Nivre, J. 2010. The English-Swedish-Turkish Parallel Treebank. 2010. In Proceedings of Language Resources and Evaluation (LREC 2010) [.pdf]
Saxena, A., Megyesi, B., Csato Johanson, E., Dahlqvist, B. 2009. Using Paralell Corpora in Teaching and Research: The Swedish-Hindi-English and Swedish-Turkish-English Parallel Corpora. 2008. In Proceedings of Swedish Linguistic Conference (SLC 2008) [.pdf]
Megyesi, B., Csato Johanson, E., Dahlqvist, B., Gustafson-Capkova, S., Nivre, J., Pettersson, E., Sågvall Hein, A. 2008. Supporting Research Environment for Swedish and Turkish. Project Report. Department of Linguistics and Philology, Uppsala University [.pdf]
Megyesi, B., Dahlqvist, B., Petterson, E. and Nivre J. 2008. Swedish-Turkish Parallel Treebank. In Proceedings of Language Resources and Evaluation Conference, LREC 2008. [.pdf]
Megyesi, B. and Dahlqvist, B. 2007. The Swedish-Turkish Parallel Corpus and Tools for its Creation. In Proceedings of NoDaLida 2007. May 24-26 2007, Tartu, Estonia [.pdf]
Bandmann Megyesi, B., Sågvall Hein, A., Csató Johansson, E. 2006. Building a Swedish-Turkish Parallel Corpus. In Proceedings of Language Resources and Evaluation Conference. May 22-28, 2006. Genoa, Italy [.pdf]
Dadasheva, S., 2005. Den turkiska indirektiva kategorin. En undersökning av återgivningen av den turkiska indirektiva kategorin i ryska och svenska autentiska översättningar. C-uppsats. Turkiska språk, Institutionen för lingvistik och filologi, Uppsala universitet
Presentationer, symposier, mm.
Csato Johanson, E., Dahlqvist, B., Megyesi, B., Nivre, J., Saxena, A. 2009. "The English-Hindi-Swedish-Turkish Parallel Treebank" presenterat på SALT workshop on Corpus Linguistics: Ways forward.
October 8, 2009.
Inbjuden
gästföreläsning av prof. Kemal
Oflazer (Sabancı
University, Turkiet): The design and implementation of a pronunciation
lexicon for Turkish
5 May 2006 13:15-15.00
4 maj 2006 10:15-16.00
Inbjuden gästföreläsning av Dr. G.J. van Schaaik (Department of Arabic, Persian and Turkish Languages and Cultures (TCMO), Leiden University): Information Technology & Teaching Turkish
31 mars 2006 10:15-12:00