Basresurser för svensk språkteknologi
Ett delprojekt inom planeringsprojektet
"En infrastruktur för svensk språkteknologi",
finansierat av Vetenskapsrådets kommitté för
forskningens infrastrukturer
2007-2008
Projektbeskrivning
Den språkteknologiska forskningen och utvecklingen av språkteknologisystem behöver en infrastruktur av allmänt tillgängliga och standardiserade basresurser. Dessa språkresurser kan vara både data och program för att arbeta med dessa data. En grunduppsättning sådana resurser kallas med en engelsk förkortning för BLARK - Basic Language
Resource Kit. Detta projekt är en del av en nationell satsning på en infrastruktur för svensk språkteknologi som har ett starkt stöd i den språkteknologiska gemenskapen i Sverige.
Språkresurser måste skapas för varje språk för sig. För svenskans del finns det redan en rad resurser men det är oklart hur mycket och hur tillgängliga de är. Därför behövs en inventering och beskrivning av de befintliga språkresurserna. Lika nödvändigt är att inventera vilka behov som finns för den framtida utvecklingen. I det pågående projektet förbereder vi skapandet av en infrastruktur för svensk språkteknologi. För att den svenska BLARK:en ska bli så användbar som möjligt är det viktigt att alla som arbetar med svensk språkteknologi deltar i inventeringen. I framtiden ska även finska, jiddisch, meänkieli, romani chib, samiska, som är officiella språk i Sverige, kartläggas.
Arbetet med att inventera och ta fram basresurser för svenska sker i tre steg. I det första steget har vi kartlagt resursbehovet samt gjort en översiktlig inventering av befintliga resurser. I det andra steget har vi definierat vilka resurser som ska ingå i den svenska BLARK:en och listat de befintliga resurserna samt synliggört vad som saknas. I ett tredje steg ansöker vi medel för att finansiera uppbyggnaden av dessa resurser.
Projektet utgör ett delprojekt inom projektet "En infrastruktur för svensk språkteknologi" som är ett samarbetsprojekt mellan Göteborgs och Linköpings universitet samt KTH.
Deltagare i BLARK
Rolf
Carlson, KTHKjell Elenius, KTH
Eva Forsbom, Uppsala universitet
Beáta Megyesi, Uppsala universitet
Publikationer/Presentationer
Elenius,K., Forsbom, E., and Megyesi, B. 2008. Language Resources and Tools for Swedish: A Survey. In Proceedings of LREC 2008. LREC 2008, Marrakesh, Marocko
Elenius,K., Forsbom, E., and Megyesi, B. 2008. Survey on Swedish Language Resources. Report, February 2008. Dept. of Speech, Music and Hearing, KTH and Dept. of Linguistics and Philology, Uppsala University
Forsbom, E. and Megyesi, B. 2007. Draft Questionnaire for the Swedish BLARK. Presentation på BLARK/SNK workshop, 28 januari 2007, GSLT retreat, Gullmarsstrand, Sverige.
Sågvall Hein, A. and Forsbom, E. 2006. A Swedish BLARK. Presentation på BLARK workshop, 29 january 2006, GSLT retreat, Gullmarsstrand, Sverige.
BLARK/SNK
workshop, 28 january 2007
BLARK
workshop, 29 januari 2006: Kallelse, Minnesanteckningar
Institutionen
för lingvistik och filologi, Uppsala
universitet, Sverige
Besöksadress: Engelska parken, Humanistiskt
centrum, Thunbergsvägen 3
Postadress: Institutionen för lingvistik och filologi, Box 635,
SE-751 26 Uppsala, Sverige.
Tel: +46 (0)18 471 22 52
Fax: +46 (0)18 471 10 94