Individual assignment 1 -- MT in general and evaluation

Note that this assignment is only for bachelor students

Den här uppgiften består av 2 deluppgifter, som ska redovisas i en rapport, i pdf-format. Uppgifterna ska lösas och redovisas individuellt. Maila din rapport till Sara, senast den 10 maj. Rapporten kan vara skriven på svenska eller engelska.

Deluppgift 1: Felanalys

Välj ut en engelsk nyhetsartikel, förslagsvis från BBC, och välj ut cirka 250 ord från nyhetsartikeln. Använd dock fullständiga meningar, och klipp inte av texten mitt i en mening. Översätt sedan texten till svenska automatiskt med hjälp av något online MT-system, som Google translate eller Bing. Klistra in din originaltext och den maskinöversatta texten i din rapport, och ange vilket MT-system du använde.

Utför en felanalys på din maskinöversatta text. Utgå från felkategorierna som finns i stycke 8 i:

M.R. Costa-jussà, M. Farrús, J.B. Mariño, J.A.R. Fonollosa. Study and comparison of rule-based and statistical Catalan-Spanish machine translation systems. Computing and Informatics, volume 31, issue 2, pages 245--270. February 2012. ISSN 1335-9150.

Felkategorierna är uppdelade i huvudkategorier, t.ex. ortografiska och semantiska fel, som i sin tur är uppdelade i flera underkategorier. Kategorierna är baserade på spanska och katalanska, så de kan behöva modifieras lite för svenska. Så om du hittar något fel som inte riktigt passar in i de befintliga kategorierna, lägg till en egen underkategori på något lämpligt ställe.

När du gör din felanalys, utgå från den närmsta möjliga korrekta svenska översättningen du kan tänka dig, och kategorisera felen utifrån den. Ibland kan det vara svårt att avgöra vilken typ av fel som man ska använda, eftersom det ofta kan finnas flera möjliga korrekta svenska översättnignar, som skulle leda till olika typer av fel. Gör i så fall något rimligt val, och diskutera det kort i din rapport. Redovisa den här delen av uppgiften genom att ange hur många fel av varje typ som finns i din text, samt beskriv eventuella nya felkategorier du lagt till.

Skriv en kort diskussion om hur du tycker det är att utföra en felanalys. Diskutera bland annat exempel som var svåra att klassificera och hur konsekvent du tror en felanalys kan bli för olika annoterare. Diskutera även vad du upplever är de största problemen för MT-systemet som du använde, baserat på din felanalys. Utgå från två användningsfall när du diskuterar MT-systemet: att det ska användas för posteditering av en professionell översättare som kan båda språken eller för gisting, där en person som inte kan källspråket snabbt vill kunna förstå det viktigaste i texten.

Deluppgift 2: Regelbaserad översättning

Nedan finns ett antal korta meningar på svenska och deras översättningar till engelska. Fundera på hur man skulle kunna översätta dem i ett regelbaserat översättningssystem, antingen ett direkt system eller ett transferbaserat system. Vad kan representeras i lexikonet, och för vad behöver man regler av något slag? På vilken nivå kan reglerna uttryckas? Vad kan göras direkt på ordnivå, mha ordklasser eller med syntaktiska träd? Är det något som verkar svårt att överhuvudtaget hantera i ett regelbaserat system? Beroende på översättningsriktning blir reglerna olika. Du behöver bara lösa uppgiften för en riktning, och får välja själv om du vill jobba med engelska-till-svenska eller svenska-till-engelska.

Fundera på ovanstående frågor och skapa sedan det lexikon du behöver för meningarna nedan, samt beskriv de regler som behövs i systemet. Du kan välja att beskriva reglerna informellt i text eller som mer formella regler, tex mellan noder i ett frasstrukturträd, eller en blandning. Huvudsaken är att det går att förstå vad du menar. Om det är något som verkar svårt att hantera på ett vettigt sätt, beskriv vad och diskutera kort varför. Du behöver inte ge några fullständiga morfologiska regler, dvs hantera formerna av ord, men beskriv kort hur det skulle kunna lösas.

Försök skapa så generella regler som möjligt, så att de kan användas för andra liknande konstruktioner också, och inte är helt specifika för meningarna nedan. Detta krävs för VG på uppgiften.

Jag stängde av min droppande kran.I turned off my dripping tap.
Jag stängde av den.I turned it off.
Jag stängde inte av den.I did not turn it off.
Jag ska hyra en kran.I am going to rent a crane.
Vad såg du?What did you see?
Igår såg jag en trana och en häger.Yesterday, I saw a crane and a heron.
Jag ser ett äppelträd.I see an apple tree.
Jag tog med mig ett äpple.I brought an apple.