beo bei der EAMT 2017 Konferenz in Prag
NMT vs. SMT â Ist es (schon) Zeit fĂŒr einen Paradigmenwechsel in der Lokalisierungsbranche?
Ende Mai fand in Prag die 20. Konferenz der European Association for Machine Translation (kurz EAMT) statt. Neben den neuesten Erkenntnissen aus der MT-Forschung, wurden auch Erfahrungen aus der kommerziellen Anwendung von maschineller Ăbersetzung prĂ€sentiert und diskutiert. In der Forschung ist neuronale MT (NMT) mittlerweile eines der ganz groĂen Themen. In der kommerziellen Anwendung dominieren momentan noch regelbasierte und vor allem statistische Systeme (SMT). Eine der hĂ€ufig gestellten Fragen lautet jetzt aber: Ist diese neuronale Sache auch (schon) was fĂŒr uns? Dieser Frage wurde in den RĂ€umen der Prager UniversitĂ€t aus verschiedenen Blickwinkeln nachgegangen.
Booking.com berichtete, dass ihr NMT-System bei der Ăbersetzung von Hotelangeboten und -bewertungen besser abschneidet als SMT und sie deshalb schon erfolgreich umgestiegen sind. Die Studien von KantanMT haben gezeigt, dass NMT im direkten Vergleich mit SMT oft als besser bewertet wird, wobei die Befragung nicht explizit an Ăbersetzer gerichtet war und auch in der Frage nicht genauer definiert wurde, in welchem Kontext (VerstĂ€ndnis, publikationsreif, Post-Editing?) dieses âbesserâ zu verstehen ist. Letztendlich haben auch die Forscher des ADAPT Center in Dublin in einer Untersuchung mit verschiedenen MT-Systemen und Anwendungsszenarien bestĂ€tigt, dass man die Ergebnisse nicht verallgemeinern kann und dass der Hype um NMT durchaus mit Vorsicht zu genieĂen ist. Weitere EindrĂŒcke der Konferenz kann man auf dieser Seite nachlesen.
Nach wie vor ungelöst bleibt dabei die Frage, wie man die QualitĂ€t von maschineller Ăbersetzung möglichst schnell und idealerweise automatisch bestimmen kann. In der Forschung wird hierfĂŒr immer noch auf den umstrittenen BLEU-Wert zurĂŒckgegriffen, der die Ăbereinstimmung zwischen maschineller und ReferenzĂŒbersetzung berechnet (siehe hierzu: https://en.wikipedia.org/wiki/BLEU).
Die Ăbertragbarkeit der daraus gewonnenen Erkenntnisse auf kommerzielle Anwendungen, wie z.B. dem Post-Editing, ist immer noch fraglich. Auch wĂ€hrend der Konferenz hat sich deutlich gezeigt, dass BLEU definitiv nicht die Antwort darauf geben kann, ob NMT denn nun schon vergleichbar oder sogar besser ist als SMT, da die berechneten Werte hĂ€ufig im Gegensatz zu qualitativen Auswertungen stehen.
So auch bei beo: Wir haben uns dieser Frage seit Anfang des Jahres zusammen mit den Forschern des DFKI und der Uni Edinburgh aus einer linguistischen Perspektive genĂ€hert: Wir haben Kundendaten auf verschiedene PhĂ€nomene hin untersucht, wie z.B. Negation (kein, nicht), Modalverben (kann, muss, soll) oder Genitiv-Konstruktionen (des Schalters). AuĂerdem haben wir in Anbetracht unseres konkreten Anwendungsfalls auch die Kategorien Terminologie (Kundenvorgaben) und Tags (Formatierung) hinzugenommen. Nach der Ăbersetzung mit beiden Systemen (statistisch und neuronal) haben wir verglichen, wie viele dieser PhĂ€nomene korrekt ĂŒbersetzt wurden. Wir haben herausgefunden, dass NMT in den meisten Kategorien deutlich besser abschneidet, momentan aber noch Defizite im Bereich Tags und Terminologie aufweist. Insgesamt sind die produzierten Ăbersetzungen flĂŒssiger, die Fehler der NMT-Systeme sind aber insgesamt weniger vorhersagbar als bei unserem statistischen System, was eine Umstellung fĂŒr unsere Post-Editoren bedeuten wĂŒrde. Laut BLEU-Wert ist unser statistisches System ĂŒbrigens doppelt so gut wie das neuronale ⊠Weitere Informationen gibt es hier.
Insgesamt mĂŒssen wir die Frage aus der Ăberschrift wohl mit einem klaren Jein beantworten.
In erster Linie brauchen wir also eine Herangehensweise an die Beurteilung, wann MT (welche Methode auch immer) eine QualitĂ€t liefert, die generell und konkret fĂŒr Post-Editing brauchbar ist. Hier kommen die Ăbersetzer ins Spiel, denn wer sonst könnte diese Entscheidung besser fĂ€llen? Unser nĂ€chster Schritt wird sein, zusammen mit unseren Ăbersetzern eine möglichst effiziente Möglichkeit zu finden diese Auswertung vorzunehmen, die trotzdem nah genug an der tĂ€glichen Arbeitsweise der Ăbersetzer und Post-Editoren ist, um auch brauchbare Ergebnisse zu erzielen. Nur dann lĂ€sst sich beurteilen, ob diese neue Technologie wirklich schon soweit ist, dass sie den Ăbersetzern eine UnterstĂŒtzung sein kann.
Weitere Ergebnisse werden wir im Herbst auf der Jahrestagung der tekom prĂ€sentieren und natĂŒrlich auch hier berichten, sobald es etwas Neues gibt.