beo bei der EAMT 2017 Konferenz in Prag

Anne Beyer · 11. Juli 2017

NMT vs. SMT – Ist es (schon) Zeit für einen Paradigmenwechsel in der Lokalisierungsbranche?

Ende Mai fand in Prag die 20. Konferenz der European Association for Machine Translation (kurz EAMT) statt. Neben den neuesten Erkenntnissen aus der MT-Forschung, wurden auch Erfahrungen aus der kommerziellen Anwendung von maschineller Übersetzung präsentiert und diskutiert. In der Forschung ist neuronale MT (NMT) mittlerweile eines der ganz großen Themen. In der kommerziellen Anwendung dominieren momentan noch regelbasierte und vor allem statistische Systeme (SMT). Eine der häufig gestellten Fragen lautet jetzt aber: Ist diese neuronale Sache auch (schon) was für uns? Dieser Frage wurde in den Räumen der Prager Universität aus verschiedenen Blickwinkeln nachgegangen.

Booking.com berichtete, dass ihr NMT-System bei der Übersetzung von Hotelangeboten und -bewertungen besser abschneidet als SMT und sie deshalb schon erfolgreich umgestiegen sind. Die Studien von KantanMT haben gezeigt, dass NMT im direkten Vergleich mit SMT oft als besser bewertet wird, wobei die Befragung nicht explizit an Übersetzer gerichtet war und auch in der Frage nicht genauer definiert wurde, in welchem Kontext (Verständnis, publikationsreif, Post-Editing?) dieses „besser“ zu verstehen ist. Letztendlich haben auch die Forscher des ADAPT Center in Dublin in einer Untersuchung mit verschiedenen MT-Systemen und Anwendungsszenarien bestätigt, dass man die Ergebnisse nicht verallgemeinern kann und dass der Hype um NMT durchaus mit Vorsicht zu genießen ist. Weitere Eindrücke der Konferenz kann man auf dieser Seite nachlesen.

Nach wie vor ungelöst bleibt dabei die Frage, wie man die Qualität von maschineller Übersetzung möglichst schnell und idealerweise automatisch bestimmen kann. In der Forschung wird hierfür immer noch auf den umstrittenen BLEU-Wert zurückgegriffen, der die Übereinstimmung zwischen maschineller und Referenzübersetzung berechnet (siehe hierzu: https://en.wikipedia.org/wiki/BLEU).
Die Übertragbarkeit der daraus gewonnenen Erkenntnisse auf kommerzielle Anwendungen, wie z.B. dem Post-Editing, ist immer noch fraglich. Auch während der Konferenz hat sich deutlich gezeigt, dass BLEU definitiv nicht die Antwort darauf geben kann, ob NMT denn nun schon vergleichbar oder sogar besser ist als SMT, da die berechneten Werte häufig im Gegensatz zu qualitativen Auswertungen stehen.

So auch bei beo: Wir haben uns dieser Frage seit Anfang des Jahres zusammen mit den Forschern des DFKI und der Uni Edinburgh aus einer linguistischen Perspektive genähert: Wir haben Kundendaten auf verschiedene Phänomene hin untersucht, wie z.B. Negation (kein, nicht), Modalverben (kann, muss, soll) oder Genitiv-Konstruktionen (des Schalters). Außerdem haben wir in Anbetracht unseres konkreten Anwendungsfalls auch die Kategorien Terminologie (Kundenvorgaben) und Tags (Formatierung) hinzugenommen. Nach der Übersetzung mit beiden Systemen (statistisch und neuronal) haben wir verglichen, wie viele dieser Phänomene korrekt übersetzt wurden. Wir haben herausgefunden, dass NMT in den meisten Kategorien deutlich besser abschneidet, momentan aber noch Defizite im Bereich Tags und Terminologie aufweist. Insgesamt sind die produzierten Übersetzungen flüssiger, die Fehler der NMT-Systeme sind aber insgesamt weniger vorhersagbar als bei unserem statistischen System, was eine Umstellung für unsere Post-Editoren bedeuten würde. Laut BLEU-Wert ist unser statistisches System übrigens doppelt so gut wie das neuronale … Weitere Informationen gibt es hier.
Insgesamt müssen wir die Frage aus der Überschrift wohl mit einem klaren Jein beantworten.

In erster Linie brauchen wir also eine Herangehensweise an die Beurteilung, wann MT (welche Methode auch immer) eine Qualität liefert, die generell und konkret für Post-Editing brauchbar ist. Hier kommen die Übersetzer ins Spiel, denn wer sonst könnte diese Entscheidung besser fällen? Unser nächster Schritt wird sein, zusammen mit unseren Übersetzern eine möglichst effiziente Möglichkeit zu finden diese Auswertung vorzunehmen, die trotzdem nah genug an der täglichen Arbeitsweise der Übersetzer und Post-Editoren ist, um auch brauchbare Ergebnisse zu erzielen. Nur dann lässt sich beurteilen, ob diese neue Technologie wirklich schon soweit ist, dass sie den Übersetzern eine Unterstützung sein kann.
Weitere Ergebnisse werden wir im Herbst auf der Jahrestagung der tekom präsentieren und natürlich auch hier berichten, sobald es etwas Neues gibt.

 

Anne Beyer

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit * gekennzeichnet.