Machine Translation – MT – wo stehen wir heute?
Über unsere MT-Erfahrungen haben wir zuletzt im November bei einem Tekom-Vortrag berichtet.
Nun wollen wir unseren internen MT-Spezialisten, Bernd Münt, zu Wort kommen lassen. Hier seine Antworten auf unsere Fragen:
beo ist (Ende 2018) von der statistischen auf die neuronale MT umgestiegen. Was waren die Beweggründe für beo, von der statistischen auf die neuronale MT umzusteigen?
Kurz gesagt: Die Hoffnung auf weitere Qualitätsverbesserungen.
Bei der statistischen MT sind wir auch bei noch so großen Text-Corpora an Verbesserungsgrenzen gestoßen. Es blieben immer deutliche Unterschiede zur Humanübersetzung. So wurden z.B. nur Satzfragmente übersetzt oder es gab Probleme beim Satzbau. Und das wurde auch durch weiteres Training der Maschinen nicht besser.
Die Aufwände und Widerstände bei unseren Post-Editoren waren zum Teil doch erheblich.
Was sind – in kurzen Worten – die gravierenden Unterschiede in der Qualität der neuronalen MT?
Das Ergebnis kommt bereits ohne Post Editing menschlich lesbaren „geschmeidigen“ Sätzen sehr viel näher als bei der statistischen MT.
Dennoch ist Post Editing nötig; die Fehler sind häufig sogar schwerer zu finden, weil sich die Übersetzungen bereits so gut lesen.
Nach jedem Post Editing werden auch hier die Maschinen neu trainiert. Und da neuronale Netze besser lernen, wird die Qualität auch immer besser. So sieht es zurzeit jedenfalls aus.
Um das Ganze ein bisschen konkreter zu machen: Wir hatten bei der statistischen MT eine Quote von unverändert verwendbaren Segmenten von 15–25 % (je nach Sprache und Kunde), nachdem wir die Maschinen bereits bis zu fünf Jahre trainiert hatten.
Bei der neuronalen MT sind wir jetzt – nach einem halben Jahr – bei 40-45 %. Und wir gehen von weiteren Steigerungen aus.
Gibt es auch Nachteile bei der neuronalen MT?
Ja, es ist derzeit keine explizite Terminologie-Integration seitens der Systemanbieter zur neuronalen MT vorgesehen – bei der statistischen MT übrigens auch nicht.
Das ist im Bereich der Technischen Dokumentation aber ein echtes Problem …
Da Terminologie gerade bei technischen Texten enorm wichtig für Qualität und Konsistenz ist (z.B. „Leitung“ sollte immer als „wire“ übersetzt werden, wenn die Terminologie aus dem Elektronik-Kontext eingehalten werden soll), wollen wir GENAU das – Terminologie-Integration – möglich machen.
Wir testen derzeit gemeinsam mit den Anbietern diverse Ansätze und sind sehr zuversichtlich, dass wir auch diese Nuss knacken können.
Bis dahin muss die Terminologie-Treue und -Konsistenz wie bisher noch zusätzlich überprüft werden, bevor eine Übersetzung von uns ausgeliefert werden kann.
Interessanter Artikel 🙂