Maschinelles Übersetzen bei beo: Update 2017

Anne Beyer · 27. Juni 2017

Was machen wir genau bei unseren Kundenprojekten? Was haben wir für die Zukunft geplant?

Maschinelles Übersetzen (MT) ist seit Jahren ein großes Thema, das auch uns sehr interessiert und beschäftigt. Basierend auf einem Open-Source-Toolkit (www.statmt.org/moses) haben wir ein eigenes, phrasenbasiertes, statistisches MT-System aufgebaut, das wir bereits bei verschiedenen Kunden anwenden. Wir nutzen diese Technologie für Vorübersetzungen und Post-Editing.
Das übergeordnete Ziel dabei ist, den Durchsatz bei unseren Übersetzern zu erhöhen, damit letztendlich … irgendwann … die Kosten bei uns und unseren Kunden sinken.

Prinzipiell arbeiten wir mit einer Kombination aus Kunden-TM und spezifischer MT, die von unserer MT-Abteilung speziell auf den Kunden zugeschnitten wird. Bei einem unserer großen Kunden läuft die Vorübersetzung dann fast automatisch: Der Quelltext wird zunächst auf Basis des Kunden-TMs vorbereitet. Fuzzy Matches (85% und höher) werden direkt übernommen und der Rest dann maschinell vorübersetzt. Danach sind die Übersetzer bzw. Post-Editoren an der Reihe.
Für die Qualität, und damit auch die Brauchbarkeit, der maschinellen Übersetzungen sind unterschiedliche Faktoren wichtig: Sowohl die Qualität als auch die Größe der zum Training der Maschine eingesetzten Textkorpora, die Qualität der Quelltexte und die Häufigkeit des Re-Trainings anhand von post-editierten Übersetzungen spielen eine Rolle. Außerdem sind die Textsorte und auch das Sprachpaar wichtige Faktoren. Manche Sprachen eignen sich besser, für andere lohnt es sich momentan noch gar nicht. Ob die maschinelle Vorübersetzung eine Unterstützung für die Übersetzer darstellt, muss letztendlich für jeden Kunden und jedes Sprachpaar ausprobiert werden.

Um systematische Fehler abzufangen, wenden wir zusätzlich eine Reihe von automatischen Post-Editing-Regeln an, bevor die Projekte zur Übersetzung verteilt werden. Diese entfernen z.B. überflüssige Leerzeichen und prüfen die Groß-/Kleinschreibung. Wir analysieren in regelmäßigen Abständen die Änderungen, die von den Übersetzern an den MT-Segmenten vorgenommen worden sind, um weitere solcher Regeln aufzustellen und die Qualität damit kontinuierlich zu verbessern.
Bei einem Kunden, bei dem MT produktiv im Einsatz ist, nutzen wir sie mittlerweile für die Vorübersetzung aus dem Deutschen in sieben europäische Sprachen. Im Durchschnitt können unsere Übersetzer dabei über alle Sprachen hinweg schon fast 20% der Segmente unverändert übernehmen. Weitere Studien dazu, was das in Bezug auf die Produktivität bedeutet, sind in Planung.

Für alle diese Neuerungen ist es notwendig, dass alle beteiligten Personen eng miteinander zusammenarbeiten und dass vor allem die Übersetzer mit ins Boot geholt werden, denn sie sind es letztendlich, die mit den maschinellen Vorübersetzungen arbeiten sollen. Aus diesem Grund haben wir vor einiger Zeit einen Post-Editing-Workshop für unsere Übersetzer durchgeführt. Hierbei ging es vor allem um einen Erfahrungs- und Erwartungsaustausch und um den Abbau von Vorurteilen und Verunsicherungen gegenüber dem Post-Editing.

In einer Zusammenarbeit mit dem DFKI haben wir uns außerdem die Qualität von unserem statistischen und einem neuronalen MT-System genauer angeschaut. Dafür haben wir anonymisierte Kundendaten mit beiden Systemen übersetzt und die Übersetzungen aus linguistischer Sicht analysiert. Die Ergebnisse haben wir bei der diesjährigen Konferenz der European Association for Machine Translation in Prag vorgestellt. Dort gab es so viele interessante Eindrücke, dass das einen eigenen Blog-Eintrag benötigt, der in Kürze folgen wird.

Wie geht es weiter?
Wir beschäftigen uns auch weiter damit, verschiedene MT-Systeme auszuprobieren und wollen das Ganze natürlich nicht nur aus rein linguistischer Perspektive evaluieren, sondern auch hier unsere Übersetzer mit einbeziehen und die Systeme in Bezug auf ihre Brauchbarkeit für Post-Editing auswerten. Die Ergebnisse werden wir im Oktober auf der Jahrestagung der tekom präsentieren. Es bleibt also spannend!

Anne Beyer

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit * gekennzeichnet.