Machine Translation (MT) und Terminologie-Treue: Strategien zur Qualitätssteigerung

Bernd Muent · 12. Mai 2022

Nachdem in den letzten Jahren der Wechsel von statistischer maschineller Übersetzung (SMT) zur neuronalen maschinellen Übersetzung (NMT) auf breiter Front vollzogen wurde, verbesserten sich Satzbau und Grammatik der Übersetzung stark. Die Qualität der maschinellen Übersetzung nahm zu und der manuelle humane Postediting-Aufwand wurde geringer.

Warum war das so? SMT bediente sich rein mathematischer Berechnungen, um aus schon bekannten Quell-/Zielsegment-Paaren die wahrscheinlichste / stochastisch beste Übersetzung zu ermitteln.
SMT hatte über abstrakte „Language Models“ hinaus keinerlei tieferes Verständnis der Morphologie (Struktur von Wörtern, deren Aufbau und Regularitäten des Aufbaus) der Quell- und Zielsprache.

Genau dort geht NMT einen anderen, moderneren Ansatz mit selbstlernender künstlicher Intelligenz (KI), die neben Wortpaaren auch morphologische und grammatische Strukturen weitestgehend automatisch erfasst und „lernt“.

NMT hat durch diesen Ansatz bei der Ermittlung der Übersetzung mehr Möglichkeiten und Freiräume. Das wirkt sich unter Umständen auf die terminologische Treue von Quell- und Zielterminiaus, die gerade bei der Übersetzung von Technischer Dokumentation allerdings ein erheblich ins Gewicht fallender Qualitätsfaktor ist.

Um die Terminologie-Treue bei NMT zu verbessern, evaluieren wir aktuell bei beo zwei unterschiedliche Konzepte.
Nehmen wir für das Folgende an, dass das Terminologie-Paar
„Druckluftleitung“ => „compressed airline“
gegeben ist.
Unser zu übersetzendes Quelltext-Beispiel lautet:
„Kennzeichnung der Druckluftleitungen beachten.“

1. Konzept Terminologie-Maskierung
Die Terminologie-Maskierung sucht nun bekannte Termini im Quelltext und fügt per Platzhalter die terminologisch richtige Übersetzung automatisch ein.
Nach dem Auffinden von „Druckluftleitung“ ist unser vorbereites Quellsegment für die maschinelle Übersetzung:

„Kennzeichnung der <term trans=“compressed airline“>Druckluftleitungen</term> beachten.“

Unbearbeitet kommt aus der machinellen NMT-Übersetzung:
Note marking of <term trans=“compressed airline“>compressed air hoses</term>.

Ohne automatische Terminologie-Nachbearbeitung wäredie Terminologie-Treue also nicht erfüllt.
Die automatische Terminologie-Nachbearbeitung ersetzt jetzt aber alles innerhalb von <term..>…</term> durch den Wert im trans-Attribut.
Endergebnis ist dann:
Note marking of compressed airline.

Wir haben jetzt die richtige terminologischen Benennung im Zielsegment, allerdings im Singular und nicht im Plural, weil Terminologie-Maskierung nur begrenzt mit morphologischen und grammatischen Strukturen umgehen kann.
Ein weiteres Problem ist, dass NMT die Tag-Positionen oft leicht verschiebt und damit durch die Maskierung zu viel oder zu wenig ersetzt wird.

2. Konzept Terminologie-Provokation
Das Konzept der Terminologie-Provokation setzt nicht erst bei der maschinellen Übersetzung, sondern schon bei der Corpora-Präparierung vor dem (Re-)training der MT-Engines an.

Nehmen wir unser Beispiel aus dem Konzept Terminologie-Maskierung als bekannte Übersetzung:

„Kennzeichnung der Druckluftleitungen beachten.“
=>
„Note marking of compressed airlines.“

Bei der Corpus-Vorbereitung wird nach bekannten Termini im Quellsegment gesucht. In diesem Fall wird „Druckluftleitungen“ gefunden.
Dieses wird durch die Gruppe „<Quellterm> <Zielterm>“ ersetzt.
Unser vorbereitetes Quellsegment ist das also:

„Kennzeichnung der Druckluftleitungen compressed airlines beachten.“

Dieses Quellsegment mit der zielsprachigen, in diesem Fall englischen Benennung eingefügt, sieht erstmal merkwürdig aus und erscheint falsch.
Erste Erfahrungen haben aber gezeigt, dass das selbstlernende NMT-System genau damit die richtigen Hinweise bekommt, wie es „Druckluftleitungen“ terminologisch korrekt übersetzen soll und wie es die richtige Grammatik und Morphologie in der Übersetzung bilden soll.

Über Erfolge und Qualitätssteigerung werden wir an dieser Stelle wieder berichten.

Bernd Muent

Your e-mail address will not be published. Required fields are marked *