Clear Sky Science · de

Bewertung der Qualität KI-erzeugter Untertitelübersetzungen aus rezeptionärer Perspektive: Eine Vergleichsstudie von ChatGPT-, menschlichen und neuronalen maschinellen Übersetzungen in Sitcoms

2026-05-19 · Zurück zur Übersicht

Warum Untertitel für Comedy wichtig sind

Streaming hat fremdsprachige TV-Serien zum Alltagsunterhaltungsangebot gemacht, doch Witze können verpuffen, wenn Untertitel nicht passen. Diese Studie untersucht, wie gut verschiedene Arten chinesisch–englischer Untertitel für die klassische amerikanische Sitcom Friends funktionieren, und stellt eine einfache Frage, die für jede Zuschauerin und jeden Zuschauer zählt: Erleichtern oder erschweren KI-Tools wie ChatGPT das Vergnügen an der Serie?

Verschiedene Wege, Untertitel zu erstellen

Die Forschenden verglichen drei Arten von Untertiteln für kurze Clips aus der ersten Folge von Friends. Die erste Version stammte von einer professionellen Fan-Gruppe, die den Dialog sorgfältig übersetzte. Die zweite nutzte eine verbreitete Online-Übersetzungsmaschine. Die dritte wurde mit ChatGPT erstellt, das lediglich angewiesen wurde, die englischen Zeilen in natürliches Chinesisch zu übertragen. Alle Untertitel waren zweisprachig, mit Chinesisch über dem Englischen, und enthielten schwierige Stellen mit Wortspielen, Sarkasmus oder emotionalen Wendungen, die für Comedy besonders wichtig sind.

Um zu verstehen, wie Zuschauer reagierten, schickte das Team ein Online-Paket an Hunderte chinesische Teilnehmende. Jede Person sah neun Clips: drei Szenen, jeweils in zufälliger Reihenfolge dreimal mit unterschiedlichen Untertitelversionen, sodass sie nicht wussten, welche welche war. Nach jedem Trio wählten sie aus, welche Untertitel ihnen beim Verfolgen der Handlung halfen, und bewerteten ihre Zufriedenheit auf einer einfachen Fünf-Punkte-Skala. Eine Abschlussfrage fragte, was ihnen bei Untertiteln am wichtigsten sei, etwa Genauigkeit, Verständlichkeit oder flüssige Synchronität mit dem Video.

Figure 1. Wie unterschiedliche Untertitelverfasser das Seherlebnis einer Sitcom-Episode prägen.

Untertitelqualität aus zwei Blickwinkeln messen

Die Studie blieb nicht bei persönlichen Meinungen stehen. Die Autorinnen und Autoren ließen die drei Untertitelversionen auch durch ein spezielles Bewertungssystem laufen, das misst, wie gut Untertitel die ursprüngliche Bedeutung wiedergeben, wie flüssig sie lesbar sind und wie gut sie bildschirmgerecht passen. Das System erfasst verschiedene Fehlerarten, von ungelenker Formulierung bis zu gravierenden Bedeutungsverschiebungen, und wandelt diese in eine Gesamtnote um. Durch den Vergleich dieser Expert:innenbewertungen mit den Zuschauerurteilen konnten die Forschenden prüfen, ob fachliche Einschätzungen mit dem Alltagserleben des Publikums übereinstimmen.

Über alle drei Szenen hinweg übertrafen ChatGPTs Untertitel klar die der klassischen maschinellen Übersetzungsengine, sowohl bei den Expert:innenwertungen als auch bei der Zuschauerzufriedenheit. In einigen Fällen, besonders in einem Clip, erzielte ChatGPTs Version in der technischen Beurteilung sogar höhere Werte als die professionellen Untertitel. Zuschauer empfanden seine Zeilen häufig als natürlich und leicht zu verfolgen, und viele konnten sie nicht zuverlässig von menschlicher Arbeit unterscheiden. Im Durchschnitt lagen die von Menschen erstellten Untertitel jedoch bei den Publikumseinschätzungen noch leicht vorn, insbesondere wenn es darum ging, Humor oder kulturell reichhaltige Ausdrücke einzufangen.

Figure 2. Wie menschliche, klassische maschinelle und KI-Übersetzer Witze handhaben und das Zuschauervergnügen beeinflussen.

Wer die Zuschauer sind, verändert, was sie sehen

Die Studie zeigte, dass der Hintergrund der Personen beeinflusst, wie streng sie die Untertitel bewerteten. Gymnasiastinnen und Gymnasiasten neigten dazu, alle drei Versionen ähnlich zu beurteilen, und mochten ChatGPTs Untertitel manchmal genauso gern oder sogar mehr als die originären Fan-Untertitel. Studierende an Universitäten und Personen mit weiterführendem Abschluss waren kritischer und besser darin, Unterschiede zwischen den Versionen zu erkennen. Zuschauerinnen und Zuschauer, die Friends bereits kannten, waren ebenfalls sensibler für Nuancen und bevorzugten die ursprünglichen Untertitel, während Neueinsteigerinnen und Neueinsteiger Schwierigkeiten hatten, die Versionen auseinanderzuhalten. Ob jemand Sprachen studiert hatte, war weniger entscheidend als das allgemeine Bildungsniveau und die Vertrautheit mit der Serie.

Warum KI weiterhin menschliche Expertise braucht

Konkrete Beispiele in der Arbeit zeigen sowohl das Potenzial als auch die Grenzen von KI-Untertiteln. Bei manchen Witzen lieferte ChatGPT flüssigeres und lebendigeres Chinesisch als die professionelle Version, sodass der Humor unmittelbarer wirkte. In anderen Momenten übersetzte es wörtlich und verfehlte versteckte Bedeutungen oder kulturelle Anspielungen, was Zuschauerinnen und Zuschauer verwirren konnte. Die Umfrage bestätigte, dass dem Publikum das Verstehen der Handlung am wichtigsten ist; Genauigkeit und flüssiges Timing rangieren ebenfalls hoch. Die Autorinnen und Autoren kommen zu dem Schluss, dass KI-Tools wie ChatGPT bereits bessere Sitcom-Untertitel bieten als ältere maschinelle Übersetzungsengines und mitunter mit menschlicher Arbeit konkurrieren können, aber weiterhin sorgfältiges Post-Editing und Korrekturlesen benötigen. Fürs Erste erzielt man die besten Ergebnisse, wenn man die Geschwindigkeit der KI mit menschlichem Urteil kombiniert, damit mehr Zuschauer fremdsprachige Serien genießen können, ohne den Kern des Humors zu verlieren.

Zitation: Chen, S., Hu, X. Evaluating the quality of AI-generated subtitle translations from a reception-oriented perspective: a comparative study of ChatGPT, human, and neural machine translations in sitcoms. Humanit Soc Sci Commun 13, 748 (2026). https://doi.org/10.1057/s41599-026-07414-6

Schlüsselwörter: Untertitel, audiovisuelle Übersetzung, ChatGPT, Sitcoms, Zuschauerrezeption