Clear Sky Science · de
Wahrnehmungsgrenze der Vokallänge: eine Wahrnehmungsstudie mit synthetisierten arabischen Vokalen
Warum winzige Zeitabschnitte in der Sprache zählen
Wenn wir jemanden Arabisch sprechen hören, fällt uns selten auf, wie lange jeder Vokal anhält. Dennoch können kleine Unterschiede in der Dauer die Bedeutung eines Wortes komplett verändern – ähnlich dem Unterschied zwischen „bit“ und „beat“ im Englischen. Diese Studie stellt eine auf den ersten Blick einfache Frage: Wie lang muss ein Vokal genau sein, damit Muttersprachler zweier großer arabischer Dialekte ihn als „lang“ statt „kurz“ wahrnehmen? Durch die Beantwortung dieser Frage zeigt die Studie, wie unsere Ohren kontinuierlichen Schall in die einzelnen Bausteine der Sprache aufteilen.

Kurz- und Langlaute, die Bedeutung verändern
Im Arabischen ist die Vokallänge ein zentraler Bestandteil des Lautsystems: Paare wie /a/ und das längere /aː/ können völlig unterschiedliche Wörter unterscheiden. Frühere Arbeiten haben gemessen, wie lang diese Vokale beim Sprechen typischerweise sind und gezeigt, dass lange Vokale meist etwa anderthalb- bis dreimal so lang wie kurze sind. Diese Studien konzentrierten sich jedoch darauf, wie Vokale produziert werden, nicht darauf, wie sie wahrgenommen werden. Diese Untersuchung dreht die Fragestellung um: An welchem Punkt einer schrittweisen Verlängerung wechseln Hörerinnen und Hörer von der Wahrnehmung „kurz“ zu „lang“ — und sieht dieser Wechselpunkt bei Sprechern unterschiedlicher arabischer Dialekte gleich aus?
Zwei Dialekte unter dem Mikroskop
Der Forschende verglich Hörerinnen und Hörer des Najdi-Arabischen, gesprochen in Zentralsaudien, mit Cairener Arabisch, dem dominanten Dialekt Kairos. Beide Varianten teilen dasselbe Grundset von drei kurzen Vokalen /a, i, u/ und drei langen Vokalen /aː, iː, uː/. Um sich rein auf das Timing zu konzentrieren, verwendete die Studie sorgfältig bearbeitete Aufnahmen von drei minimalen Wortpaaren (zum Beispiel ein kurzes Vokalwort im Sinne von „er schrieb“ versus ein langes Vokalwort im Sinne von „er korrespondierte“). Ausgehend von natürlich langen Vokalen wurde deren Dauer schrittweise in kleinen Stufen verkürzt, mit Software, die Tonhöhe und Klangqualität bewahrte, während der Vokal kürzer gemacht wurde. So entstanden glatte Vokalserien, die von eindeutig lang bis eindeutig kurz reichten, ohne unnatürliche Störungen einzuführen.
Zuhören und zwischen zwei Wörtern wählen
Vierzig erwachsene Teilnehmende — zwanzig Najdi-Sprechende und zwanzig Cairener — absolvierten eine Online-Höraufgabe. Nach einer kurzen Eingewöhnungsphase mit den ursprünglichen, unveränderten Wortpaaren hörte jede Person die manipulierten Versionen nacheinander. Bei jedem Item mussten sie entscheiden, welches Wort sie gehört hatten: die Version mit dem langen Vokal oder die mit dem kurzen Vokal. Sie konnten einen Ton vor der Antwort erneut abspielen, aber nach der Antwort nicht mehr zurückgehen und die Wahl ändern. Mit statistischen Modellen, die sowohl das konkrete Wort als auch die einzelne Person berücksichtigen, zeichnete der Forschende nach, wie die Wahrscheinlichkeit einer „lang“-Antwort anstieg, während der Vokal in Millisekunden länger wurde.
Wo Hörerinnen und Hörer die Grenze in der Zeit ziehen
Die Ergebnisse zeigen, dass die Dauer ein starker Hinweisreiz für alle drei Vokale ist, dass aber die genaue Grenze zwischen kurz und lang sowohl vom Vokaltyp als auch vom Dialekt abhängt. Für den hohen vorderen Vokal [i] begannen Cairener Hörerinnen und Hörer bereits bei kürzeren Dauern, den Vokal als lang wahrzunehmen — etwa bei 84 Millisekunden — während Najdi-Hörende typischerweise etwa 96 Millisekunden benötigten, bevor sie zu „lang“ wechselten. Cairener zeigten außerdem abruptere Urteilssprünge entlang der Zeitskala, was auf eine schärfere, kategorischere Grenze hinweist. Für den tiefen Vokal [a] lagen beide Gruppen nahezu genau auf derselben Grenze, nahe 101 Millisekunden, wobei Cairener erneut einen steileren, entschiedeneren Übergang zeigten. Für den hinteren Vokal [u] waren die Grenzen sehr dicht beieinander — etwa 100 Millisekunden für Najdi-Sprechende und 110 für Cairener — und der kleine Unterschied war statistisch nicht bedeutsam.

Was das über das Hören von Sprache aussagt
Für Laien mögen diese Dutzende von Millisekunden trivial wirken, doch sie zeigen, wie fein unser Gehör auf die Lautmuster des eigenen Dialekts abgestimmt ist. Die Studie legt nahe, dass Najdi- und Cairener-Sprechende sich in den allgemeinen Zeitanforderungen zum Kennzeichnen eines langen Vokals weitgehend einig sind, insbesondere für [a] und [u], dass sie jedoch für [i] unterschiedlich kalibrieren. Sie zeigt außerdem, dass Individuen variieren: Manche behandeln den Wechsel von kurz zu lang als einen scharfen Schritt, andere als einen graduelleren Übergang. Zusammen stützen diese Befunde die Idee, dass Lautkategorien keine starren, universellen Schachteln sind. Stattdessen prägt die Erfahrung mit einem bestimmten Dialekt die genauen zeitlichen Schwellen, die unser Gehirn nutzt, um einen fließenden Schallstrom in bedeutungsvolle Wörter zu verwandeln.
Zitation: Alfaifi, A. Perceptual boundary of vowel quantity: a perceptual study of synthesized Arabic vowels. Humanit Soc Sci Commun 13, 271 (2026). https://doi.org/10.1057/s41599-025-06454-8
Schlüsselwörter: Arabische Vokale, Vokallänge, Sprachwahrnehmung, Dialektvariation, Phonetik