Clear Sky Science · es

Umbral perceptual de la cantidad vocálica: un estudio perceptivo de vocales árabes sintetizadas

· Volver al índice

Por qué importan pequeños fragmentos de tiempo en el habla

Cuando escuchamos a alguien hablar árabe, rara vez notamos cuánto dura cada vocal. Sin embargo, pequeñas diferencias temporales pueden cambiar por completo el significado de una palabra—de forma similar a la diferencia entre “bit” y “beat” en inglés. Este artículo plantea una pregunta aparentemente sencilla: ¿cuánto tiempo debe durar una vocal para que los hablantes nativos de dos dialectos árabes importantes la perciban como “larga” en lugar de “corta”? Al responderla, el estudio revela cómo nuestros oídos segmentan el sonido continuo en los bloques de construcción distintivos del lenguaje.

Figure 1
Figura 1.

Sonidos cortos y largos que cambian el significado

El árabe utiliza la longitud vocálica como parte central de su sistema sonoro: pares como /a/ y una /aː/ más larga pueden distinguir palabras completamente diferentes. Trabajos anteriores han medido cuánto tienden a durar estas vocales cuando la gente habla, mostrando que las vocales largas suelen ser entre una vez y media y tres veces la duración de las cortas. Pero esos estudios se centraron en cómo se producen las vocales, no en cómo se perciben. Este estudio da la vuelta a la cuestión: en qué punto, a medida que la duración aumenta gradualmente, los oyentes pasan de escuchar una vocal como corta a escucharla como larga—y si ese punto de cambio es el mismo para hablantes de distintos dialectos árabes.

Dos dialectos bajo el microscopio

El investigador comparó oyentes del árabe najdí, hablado en el centro de Arabia Saudí, y del árabe cairota, el dialecto predominante de El Cairo. Ambas variedades comparten el mismo conjunto básico de tres vocales cortas /a, i, u/ y tres vocales largas /aː, iː, uː/. Para centrarse únicamente en el tiempo, el estudio utilizó grabaciones cuidadosamente editadas de tres pares mínimos (por ejemplo, una palabra con vocal corta que significa “escribió” frente a una con vocal larga que significa “correspondió”). Partiendo de vocales naturalmente largas, el autor fue reduciendo gradualmente su duración en pequeños pasos, utilizando un software que preservaba el tono y la calidad del sonido mientras acortaba la vocal. Esto creó series suaves de vocales que iban desde claramente largas hasta claramente cortas sin introducir artefactos artificiales.

Escuchar y elegir entre dos palabras

Cuarenta participantes adultos—veinte hablantes najdíes y veinte hablantes cairota—completaron una tarea auditiva en línea. Tras una breve fase de familiarización con los pares originales sin alterar, cada persona escuchó las versiones manipuladas una por una. Para cada ítem, debían decidir qué palabra oían: la versión con la vocal larga o la de la vocal corta. Podían reproducir el sonido antes de responder, pero una vez que respondían no podían volver atrás para cambiar su elección. Usando modelos estadísticos que tienen en cuenta tanto la palabra específica como el oyente individual, el investigador trazó cómo aumentaba la probabilidad de una respuesta “larga” a medida que la vocal se alargaba en milisegundos.

Dónde trazan los oyentes la línea en el tiempo

Los resultados muestran que la duración es una pista poderosa para las tres vocales, pero que el límite preciso entre corto y largo depende tanto del tipo de vocal como del dialecto. Para la vocal anterior alta [i], los oyentes cairota empezaron a percibir la vocal como larga a duraciones más cortas—alrededor de 84 milisegundos—mientras que los oyentes najdíes normalmente necesitaron unos 96 milisegundos antes de cambiar a “larga”. Los oyentes cairota también cambiaron sus juicios de forma más abrupta a lo largo de la escala temporal, lo que sugiere un límite más nítido y categórico. Para la vocal baja [a], ambos grupos compartieron prácticamente el mismo umbral, cerca de 101 milisegundos, aunque de nuevo los oyentes cairota mostraron un cambio más pronunciado y decisivo. Para la vocal posterior [u], los umbrales fueron muy próximos—unos 100 milisegundos para los hablantes najdíes y 110 para los cairota—y la pequeña diferencia no fue estadísticamente significativa.

Figure 2
Figura 2.

Lo que esto nos dice sobre la percepción del habla

Para un profano, estas decenas de milisegundos pueden parecer triviales, pero revelan lo finamente afinada que está nuestra audición a los patrones sonoros de nuestro propio dialecto. El estudio muestra que los hablantes najdíes y cairota coinciden en el tiempo general necesario para marcar una vocal como larga, especialmente para [a] y [u], aunque calibran ese tiempo de forma distinta para [i]. También muestra que los individuos varían: algunos oyentes tratan el cambio de corto a largo como un paso brusco, otros como una transición más gradual. En conjunto, estos hallazgos respaldan la idea de que las categorías sonoras no son cajas rígidas y universales. En su lugar, nuestra experiencia con un dialecto concreto configura los umbrales temporales exactos que utiliza el cerebro para convertir un flujo continuo de sonido en palabras con significado.

Cita: Alfaifi, A. Perceptual boundary of vowel quantity: a perceptual study of synthesized Arabic vowels. Humanit Soc Sci Commun 13, 271 (2026). https://doi.org/10.1057/s41599-025-06454-8

Palabras clave: Vocales árabes, Duración vocálica, Percepción del habla, Variación dialectal, Fonética