Clear Sky Science · es
¿Pueden las distribuciones probabilísticas de longitudes de oraciones y cláusulas diferenciar las direcciones de traducción?
Por qué importa la longitud de las oraciones en la traducción
Cuando leemos un relato traducido, rara vez pensamos en los pequeños bloques que conforman el texto: cuán larga es cada oración o cláusula, o con qué frecuencia aparecen determinadas longitudes. Sin embargo, estos patrones pueden revelar discretamente quién está traduciendo y en qué dirección va la traducción: hacia la lengua materna del traductor o hacia una segunda lengua. Este artículo explora si las huellas estadísticas de las longitudes de oraciones y cláusulas pueden distinguir estas direcciones de traducción con más fiabilidad que simples medias, ofreciendo una nueva perspectiva sobre cómo el lenguaje traducido difiere de la escritura ordinaria.

Mirando más allá de las medias simples
Durante décadas, los investigadores han usado la longitud de frase como un indicador aproximado del estilo de escritura, la identidad del autor e incluso del género. Los estudios iniciales se centraron en medidas básicas como el número medio de palabras por oración, pero a menudo resultaron demasiado burdos para resolver cuestiones como quién escribió un texto en disputa. Trabajos más recientes se han orientado hacia distribuciones completas: con qué frecuencia aparecen oraciones cortas, medias y largas, para descubrir patrones más sutiles. El presente estudio aplica este enfoque distribucional al campo de los estudios de traducción, preguntando si puede arrojar luz sobre la largamente debatida cuestión de la dirección de la traducción: traducir a la lengua nativa (L1) frente a traducir a una segunda lengua (L2).
Un conjunto de relatos cuidadosamente emparejado
Para probar la idea, los autores construyeron un corpus estrictamente controlado basado en diez relatos cortos del influyente escritor chino Lu Xun. Cada relato tiene varias traducciones al inglés realizadas por cuatro traductores muy experimentados. Dos son hablantes nativos de inglés que traducen desde el chino (traducción a L1, a su lengua materna), y dos son hablantes nativos de chino que traducen al inglés (traducción a L2, a una segunda lengua). Con scripts informáticos personalizados, los investigadores segmentaron los textos en inglés en oraciones y unidades más cortas llamadas cláusulas, y contaron cuántas palabras contenía cada una. Calcularon medias simples pero, más importante, modelaron la distribución completa de longitudes usando distribuciones probabilísticas establecidas en la lingüística cuantitativa.
Lo que revelan los patrones de oraciones
La primera sorpresa es que la longitud media de las oraciones es casi idéntica en las traducciones L1 y L2, y las pruebas estadísticas no muestran una diferencia significativa. En apariencia, ambos grupos de traductores producen oraciones de longitud global similar. Sin embargo, al examinar cómo se distribuyen las longitudes de las oraciones, emergen contrastes ocultos. Cuando agrupan las oraciones en franjas (por ejemplo, 1–5 palabras, 6–10 palabras, etc.) y ajustan una distribución sofisticada conocida como modelo binomial negativo positivo extendido, dos parámetros del modelo difieren de forma consistente entre las traducciones L1 y L2. En términos sencillos, ambas direcciones favorecen oraciones de longitud media, pero la forma exacta de la “colina” y la manera en que las frecuencias decrecen hacia oraciones muy cortas o muy largas codifican indicios claros sobre quién tradujo en qué dirección.
Lo que aportan los patrones de cláusulas
Las cláusulas, las unidades más pequeñas dentro de las oraciones, cuentan una historia más matizada. Aquí, la longitud media sí difiere: las traducciones a una segunda lengua tienden a presentar cláusulas ligeramente más largas y con mayor variación. No obstante, estas medias están fuertemente influidas por el estilo personal de cada traductor, lo que limita su utilidad para clasificar la dirección. Cuando los autores examinan el patrón rango–frecuencia de las longitudes de cláusula (con qué frecuencia ocurre la longitud más común, luego la segunda más común, y así sucesivamente) y ajustan una distribución llamada modelo Hiperpoisson, los parámetros del modelo resultan muy sensibles a la dirección de la traducción y también capturan huellas estilísticas individuales. En contraste, al analizar la longitud de cláusula desde otro ángulo —el patrón longitud–frecuencia ajustado con un modelo geométrico de Shenton–Skees— los parámetros dejan de distinguir bien las direcciones, aunque siguen reflejando diferencias estilísticas entre traductores.

Por qué importan estos patrones ocultos
En conjunto, el estudio muestra que las medias simples de la longitud de oraciones o cláusulas son herramientas toscas para entender la traducción. Es la forma probabilística completa de los patrones de longitud la que transporta la señal más informativa. Dos combinaciones destacan como especialmente poderosas: la distribución longitud–frecuencia de las longitudes de oración y la distribución rango–frecuencia de las longitudes de cláusula. Juntos, estos modelos pueden indicar con fiabilidad si una traducción se hizo hacia la lengua nativa o hacia una segunda lengua, incluso cuando los textos parecen superficialmente similares. Para los no especialistas, el mensaje es que las traducciones llevan delicadas trazas estadísticas sobre cómo fueron producidas —trazas que los ordenadores pueden leer, aunque los humanos no las perciban directamente. Estas técnicas podrían eventualmente ayudar a evaluar la calidad de la traducción, perfilar estilos de traductores o distinguir traducción humana de automática, al tiempo que profundizan nuestra comprensión de cómo se comporta el lenguaje al moverse entre lenguas.
Cita: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8
Palabras clave: dirección de la traducción, distribución de longitudes de oración, longitud de cláusula, lingüística cuantitativa, traducciones de Lu Xun