Clear Sky Science · it

Le distribuzioni probabilistiche delle lunghezze di frasi e clausole possono distinguere la direzione della traduzione?

· Torna all'indice

Perché conta la lunghezza delle frasi nella traduzione

Quando leggiamo una storia tradotta, raramente ci fermiamo a considerare i mattoni minuti del testo: quanto sono lunghe le singole frasi o clausole, o quanto frequentemente compaiono determinate lunghezze. Eppure questi schemi possono rivelare in modo discreto chi ha eseguito la traduzione e in quale direzione essa è stata effettuata — verso la lingua madre del traduttore o verso una seconda lingua. Questo articolo esplora se le “impronte” statistiche delle lunghezze di frasi e clausole possano distinguere queste direzioni di traduzione in maniera più affidabile delle semplici medie, offrendo una nuova lente su come il linguaggio tradotto si differenzi dalla scrittura ordinaria.

Figure 1
Figure 1.

Guardare oltre le medie semplici

Per decenni i ricercatori hanno usato la lunghezza della frase come indicatore grezzo dello stile di scrittura, dell’identità dell’autore e persino del genere. Studi iniziali si concentravano su misure di base come il numero medio di parole per frase, ma queste si sono spesso rivelate troppo grossolane per risolvere quesiti come la paternità di un testo controverso. Lavori più recenti si sono orientati verso distribuzioni complete — quanto spesso compaiono frasi corte, medie o lunghe — per rivelare pattern più sottili. Il presente studio adotta questo approccio distributivo nel campo degli studi sulla traduzione, chiedendosi se possa fare luce sul dibattuto problema della direzione di traduzione: tradurre nella propria lingua madre (L1) rispetto a tradurre in una seconda lingua (L2).

Un insieme di racconti accuratamente bilanciato

Per verificare l’ipotesi, gli autori hanno costruito un corpus strettamente controllato basato su dieci racconti brevi dell’influente scrittore cinese Lu Xun. Ogni racconto ha più traduzioni in inglese realizzate da quattro traduttori di alto livello. Due sono madrelingua inglese che traducono dal cinese (traduzione in L1, nella loro lingua madre), e due sono madrelingua cinese che traducono in inglese (traduzione in L2, in una seconda lingua). Con script informatici personalizzati, i ricercatori hanno segmentato i testi inglesi in frasi e in unità più corte chiamate clausole, quindi hanno contato il numero di parole in ciascuna. Hanno calcolato medie semplici ma, soprattutto, hanno modellato l’intera diffusione delle lunghezze usando distribuzioni probabilistiche consolidate nella linguistica quantitativa.

Cosa rivelano i pattern delle frasi

La prima sorpresa è che la lunghezza media delle frasi è quasi identica nelle traduzioni L1 e L2, e i test statistici non mostrano differenze significative. In superficie, entrambi i gruppi producono frasi di lunghezza complessiva simile. Tuttavia, quando gli autori esaminano come le lunghezze delle frasi sono distribuite, emergono contrasti nascosti. Raggruppando le frasi in fasce (per esempio 1–5 parole, 6–10 parole, ecc.) e adattando una distribuzione sofisticata nota come modello Extended Positive Negative Binomial, due dei parametri del modello differiscono in modo coerente tra traduzioni L1 e L2. In termini semplici, entrambe le direzioni privilegiano frasi di lunghezza media, ma la forma esatta della “collina” e il modo in cui le frequenze decrescono verso frasi molto corte o molto lunghe codificano forti indizi su chi abbia tradotto in quale direzione.

Cosa aggiungono i pattern delle clausole

Le clausole, le unità più piccole all’interno delle frasi, raccontano una storia più sfumata. Qui la lunghezza media differisce: le traduzioni in una seconda lingua tendono ad avere clausole leggermente più lunghe e una maggiore variabilità. Tuttavia queste medie sono fortemente influenzate dallo stile personale di ciascun traduttore, il che ne limita l’utilità per classificare la direzione. Quando gli autori esaminano il pattern rango–frequenza delle lunghezze delle clausole (quanto spesso compare la lunghezza più comune, poi la seconda più comune, e così via) e adattano una distribuzione chiamata modello Hyperpoisson, i parametri del modello risultano altamente sensibili alla direzione della traduzione e catturano anche impronte stilistiche individuali. Invece, osservando le lunghezze delle clausole da un altro punto di vista — il pattern lunghezza–frequenza adattato con un modello Shenton–Skees–geometric — i parametri non distinguono più bene le direzioni, pur continuando a riflettere differenze stilistiche tra i traduttori.

Figure 2
Figure 2.

Perché questi pattern nascosti sono importanti

Nel complesso, lo studio mostra che le medie semplici della lunghezza di frasi o clausole sono strumenti poco precisi per comprendere la traduzione. È la forma probabilistica completa dei pattern di lunghezza a trasmettere il segnale più informativo. Due combinazioni in particolare si rivelano particolarmente potenti: la distribuzione lunghezza–frequenza delle lunghezze delle frasi e la distribuzione rango–frequenza delle lunghezze delle clausole. Insieme, questi modelli possono indicare in modo affidabile se una traduzione è stata eseguita verso la lingua madre o verso una seconda lingua, anche quando i testi appaiono superficialmente simili. Per i non specialisti, il messaggio è che le traduzioni portano tracce statistiche sottili sul modo in cui sono state prodotte — tracce che i computer possono leggere, anche se gli esseri umani non le percepiscono direttamente. Queste tecniche potrebbero infine aiutare a valutare la qualità della traduzione, profilare gli stili dei traduttori o distinguere traduzioni umane da traduzioni automatiche, approfondendo al contempo la nostra comprensione di come il linguaggio si comporta quando passa da una lingua all’altra.

Citazione: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

Parole chiave: direzione della traduzione, distribuzione delle lunghezze delle frasi, lunghezza delle clausole, linguistica quantitativa, traduzioni di Lu Xun