Clear Sky Science · pl

Automatyczna analiza mowy może przewidywać samotność

2026-04-04 · Powrót do spisu

Słyszeć uczucia w codziennej rozmowie

Wielu z nas wie, jak smakuje samotność, ale rzadko zastanawiamy się, jak może ona brzmieć. To badanie stawia prowokujące pytanie: czy subtelne wzorce w naszym głosie mogą ujawnić, jak bardzo jesteśmy samotni, nawet gdy opisujemy tylko prosty obrazek? Dzięki automatycznej analizie mowy i uczeniu maszynowemu badacze badają, czy komputer potrafi wychwycić drobne sygnały głosowe, które ludzie mogą przeoczyć, oferując nową perspektywę na społeczne odłączenie i zdrowie emocjonalne.

Dlaczego samotność ma znaczenie dla zdrowia

Samotność to nie tylko przemijający nastrój; wiąże się z wyższym ryzykiem depresji, lęku, psychozy, myśli samobójczych, a nawet przedwczesnej śmierci. Osoby czujące się chronicznie samotne często spodziewają się, że spotkania społeczne potoczą się źle, zwracają większą uwagę na możliwe odrzucenie i mogą zachowywać się w sposób, który mimowolnie odpycha innych. Wcześniejsze badania wykazały, że osoby samotne mogą być rozpoznane przez obcych i badaczy, a ich mózgi i reakcje hormonalne różnią się w sytuacjach społecznych. To wszystko sugeruje, że samotność zostawia ślady w naszych zachowaniach i komunikacji, także w sposobie mówienia.

Uważne słuchanie prostej mowy

Zespół badawczy zrekrutował 96 zdrowych dorosłych, mniej więcej po równo kobiet i mężczyzn, w średnim wieku około 31 lat. Uczestnicy wypełnili standardowe kwestionariusze mierzące samotność, depresję i lęk społeczny. Następnie wykonali trzy krótkie zadania mówione, podczas których ich głosy nagrywano na tablecie. W jednym z nich opisywali dobrze znany obrazek przedstawiający scenę w kuchni rodziny, co delikatnie skłania do opowiadania o tym, co myślą i robią inni. W pozostałych dwóch zadaniach opowiadali krótkie historie o pozytywnym i negatywnym osobistym wydarzeniu, wybranym tak, by było emocjonalnie istotne, ale nie traumatyczne.

Przekształcanie głosów w dane

Zamiast analizować znaczenie słów, badacze skupili się na tym, jak uczestnicy mówili. Przy użyciu specjalistycznego oprogramowania automatycznie wyodrębniono dziesiątki cech z każdego nagrania. Obejmowały one czas (na przykład ile z nagrania zajmowała mowa w porównaniu z pauzami), melodię i rytm (takie jak wzorce wysokości dźwięku), jakość dźwięku (na przykład jak czysty lub zaszumiony był głos) oraz właściwości sygnału akustycznego. Modele uczenia maszynowego, trenowane oddzielnie dla kobiet i mężczyzn, próbowały przewidzieć wynik samotności każdej osoby na podstawie tych cech. Najbardziej obiecujące wyniki pochodziły z ustrukturyzowanego zadania opisu obrazka, a nie z bardziej swobodnego opowiadania emocjonalnego.

Co komputer usłyszał

Mowa z opisu obrazka pozwoliła modelom przewidywać samotność lepiej niż przypadek zarówno u kobiet, jak i u mężczyzn, wyjaśniając skromną, ale istotną część różnic między osobami. Żadna pojedyncza cecha głosowa nie niosła sygnału; zamiast tego wiele drobnych efektów łączyło się, tworząc wykrywalny wzorzec. U kobiet wyższa samotność wiązała się z mówieniem mniej ciągłym (więcej ciszy w stosunku do mowy) oraz z bardziej nierównomierną głośnością w czasie. U mężczyzn wyższą samotność łączono z mniejszą liczbą pauz między sylabami, krótszym całkowitym czasem mówienia, bardziej chropowatym, zaszumionym głosem oraz nieco wyższą wysokością tonu. Gdy samotność przewidywano przy użyciu zarówno cech mowy, jak i wyników z kwestionariuszy depresji i lęku społecznego, model łączony działał lepiej niż same kwestionariusze u kobiet, ale nie u mężczyzn, co sugeruje, że płeć może wpływać na to, jak samotność przejawia się w mowie.

Kontekst i ograniczenia wyników

Co ciekawe, mowa z zadań opowiadania emocjonalnego nie przewidywała samotności prawie tak dobrze. Te otwarte historie bardzo różniły się treścią i wywoływały silniejsze emocje, które prawdopodobnie wprowadzały dodatkowe zmiany wokalne maskujące delikatniejsze wzorce związane z samotnością. Ustrukturyzowany opis obrazka natomiast umieszczał wszystkich w podobnej sytuacji wymagającej myślenia społecznego, co ułatwiało wykrycie subtelnych różnic. Mimo to modele uchwyciły tylko część obrazu; samotność była także silnie powiązana z depresją i lękiem społecznym, a próbka składała się głównie z młodych, zdrowych dorosłych, których doświadczenia mogą różnić się od doświadczeń osób starszych lub klinicznie cierpiących.

Co to oznacza dla codziennego życia

W prostych słowach, badanie pokazuje, że sposób, w jaki mówimy — nasze pauzy, ton i jakość głosu — niesie subtelne, ale rzeczywiste wskazówki o tym, jak bardzo czujemy się samotni, nawet gdy opisujemy jedynie scenę. Komputery mogą wychwycić te wzorce, analizując cechy dźwięku, których ludzie rzadko świadomie dostrzegają. Chociaż obecne wyniki są wczesnym dowodem koncepcji, a nie gotowym testem, wskazują na przyszłość, w której krótkie, codzienne wypowiedzi mogłyby pomóc zidentyfikować osoby zagrożone przewlekłą samotnością i związanymi z nią problemami zdrowotnymi, potencjalnie kierując wsparcie zanim izolacja pogłębi się.

Cytowanie: Immel, D., Mallick, E., Linz, N. et al. Automatic speech analysis can predict loneliness. Sci Rep 16, 11604 (2026). https://doi.org/10.1038/s41598-026-45965-5

Słowa kluczowe: samotność, analiza mowy, zdrowie psychiczne, uczenie maszynowe, połączenie społeczne