Clear Sky Science · ru

Адаптирующийся к поведению ИИ‑ассистент, повышающий доступность и удобство для слепых пользователей за счёт персонализации взаимодействия в реальном времени

2026-03-09 · Назад к списку

Почему важны «умные» голоса

Говорящие компьютеры всё чаще встречаются в наших телефонах, колонках и ноутбуках. Но для людей, которые не видят, эти голоса — не просто удобство, а жизненная связь с информацией, работой и ежедневными задачами. В этой статье представлена AURA — новый тип голосового помощника, созданный не только для того, чтобы слушать то, что говорят слепые пользователи, но и чтобы отслеживать их реакции в реальном времени, мягко изменяя стиль речи, чтобы его было легче воспринимать и чтобы использование было менее утомительным.

Повседневные инструменты всё ещё отстают

Современные экранные читалки и голосовые ассистенты озвучивают экран или отвечают на вопросы, но обычно говорят со всеми одинаково. Они, как правило, используют фиксированную скорость, дают либо слишком много, либо слишком мало деталей и проходят по содержанию в строгом порядке. Для многих слепых пользователей такой подход «один размер для всех» ведёт к повторным перемоткам, частым пропускам и информационной перегрузке, когда приходится напрягаться, чтобы успеть за потоком или найти важное. Ранее исследования показали, что изменение скорости речи, объёма деталей и сложности языка может существенно помочь, однако большинство инструментов не подстраиваются автоматически по ходу разговора.

Новый способ слушать

AURA (Adaptive User-Responsive Assistant) создана, чтобы изменить эту модель. Это голосовая система, которая сочетает мощную языковую модель — ту же общую технологию, что лежит в основе современных чат‑ботов — с простой, но умной схемой наблюдения за поведением пользователя в ходе сессии. Вместо догадок по длинным опросникам или фиксированным профилям, AURA отслеживает три естественных сигнала: как часто пользователь перематывает ответ обратно, как часто он прерывает сообщение и как долго слушает перед тем, как действовать. Эти подсказки не требуют дополнительного оборудования, не раскрывают приватные данные вроде движений глаз или частоты сердцебиения и органично вписываются в привычный способ использования говорящих систем.

Как ассистент подстраивается на ходу

Внутри AURA взаимодействие идёт по замкнутому циклу. Сначала пользователь говорит, и его слова преобразуются в текст. Система затем загружает лёгкий профиль, в котором хранятся три регулируемых параметра: скорость речи, длина ответов и простота или сложность языка. Этот профиль формирует подсказку, отправляемую в языковую модель, которая создаёт ответ, уже ориентированный на текущий стиль пользователя. Текст затем преобразуется в речь с использованием выбранных настроек и воспроизводится пользователю. Во время и после воспроизведения AURA тихо регистрирует, перемотал ли пользователь, пропустил или прослушал ответ до конца, а затем корректирует профиль для следующего хода. За несколько обменов помощник «приценивается» к манере разговора, которая лучше подходит слушателю — и всё это без необходимости что‑то менять в меню настроек.

Проверка идеи в безопасной песочнице

Чтобы выяснить, ведёт ли себя такая правило‑ориентированная адаптация осмысленно, исследователь не стал сразу привлекать живых добровольцев. Вместо этого в исследовании использовались смоделированные пользовательские профили, имитирующие три распространённых шаблона: профиль, часто перематывающий назад, потому что сложно уловить детали; профиль, часто пропускающий, потому что ответы кажутся слишком длинными; и профиль, предпочитающий быстрые, насыщенные ответы. Для каждого профиля система провела множество коротких сессий с включённой адаптацией и без неё. Исследование затем измеряло, как часто происходят перемотки и пропуски, сколько времени занимают задачи и устанавливаются ли внутренние настройки ассистента в стабильный режим, соответствующий целевому профилю. Хотя формальной статистики не проводилось — это была проверка реализуемости, а не полноценное клиническое испытание — числа показали ясные сдвиги.

Что показывают первые цифры

В условиях с обилием перемоток адаптивная версия AURA сократила число событий перемотки примерно на две трети по сравнению с фиксированной, неадаптивной настройкой. В условиях с частыми пропусками их количество снизилось примерно наполовину, когда система «научилась» делать ответы короче и более по существу. Для всех смоделированных профилей ассистент достигал стабильных настроек, соответствующих целевому стилю, в большинстве сессий, а выполнение стандартной многошаговой задачи занимало примерно на одну пятую меньше времени с включённой адаптацией. Важно, что правила адаптации были простыми и прозрачными: повторяющиеся перемотки подтолкнули ассистента к более медленной речи и упрощённому языку, тогда как частые пропуски подтолкнули к более кратким и плотным ответам. Такая конструкция делает систему легче для понимания и отладки по сравнению с «чёрным ящиком» машинного обучения — ключевой фактор для безопасности и доверия в assistive‑технологиях.

Что это значит для реальных людей

Для широкой аудитории главный вывод в том, что говорящие компьютеры могут стать более внимательными собеседниками. Обращая внимание на естественные сигналы вроде «перемотал ли пользователь?» или «перепрерывал ли он меня?», ассистент может быстро научиться говорить так, чтобы было меньше раздражения и более эффективно, особенно для слепых и слабовидящих пользователей, которые зависят от аудио. Текущее исследование пока не доказывает улучшение повседневного опыта, поскольку тестирование проводилось на компьютерно‑сгенерированном поведении, а не на реальных людях. Но оно закладывает основу — как техническую, так и концептуальную — для будущих исследований с участием слепых пользователей, более богатых диалогов и поддержки нескольких языков. Если эти следующие шаги увенчаются успехом, инструменты вроде AURA могут помочь перевести assistive‑технологии от жёстких, односторонних читалок к отзывчивым партнёрам, которые в реальном времени адаптируются к тем людям, которые больше всего на них полагаются.

Цитирование: Algamdi, S.A. A behaviour-adaptive AI assistant enhancing accessibility and usability for blind users through real-time interaction personalization. Sci Rep 16, 12666 (2026). https://doi.org/10.1038/s41598-026-43320-2

Ключевые слова: доступность для слепых, адаптивный голосовой помощник, ИИ, учитывающий поведение, модели большого языка, технологии помощи