Clear Sky Science · ru

Трансформер HALL-OPT с учётом галлюцинаций и оптимизацией задержки для интеллектуальных решений в реальном времени на периферии

· Назад к списку

Почему важны более быстрый и более надёжный ИИ

Повседневные устройства постепенно становятся умнее — от фабричных датчиков и медицинских мониторов до автомобилей и домашних гаджетов. Многие такие системы используют языковые модели — тот же класс ИИ, что лежит в основе современных чат-ботов — чтобы читать инструкции, отвечать на вопросы или суммировать отчёты. Но есть две проблемы: эти модели медленные и энергоёмкие, и они иногда «галлюцинируют», выдавая убедительные, но ложные утверждения. В статье представлен HALL-OPT — переработка трансформерных языковых моделей, которая стремится сделать их одновременно быстрее и надёжнее, чтобы они могли безопасно работать на небольших энергоэффективных устройствах периферии вместо удалённых дата-центров.

Figure 1
Figure 1.

Задача умных устройств на периферии

Большинство высокопроизводительных языковых моделей размещены в облаке, где доступна значительная вычислительная мощность. Это затрудняет их использование в ситуациях, где нужны быстрые решения и где сетевые соединения ненадёжны или дороги — например, в автономных транспортных средствах, промышленных роботах или прикроватных медицинских приборах. Когда такие системы отправляют данные в облако и ждут ответа, задержки даже в несколько сотен миллисекунд могут быть недопустимы. В то же время облегчённые модели, размещаемые на устройствах периферии, часто отвечают быстрее, но склонны выдумывать факты или неверно интерпретировать информацию. Исследование показывает, что возникает компромисс: низкая частота галлюцинаций обычно сопровождается большой задержкой, тогда как низкая задержка часто означает больше галлюцинаций, что оставляет пространство для решений, обеспечивающих доверительную и своевременную интеллектуальную обработку на периферии.

Единый подход вместо раздельных исправлений

Существующие исследования обычно рассматривают надёжность и эффективность как две отдельные цели. Одни методы сосредоточены на выявлении галлюцинаций путём сверки ответов с внешними базами данных или выполнения многократных прогонов модели, что добавляет времени и энергии. Другие уменьшают размеры моделей с помощью обрезки, квантизации или дистилляции знаний, делая их быстрее, но иногда менее точными и надёжными. HALL-OPT идёт иным путём: он интегрирует осведомлённость о галлюцинациях прямо в внутренние механизмы модели и использует эту информацию, чтобы принимать решения о том, что вычислять, а что пропускать. Вместо того чтобы навешивать дополнительные проверки или слепо обрезать сеть, он координирует надёжность и скорость в единой системе, адаптированной под периферийное оборудование.

Как система фильтрует рискованный контент

В основе HALL-OPT лежит модуль внимания с учётом галлюцинаций, который отслеживает, как модель распределяет фокус между словами и насколько уверена она в своих прогнозах. Когда внимание рассеяно, уверенность низка или значение токена конфликтует с окружением, этому токену присваивается более высокий «риск». Двухпоточный детектор затем помечает такие фрагменты как потенциальные галлюцинации. Модель использует эти сигналы для динамической обрезки: токены с низкой полезностью и высоким риском удаляются, тогда как важные и надёжные токены сохраняются. Это снижает число элементов, которые модель должна обрабатывать на каждом слое, сокращая тяжёлые квадратичные затраты внимания без потери ключевого смысла текста.

Упаковка большой модели в небольшую и эффективную

Чтобы поместить мощную функциональность в компактный корпус, HALL-OPT использует дистилляцию знаний: большая «учительская» модель обучает компактную «ученическую» модель. В отличие от стандартной дистилляции, ученик обучается не только соответствовать ответам учителя, но и имитировать его способность распознавать, когда ответы могут быть ошибочными. Дополнительная тренировка направлена на снижение чрезмерной уверенности и склонности к галлюцинациям. Наконец, слой оптимизации для периферии готовит модель к вычислениям с низкой точностью, преобразуя веса в 8-битные значения и перестраивая вычисления под реальные периферийные устройства, такие как платы NVIDIA Jetson и TPU Coral от Google. Такое сочетание сохраняет большую часть исходной точности при значительном снижении использования памяти, энергопотребления и времени отклика.

Figure 2
Figure 2.

Практическое влияние на скорость, энергию и безопасность

Тесты на двух требовательных бенчмарках — одном для вопросов с хитро вставленными неразрешимыми вопросами и другом для суммирования новостей — показывают, что HALL-OPT обнаруживает галлюцинации с примерно 94% точностью и при этом сохраняет производительность задач близкой к стандартной модели BERT. Одновременно он сокращает задержку инференса примерно на две трети и уменьшает энергопотребление примерно на 40% и более в среднем по реалистичным нагрузкам. На периферийных устройствах он часто отвечает менее чем за 50 миллисекунд и использует заметно меньше памяти. Стресс-тесты на разных платформах и в сценариях промышленного уровня — от умных фабрик до медицинских мониторов — подтверждают, что система обеспечивает предсказуемое время реакции и благоприятный показатель «инференций на ватт», делая её пригодной для непрерывного использования в реальном времени.

Что это значит для повседневного ИИ

Для неспециалистов главное послание таково: не нужно выбирать между быстрым ИИ и надёжным ИИ на небольших устройствах. Обучая модель распознавать свои слабые стороны и позволяя этой осведомлённости управлять объёмом вычислений, HALL-OPT даёт ответы, которые одновременно быстры и менее склонны к выдумкам. Это делает его перспективной основой для будущих периферийных приложений, где ошибочные ответы или медленная реакция могут иметь серьёзные последствия — например, при управлении транспортом, контроле промышленного оборудования или обнаружении критических изменений в состоянии пациента.

Цитирование: Algawiaz, D. Hallucination-aware learning and latency optimization transformer (HALL-OPT) for real-time edge intelligence. Sci Rep 16, 12245 (2026). https://doi.org/10.1038/s41598-026-42981-3

Ключевые слова: edge AI, обнаружение галлюцинаций, модели-трансформеры, инференция в реальном времени, энергоэффективные вычисления