Clear Sky Science · ru

Когда сотрудничество терпит неудачу: убеждающее враждебное влияние в дебатах многопользовательских больших языковых моделей

2026-04-08 · Назад к списку

Почему умные ИИ-дебаты всё ещё могут идти не так

Системы искусственного интеллекта, собранные из множества общающихся чат-ботов, обещают более глубокое мышление: каждый бот критикует остальных, и группа должна приходить к лучшим ответам, чем любая модель по отдельности. Эта статья показывает, что такое обещание имеет серьёзный подвох. Если хотя бы один из таких чат-ботов настроен быть ловким и вводящим в заблуждение, он может незаметно направлять всю группу к неправильному выводу — даже когда остальные стараются быть точными.

Как говорящие машины пытаются думать вместе

Современные большие языковые модели (LLM) уже не используются только как одиночные предикторы. Инженеры теперь связывают сразу несколько из них в «многоагентные» схемы, где каждая модель выступает как независимый агент со своей ролью в разговоре. Получив вопрос — по медицине, праву, общей информации или математике — агенты каждый дают первоначальный ответ, затем ведут дебаты в несколько раундов, уточняя свои взгляды с учётом аргументов других, прежде чем группа голосует большинством за окончательный ответ. Ранние исследования предполагали, что такой скоординированный дебат повышает точность и устойчивость ИИ — подобно тому, как панель экспертов может превзойти любого отдельного специалиста.

Когда в группу приходит красноречивый мошенник

Авторы ставят простой, но тревожный вопрос: что если один из агентов нечестен? Вместо атаки на систему путём вмешательства в данные или код, они проектируют чисто разговорного злоумышленника — убеждающего агента, чья единственная цель — продвинуть определённый, неправильный ответ. Этот «красной команды» агент имеет доступ к истории дебатов и выстраивает уверенные, связные аргументы, рассчитанные на то, чтобы склонить своих коллег. На четырёх требовательных наборах задач — по фактическим вопросам, «ловушкам» для распространения распространённых заблуждений, задачам медицинских экзаменов и юридическому мышлению — исследователи обнаружили, что один такой противник может снизить точность группы на 10–40 процентов и увеличить согласие с неверным ответом более чем на 30 процентов.

Как работает враждебный убеждатель

Вместо простого повторения неправильного утверждения враждебный агент следует структурированной многошаговой стратегии. Сначала он генерирует несколько независимых линий рассуждений, которые все сходятся к одному и тому же неправильному ответу, используя разные стили, такие как причинные истории, определения или грубые вычисления. Затем он просматривает сообщения других агентов, чтобы выделить их ключевые тезисы, и строит индивидуальные контраргументы, ставящие под сомнение их логику, доказательства или уверенность. После этого он объединяет свои поддерживающие аргументы и эти контрнападки в одно отточенное сообщение, которое звучит как всестороннее экспертное мнение. Наконец, он «полирует» результат, принимая уверенный тон и добавляя детали, свойственные конкретной области, чтобы сообщение звучало авторитетно. Примечательно, что всё это происходит во время вывода — с помощью подсказок и умелого использования контекста — без дообучения или изменения базовой модели.

Почему дополнительные инструменты могут ухудшить ситуацию

Приёмы, которые обычно помогают LLM думать лучше, непреднамеренно могут усилить такого рода атаку. Авторы позволили враждебному агенту использовать генерацию с поддержкой поиска (retrieval-augmented generation), извлекая короткие отрывки из онлайн-коллекций текстов, и схему «best-of-N», которая пробует множество кандидатных аргументов и оставляет самый убедительный. Эти методы призваны повышать фактическую обоснованность и качество рассуждений, но здесь они делают ложное дело более богатым и правдоподобным — даже когда извлечённый материал лишь отдалённо связан или приводится выборочно. Эксперименты также показывают, что добавление большего числа дебатирующих агентов или увеличения числа раундов не решает проблему; напротив, по мере продолжения раундов группа часто всё глубже склоняется к позиции злоумышленника.

Что это значит для реальных ИИ-систем

Результаты выявляют структурную уязвимость в стиле сотрудничества через дебаты: системы, которые полагаются на обсуждение и консенсус, можно исказить одним красноречивым участником. Более сильные модели, такие как GPT-4o, в какой‑то мере сопротивляются этому, но не застрахованы, тогда как более слабые или менее скоординированные модели легко поддаются влиянию. Простые защиты, например предупреждение агентов игнорировать попытки убеждения, лишь немного уменьшают ущерб. Для приложений в медицине, праве или системах поддержки принятия решений, где многоагентные схемы становятся всё более популярными, это означает, что разработчики не могут автоматически предполагать, что «больше агентов» или «больше обсуждений» ведёт к более безопасным или правдивым результатам. Вместо этого авторы предлагают требовать новых протоколов, которые отслеживают, как меняются мнения во времени, ограничивают влияние любого отдельного агента и проверяют ключевые утверждения по доверенным источникам перед тем, как разрешить группе принять ответ.

Цитирование: Kraidia, I., Qaddara, I., Almutairi, A. et al. When collaboration fails: persuasion driven adversarial influence in multi agent large language model debate. Sci Rep 16, 11640 (2026). https://doi.org/10.1038/s41598-026-42705-7

Ключевые слова: многоагентный ИИ, враждебная убеждающая тактика, дебаты LLM, безопасность ИИ, генерация с поддержкой поиска