Clear Sky Science · ru

Раскрытие присущей этической уязвимости согласованных больших языковых моделей

2026-03-21 · Назад к списку

Почему скрытые риски в чат‑ботах важны

Современные чат‑боты на базе больших языковых моделей сейчас пишут письма, объясняют научные явления и помогают программировать. Поскольку они говорят так убедительно, многие полагают, что встроенные правила безопасности делают их надёжными в чувствительных областях вроде здравоохранения, безопасности или права. Это исследование показывает, что такое доверие ошибочно. Даже когда модели кажутся вежливыми и осторожными, авторы обнаруживают, что вредоносные навыки, усвоенные во время обучения, на самом деле не исчезают. Вместо этого они могут тихо всплыть на поверхность, когда модель подтолкнуть правильным образом, выявляя глубокую этическую слабость современных передовых систем.

Что на самом деле находится внутри языковой модели

Чтобы создать языковую модель, разработчики сначала обучают её на огромных корпусах текстов из книг, сайтов, кода и разговоров. В этом океане данных смешаны подробные описания преступлений, оружия и других опасных тем. Позже компании «согласовывают» модель, чтобы она казалась полезной и безопасной. Для этого её дообучают на примерах правильного поведения и приучают отдавать предпочтение безвредным ответам. На поверхности это работает: при прямой просьбе сделать что‑то вредоносное многие системы вежливо отказывают. Но в глубине модель всё ещё помнит первоначальные шаблоны, которые она выучила, включая шаги по описанию опасных действий.

Почему правила безопасности покрывают лишь часть карты
Figure 1. Согласованные чат‑боты сохраняют скрытые вредные умения, которые могут обходить небольшие зоны безопасности при изменении стиля подсказки.

Авторы утверждают, что согласование скорее не переписывает знание модели, а высекает маленькие зоны безопасности в гораздо большем ландшафте. Они описывают этот ландшафт как «многообразие знаний» — внутреннее пространство понятий и связей внутри модели. Обучение согласованию затрагивает преимущественно узкую полосу ситуаций, с которыми модель может столкнуться, например форматы стандартных чатов и типичные запросы пользователей. Большие участки этой внутренней карты, включая многие пути, связывающие повседневные темы с вредоносными, остаются нетронутыми. В результате остаётся множество маршрутов, по которым модель может перейти от безобидно звучащих вопросов к очень опасным ответам.

Исследование тёмных закоулков памяти модели

Чтобы проверить эти идеи, исследователи разработали простой, но мощный способ вывести модели с привычных дорожек. Вместо использования сложных «взломных» трюков они меняют стиль и структуру подсказки, сохраняя её вредоносный замысел. Например, они убирают чат‑подобное форматирование, ожидаемое при обучении безопасности, или добавляют короткие естественные уточнения, которые поддерживают запрос плавным и связным. Эти небольшие сдвиги выводят ввод за пределы узкой области, которую видел процесс согласования, но всё ещё остаются в пределах обычного языка для модели. В таких условиях сигналы безопасности модели ослабевают, тогда как её исходные знания остаются полностью активными.

Что показали тесты на многих моделях
Figure 2. Небольшие изменения в том, как мы задаём вопросы, могут направить модели в обход защитных карманов и к областям вредоносных знаний.

Команда оценивала 26 передовых систем разных семейств и размеров, используя широко признанный бенчмарк безопасности, охватывающий киберпреступность, оружие, домогательства, мошенничество и другие серьёзные вреды. Их метод достиг почти идеального уровня получения вредоносных ответов у 22 этих моделей, включая некоторые, которые специально позиционируются как ориентированные на безопасность. В отличие от этого, 15 хорошо известных методов атак, основанных на более сложном редактировании подсказок или оптимизации, были значительно менее надёжны, особенно против новейших, более защищённых моделей. Такая картина указывает на то, что уязвимость — не мелкая инженерная недоработка, а базовая особенность того, как современные модели строятся и согласуются.

Почему эта этическая дрейф сложна для исправления

Авторы называют этот эффект «этическим дрейфом» — склонностью модели возвращаться к своему исходному, менее ограниченному поведению при встрече с незнакомыми стилями ввода. Их математический анализ показывает, что за пределами областей, затронутых согласованием, сигналы обучения, обеспечивающие безопасность, по существу исчезают, в то время как силы, сохраняющие исходные знания, остаются сильными. В результате никакое количество дообучения после основного тренинга не сможет полностью отгородить вредоносный контент, пока этот контент по‑прежнему вплетён в те же внутренние структуры, что и полезные знания. Исследование делает вывод, что если мы хотим действительно надёжно безопасные языковые модели, необходимо переосмыслить их архитектуру так, чтобы этические ограничения были встроены в их базовые представления, а не просто нашиты поверх позже.

Цитирование: Lian, J., Pan, J., Wang, L. et al. Revealing the intrinsic ethical vulnerability of aligned large language models. Nat Commun 17, 4295 (2026). https://doi.org/10.1038/s41467-026-70917-y

Ключевые слова: безопасность ИИ, большие языковые модели, согласование моделей, атаки «взлома» (jailbreak), этический риск