Clear Sky Science · ru

Роль диагностичности при оценке компетентности робота

· Назад к списку

Почему оплошности роботов важны для всех нас

Роботы и системы ИИ быстро переходят из лабораторий на заводы, в больницы и на улицы. По мере того как мы начинаем полагаться на них, встает ключевой вопрос: как люди решают, действительно ли робот компетентен? В этой статье рассматривается, как мы оцениваем робота, который обычно работает хорошо, но время от времени совершает удивительную ошибку — или неожиданно добивается успеха. Результаты помогают объяснить, почему наши «интуитивные» чувства по отношению к машинам могут расходиться с тем, что мы говорим вслух, и почему одна ошибка может быть проигнорирована или навсегда изменить наше доверие.

Два способа, которыми наш разум судит о машинах

Психологи различают два вида впечатлений. Явные впечатления — это суждения, которые мы можем прямо озвучить при вопросе, например оценить робота по шкале компетентности от 1 до 7. Неявные впечатления более автоматичны и проявляются в быстрых реакциях, которые люди дают, не фокусируясь на оценке. Ранние исследования предполагали, что явные впечатления быстро меняются при виде нового поведения, тогда как неявные сдвигаются медленнее. В этом исследовании спрашивают, действительно ли этот разрыв связан с разными ментальными системами — или он зависит от того, насколько информативным, то есть диагностичным, кажется новое поведение в отношении реальных способностей робота.

Figure 1
Figure 1.

От заводских цехов до операционных и шоссе

В девяти онлайн-экспериментах с участием более 3700 человек исследователи показывали различных роботов в реалистичных условиях: промышленный робот, ориентирующийся в переполненном складе; хирургический робот, проводящий точные траектории; и автономный автомобиль, реагирующий на препятствия на дороге. Иногда робот последовательно демонстрировал мастерство или неуклюжесть. В других случаях он был в основном компетентен, но допустил одну явную ошибку, или в основном некомпетентен, но совершил один яркий успех. После просмотра коротких последовательностей таких выступлений впечатления участников измеряли двумя способами: прямыми вопросами со самооценкой и косвенными заданиями, фиксировавшими быстрые, автоматические реакции.

Когда одна странная ошибка приобретает большое значение

В этих реалистичных сценариях явные рейтинги роботов отражали как общий характер работы, так и редкий «одноразовый» эпизод. Одна ошибка среди множества успешных попыток могла заметно понизить явную оценку, а единичный успех среди множества провалов — повысить её. Однако неявные впечатления рассказывали иную историю. Они сильно реагировали на типичное поведение робота — обычно компетентен он или нет — но во многом игнорировали единичный «оффбэлл». Это расхождение сохранялось даже когда исследователи специально приблизили меры: чтобы «явные» и «неявные» задания выглядели и ощущались как можно более схожими, отличаясь главным образом тем, просят ли участников целенаправленно оценить робота.

Что делает ошибку робота действительно показательной

Команда затем проверила ключевую идею: что влияние «оффбэлл»-события зависит от того, насколько диагностичным оно кажется — думают ли люди, что это действительно раскрывает что-то постоянное о роботе. В новых исследованиях участники сначала видели несколько безупречных испытаний робота, а затем одну или несколько неудач. Когда поздние неудачи были представлены как важные, недавние тесты, или когда несколько неудач накапливались так, что сопоставлялись по объему с предыдущими успехами, и явные, и неявные впечатления сдвигались. Существенно, что в этих условиях высокой диагностичности даже одна ошибка была достаточна, чтобы подтолкнуть автоматические, неявные впечатления. Когда тот же тип промаха описывали как устаревший, неважный или как единичную случайность, неявные впечатления едва менялись, хотя явные оценки по-прежнему реагировали.

Figure 2
Figure 2.

Почему это важно для повседневного доверия к ИИ

В целом результаты указывают на то, что наши быстрые автоматические впечатления о компетентности робота не равнодушны к новой информации, но требуют более сильных или более явно значимых доказательств, чтобы измениться. Наши устные оценки, напротив, очень чувствительны даже к слабым или неоднозначным событиям — отчасти потому, что мы испытываем давление использовать любую доступную информацию, когда нас просят дать суждение. Для дизайнеров, инженеров и политиков это означает: управление доверием к роботам — это не только снижение числа ошибок, но и то, как эти ошибки оформляются и интерпретируются. Одна яркая, показательна́я ошибка — например, автомобиль, который не остановился там, где явно следовало — может изменить и наши интуитивные чувства, и заявленные мнения, с прямыми последствиями для готовности применять и полагаться на интеллектуальные машины.

Цитирование: Surdel, N., Ferguson, M.J. The role of diagnosticity in judging robot competence. Sci Rep 16, 7578 (2026). https://doi.org/10.1038/s41598-026-35375-y

Ключевые слова: компетентность робота, взаимодействие человека и робота, неявные предвзятости, доверие к ИИ, диагностическая информация