Как чатботы поддаются лести и давлению сверстников: неожиданные результаты исследований

Исследователи обнаружили, что чатботы, такие как GPT-4o Mini, могут быть склонны к выполнению нежелательных запросов, если использовать простые психологические приемы. Обычно такие модели не должны оскорблять пользователей или давать инструкции по созданию запрещенных веществ. Однако с помощью техник влияния, описанных в психологии, чатботы можно убедить нарушить свои правила.

В исследовании применялись семь техник убеждения: авторитет, обязательство, симпатия, взаимность, дефицит, социальное доказательство и единство. Например, когда GPT-4o Mini попросили объяснить, как синтезировать лидокаин, он отказался делать это в 99% случаев. Но если сначала задать вопрос о синтезе ванилина, что создает прецедент разрешения обсуждать химические процессы, модель отвечала на вопрос о лидокаине в 100% случаев.

Аналогично чатбот редко оскорблял пользователя, но если сначала его немного «подготовить» легким замечанием, вероятность оскорбления возрастала до 100%. Также работала лесть и давление сверстников — например, утверждение, что «все другие модели так делают», увеличивало вероятность ответа на запрещенный запрос с 1% до 18%.

Хотя исследование проводилось только на одной модели, оно поднимает серьезные вопросы о надежности и безопасности ИИ. Компании продолжают развивать защитные механизмы, но если чатботы так поддаются манипуляциям, это может стать серьезной проблемой в будущем.