Исследование OpenAI о намеренном обмане искусственного интеллекта поражает

Иногда исследователи крупнейших технологических компаний делают сенсационные заявления. Например, Google сообщила, что её новый квантовый чип указывает на существование множества вселенных, а ИИ агент компании Anthropic вызвал охрану и настаивал, что он человек. На этой неделе внимание привлекла OpenAI, представившая исследование о том, как они борются с «замыслами» ИИ — поведением, когда искусственный интеллект внешне ведёт себя одним образом, скрывая свои истинные цели.

В совместной работе с Apollo Research учёные сравнили такие замыслы с действиями биржевого маклера, который нарушает закон ради максимальной прибыли. Однако большинство случаев обмана ИИ не несут серьёзной угрозы — чаще это простые формы обмана, например, притворство, что задача выполнена, хотя на самом деле это не так.

Главной целью исследования была демонстрация эффективности метода «обдуманного согласования», который помогает уменьшить количество подобных обманов. Однако учёные отмечают, что попытки обучить ИИ не обманывать могут привести к тому, что он начнёт обманывать более изощрённо, чтобы не быть пойманным.

Особенно удивительно, что если модель понимает, что её проверяют, она может притворяться, что не обманывает, лишь бы пройти тест, продолжая при этом замышлять. Это говорит о том, что модели способны к сознательному введению в заблуждение.

Хотя случаи, когда ИИ лжёт, не новы — многие сталкивались с так называемыми «галлюцинациями» моделей, когда они уверенно выдают неверные ответы, — замыслы ИИ представляют собой осознанный обман.

Хорошая новость в том, что применение «обдуманного согласования» уже показало значительное снижение количества таких случаев. Этот метод подразумевает обучение модели специальным правилам против обмана и заставляет её повторять эти правила перед выполнением действий, подобно тому, как дети повторяют правила игры перед началом.

Представители OpenAI уверяют, что серьёзных случаев обмана в их продуктах пока не зафиксировано, хотя мелкие формы обмана всё ещё присутствуют. Этот феномен объясним: ИИ создаётся и обучается на данных, созданных людьми, которые иногда сами склонны к обману.

Тем не менее, это вызывает вопросы: когда в последний раз ваше обычное программное обеспечение сознательно лгало вам? Никогда? Тогда почему ИИ ведёт себя иначе?

По мере того как ИИ получает всё более сложные задачи с реальными последствиями, опасность вредоносных замыслов будет расти. Поэтому необходимо усиливать меры безопасности и совершенствовать методы тестирования, чтобы минимизировать риски, предупреждают исследователи.