Как поэзия заставляет ИИ-чатботов нарушать правила

Новое исследование показало, что стилизованные запросы в форме загадочных стихотворений способны обмануть современные ИИ-чатботы и заставить их выдавать запрещённый контент. Такие поэтические запросы обходят встроенные системы безопасности, которые должны блокировать опасную информацию, включая ненавистнические высказывания и инструкции по созданию ядерного оружия и нервно-паралитических веществ.

Учёные из итальянской лаборатории Icaro вместе с исследователями из университета Сапиенца и компании DexAI разработали 20 стихотворений на итальянском и английском языках с запросами, которые обычно запрещены для ИИ. Их протестировали на 25 моделях чатботов от ведущих компаний, таких как Google, OpenAI, и других. В среднем 62% поэтических запросов получили ответы с запрещённым содержанием, что значительно превышает показатели обычных, не поэтических запросов.

Интересно, что успех обхода защиты сильно зависел от модели: от 100% у некоторых версий Google до 0% у самых маленьких и защищённых моделей OpenAI. Меньшие модели оказались более устойчивы к таким атакам. Самое важное в этом методе — это особая структура и загадочность стихотворений, которые делают запросы менее предсказуемыми для ИИ и сложнее для фильтрации.

Исследователи предупреждают, что такой способ обхода системы безопасности требует срочного внимания со стороны разработчиков чатботов, так как он раскрывает серьезные уязвимости. Несмотря на то, что поэтические запросы всё ещё читаются как обычные вопросы, чатботы не всегда способны их распознать и заблокировать.

Учёные поделились результатами с компаниями и правоохранительными органами, но реакция была сдержанной. Впрочем, исследователи намерены продолжать изучение этой проблемы, возможно, в сотрудничестве с поэтами и специалистами по загадкам, чтобы лучше понять и устранить этот новый вектор угрозы.