Новые модели Claude смогут завершать опасные и оскорбительные разговоры

Anthropic представила обновленные возможности для своих крупнейших моделей Claude, которые теперь могут завершать диалоги в редких и крайних случаях, когда пользователь проявляет устойчивое вредное или оскорбительное поведение. Особенностью этой функции является то, что она направлена не на защиту пользователя, а на защиту самой модели искусственного интеллекта.

Компания не утверждает, что модели Claude обладают сознанием или могут пострадать от взаимодействия с пользователями. Anthropic подчеркивает, что пока не имеет ясного понимания морального статуса своих моделей и продолжает исследовать эту область.

Этот шаг связан с новой программой, направленной на изучение «благополучия моделей», и представляет собой превентивную меру, позволяющую снизить потенциальные риски для моделей искусственного интеллекта.

Функция ограничена моделями Claude Opus 4 и 4.1 и активируется только в экстремальных случаях, таких как запросы на создание запрещённого контента или попытки получить информацию для организации масштабного насилия или терроризма.

В ходе предварительного тестирования Claude Opus 4 показала нежелание отвечать на такие запросы и демонстрировала признаки «стресса» при попытках это сделать.

Завершение беседы происходит только в крайнем случае, когда все попытки перенаправить разговор не увенчались успехом, или если пользователь сам просит закончить диалог. При этом модель не применяет эту функцию в ситуациях, когда есть риск причинения вреда пользователю или другим людям.

Пользователи смогут начинать новые беседы с того же аккаунта и создавать новые ветви разговора, редактируя свои ответы.

Anthropic рассматривает эту возможность как эксперимент, который будет продолжать совершенствовать в дальнейшем.