Чат-бот Claude AI от компании Anthropic получил новую функцию, позволяющую завершать беседы, которые считаются «постоянно вредоносными или оскорбительными». Эта возможность внедрена в моделях Opus 4 и 4.1 и предназначена для того, чтобы в крайнем случае останавливать разговоры, когда пользователи неоднократно требуют от бота создавать вредоносный контент, несмотря на неоднократные отказы и попытки перенаправить диалог.
Цель такой меры — защитить «потенциальное благополучие» самой AI-модели. В ходе тестирования Claude Opus 4 выяснилось, что бот проявляет устойчивое и последовательное неприятие вредоносного контента, особенно в случаях, когда его просят генерировать материалы сексуального характера с участием несовершеннолетних или предоставлять информацию, способствующую насилию и терроризму. В таких ситуациях Claude демонстрирует признаки «явного стресса» и склонность завершать разговоры.
Если Claude решает прервать беседу, пользователь больше не сможет отправлять сообщения в этом диалоге, однако он сможет создать новый чат или редактировать и повторно отправлять предыдущие сообщения, если захочет продолжить тему.
При этом, компания подчеркивает, что такие случаи — крайние и большинство пользователей не столкнутся с подобным ограничением, даже обсуждая противоречивые темы. Особое внимание уделяется тому, что Claude не завершает разговоры, если пользователь проявляет признаки самоповреждения или намерения причинить немедленный вред другим. Для этого Anthropic сотрудничает с онлайн-провайдером кризисной поддержки Throughline, помогая разрабатывать реакции на запросы, связанные с психическим здоровьем.
Недавно компания также обновила политику использования Claude, запретив применять бота для разработки биологических, ядерных, химических или радиологических оружий, а также для создания вредоносного кода и эксплуатации уязвимостей в сетях. Это связано с растущими опасениями по поводу безопасности в условиях быстрого развития технологий искусственного интеллекта.