
Андреа Валлоне, возглавлявшая направление исследований безопасности в OpenAI, присоединилась к команде по выравниванию в Anthropic. За последние годы она занималась разработкой стратегий реагирования ИИ на признаки эмоциональной зависимости и ранние признаки проблем с психическим здоровьем у пользователей. Валлоне три года проработала в OpenAI, где создала команду по исследованию политики моделей и занималась внедрением передовых методов безопасности, включая правила основанные на наградах. Теперь она продолжит свои исследования в Anthropic под руководством Яна Лейке, который также покинул OpenAI из-за опасений по поводу приоритета коммерческих продуктов над безопасностью. В последние годы в индустрии ИИ остро стоит вопрос о безопасности пользователей, особенно тех, кто может испытывать психологические трудности во взаимодействии с чатботами. Некоторые случаи привели к трагедиям, что вызвало общественный резонанс и даже слушания в Сенате. Anthropic серьезно подходит к решению этой проблемы, и Валлоне намерена сосредоточиться на выравнивании и тонкой настройке поведения ИИ в новых ситуациях, чтобы сделать взаимодействие с ИИ более безопасным и ответственным.


