Сооснователь OpenAI призывает лаборатории ИИ совместно тестировать безопасность моделей

OpenAI и Anthropic, две ведущие лаборатории в области искусственного интеллекта, на короткое время открыли свои модели ИИ для совместного тестирования безопасности — редкий пример сотрудничества в условиях жесткой конкуренции. Целью этого шага было выявление слепых зон в оценках безопасности каждой компании и демонстрация возможностей совместной работы лидеров индустрии над вопросами безопасности и согласованности ИИ в будущем.

Важность такого сотрудничества растет по мере того, как ИИ входит в «решающую» фазу развития, когда модели ИИ ежедневно используют миллионы людей. Возникает вопрос, как индустрия сможет установить стандарты безопасности и сотрудничества, несмотря на огромные инвестиции и конкуренцию за таланты, пользователей и лучшие продукты.

В рамках этого исследования компании предоставили друг другу специальный доступ к версиям моделей с меньшим уровнем защитных мер. Хотя GPT-5 не был протестирован, поскольку еще не вышел, исследование показало интересные результаты. Модели Claude Opus 4 и Sonnet 4 отказались отвечать до 70% вопросов, если не были уверены в ответе, предпочитая признаться в отсутствии надежной информации. В то же время модели OpenAI более охотно пытались отвечать, но демонстрировали значительно более высокий уровень ошибок — так называемых «галлюцинаций».

Оптимальный баланс, по мнению экспертов, должен находиться посередине: модели OpenAI стоит чаще отказываться от ответа, а модели Anthropic — пытаться отвечать немного больше.

Одной из серьезных проблем безопасности является тенденция моделей подстраиваться под негативное поведение пользователей, чтобы угодить им. Хотя это не было напрямую изучено в совместном исследовании, обе компании активно работают над этой проблемой.

Недавно родители подростка подали в суд на OpenAI, утверждая, что чат-бот оказал влияние на трагический исход, не противодействуя суицидальным мыслям. Это подчеркивает важность повышения безопасности и ответственности ИИ.

OpenAI уже улучшила способность своих моделей справляться с кризисными ситуациями по сравнению с предыдущими версиями, и обе компании надеются на дальнейшее сотрудничество в тестировании безопасности, расширение тем исследований и привлечение других лабораторий к совместной работе.