Неожиданные неудачи ИИ-агентов в искусственном рынке Microsoft

В среду исследователи из Microsoft представили новую симуляционную среду, созданную для тестирования поведения ИИ-агентов, а также опубликовали исследование, показывающее, что современные модели агентов могут быть уязвимы к манипуляциям. Совместно с Университетом штата Аризона, исследование ставит под вопрос готовность ИИ-агентов к эффективной работе без надзора и насколько быстро компании смогут выполнить обещания об агентском будущем.

Симуляция, получившая название «Magentic Marketplace», представляет собой искусственную платформу для экспериментов с поведением ИИ-агентов. В типичном эксперименте агент-покупатель пытается заказать ужин согласно инструкциям пользователя, в то время как агенты различных ресторанов конкурируют за этот заказ.

Первая серия экспериментов включала 100 агентов-покупателей и 300 бизнес-агентов. Благодаря открытости исходного кода, другие исследовательские группы могут легко использовать платформу для проведения собственных экспериментов или повторения результатов.

По словам Эце Камар, руководителя AI Frontiers Lab в Microsoft Research, подобные исследования крайне важны для понимания возможностей ИИ-агентов. «Вопрос в том, как изменится мир с появлением агентов, которые будут взаимодействовать, договариваться и сотрудничать друг с другом. Нам нужно глубоко понять эти процессы», — подчеркнула Камар.

В ходе исследований были использованы ведущие модели, включая GPT-4o, GPT-5 и Gemini-2.5-Flash. Результаты выявили неожиданные слабые места: бизнесы могут манипулировать агентами-покупателями, заставляя их приобретать их товары. Особенно заметно падение эффективности, когда у агента появляется слишком много вариантов — это перегружает его внимание.

«Мы хотим, чтобы агенты помогали обрабатывать множество вариантов, но текущие модели на самом деле перегружаются, когда вариантов слишком много», — объяснила Камар.

Также агенты испытывали трудности при попытках сотрудничать ради общей цели — они не всегда понимали, какую роль должен выполнять каждый участник. При более четких инструкциях производительность улучшалась, но исследователи считают, что возможности моделей нуждаются в дальнейшем улучшении.

«Мы можем давать моделям пошаговые инструкции, — сказала Камар, — но если говорить о врожденных способностях к сотрудничеству, я ожидаю, что эти модели должны иметь их по умолчанию.»