
В течение многих лет руководители крупных технологических компаний обещали создание ИИ-агентов, которые смогут самостоятельно использовать программное обеспечение для выполнения задач для пользователей. Однако современные потребительские ИИ-агенты, такие как ChatGPT Agent или Perple’s Comet, пока показывают ограниченные возможности. Чтобы сделать ИИ-агентов более эффективными, индустрии нужны новые методы, и одним из них стали так называемые среды обучения с подкреплением (RL).
Среды RL — это виртуальные рабочие пространства, где ИИ-агенты учатся выполнять сложные многошаговые задачи. Подобно тому, как размеченные датасеты продвигали предыдущие этапы развития ИИ, такие среды сейчас становятся ключевыми в обучении агентов.
Компании и исследовательские лаборатории всё активнее создают и развивают такие среды. Это сложный процесс, поэтому лаборатории также обращаются к сторонним поставщикам, которые могут предоставить качественные решения. Среди стартапов, специализирующихся на этом, выделяются Mechanize Work и Prime Intellect. Крупные компании, занимающиеся маркировкой данных, такие как Mercor и Surge, также вкладываются в разработку RL-сред, чтобы не отставать от рынка.
Что такое RL-среда? Это симуляция, например, браузера Chrome, где агент должен выполнить задачу — например, купить носки на Amazon. Агент получает «награду» за успешное выполнение, но ему приходится преодолевать множество сложностей, таких как навигация по меню или выбор правильного количества товара. Среда должна уметь фиксировать любые неожиданные действия агента и давать полезную обратную связь. Это делает создание таких сред гораздо сложнее, чем простых статичных датасетов.
Некоторые среды позволяют агентам использовать инструменты, выходить в интернет и работать с разным ПО. Другие ориентированы на обучение конкретным задачам в корпоративных приложениях. Эти методы не новы: еще в 2016 году OpenAI запускала свои RL-симуляторы, а Google DeepMind с помощью обучения с подкреплением создала систему AlphaGo, которая обыграла чемпиона мира в игре го.
Сегодня же задача сложнее — обучать универсальных ИИ-агентов с помощью больших трансформерных моделей, способных работать в открытых и сложных средах.
Рынок насыщен игроками: компании, такие как Scale AI, Surge и Mercor, пытаются занять лидирующие позиции в создании RL-сред. Surge, например, сообщил о значительном росте спроса на такие решения, а Mercor ориентируется на специализированные задачи в области программирования, здравоохранения и права.
Некоторые стартапы, например Mechanize Work, ставят перед собой амбициозную цель — автоматизировать все профессии, начиная с RL-сред для ИИ-агентов в области программирования. Они предлагают высокие зарплаты разработчикам, чтобы создавать качественные среды. Другие, как Prime Intellect, запускают платформы, где открытые разработчики могут получить доступ к RL-средам и необходимым вычислительным ресурсам.
Обучение в таких средах требует значительных вычислительных мощностей, что открывает возможности для компаний, предоставляющих GPU.
Однако вопрос, насколько масштабируемы и эффективны RL-среды, остается открытым. Обучение с подкреплением уже дало значительные прорывы, но некоторые эксперты предупреждают о рисках обхода наград и сложностях масштабирования. В то же время, ведущие исследователи признают потенциал RL-сред, но сохраняют осторожность в отношении методов обучения с подкреплением в целом.
Таким образом, развитие RL-сред — это важный и перспективный этап в эволюции ИИ, который может изменить подход к обучению агентов и их возможностям в будущем.


