Google представила новую модель искусственного интеллекта Gemini 2.5 Computer Use, которая способна взаимодействовать с веб-браузером так же, как это делает обычный пользователь. Эта модель может кликать, прокручивать страницы и вводить текст в браузере, чтобы получать доступ к информации, недоступной через API.
Gemini 2.5 использует возможности визуального восприятия и логического анализа для выполнения различных задач, таких как заполнение и отправка форм. Это особенно полезно для тестирования пользовательских интерфейсов или навигации по сайтам, которые не имеют специального API для взаимодействия.
В отличие от других аналогичных решений, модель Google работает исключительно в браузере, без доступа к операционной системе компьютера. В настоящее время она поддерживает 13 видов действий, включая открытие браузера, набор текста и перетаскивание элементов.
Google уже предоставила доступ к модели разработчикам через Google AI Studio и Verte AI, а также предлагает демонстрационную версию на платформе Browserbase, где можно наблюдать, как ИИ выполняет различные задачи — например, играет в игру 2048 или просматривает популярные обсуждения на Hacker News.
Эта инновация открывает новые возможности для автоматизации сложных действий в интернете и делает взаимодействие с цифровым миром более естественным и удобным.


