
OpenAI представила новый тест GDPval, который оценивает, насколько искусственный интеллект справляется с задачами, обычно выполняемыми профессионалами в разных отраслях. Этот тест служит ранним показателем того, насколько близки модели OpenAI к тому, чтобы превзойти людей в экономически значимой работе — одной из главных целей компании по созданию искусственного общего интеллекта (AGI).
Результаты показывают, что модель GPT-5 и Anthropic Claude Opus 4.1 уже достигают качества работы, сравнимого с экспертами в индустрии. Однако это не значит, что ИИ сразу заменит людей на рабочих местах. В настоящее время GDPval охватывает ограниченный набор задач, с которыми сталкиваются специалисты в реальной жизни, но это важный шаг в оценке прогресса ИИ.
Тест GDPval охватывает девять ключевых отраслей экономики США, включая здравоохранение, финансы, производство и государственный сектор. Оценка проводится по 44 профессиям — от инженеров-программистов до медсестер и журналистов.
В ходе теста опытные специалисты сравнивали отчёты, созданные ИИ, с отчетами, подготовленными людьми, выбирая лучший вариант. Например, инвестиционные банкиры составляли анализ конкурентов в сфере доставки последней мили и сравнивали свои результаты с отчетами, созданными ИИ. Результаты показывают, что усовершенствованная версия GPT-5 превосходит или равна экспертам в 40,6% случаев.
Модель Claude Opus 4.1 показала еще более высокий результат — 49%, чему, по мнению OpenAI, способствовало создание привлекательной визуальной информации, а не только качество выполнения задач.
Следует отметить, что большинство специалистов выполняют гораздо более широкий круг задач, чем просто подготовка отчетов, и OpenAI планирует создать более комплексные тесты, которые смогут учитывать это разнообразие.
Тем не менее, прогресс заметен. Главный экономист OpenAI доктор Аарон Чаттерджи отметил, что такие результаты позволяют специалистам использовать ИИ для выполнения рутинной работы и сосредотачиваться на более важных задачах. Эксперты компании уверены, что с улучшением возможностей ИИ эффективность его использования в профессиональной деятельности будет только расти.
Ранее GPT-4o набирал всего 13,7% в аналогичных тестах, и нынешний скачок до почти 41% говорит о стремительном развитии технологий. В то время как многие популярные тесты уже достигли насыщения, новые бенчмарки, такие как GDPval, становятся ключевыми для оценки реальной ценности ИИ в профессиях. Для окончательного утверждения о превосходстве ИИ над людьми потребуется более широкий и глубокий анализ.


