Инструменты искусственного интеллекта для программирования стремительно совершенствуются. Если вы не работаете с кодом, может показаться, что изменения не так заметны, но новые модели, такие как GPT-5 и Gemini 2.5, открыли новые возможности автоматизации для разработчиков, а обновление Sonnet 2.4 лишь подтвердило этот тренд.
В то же время другие навыки ИИ развиваются гораздо медленнее. Например, если вы используете ИИ для написания писем, то, скорее всего, качество таких писем не изменилось за последний год. Даже при улучшении моделей, продукт не всегда становится лучше, особенно если это чат-бот, выполняющий сразу несколько задач. Прогресс ИИ есть, но он распределён неравномерно.
Причина этого проста: приложения для программирования выигрывают от миллиардов легко измеримых тестов, которые помогают обучать модели создавать работоспособный код. Этот метод называется обучением с подкреплением — он является главным двигателем прогресса ИИ за последние полгода и становится всё более сложным. Обучение с подкреплением лучше всего работает, когда есть чёткий критерий «сдал/не сдал», что позволяет проводить миллиарды повторений без участия человека.
Всё больше продуктов улучшается благодаря обучению с подкреплением, и мы видим разницу между навыками, которые можно автоматизированно оценить, и теми, которые нельзя. Навыки, связанные с исправлением ошибок и решением сложных математических задач, развиваются быстро, а такие, как написание текстов, — лишь постепенно.
Таким образом, существует «пробел в обучении с подкреплением», который становится ключевым фактором, определяющим возможности ИИ.
Разработка программного обеспечения — идеальная область для обучения с подкреплением. Ещё до появления ИИ существовали разнообразные тесты, проверяющие надёжность кода: модульные, интеграционные, тесты безопасности и так далее. Разработчики регулярно используют эти тесты, чтобы убедиться в качестве кода, и эти же тесты отлично подходят для проверки кода, созданного ИИ. Более того, они идеально подходят для обучения с подкреплением, так как систематизированы и масштабируемы.
А вот как проверить качество хорошо написанного письма или ответа чат-бота — задача сложная, так как эти навыки субъективны и плохо поддаются масштабному измерению. Тем не менее, не все задачи делятся на «легко тестируемые» и «сложно тестируемые». Например, для некоторых сложных областей, таких как финансовая отчётность или актуарная наука, можно создать собственные системы тестирования, если есть достаточные ресурсы.
Некоторые процессы оказываются более тестируемыми, чем кажется. Например, недавно прогресс в модели Sora 2 для генерации видео показал, что можно добиться реалистичности объектов и лиц, соблюдая законы физики. Вероятно, за этим стоит мощная система обучения с подкреплением, отвечающая за каждое из этих качеств, что позволяет создавать видеоматериалы, близкие к фотореализму.
Это не жесткое правило, а следствие того, что обучение с подкреплением занимает центральное место в развитии ИИ. Пока этот метод остаётся основным инструментом, «пробел в обучении» будет только увеличиваться, влияя на возможности стартапов и глобальную экономику. Те процессы, которые окажутся на стороне, где их можно эффективно обучать с подкреплением, скорее всего будут автоматизированы, что повлияет на рынок труда и экономику в целом. Особенно важен этот вопрос для таких сфер, как здравоохранение, где возможности автоматизации могут кардинально изменить рынок в ближайшие десятилетия.
Если прогресс, подобный Sora 2, продолжится, ответы на эти вопросы мы получим совсем скоро.


