
В минувшие выходные инженер-программист и исследователь Нил Сомани испытал новые возможности модели OpenAI в решении сложных математических задач и обнаружил нечто неожиданное. После того как он передал задачу ChatGPT и дал модели 15 минут на размышления, получил полный и корректный ответ. Сомани проверил доказательство и формализовал его с помощью специального инструмента — все оказалось верно.
«Мне было интересно понять, когда большие языковые модели действительно способны решать открытые математические задачи, а где они испытывают трудности», — рассказал Сомани. Оказалось, что с последней версией модели границы возможностей заметно сдвинулись вперёд.
ChatGPT продемонстрировал впечатляющий ход рассуждений, используя математические аксиомы, такие как формула Лежандра, постулат Бертрана и теорему Звезды Давида. В итоге модель обнаружила пост на Math Overflow от 2013 года, где известный математик из Гарварда Ноам Элкис предложил элегантное решение похожей задачи. Однако итоговое доказательство ChatGPT отличалось от работы Элкиса и давало более полное решение версии задачи, сформулированной легендарным математиком Полем Эрдёшем, чьи нерешённые задачи стали настоящим испытательным полигоном для ИИ.
Для скептиков в области машинного интеллекта такие результаты стали настоящим сюрпризом. Искусственный интеллект уже широко используется в математике: от моделей, ориентированных на формализацию доказательств, до инструментов для обзора научной литературы. С выходом GPT 5.2, которую Сомани описывает как обладающую более высокими способностями к математическому рассуждению, число решённых задач резко возросло, что вызывает новые вопросы о потенциале больших языковых моделей в расширении человеческих знаний.
Сомани изучал задачи Эрдёша — свыше тысячи гипотез венгерского математика, поддерживаемых в открытом доступе. Эти задачи привлекают внимание ИИ-математиков из-за разнообразия тематики и уровня сложности. Первые автономные решения появились в ноябре с помощью модели AlphaEvolve на базе Gemini, а недавно GPT 5.2 продемонстрировала высокий уровень владения сложной математикой.
С Рождества 15 задач со статусом «открытых» были переведены в «решённые» на сайте с задачами Эрдёша, и в 11 случаях в решениях отмечалось участие ИИ.
Знаменитый математик Терренс Тао более подробно анализирует прогресс на своей странице в GitHub, отмечая восемь задач, в которых ИИ достиг значительного самостоятельного прогресса, и шесть случаев, где ИИ помог, находя и развивая предыдущие исследования. Хотя до полностью автономного решения математических задач ИИ пока далеко, становится очевидна важная роль больших моделей в этом процессе.
Тао предположил, что масштабируемость ИИ делает его особенно подходящим для систематического решения менее известных, но часто более простых задач Эрдёша, многие из которых имеют относительно прямолинейные решения. Это означает, что многие из таких задач теперь, вероятно, будут решаться полностью ИИ, а не человеком или гибридными методами.
Одним из факторов прогресса стала новая тенденция к формализации — кропотливой работе по структурированию математических доказательств для их более простой проверки и развития. Хотя формализация не требует использования ИИ, появление автоматизированных инструментов значительно упростило этот процесс. Открытый «помощник по доказательствам» Lean, разработанный в Microsoft Research, получил широкое распространение, а инструменты, подобные Aristotle от Harmonic, обещают автоматизировать значительную часть работы.
Основатель Harmonic Тудор Аким считает, что важнее не столько количество решённых задач, сколько то, что выдающиеся математики начинают серьёзно использовать эти инструменты. «Для меня важнее то, что профессора математики и информатики применяют ИИ-инструменты, ведь у них есть репутация, которую нужно защищать. Когда такие учёные открыто говорят, что используют Aristotle или ChatGPT, это реальное доказательство эффективности», — отметил он.


