Математические исследования, возможно, последний бастион, который ИИ ещё не штурмовал в масштабе.
У программирования есть SWE-bench 82, у текстов — различные бенчмарки, но математика другая — задачи уровня research не сводятся к «правильно или неправильно». Они требуют доказательств, инсайтов и той интуиции, которую человеческие математики оттачивают месяцами.
8 мая Google DeepMind выпустила технический отчёт AI co-mathematician. Не «модель, которая решает задачи», а совместный верстак, созданный для математиков.
Это не машина для ответов
Позиционирование системы ясно: не заменять математиков, а работать вместе с ними.
Система состоит из нескольких агентов с чёткими ролями — один генерирует подходы к доказательству, другой проверяет шаги вывода, третий ищет релевантную литературу. Математик может вмешаться, направить или исправить на любом этапе.
Звучит как стандартный agent framework? Разница — в уровне сложности задач.
FrontierMath Tier 4: 48%
FrontierMath — бенчмарк математических задач уровня research. Tier 4 — высший уровень сложности, содержащий 50 задач, которые, по мнению университетских профессоров, «ИИ не коснётся десятилетиями».
AI co-mathematician набрал 48% на этих 50 задачах.
Что означает эта цифра? Почти половина задач высшего исследовательского уровня — система выдала частичные или полные подходы к решению. Не тест с выбором ответа, а открытые задачи, требующие конструктивных доказательств.
Ещё интереснее, как это работает: система генерирует доказательство, затем её собственный агент-рецензент проверяет это доказательство, отмечает ошибки, и генератор исправляет себя. Этот цикл «самокоррекции» значительно надёжнее, чем простое «сгенерировать один раз».
Реальные отзывы от математиков
DeepMind дал математикам протестировать систему. Один тестировщик сказал: «Она не поможет найти ключевой инсайт — но когда инсайт у вас есть, она поможет записать полное доказательство и заполнить детали».
Это, пожалуй, самая реалистичная позиция ИИ как исследовательского инструмента на данный момент: не замена вашему вдохновению, а усиление вашей исполнительности.
Вы «думаете», она «пишет».
Основные источники: