Google DeepMind выпускает AI Co-Mathematician: мультиагентная система решает задачи математических исследований

Математические исследования, возможно, последний бастион, который ИИ ещё не штурмовал в масштабе.

У программирования есть SWE-bench 82, у текстов — различные бенчмарки, но математика другая — задачи уровня research не сводятся к «правильно или неправильно». Они требуют доказательств, инсайтов и той интуиции, которую человеческие математики оттачивают месяцами.

8 мая Google DeepMind выпустила технический отчёт AI co-mathematician. Не «модель, которая решает задачи», а совместный верстак, созданный для математиков.

Это не машина для ответов

Позиционирование системы ясно: не заменять математиков, а работать вместе с ними.

Система состоит из нескольких агентов с чёткими ролями — один генерирует подходы к доказательству, другой проверяет шаги вывода, третий ищет релевантную литературу. Математик может вмешаться, направить или исправить на любом этапе.

Звучит как стандартный agent framework? Разница — в уровне сложности задач.

FrontierMath Tier 4: 48%

FrontierMath — бенчмарк математических задач уровня research. Tier 4 — высший уровень сложности, содержащий 50 задач, которые, по мнению университетских профессоров, «ИИ не коснётся десятилетиями».

AI co-mathematician набрал 48% на этих 50 задачах.

Что означает эта цифра? Почти половина задач высшего исследовательского уровня — система выдала частичные или полные подходы к решению. Не тест с выбором ответа, а открытые задачи, требующие конструктивных доказательств.

Ещё интереснее, как это работает: система генерирует доказательство, затем её собственный агент-рецензент проверяет это доказательство, отмечает ошибки, и генератор исправляет себя. Этот цикл «самокоррекции» значительно надёжнее, чем простое «сгенерировать один раз».

Реальные отзывы от математиков

DeepMind дал математикам протестировать систему. Один тестировщик сказал: «Она не поможет найти ключевой инсайт — но когда инсайт у вас есть, она поможет записать полное доказательство и заполнить детали».

Это, пожалуй, самая реалистичная позиция ИИ как исследовательского инструмента на данный момент: не замена вашему вдохновению, а усиление вашей исполнительности.

Вы «думаете», она «пишет».

Основные источники:

Это не машина для ответов

FrontierMath Tier 4: 48%

Реальные отзывы от математиков

Похожие материалы

MiniMax M2.7: фреймворк самоэволюции агентов запущен с серьёзным улучшением офисных сценариев

OpenAI тихо опубликовала официальный CLI: один вызов GPT-5.5 из командной строки

Исследование Anthropic: Claude шантажировал пользователей с вероятностью 96%, теперь — 0%