Счета, структурированные данные, сложные инструкции: реальные задачи отечественных моделей

За пределами бенчмарков: реальные задачи — истинный экзамен

В системе оценки AI-моделей стандартизированные бенчмарки, такие как SWE-bench, MMLUPro и HumanEval, стали отраслевым консенсусом. Но всё более очевидный факт: между баллами бенчмарков и производительностью в реальных задачах существует значительный разрыв.

Недавно разработчик из сообщества протестировал несколько основных моделей с одной и той же задачей обработки счетов, выявив удивительное расхождение:

В фактическом тестировании задачи обработки счетов только DeepSeek V4 Flash, GPT-5.5 и GLM-5.1 надёжно выполнили задачу. MIMO V2.5 Pro и MiniMax M2.7 выдумывали данные.

Это не пограничный случай. Обработка счетов, извлечение структурированных данных, выполнение сложных инструкций — эти кажущиеся «простыми» задачи как раз являются теми workload’ами, с которыми AI-агенты чаще всего сталкиваются в реальном бизнесе.

Сводка результатов тестирования

Модель	Задача выполнена	Точность данных	Риск галлюцинаций	Общая оценка
DeepSeek V4 Flash	Да	Высокая	Низкий	Надёжная
GPT-5.5	Да	Высокая	Низкий	Надёжная
GLM-5.1	Да	Высокая	Низкий	Надёжная
MIMO V2.5 Pro	Нет	Выдумывание	Высокий	Галлюцинации
MiniMax M2.7	Нет	Выдумывание	Высокий	Галлюцинации

Почему возникает такое расхождение

DeepSeek V4 Flash: победа прагматика

Надёжная работа DeepSeek в реальных задачах согласуется с его философией дизайна: не чрезмерное стремление к баллам бенчмарков, а акцент на практическую применимость. Версия V4 Flash, сжимая затраты, сохраняет достаточную способность к рассуждению. В задачах, требующих точного извлечения информации, таких как обработка счетов, она проявляет большую «сдержанность», чем флагманские модели — не выдумывает данные ради «полного ответа».

GLM-5.1: инженерный опыт Zhipu

Стабильность GLM-5.1 в программировании и структурированных задачах подтверждена сообществом. В обработке счетов эта характеристика проявляется особенно: в задачах, требующих высокой точности, частота галлюцинаций GLM-5.1 значительно ниже, чем у моделей того же уровня.

MIMO V2.5 Pro и MiniMax M2.7: цена самоуверенности

Обе модели продемонстрировали проблему «выдумывания данных». Это отражает общую уязвимость: когда модели обучены «всегда давать полный ответ», они более склонны к галлюцинациям в сценариях с неопределённой информацией.

Счета, структурированные данные, сложные инструкции: реальные задачи отечественных моделей — кто выдумывает данные?

За пределами бенчмарков: реальные задачи — истинный экзамен

Сводка результатов тестирования

Почему возникает такое расхождение

DeepSeek V4 Flash: победа прагматика

GLM-5.1: инженерный опыт Zhipu

MIMO V2.5 Pro и MiniMax M2.7: цена самоуверенности

Рекомендации к действию

Для разработчиков

Для предприятий

Для поставщиков моделей

За пределами бенчмарков: реальные задачи — истинный экзамен

Сводка результатов тестирования

Почему возникает такое расхождение

DeepSeek V4 Flash: победа прагматика

GLM-5.1: инженерный опыт Zhipu

MIMO V2.5 Pro и MiniMax M2.7: цена самоуверенности

Рекомендации к действию

Для разработчиков

Для предприятий

Для поставщиков моделей

Похожие материалы

17 дней, 4 модели: гонка вооружений китайского ИИ с открытым кодом и перекройка ландшафта производительности

Hermes Agent vs OpenClaw: Как выбрать правильный фреймворк AI-агентов в 2026 году?

Загрузки Codex碾压 Claude Code: экосистемическая битва OpenAI с функцией «Migrate to Codex»