В марте 2026 года MiniMax выпустила модель M2.7. Это не просто еще одна «модель с большим количеством параметров и лучшими показателями», а введение нового парадигмы обучения моделей: глубокое участие модели в итерационном процессе собственного обучения.
Основная инновация: самоэволюция модели
Ключевой момент M2.7 можно выразить одной фразой:
Модель больше не является объектом обучения, а становится активным участником процесса обучения.
Конкретные механизмы:
- Создание Agent Harness: M2.7 управляет сложными рабочими процессами агента.
- Цикл усиленного обучения: Через обратную связь от выполненных задач агентом, модель непосредственно участвует в оптимизации своих стратегий.
- Самообновление: Модель постоянно улучшается в задачах программирования, таких как SWE-bench, формируя замкнутый цикл.
Это принципиально отличается от традиционного RLHF (усиленного обучения с человеческой обратной связью) — где RLHF зависит от предпочтений, предоставляемых людьми, тогда как в цикле самоэволюции M2.7 модель самостоятельно обнаруживает ошибки, исправляет проблемы, проверяет результаты, формируя цикл оптимизации без участия человека.
Производительность на SWE-bench
M2.7 демонстрирует производительность, близкую к уровню Anthropic Opus, на SWE-bench. Хотя точные данные не были полностью раскрыты в официальных материалах, сравнительные данные сообщества показывают:
| Модель | SWE-bench (оценочно) | Цена ($/M входных данных) |
|---|---|---|
| Claude Opus 4.7 Max | 87.6% | $15.00 |
| MiniMax M2.7 | ≈ 82-85% | $0.30 |
| Kimi K2.6 | ≈ 80-83% | ~$0.50 |
| DeepSeek V4-Pro | ≈ 80-83% | $0.60 |
| GPT-5.5 | ≈ 83-85% | $5.00 |
Учитывая, что цена за миллион токенов для M2.7 составляет всего $0.30 (около 2,1 юаня), ее соотношение цены и качества в области программирования чрезвычайно конкурентоспособно.
Ценообразование: продолжение ценовой войны отечественных моделей
Цены на API основных моделей в марте 2026 года:
| Модель | Входные данные ($/M) | Выходные данные ($/M) |
|---|---|---|
| Grok | $0.20 | - |
| MiniMax M2.7 | $0.30 | Не раскрыто |
| DeepSeek V4 | ~$0.60 | ~$1.20 |
| GPT-5.5 | $5.00 | $30.00 |
| Claude Opus 4.7 | $15.00 | $75.00 |
Стратегия ценообразования MiniMax очень агрессивна — предлагая производительность, близкую к Opus, по цене, сопоставимой с DeepSeek. Для рабочих процессов агентов, требующих большого количества вызовов API, разница в затратах может быть на порядок значительнее.
Значение и риски самоэволюции
Почему важна самоэволюция
Бутылочное горлышко традиционного обучения моделей заключается в следующем:
- Зависимость от данных: требуется большое количество высококачественных тренировочных данных.
- Человеческая разметка: RLHF требует большого числа людей для разметки.
- Циклы итерации: каждый обновленный выпуск модели занимает несколько месяцев.
Если подход самоэволюции M2.7 окажется успешным, это означает:
- Модель может постоянно учиться из реального использования.
- Циклы итерации могут сократиться с месячных до недельных или даже дневных.
- Оптимизация в конкретных областях может стать более точной.
Потенциальные риски
Самоэволюция также имеет свои опасности:
- Риск деградации способностей: если сигналы обратной связи в цикле агента будут искажены, модель может улучшать одну способность, одновременно ухудшая другие.
- Проблемы безопасности: самообучение может обходить установленные человеком ограничения безопасности.
- Непрозрачность: решения, принятые моделью в ходе самостоятельного цикла, становятся труднее отследить.
Сравнение с другими отечественными моделями
| Критерий | MiniMax M2.7 | Kimi K2.6 | DeepSeek V4-Pro | GLM-5.1 |
|---|---|---|---|---|
| Программирование | Близко к Opus | Начальный уровень | Начальный уровень | Начальный уровень |
| Самооптимизация | ✅ Агентское усиленное обучение | ❌ | ❌ | ❌ |
| Открытость кода | Частично | Открытые веса | Полностью открыт (MIT) | Частично открыт |
| Цена | Очень выгодная | Выгодная | Выгодная | Очень выгодная |
| Зрелость экосистемы | Средняя | Высокая | Высокая | Средняя |
MiniMax M2.7 является единственной отечественной моделью, которая сделала реальные шаги в направлении «самоэволюции». Это дает ей уникальное преимущество в долгосрочной конкурентоспособности.
Рекомендации по применению
Подходящие сценарии для MiniMax M2.7
- Высокочастотные рабочие процессы программирования с использованием агентов: сценарии генерации, проверки и исправления кода, требующие большого числа вызовов API.
- Проекты с ограниченным бюджетом: команды, имеющие ограниченный бюджет, но требующие высокого качества программирования.
- Технологические новинки: разработчики и исследователи, желающие опробовать эффекты самоэволюции модели.
Неподходящие сценарии
- Основные системы в производственной среде: стабильность самоэволюционирующей модели требует дополнительного времени для проверки.
- Сцены, требующие объяснимости: если процесс принятия решений должен быть подвержен аудиту, рекомендуется выбрать более зрелую модель.
- Непрограммирование: преимущества M2.7 сосредоточены в области программирования, общие задачи могут быть лучше выполнены другими моделями.
Сигналы практического применения отечественного ИИ в 2026 году
Президент MiniMax ранее публично заявил, что с версии M2.5 продукт “уже стал практичным”, а M2.7 еще больше усилил возможности программного агента. Учитывая, что Kimi 2.5, GLM-5, MiniMax M2.5 перешли порог “практической применимости” в начале 2026 года, 2026 год действительно можно считать годом практического применения отечественного ИИ.
Пока еще рано говорить, будет ли модель самоэволюции M2.7 представлять будущее обучения моделей, но она уже доказала одно: китайские компании-производители моделей больше не просто следуют технологическим путям OpenAI и Anthropic, а исследуют новые пути инноваций.
Основные источники: