MiMo-V2.5 тест-драйв: 4 часа без перерыва — клон macOS, насколько хороша работа с размытыми инструкциями?

MiMo-V2.5 тест-драйв: 4 часа без перерыва — клон macOS, насколько хороша работа с размытыми инструкциями?

Серия Xiaomi MiMo-V2.5 официально стала open source. Параметры и бенчмарки уже в сети. Эта статья не складывает числа — отвечает на один вопрос:

Может ли open-source модель заменить закрытые модели в реальных задачах?

Тестировали по трём направлениям: долгосрочное программирование, понимание размытых инструкций, голосовые возможности. Вывод в начале — работает, а в некоторых сценариях даже лучше ожиданий.

Долгосрочное программирование: 4 часа без перерыва, 672 вызова инструментов

Тест 1: Компилятор с нуля (проект SysY Пекинского университета)

  • Время: 4.3 часа
  • Вызовы инструментов: 672
  • Оценка: 233/233, максимум
  • Без перерывов, без вмешательства человека

Тест 2: Клон macOS за 4 часа

React 18 + TypeScript + Zustand + Tailwind CSS + Vite, 68 компонентов, 54 нативных приложения. 4 часа, без прерываний, без ручного перехвата.

Понимание размытых инструкций

Дана только одна строка: «Сделай сайт в стиле гор — как дорожный журнал, естественно, тихо, с ощущением простора».

Без цветовой схемы, шрифтов, макета, спецификаций анимаций. MiMo-V2.5 создала полноценный продукт с параллакс-скроллингом, частицами, мягким свечением за курсором и интерактивными элементами.

Голосовые возможности: полный набор TTS + ASR

  • TTS: создание голоса из текстового описания, zero-shot клонирование
  • ASR: SOTA для китайского и английского, кантонский, сычуаньский, у, миньнань. Точность транскрипции кантонского: 99.999%

Сравнение с закрытыми моделями

ПараметрMiMo-V2.5-ProClaude Opus 4.6
SWE-bench Pro~OpusБазовый
ClawEval Pass³64%Сравнимо
Токенов на траекторию~70K120-180K
Контекстное окно1M-
ЛицензияMIT open sourceЗакрытая

Рекомендация

Использовать сейчас: команды Agent-систем, долгосрочные задачи программирования, сценарии для нетехнических пользователей. Подождать: реальное развёртывание, независимые проверки сообществом.

Основные источники