После гонки больших моделей поле битвы малых моделей официально началось.
Tencent незаметно открыла исходный код модели перевода всего с 1,8 млрд параметров, предлагая квантованные версии 2bit и 1,25bit, которые работают прямо на мобильных телефонах, с оценками качества перевода, приближающимися к уровню Qwen3-32B.
Что произошло
| Параметр | Данные |
|---|---|
| Количество параметров | 1,8 млрд |
| Квантованные версии | 2bit, 1,25bit |
| Целевое устройство | Работает прямо на мобильных телефонах |
| Оценка перевода | Приближается к уровню Qwen3-32B |
| Публикатор | Tencent |
| Дата выпуска | Конец апреля 2026 г. |
Почему это важно
Этот сигнал интереснее, чем просто «ещё одна модель с открытым кодом»:
1. Специализированная малая модель > Общая большая модель
Модель перевода на 1,8 млрд параметров, достигающая качества перевода общей модели на 32 млрд параметров, демонстрирует, что для вертикальных задач хорошо настроенные малые модели могут значительно сократить количество параметров без потери качества. Технический путь за этим: дистилляция из больших моделей + специализированная настройка задач, «концентрация» общих способностей в малые модели.
2. Развёртывание на устройстве становится реальностью
Квантование 2bit и 1,25bit означает, что веса моделей могут быть сжаты до чрезвычайно малых размеров:
- Версия 2bit: примерно 450 МБ
- Версия 1,25bit: примерно 280 МБ
Запуск на мобильном телефоне не представляет труда, предоставляя жизнеспособные решения для офлайн-перевода и сценариев, чувствительных к конфиденциальности.
3. Новый конкурентный параметр для компаний больших моделей
В то время как все компании соревнуются в масштабе параметров и результатах тестов, Tencent выбрал дифференцированный путь — доведение конкретных способностей до предельно малого размера. Это по сути вызов парадигме «модель как сервис»: вместо вызова API большой модели разверните малую модель на устройстве.
Оценка ландшафта
| Тренд | Суждение |
|---|---|
| Гонка параметров | Переход от «чем больше, тем лучше» к «достаточно хорошо — достаточно» |
| Развёртывание | Гибридная архитектура облачного API + малая модель на устройстве становится mainstream |
| Фокус конкуренции | От общих способностей к точности вертикальных доменов |
| Коммерциализация | Развёртывание на устройстве снижает стоимость вывода, потенциально меняя модели ценообразования |
Рекомендации к действию
- Мобильные разработчики: Если вы создаёте функции перевода, обслуживания клиентов или локализации, квантованная модель на 1,8 млрд лучше, чем вызов облачного API — ниже задержка, контролируемые расходы, данные не покидают устройство
- Пользователи больших моделей: Если ваша основная потребность — перевод, вам не нужно платить за общие модели 32B+ — малые модели достаточны и быстрее
- Исследователи моделей: Технический маршрут дистилляции + квантования + настройки задач заслуживает пристального внимания; это может быть самый экономически эффективный путь оптимизации моделей 2026 года