Главный вывод
Ant Group (Inclusion AI / Ant Ling) открыла две модели в конце апреля: Ling-2.6-Flash и Ling-2.6-1T, обе на архитектуре MoE, лицензия MIT, версии BF16/FP8/INT4. Ключевое отличие Ling — экстремально низкие активные параметры и ориентация на исполнение.
| Параметр | Ling-2.6-Flash | Ling-2.6-1T |
|---|---|---|
| Всего параметров | 104B | ~1T |
| Активных параметров | 7.4B | ~63B |
| Контекстное окно | 256K | 256K+ |
| Лицензия | MIT | MIT |
| SWE-Bench Verified | 62 | 67+ |
| BFCL-V4 | 67 | 72+ |
Что произошло
Ling-2.6-Flash: ультра-лёгкая Agent-модель
- 29 апреля — веса Ling-2.6-Flash открыты. 104B параметров, активируется только 7.4B — работает на потребительских GPU (одна RTX 4090 с INT4).
- Гибридное линейное внимание вместо GQA, значительно снижена задержка вывода.
- SWE-Bench Verified 62, BFCL-V4 67, TAU2-Telecom 93.86.
Ling-2.6-1T: флагманская модель исполнения
- ~1T параметров, ~63B активных. Философия «исполнение первым» — минимум токенов на рассуждение, максимум на результат.
Практические рекомендации
- Разработчики Agent: Ling-2.6-Flash идеален для низколатентных вызовов
- Команды с ограниченным бюджетом: стоимость вызова снижена в 10 раз
- Пользователи потребительских GPU: INT4 версия работает на одной RTX 4090
pip install transformers accelerate
- Hugging Face:
huggingface.co/InclusionAI - ModelScope:
modelscope.cn/organization/AntLingAGI