核心结论
蚂蚁集团(Inclusion AI / 蚂蚁百灵)在 4 月底连续开源两款模型:Ling-2.6-Flash 与 Ling-2.6-1T,均采用 MoE 架构、MIT 许可、提供 BF16/FP8/INT4 三个精度版本。与同参数规模模型相比,Ling 系列的核心差异在于极低激活参数和执行导向设计——不是刷榜机器,而是为 Agent 工作流量身定制。
| 维度 | Ling-2.6-Flash | Ling-2.6-1T |
|---|---|---|
| 总参数 | 104B | ~1T |
| 激活参数 | 7.4B | ~63B |
| 上下文窗口 | 256K | 256K+ |
| 许可证 | MIT | MIT |
| SWE-Bench Verified | 62 | 67+ |
| BFCL-V4 | 67 | 72+ |
| TAU2-Bench (Telecom) | 93.86 | 95+ |
发生了什么
Ling-2.6-Flash:极致轻量 Agent 模型
- 4 月 29 日,Ling-2.6-Flash 权重正式开源。104B 总参数,每次推理仅激活 7.4B,这意味着可以在消费级 GPU(单卡 RTX 4090 INT4 量化)上运行。
- 在 Ling 2.0 基础上引入混合线性注意力机制,将原来的 GQA 注意力替换为更高效的混合方案,推理延迟显著降低。
- SWE-Bench Verified 62 分,BFCL-V4 67 分,TAU2-Telecom 93.86 分——全部是硬场景指标,不是学术刷榜型数据集。
Ling-2.6-1T:旗舰级执行模型
- 紧随 Flash 之后,Ling-2.6-1T 同日发布。约 1T 总参数,约 63B 激活参数。
- 核心设计理念是**「执行优先」**(Execution-First):减少推理过程中的 token 浪费,跳过冗长的内部独白式思考,直接输出可执行结果。
- 社区反馈指出:大量前沿模型的 reasoning 输出本质上是浪费 token,用户为每一轮内部思考付费,但实际任务完成率并未相应提升。Ling-2.6-1T 直接瞄准这个问题。
为什么重要
1. 国产 MoE 阵营的新变量
此前国产开源 MoE 主力是 DeepSeek V4(1.6T/37B 激活)和 Kimi K2.6(1T 级)。Ling-2.6 的加入意味着:
- Flash 级别(7.4B 激活):填补了国产模型在消费级 GPU 可运行 Agent 模型的空白
- 1T 级别(63B 激活):在激活参数量上与 DeepSeek V4 接近,但设计理念更激进——更少的 token 消耗,同样的任务完成率
2. Agent 场景的成本革命
Ling-2.6-Flash 的 7.4B 激活参数意味着什么?
- 以 GPT-5.5 为例,单次 API 调用的 reasoning 输出可能消耗数百额外 token
- Ling-2.6-Flash 通过精简 reasoning 路径,将每次调用成本降到原来的 1/10 甚至更低
- 对于需要高频调用的 Agent 工作流,这是从「实验级」到「生产级」的关键门槛
3. 蚂蚁的开源策略变化
蚂蚁百灵此前以 API 服务为主(Ling Chat),此次全面开源意味着:
- 从封闭服务转向生态建设
- MIT 许可(而非 Apache 2.0 或商业许可),允许无限制商用
- 同时上架 Hugging Face 和 ModelScope,覆盖国际和国内开发者
竞品对比
| 模型 | 总参数 | 激活参数 | SWE-Bench V | BFCL-V4 | 许可证 | 部署门槛 |
|---|---|---|---|---|---|---|
| Ling-2.6-Flash | 104B | 7.4B | 62 | 67 | MIT | 单卡 4090 (INT4) |
| Ling-2.6-1T | ~1T | ~63B | 67+ | 72+ | MIT | 多卡 A100/B200 |
| DeepSeek V4 | 1.6T | 37B | 68+ | 75+ | MIT | 多卡 A100 |
| Kimi K2.6 | ~1T | ~32B | 70+ | — | MIT | 多卡 A100 |
| Qwen 3.6-27B | 27B | 27B | 55+ | 60+ | Apache 2.0 | 单卡 4090 |
Ling-2.6-Flash 的独特优势在于激活参数极低(7.4B vs 37B/32B),这意味着它在资源受限场景(边缘设备、低预算 Agent 部署)中有不可替代的位置。
行动建议
谁应该关注
- Agent 开发者:Ling-2.6-Flash 的 7.4B 激活参数使其成为低延迟 Agent 调用的理想选择
- 成本敏感团队:API 调用量大的场景,Flash 的成本优势明显
- 消费级 GPU 用户:INT4 量化后可在单卡 RTX 4090 上运行 104B MoE 模型
如何上手
# Hugging Face 安装
pip install transformers accelerate
# 加载 Ling-2.6-Flash (INT4 量化)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"InclusionAI/Ling-2.6-Flash",
device_map="auto",
torch_dtype="auto"
)
- Hugging Face:
huggingface.co/InclusionAI - ModelScope:
modelscope.cn/organization/AntLingAGI - 官方部署文档:
github.com/AntLingAGI/Ling
注意事项
- 作为新开源模型,社区工具链(Ollama、vLLM 适配)可能还在跟进中
- SWE-Bench 62 分 vs DeepSeek V4 的 68+,纯编码能力仍有差距
- 1T 版本对硬件要求较高,建议先试 Flash 版本评估方向