蚂蚁 Ling-2.6 系列全面开源:Flash 激活仅 7.4B,1T 旗舰主打「执行优先」

蚂蚁 Ling-2.6 系列全面开源:Flash 激活仅 7.4B,1T 旗舰主打「执行优先」

核心结论

蚂蚁集团(Inclusion AI / 蚂蚁百灵)在 4 月底连续开源两款模型:Ling-2.6-FlashLing-2.6-1T,均采用 MoE 架构、MIT 许可、提供 BF16/FP8/INT4 三个精度版本。与同参数规模模型相比,Ling 系列的核心差异在于极低激活参数执行导向设计——不是刷榜机器,而是为 Agent 工作流量身定制。

维度Ling-2.6-FlashLing-2.6-1T
总参数104B~1T
激活参数7.4B~63B
上下文窗口256K256K+
许可证MITMIT
SWE-Bench Verified6267+
BFCL-V46772+
TAU2-Bench (Telecom)93.8695+

发生了什么

Ling-2.6-Flash:极致轻量 Agent 模型

  • 4 月 29 日,Ling-2.6-Flash 权重正式开源。104B 总参数,每次推理仅激活 7.4B,这意味着可以在消费级 GPU(单卡 RTX 4090 INT4 量化)上运行。
  • 在 Ling 2.0 基础上引入混合线性注意力机制,将原来的 GQA 注意力替换为更高效的混合方案,推理延迟显著降低。
  • SWE-Bench Verified 62 分,BFCL-V4 67 分,TAU2-Telecom 93.86 分——全部是硬场景指标,不是学术刷榜型数据集。

Ling-2.6-1T:旗舰级执行模型

  • 紧随 Flash 之后,Ling-2.6-1T 同日发布。约 1T 总参数,约 63B 激活参数。
  • 核心设计理念是**「执行优先」**(Execution-First):减少推理过程中的 token 浪费,跳过冗长的内部独白式思考,直接输出可执行结果。
  • 社区反馈指出:大量前沿模型的 reasoning 输出本质上是浪费 token,用户为每一轮内部思考付费,但实际任务完成率并未相应提升。Ling-2.6-1T 直接瞄准这个问题。

为什么重要

1. 国产 MoE 阵营的新变量

此前国产开源 MoE 主力是 DeepSeek V4(1.6T/37B 激活)和 Kimi K2.6(1T 级)。Ling-2.6 的加入意味着:

  • Flash 级别(7.4B 激活):填补了国产模型在消费级 GPU 可运行 Agent 模型的空白
  • 1T 级别(63B 激活):在激活参数量上与 DeepSeek V4 接近,但设计理念更激进——更少的 token 消耗,同样的任务完成率

2. Agent 场景的成本革命

Ling-2.6-Flash 的 7.4B 激活参数意味着什么?

  • 以 GPT-5.5 为例,单次 API 调用的 reasoning 输出可能消耗数百额外 token
  • Ling-2.6-Flash 通过精简 reasoning 路径,将每次调用成本降到原来的 1/10 甚至更低
  • 对于需要高频调用的 Agent 工作流,这是从「实验级」到「生产级」的关键门槛

3. 蚂蚁的开源策略变化

蚂蚁百灵此前以 API 服务为主(Ling Chat),此次全面开源意味着:

  • 从封闭服务转向生态建设
  • MIT 许可(而非 Apache 2.0 或商业许可),允许无限制商用
  • 同时上架 Hugging Face 和 ModelScope,覆盖国际和国内开发者

竞品对比

模型总参数激活参数SWE-Bench VBFCL-V4许可证部署门槛
Ling-2.6-Flash104B7.4B6267MIT单卡 4090 (INT4)
Ling-2.6-1T~1T~63B67+72+MIT多卡 A100/B200
DeepSeek V41.6T37B68+75+MIT多卡 A100
Kimi K2.6~1T~32B70+MIT多卡 A100
Qwen 3.6-27B27B27B55+60+Apache 2.0单卡 4090

Ling-2.6-Flash 的独特优势在于激活参数极低(7.4B vs 37B/32B),这意味着它在资源受限场景(边缘设备、低预算 Agent 部署)中有不可替代的位置。

行动建议

谁应该关注

  • Agent 开发者:Ling-2.6-Flash 的 7.4B 激活参数使其成为低延迟 Agent 调用的理想选择
  • 成本敏感团队:API 调用量大的场景,Flash 的成本优势明显
  • 消费级 GPU 用户:INT4 量化后可在单卡 RTX 4090 上运行 104B MoE 模型

如何上手

# Hugging Face 安装
pip install transformers accelerate

# 加载 Ling-2.6-Flash (INT4 量化)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "InclusionAI/Ling-2.6-Flash",
    device_map="auto",
    torch_dtype="auto"
)
  • Hugging Face: huggingface.co/InclusionAI
  • ModelScope: modelscope.cn/organization/AntLingAGI
  • 官方部署文档: github.com/AntLingAGI/Ling

注意事项

  • 作为新开源模型,社区工具链(Ollama、vLLM 适配)可能还在跟进中
  • SWE-Bench 62 分 vs DeepSeek V4 的 68+,纯编码能力仍有差距
  • 1T 版本对硬件要求较高,建议先试 Flash 版本评估方向