蚂蚁 Ling-2.6 系列全面开源：Flash 激活仅 7.4B，1T 旗舰主打「执行优先」

核心结论

蚂蚁集团（Inclusion AI / 蚂蚁百灵）在 4 月底连续开源两款模型：Ling-2.6-Flash 与 Ling-2.6-1T，均采用 MoE 架构、MIT 许可、提供 BF16/FP8/INT4 三个精度版本。与同参数规模模型相比，Ling 系列的核心差异在于极低激活参数和执行导向设计——不是刷榜机器，而是为 Agent 工作流量身定制。

维度	Ling-2.6-Flash	Ling-2.6-1T
总参数	104B	~1T
激活参数	7.4B	~63B
上下文窗口	256K	256K+
许可证	MIT	MIT
SWE-Bench Verified	62	67+
BFCL-V4	67	72+
TAU2-Bench (Telecom)	93.86	95+

发生了什么

Ling-2.6-Flash：极致轻量 Agent 模型

4 月 29 日，Ling-2.6-Flash 权重正式开源。104B 总参数，每次推理仅激活 7.4B，这意味着可以在消费级 GPU（单卡 RTX 4090 INT4 量化）上运行。
在 Ling 2.0 基础上引入混合线性注意力机制，将原来的 GQA 注意力替换为更高效的混合方案，推理延迟显著降低。
SWE-Bench Verified 62 分，BFCL-V4 67 分，TAU2-Telecom 93.86 分——全部是硬场景指标，不是学术刷榜型数据集。

Ling-2.6-1T：旗舰级执行模型

紧随 Flash 之后，Ling-2.6-1T 同日发布。约 1T 总参数，约 63B 激活参数。
核心设计理念是**「执行优先」**（Execution-First）：减少推理过程中的 token 浪费，跳过冗长的内部独白式思考，直接输出可执行结果。
社区反馈指出：大量前沿模型的 reasoning 输出本质上是浪费 token，用户为每一轮内部思考付费，但实际任务完成率并未相应提升。Ling-2.6-1T 直接瞄准这个问题。

为什么重要

1. 国产 MoE 阵营的新变量

此前国产开源 MoE 主力是 DeepSeek V4（1.6T/37B 激活）和 Kimi K2.6（1T 级）。Ling-2.6 的加入意味着：

Flash 级别（7.4B 激活）：填补了国产模型在消费级 GPU 可运行 Agent 模型的空白
1T 级别（63B 激活）：在激活参数量上与 DeepSeek V4 接近，但设计理念更激进——更少的 token 消耗，同样的任务完成率

2. Agent 场景的成本革命

Ling-2.6-Flash 的 7.4B 激活参数意味着什么？

以 GPT-5.5 为例，单次 API 调用的 reasoning 输出可能消耗数百额外 token
Ling-2.6-Flash 通过精简 reasoning 路径，将每次调用成本降到原来的 1/10 甚至更低
对于需要高频调用的 Agent 工作流，这是从「实验级」到「生产级」的关键门槛

3. 蚂蚁的开源策略变化

蚂蚁百灵此前以 API 服务为主（Ling Chat），此次全面开源意味着：

从封闭服务转向生态建设
MIT 许可（而非 Apache 2.0 或商业许可），允许无限制商用
同时上架 Hugging Face 和 ModelScope，覆盖国际和国内开发者

竞品对比

模型	总参数	激活参数	SWE-Bench V	BFCL-V4	许可证	部署门槛
Ling-2.6-Flash	104B	7.4B	62	67	MIT	单卡 4090 (INT4)
Ling-2.6-1T	~1T	~63B	67+	72+	MIT	多卡 A100/B200
DeepSeek V4	1.6T	37B	68+	75+	MIT	多卡 A100
Kimi K2.6	~1T	~32B	70+	—	MIT	多卡 A100
Qwen 3.6-27B	27B	27B	55+	60+	Apache 2.0	单卡 4090

Ling-2.6-Flash 的独特优势在于激活参数极低（7.4B vs 37B/32B），这意味着它在资源受限场景（边缘设备、低预算 Agent 部署）中有不可替代的位置。

行动建议

谁应该关注

Agent 开发者：Ling-2.6-Flash 的 7.4B 激活参数使其成为低延迟 Agent 调用的理想选择
成本敏感团队：API 调用量大的场景，Flash 的成本优势明显
消费级 GPU 用户：INT4 量化后可在单卡 RTX 4090 上运行 104B MoE 模型

如何上手

# Hugging Face 安装
pip install transformers accelerate

# 加载 Ling-2.6-Flash (INT4 量化)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "InclusionAI/Ling-2.6-Flash",
    device_map="auto",
    torch_dtype="auto"
)

Hugging Face: huggingface.co/InclusionAI
ModelScope: modelscope.cn/organization/AntLingAGI
官方部署文档: github.com/AntLingAGI/Ling

注意事项

作为新开源模型，社区工具链（Ollama、vLLM 适配）可能还在跟进中
SWE-Bench 62 分 vs DeepSeek V4 的 68+，纯编码能力仍有差距
1T 版本对硬件要求较高，建议先试 Flash 版本评估方向