Moonshot AI(月之暗面)在 4 月下旬开源了 Kimi K2.6 模型。这不是一个常规的模型迭代——它在多个基准测试中接近了顶级闭源模型的水平,同时保持了完全开源和可商用的定位。
核心数据
- 架构:1T 参数 MoE(混合专家)模型
- 上下文窗口:256K tokens(训练平台支持 265K)
- 许可证:开源权重,可通过 Nous Portal、Cline、Fireworks AI 等平台直接使用
- GitHub:MoonshotAI/Kimi-K2 已获得 10,700 颗 Star
基准表现
Kimi K2.6 在多个第三方评测中表现突出:
| 评测集 | Kimi K2.6 | 对比参考 |
|---|---|---|
| LiveBench | 超越 Opus 4.7 | 开源模型中最高 |
| Terminal-Bench | 接近 GPT-5.4、Opus 4.7 | 成本约 1/6 |
| Document Arena | #8,较 K2.5-Thinking +14 分 | 开源模型第一 |
| Vision Arena | #15,较 K2.5-Thinking +9 分 | 开源视觉模型第一 |
Document Arena 和 Vision Arena 的排名由第三方社区维护,分数提升幅度值得注意。LiveBench 的超越需要关注测试集是否与训练数据存在重叠,但 Terminal-Bench 的编码表现已在多个独立实测中得到验证。
Agent 能力
Kimi K2.6 最突出的差异点是长程 Agent 能力:
- 支持 300 个并行子 Agent,从单一 prompt 启动
- 可执行 4,000 步协调操作
- 支持 12 小时自主运行
- 覆盖编码、研究、幻灯片、电子表格、数据集生成、文档编写等场景
这种规模的 Agent 编排能力在开源模型中较为少见。大多数开源模型在 Agent 场景中受限于上下文管理和工具调用的稳定性,K2.6 的设计明显针对这一问题。
可用渠道
目前已上线的平台包括:
- Nous Portal:免费试用(由 Vercel AI Gateway 支持)
- Cline:限时免费 3 天
- Fireworks AI:支持 SFT、DPO、RL 微调,265K 上下文窗口
- Cloudflare Workers:可直接部署
- Hugging Face:开放权重下载
与竞品对比
与闭源模型相比,Kimi K2.6 的成本优势显著——约为 Opus 4.7 的 1/6,比 GLM 5.1 低约 30%。但在极端推理任务(如数学竞赛级问题)上的表现仍落后于顶级闭源模型,这从 AIME 等评测中可以观察到。
对于日常编码、文档处理和中等复杂度的 Agent 任务,Kimi K2.6 提供了目前开源生态中最接近闭源前沿模型的替代方案。
快速上手
# 通过 Cline 使用
# 安装 Cline 后选择 Kimi K2.6 模型
# 通过 Hugging Face 下载权重
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("MoonshotAI/Kimi-K2.6", trust_remote_code=True)
观察点
- 开源许可证的具体商业使用限制需要仔细阅读
- 300 Agent 并发的实际硬件需求尚未有公开的最佳实践
- 中文能力表现需要更多社区实测数据支撑