Hacker News 热榜第一,313 分,115 条评论。标题叫「Qwen3.7-Max: The Agent Frontier」。
不是「新模型发布」,不是「参数创新高」——是 Agent。阿里这次把定位写得很直白。
Agent 不是锦上添花,是整盘棋
过去一年各大厂的模型发布,关键词基本是:更大上下文、更快推理速度、更低价格。这些当然重要,但说实话,它们解决的都是「单轮对话」场景下的问题。
Qwen3.7-Max 的叙事完全换了个方向。它不是在和 GPT-5.5 比 SWE-bench 分数,而是在回答一个更工程化的问题:一个模型能不能在一个真实任务里连续工作十分钟、调用十几个工具、自己修正错误、最终交付结果?
这个问题听起来没有 benchmark 排行榜刺激,但它直接决定了模型能不能从聊天框里走出来。
为什么是现在
时间点很有意思。Anthropic 上周收购了 Stainless——专门做 SDK 和 MCP 服务器的公司。OpenAI 的 GPT-5.5 也在推工具调用能力。Google 刚发布了 Gemini 3.5 Flash,明确说是「Agent 优化版」。
整个行业在同一周内把所有筹码押在 Agent 上。这不是巧合,是共识。
Agent 赛道在 2026 年初还是各家产品的可选功能,现在已经变成了「不做就出局」的基础设施。Qwen3.7-Max 的发布只是把这个趋势摆到了台面上。
Qwen 的策略变了
仔细看 Qwen 近半年的动作,你会发现一个模式:
- 之前拼参数、拼榜单,走的是「能力证明」路线
- 现在拼场景、拼集成,走的是「工程可用」路线
这个转向很务实。榜单第一名不会自动变成用户。但一个能稳定跑通 MCP 工具链、能接入现有工作流的模型,会。
阿里有云生态、有钉钉、有通义千问的应用层。Qwen3.7-Max 如果能在这些场景里跑通 Agent 流程,那它的用户获取成本会比纯 API 厂商低一个数量级。
HN 社区的讨论风向
评论区最值得看的一条是有人把 Qwen 和 Claude Code 做了对比:「Qwen 走的是开源 + 云的路线,Anthropic 走的是闭源 + 集成的路线。两条路现在都在往 Agent 汇聚,但最终的用户体验会完全不同。」
另一条更有意思:「Agent 能力的评测标准到底是什么?目前还没有公认的 benchmark。」
这句话点到了痛点。MMLU 衡量的是知识,SWE-bench 衡量的是代码修复,但 Agent 需要的是规划、工具调用、错误恢复、多步推理的综合能力。目前没有任何一个 benchmark 能完整覆盖。
我的看法
Qwen3.7-Max 不是参数最多的模型,也不是 benchmark 最炸裂的模型。但它是这个月里第一个把「Agent」写进标题、而不是藏在 feature list 最后一条的主流模型发布。
这个定位如果跑通了,Qwen 在开发者生态里的位置会从「又一个开源模型」变成「Agent 基础设施的一部分」。
不过,口号谁都会喊。真正能跑通 MCP 工具链、稳定处理长程任务的模型,目前还没出现。Qwen3.7-Max 能不能成为第一个,得看实际接入效果。
我这边会拿它跑几个真实的 Agent workflow——代码审查、API 集成测试、文档自动生成——两周后看结果。
主要来源: