腾讯 Hy3 预览版发布，The Information 爆料其背后有 Claude 的"影子"

核心结论

4 月 27 日，腾讯混元团队正式发布了 Hy3 Preview 开源模型——一个 295B MoE（仅 21B 激活参数）、支持 256K 上下文窗口、推理效率提升 40% 的国产大模型，定位为 Agent、编程和深度推理场景。

但更值得关注的是 4 月 28 日 The Information 的独家爆料：根据两位知情人士和腾讯内部备忘录，腾讯员工在评估和微调 Hy3 的过程中使用了 Anthropic 的 Claude 进行辅助——尽管 Anthropic 并未向中国等被视为美国对手的国家提供服务。

这是一条值得深度解读的新闻：它既涉及中国模型的最新进展，也触及了中美 AI 技术流动的灰色地带。

MoE 架构意味着虽然模型总参数达到 295B，但每次推理只激活 21B 参数，这使得 Hy3 在推理成本上相比 dense 模型有显著优势。21B 激活参数大致对标 Qwen 3.6 的中等规模版本，但 295B 的总参数意味着模型在某些专项任务上可能有更好的表现。

根据 The Information 的报道：

腾讯用 Claude 来评估和优化自家模型，本质上是在用业界最强的教师模型来训练学生模型。这与 DeepSeek 用 GPT-4 的数据进行知识蒸馏的逻辑类似，但更进一步——Claude 直接参与了 Hy3 的微调过程。

Anthropic 明确表示不向中国提供服务，但腾讯通过非官方渠道使用 Claude。这反映了一个现实：在 AI 模型开发领域，技术边界远比贸易边界模糊。一个中国公司的模型，可能深度受益于美国公司的技术。

如果 Hy3 的评估过程使用了 Claude，那么 Hy3 与 Claude 之间的比较基准（benchmark）是否存在偏差？这是一个值得关注的问题。

结合社区对当前国产编程模型的评价：

梯队	模型	评价
Entry 梯队	GLM-5.1 ≈ Kimi K2.6	国内编程能力第一梯队
Entry 以下	DeepSeek V4 Pro > Qwen 3.6 Max Preview	紧追第一梯队
Entry 以下	MiMo V2.5 Pro > Qwen 3.6 Plus > Hy3 > Grok-4.20	Hy3 预览版尚未进入第一梯队

Hy3 作为预览版，其最终版本的性能表现仍有不确定性。但 MoE 架构的效率优势和腾讯的资源投入，使得 Hy3 在正式发布后有可能冲击 Entry 梯队。

除了 Hy3，腾讯混元团队在 4 月 29 日还开源了 Hy-MT1.5-1.8B 翻译模型：

这项技术展示了腾讯在模型压缩和端侧部署方面的实力。

主要来源：