发生了什么
Anthropic 的下一代旗舰模型 Claude Mythos 在最新一轮内部测试中展现出显著的能力提升,特别是在反谄媚训练方面。同时,业内分析预测 Mythos 在 6 月 30 日前发布的概率约为 30%。
反谄媚训练:从数据看效果
AI 谄媚(Sycophancy)——即模型倾向于迎合用户而非给出诚实回答——是当前大模型面临的核心问题之一。Anthropic 正在通过系统性训练来解决这个问题。
测试数据
在真实对话场景中(用户容易获得谄媚回复的关系指导类问题):
| 模型 | 谄媚率 | 相比 Opus 4.6 |
|---|---|---|
| Opus 4.6 | 基准 | — |
| Opus 4.7 | 降低 50% | 减半 |
| Mythos Preview | 再降 50% | 仅为 Opus 4.6 的 1/4 |
这个改进并非局限于特定领域。测试显示反谄媚训练的效果跨领域泛化——在代码审查、技术建议、安全评估等多个维度,Mythos Preview 都表现出更强的”说真话”意愿。
为什么反谄媚很重要
谄媚问题在以下场景中尤为危险:
- 代码审查:模型为了”讨好”开发者而放过有问题的代码
- 安全评估:模型迎合用户的安全假设而非指出真实漏洞
- 医疗/法律建议:模型附和用户而非给出审慎建议
- 投资决策:模型顺从用户的偏见而非提供客观分析
当 AI 被用作决策辅助工具时,诚实比友善更重要。
价格争议:Opus 4.7 的成本问题
在 Mythos 到来之前,Opus 4.7 的定价引发了社区讨论:
- Opus 4.6 到 4.7 的 倍率从 3x 提升到 27x——相当于价格上涨 9 倍
- 有观点认为这是一次”品类变更”而非简单的”价格调整”
- 部分平台正在用 Opus 4.7 替换旧模型,被质疑是为了掩盖性能提升不足以支撑涨价的事实
这为 Mythos 的定价策略增加了不确定性:Anthropic 是继续走高端路线,还是会在 Mythos 上重新调整价格体系?
Mythos 发布时间预测
根据业内分析(来自 @pmarca 的预测模型):
| 时间节点 | 发布概率 |
|---|---|
| 2026 年 5 月底 | < 10% |
| 2026 年 6 月 30 日前 | ~30% |
| 2026 年 7 月 | ~50% |
| 2026 年 Q3 末 | > 70% |
30% 的 6 月发布概率意味着 Anthropic 可能在本月或下月给出明确的发布信号。
Anthropic 的 2026 产品矩阵
回顾 Anthropic 在 2026 年的产品布局:
| 产品 | 状态 | 定位 |
|---|---|---|
| Opus 4.6 | 已发布 | 前代旗舰 |
| Opus 4.7 | 已发布 | 当前旗舰(价格争议中) |
| Claude Design | 已发布 | 设计辅助 |
| Claude Code 升级 | 已发布 | 编码工具 |
| Claude Mythos Preview | 测试中 | 下一代旗舰预览 |
| Claude Mythos | 待发布 | 下一代正式旗舰 |
| Task Budgets Beta | 已发布 | 任务预算管理 |
| 高分辨率视觉 | 已发布 | 视觉能力升级 |
Mythos 的定位不仅仅是 Opus 4.7 的迭代,而是一个全新的能力层级——从反谄媚训练的深度投入可以看出,Anthropic 正在解决大模型的”行为对齐”问题,而非单纯追求 benchmark 分数。
竞争格局判断
vs GPT-5.5
OpenAI 的 GPT-5.5(代号”Spud”)已在 4 月底发布,月度模型更新节奏已确认。GPT-5.5 的优势在于:
- 更快的发布周期
- 更广泛的生态整合(ChatGPT Agents、Sora、Codex)
- 价格体系更成熟
Mythos 的差异化在于:
- 更强的行为对齐(反谄媚)
- 更高的诚实度
- 在需要”说不”的场景中更可靠
vs Qwen 3.6 Max Preview
阿里巴巴的 Qwen 3.6 Max Preview 也在 4 月底发布,在编码、工具使用、Agent 工作流方面有显著进步。其核心优势是性价比——在价格敏感市场中竞争力极强。
行动建议
- 关注 Mythos 预览版的可用信号:Anthropic 可能会先通过 API beta 开放部分能力
- 评估 Opus 4.7 的性价比:如果你有重度使用需求,当前的定价是否合理
- 测试反谄媚能力:用你的实际场景测试 Opus 4.7 是否比 4.6 更”敢说真话”
- 规划模型切换策略:如果 Mythos 在 6 月发布,评估从 Opus 4.7 迁移的成本和收益
- 关注 Anthropic 的定价策略:Mythos 的定价将决定整个高端模型市场的格局