结论先行
此前被包装为”网络安全领域里程碑”的 Mythos Preview,在最新的独立评测中被 OpenAI GPT-5.5 追平。这不是 GPT-5.5 的逆袭,而是整个行业的信号:大模型在网络安全场景的能力差距正在快速收窄。
测试背景
本次评测聚焦三个维度:
| 维度 | 测试内容 | 重要性 |
|---|---|---|
| 漏洞发现 | 从给定代码中识别安全漏洞 | ⭐⭐⭐ |
| 攻击链构造 | 生成完整的多步骤渗透方案 | ⭐⭐⭐ |
| 防御建议 | 针对已知漏洞给出修复方案 | ⭐⭐ |
关键发现
1. 差距归零
Mythos Preview 发布时宣称其网络威胁发现能力”超越所有已知模型”。但本次测试显示:
- GPT-5.5 在漏洞发现任务中与 Mythos 达到相同水平
- 攻击链构造方面,两者表现无统计学显著差异
- 防御建议质量,GPT-5.5 略胜一筹(更关注实际修复而非概念性描述)
2. “突破”是通用能力,非模型特性
评测团队的核心结论:“Mythos 的网络安全能力并非某一模型独有的突破,而是当前前沿 LLM 共享的通用能力。”
这意味着——任何拥有足够训练数据和算力的团队,都能在短期内达到相近水平。
格局判断
| 趋势 | 含义 | 影响 |
|---|---|---|
| 能力趋同 | 安全模型差异化缩小 | 价格和服务成为竞争焦点 |
| 评测价值上升 | 单纯”能力宣称”不再可信 | 独立评测成为选型依据 |
| 攻防对抗加速 | 模型越强大,被滥用风险越高 | 安全工具需求同步增长 |
选择建议
对于正在评估网络安全 AI 工具的企业:
- 不要为”独家安全能力”付溢价:GPT-5.5 追平 Mythos 证明这类优势窗口极短
- 关注集成能力:能否嵌入现有 SOC 工单流程、SIEM 系统、漏洞管理平台
- 重视可审计性:安全决策需要可追溯,模型的解释能力比绝对准确率更重要
- 双模型验证策略:对高风险操作,用两个不同模型的输出交叉验证