前沿 LLM 参数规模被"猜"出来了：GPT-5.5 约 10T、Claude Opus 约 4-5T、Grok 约 3T

核心发现

一家研究团队用一种巧妙的方法估算了所有前沿闭源 LLM 的参数规模：

模型	估算参数量	估算方法	可信度
GPT-5.5	~10 万亿	知识深度探针	中
Claude Opus 4.x	~4-5 万亿	知识深度探针	中
Grok 4	~3 万亿	知识深度探针	中
Kimi K2.5	1 万亿（官方公布）	—	高
DeepSeek V4	6710 亿（官方公布）	—	高

关键发现：闭源模型的参数规模差异巨大，GPT-5.5 比 Claude Opus 大了约 2 倍。

“知识探针”方法原理

这个方法的核心思路很直接：

参数越多 → 记住的知识越多 → 能回答的冷门问题越多

具体操作：

构建知识梯度问题集：从常识问题到极其冷门的专业知识，按稀有度分级
测试各模型的准确率曲线：观察模型在什么稀有度开始”掉知识”
拟合参数-知识关系：利用已知参数量的开源模型（如 LLaMA、Kimi K2.5）建立基准曲线
反推闭源模型参数量：根据闭源模型的知识保留率，在基准曲线上找到对应的参数规模

这个方法类似用”词汇量测试”估算一个人的阅读量。

这些数字意味着什么

GPT-5.5 ~10T 参数

10 万亿参数是什么概念？

是 GPT-4（约 1.76 万亿）的约 5.7 倍
是目前公开参数最多的模型
解释了为什么 GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%（远超 Claude Opus 4.7 的 69.4%）

Claude Opus 4.x ~4-5T 参数

Claude 的参数量大约是 GPT-5.5 的一半，但：

在 LMSYS Arena Elo 排名中 Anthropic 仍领先（1,503 vs OpenAI 的 1,481）
说明 Anthropic 可能在训练数据质量、对齐方法或架构效率上更有优势
更少的参数 + 更好的效果 = 更高的效率

Grok 4 ~3T 参数

Grok 4 的参数规模在三大闭源模型中最小，但：

xAI 在 Arena Elo 排名中位列第二（1,495）
说明 Grok 4 的效率也很高
可能与 Grok 的训练数据（X/Twitter 实时数据）有关

方法论的局限性

这种方法有几点需要注意：

知识 ≠ 参数：模型可以通过更好的训练数据或架构设计，用更少的参数记住更多知识
MoE 架构的复杂性：对于 MoE 模型，“总参数”和”激活参数”的区别很大（如 Kimi K2.5 有 1 万亿总参数但只激活 320 亿）
校准问题：开源模型作为基准可能不够代表性
统计误差：估算值的误差范围可能在 ±30% 甚至更大

所以这些数字应该被视为数量级估计而非精确值。

为什么这种研究很重要

在闭源模型主导前沿能力的时代，研究者缺乏直接访问模型架构的途径。“知识探针”方法提供了一种：

无需 API 访问的能力评估手段
跨模型比较的客观基准
趋势追踪的方法——随着时间推移，可以观察各公司的参数增长轨迹

这种研究对于 AI 透明度、安全评估和竞争分析都有价值。

与中国模型的关系

有趣的是，主要中国开源模型的参数规模都是官方公布的：

Kimi K2.5: 1 万亿总参数 / 320 亿激活参数
DeepSeek V4: 6710 亿参数
Qwen 3.6: 多种规格（7B、72B、235B 等）

这种透明度让中国模型在学术界和研究社区中获得了更高的可信度。相比之下，美国闭源模型的参数规模需要靠”猜测”。

格局判断

参数规模竞赛正在进入新阶段：

GPT-5.5 的 10T 说明 OpenAI 在 brute force 路线上走得很远
Claude Opus 的 4-5T 说明 Anthropic 在效率路线上走得更精
中国开源模型 的透明参数 + 高性价比，正在改变竞争规则

下一个值得关注的问题：当参数规模增长遇到边际收益递减时，竞争焦点会转向哪里？训练数据？架构创新？还是多代理能力？

行动建议

研究者：可以基于这种方法构建更系统的模型评估框架，加入更多维度（推理能力、安全性等）
企业用户：参数规模不是选择模型的唯一标准，效率（效果/成本比）更重要。Claude Opus 用一半参数达到可比效果是典型案例
政策制定者：闭源模型缺乏透明度是一个系统性风险，需要推动某种形式的模型信息披露标准