核心结论
xAI 用最 xAI 的方式发布了一款重磅模型:没有新闻发布会,没有博客文章,直接在 API 里上线。
Grok 4.3 已经悄悄上线 Venice 等平台,支持 100 万 token 上下文、函数调用、多模态输入和原生 X 搜索。在 Artificial Analysis 智能指数上取得 53 分,超过 Muse Spark、Claude Sonnet 4.6 和前代 Grok。API 价格同步下调:输入从 $2.10 降至 $1.25/M tokens(降幅 40%),输出降幅达 60%。
基准测试表现
Artificial Analysis 智能指数
| 模型 | AA 指数 | 备注 |
|---|---|---|
| GPT-5.5 Pro | ~60+ | 当前领先者 |
| Grok 4.3 | 53 | 超越 Muse Spark、Sonnet 4.6 |
| Muse Spark | <53 | 被 Grok 4.3 超越 |
| Claude Sonnet 4.6 | <53 | 被 Grok 4.3 超越 |
| Gemini 3.1 Pro | ~50 | 接近 Grok 4.3 |
Vals Index 排名
| 基准 | Grok 4.3 排名 | 说明 |
|---|---|---|
| 综合排名 | #13 | 中等偏上 |
| CaseLaw | #1 | 法律推理顶尖 |
| CorpFin | #1 | 企业金融分析顶尖 |
| 通用编程 | 偏弱 | 不是强项 |
GDPval-AA 基准
Grok 4.3 在实际 Agent 任务上的提升最为显著——在 GDPval-AA 基准上,Grok 4.3 的 agentic 能力得分大幅提升,这是衡量”AI 能否独立完成任务”的核心指标。
定价策略分析
| 项目 | Grok 4.3 | 变化幅度 |
|---|---|---|
| 输入价格 | $1.25/M tokens | ↓ 40% |
| 输出价格 | 大幅下调 | ↓ 60% |
| 上下文窗口 | 1M tokens | 与前代持平 |
这个定价策略非常激进。$1.25/M tokens 的输入价格已经低于大多数中等水平模型的定价,而 Grok 4.3 的性能却处于第一梯队。xAI 明显在走 “性价比路线”——用接近 DeepSeek V4 的价格提供接近 Claude Opus 4.7 的性能。
与竞品的横向对比
| 维度 | Grok 4.3 | Claude Sonnet 4.6 | GPT-5.5 | DeepSeek V4 |
|---|---|---|---|---|
| AA 指数 | 53 | <53 | ~60+ | N/A |
| 输入价格 | $1.25/M | ~$3/M | ~$5/M | ~$0.15/M |
| 法律推理 | #1 | 强 | 强 | 中 |
| 金融分析 | #1 | 强 | 强 | 中 |
| 通用编程 | 偏弱 | 强 | 强 | 强 |
| Agent 能力 | 显著提升 | 强 | 强 | 强 |
格局判断
Grok 4.3 的发布传递了几个信号:
- xAI 正在从”追赶者”变成”性价比领导者”:53 分的 AA 指数配合 $1.25 的定价,性价比远超 Claude 和 GPT
- 专业领域优势明显:CaseLaw 和 CorpFin 两项 #1,说明 Grok 4.3 在法律和金融垂直场景有独特优势
- 静默发布说明 xAI 更关注产品而非营销:这既是优点(务实),也是缺点(声量不足)
可以怎么用
- 法律/金融从业者:Grok 4.3 在 CaseLaw 和 CorpFin 上的 #1 排名值得关注,可能是性价比最高的专业模型选择
- API 用户:$1.25/M 的输入价格 + 53 分性能,是目前第一梯队模型中最便宜的选项
- Agent 开发者:GDPval-AA 基准的大幅提升意味着 Grok 4.3 在 Agent 场景的可靠性显著提高,值得一试