C
ChaoBro

Grok 4.3 静默上线:AA 智能指数 53 分登顶,输入价格砍掉 40%

Grok 4.3 静默上线:AA 智能指数 53 分登顶,输入价格砍掉 40%

核心结论

xAI 用最 xAI 的方式发布了一款重磅模型:没有新闻发布会,没有博客文章,直接在 API 里上线。

Grok 4.3 已经悄悄上线 Venice 等平台,支持 100 万 token 上下文、函数调用、多模态输入和原生 X 搜索。在 Artificial Analysis 智能指数上取得 53 分,超过 Muse Spark、Claude Sonnet 4.6 和前代 Grok。API 价格同步下调:输入从 $2.10 降至 $1.25/M tokens(降幅 40%),输出降幅达 60%。

基准测试表现

Artificial Analysis 智能指数

模型 AA 指数 备注
GPT-5.5 Pro ~60+ 当前领先者
Grok 4.3 53 超越 Muse Spark、Sonnet 4.6
Muse Spark <53 被 Grok 4.3 超越
Claude Sonnet 4.6 <53 被 Grok 4.3 超越
Gemini 3.1 Pro ~50 接近 Grok 4.3

Vals Index 排名

基准 Grok 4.3 排名 说明
综合排名 #13 中等偏上
CaseLaw #1 法律推理顶尖
CorpFin #1 企业金融分析顶尖
通用编程 偏弱 不是强项

GDPval-AA 基准

Grok 4.3 在实际 Agent 任务上的提升最为显著——在 GDPval-AA 基准上,Grok 4.3 的 agentic 能力得分大幅提升,这是衡量"AI 能否独立完成任务"的核心指标。

定价策略分析

项目 Grok 4.3 变化幅度
输入价格 $1.25/M tokens ↓ 40%
输出价格 大幅下调 ↓ 60%
上下文窗口 1M tokens 与前代持平

这个定价策略非常激进。$1.25/M tokens 的输入价格已经低于大多数中等水平模型的定价,而 Grok 4.3 的性能却处于第一梯队。xAI 明显在走 "性价比路线"——用接近 DeepSeek V4 的价格提供接近 Claude Opus 4.7 的性能。

与竞品的横向对比

维度 Grok 4.3 Claude Sonnet 4.6 GPT-5.5 DeepSeek V4
AA 指数 53 <53 ~60+ N/A
输入价格 $1.25/M ~$3/M ~$5/M ~$0.15/M
法律推理 #1
金融分析 #1
通用编程 偏弱
Agent 能力 显著提升

格局判断

Grok 4.3 的发布传递了几个信号:

  1. xAI 正在从"追赶者"变成"性价比领导者":53 分的 AA 指数配合 $1.25 的定价,性价比远超 Claude 和 GPT
  2. 专业领域优势明显:CaseLaw 和 CorpFin 两项 #1,说明 Grok 4.3 在法律和金融垂直场景有独特优势
  3. 静默发布说明 xAI 更关注产品而非营销:这既是优点(务实),也是缺点(声量不足)

可以怎么用

  • 法律/金融从业者:Grok 4.3 在 CaseLaw 和 CorpFin 上的 #1 排名值得关注,可能是性价比最高的专业模型选择
  • API 用户:$1.25/M 的输入价格 + 53 分性能,是目前第一梯队模型中最便宜的选项
  • Agent 开发者:GDPval-AA 基准的大幅提升意味着 Grok 4.3 在 Agent 场景的可靠性显著提高,值得一试