C
ChaoBro

罗福莉 3.5 小时专访要点:Pre-train 代差消失后,Agent RL 成为国产模型胜负手

罗福莉 3.5 小时专访要点:Pre-train 代差消失后,Agent RL 成为国产模型胜负手

关键判断

小米大模型团队负责人罗福莉在 2026 年 4 月底接受了 3.5 小时技术深度专访,这是她从阿里达摩院、DeepSeek 到小米后首次长时间公开技术访谈。她的几个核心判断,值得所有关注国产 AI 模型的人认真研读。

核心观点提炼

1. Pre-train 代差基本消失

罗福莉认为,国内头部团队在预训练(Pre-training)层面与 Anthropic 等领先者的差距正在快速缩小,甚至在某些维度上已经追平。

这意味着:

维度过去现在
模型质量国际领先差距显著缩小
训练技术经验积累不足方法论趋同
算力规模严重受限通过优化可弥补
竞争焦点Pre-train 规模Agent RL

2. Agent RL 是下一代胜负手

当 Pre-train 不再是壁垒,竞争维度转向 Agent 强化学习(Agent RL)

  • 真实环境交互:Agent 需要在真实工具链中学习,而非仅靠合成数据
  • 多步决策能力:从单轮对话到多轮工具调用的能力跃迁
  • 自我纠错:Agent 能否在执行中发现错误并自主修正
  • 任务分解:复杂任务的规划和执行策略

罗福莉团队在 MiMo-V2.5 研发中重点投入了这一方向。MiMo-V2.5-Pro 专为复杂 Agent 和软件工程设计,其能力定位与 Agent RL 的投入直接相关。

3. 人才选择:空杯心态与好奇心

罗福莉在访谈中透露了她对实习生的选择标准——学习能力与好奇心极强的人。她认为:

能做到空杯心态和从第一性原理出发的人很少,而极强的学习能力赋予了他们快速进入新角色的能力。

这一标准反映了 Agent 时代对人才的核心要求:不是已有知识,而是快速学习和跨领域适应的能力。

从 DeepSeek 到小米:技术路线演变

罗福莉的职业生涯反映了国产 AI 模型的技术演进路径:

阶段机构核心方向
阿里达摩院基础模型预训练早期大模型探索
DeepSeekMoE + 开源DeepSeek 系列 MoE 架构
小米端云协同 + AgentMiMo 系列 + 硬件生态

她在 DeepSeek 期间主导研发的 MiMo-V 系列模型(注意这里指的是 DeepSeek 的 MiMo 而非小米的,命名有历史渊源),为后来小米 MiMo 系列打下了技术基础。

Claude Opus 4.6 引发的行业反思

罗福莉在专访中谈到了 2026 年 Claude Opus 4.6 等技术对行业的冲击:

  • Anthropic 路径:通过 Claude Code → Cowork → Agent Teams 构建完整的开发者工具链
  • 国产厂商应对:不能仅跟随,需要在 Agent RL 和垂直场景上建立差异化
  • 开源 vs 闭源:开源获取社区反馈的速度,是闭源厂商难以复制的优势

给从业者的建议

角色行动建议
模型开发者将 Agent RL 纳入核心研发方向,Pre-train 投入边际效益递减
应用开发者关注 MiMo Orbit 免费额度,低成本测试 Agent 场景
求职者强化 Agent 框架和工具链使用经验,而非仅关注模型调用
投资人关注具备 Agent RL 能力和真实场景数据的团队

信号意义

罗福莉作为连接 DeepSeek、阿里和小米的技术管理者,她的判断代表了国产 AI 模型领域一线研发者的共识:单纯堆参数、拼预训练的时代已经过去,Agent RL 和真实场景交互才是下一个战场。

这也解释了为什么小米选择同步开源 MiMo-V2.5 + 上线 100T Token 激励——不是为了秀参数,而是为了在 Agent 生态建设中抢占开发者心智。