Prime Intellect Lab 正式上线：不再提示词工程，让 Agent 从经验里自己学

Agent 圈现在有两派。

一派还在死磕 prompt engineering——换个系统提示词、加几个 few-shot 例子、调调 temperature，指望 Agent 突然开窍。另一派已经开始用强化学习了。

Prime Intellect Lab 今天正式结束 Beta，对外开放。它的定位很明确：别写 prompt 了，让系统自己从经验里学。

传统微调 vs 持续学习

传统的模型微调是这样的：收集一批标注数据，跑一次训练，部署上线。训练完的那一刻，模型的能力就固化了。新场景、新反馈，它不会自己更新。

Prime Intellect 做的是在线强化学习：Agent 在真实环境中执行任务，拿到结果反馈，自动更新策略。做得好就强化，做得不好就调整。跟人类"从实践中学习"的逻辑一样。

用他们自己的话说："STOP PROMPTING, START TRAINING."

Prime Intellect Lab 提供了一套完整的 RL 训练管线：

端到端的意思就是：从定义任务到 Agent 上线，不需要在多个工具之间跳来跳去。

Agent 领域正在出现一个共识：最好的 Agent 不是 prompt 写出来的，是训出来的。

Claude 的 Dreaming 功能（回顾过去会话提取模式）、Anthropic 的 Outcomes（基于 rubric 自动迭代）、甚至一些开源项目里的 self-learning 机制，本质上都在往同一个方向走——让 Agent 有能力从自身经验中改进。

Prime Intellect 把这条路径产品化了。它不是某个大模型公司的内部工具，而是一个开放的、任何人都可以用的 RL 训练平台。

强化学习不是新东西，但把 RL 用在 Agent 训练上，门槛不低：

Prime Intellect Lab 的价值就在于把这些工程问题封装好了。开发者不需要从零搭建 RL 管线，可以直接开始定义任务和奖励函数。

不适合的场景：如果你的 Agent 任务是静态的、环境不变的、反馈信号不清晰的，RL 训练大概率是杀鸡用牛刀。

主要来源：Prime Intellect 官方公告、X/Twitter 社区讨论