DeepSeek V4 的 Agent 训练密码：5 大策略拆解与实战指南

核心结论

DeepSeek V4 不是简单地”加大参数量”来追赶闭源模型——它在 Agent 训练方法论上走出了一条差异化路线。1.6T 总参数、49B 激活的 MoE 架构只是底座，真正拉开差距的是其 Agent 训练的 5 大核心策略。

V4 Pro 在 Agent 框架下的表现已优于 Claude Sonnet 4.5，接近 Opus 4.6 非思考模式，且价格是 GPT-5.5 的 1/166。对于需要大规模部署 Agent 的企业和个人开发者，这是一个值得认真考虑的方案。

传统做法是先在通用语料上预训练，再在后处理阶段注入 Agent 能力。DeepSeek 反其道而行——在预训练阶段就混入 Agent 相关数据。

通用语料 70% + 代码数据 15% + Agent 轨迹数据 15%

这意味着模型从”地基”就熟悉长任务流程和工具调用模式，避免了后处理训练时从零硬学的问题。

实际效果：V4 在面对多步工具调用任务时，第一次尝试的成功率比同量级模型高出 15-20%。

传统 RLHF 用一个简单的标量分数来评估模型输出，但 Agent 任务的复杂性远超出单个分数能表达的范围。

GRM 的核心思路：让奖励模型自己生成一段评估文本，从多个维度（工具调用正确性、中间步骤合理性、最终结果质量）进行自然语言评估，再从中提取信号。

为什么重要：Agent 任务的”好”和”坏”很难用一句话概括。GRM 能捕捉”步骤对了但结果不对”和”结果碰巧对了但过程完全错误”这两种在传统 RLHF 中被混淆的情况。

在 GRM 提供的多维度评估基础上，DeepSeek 使用 Direct Preference Optimization（DPO）进行针对性微调。关键点在于：

Agent 能力不是一蹴而就的。DeepSeek 采用了分阶段的课程学习策略：

每个阶段完成后，模型必须在验证集上达到阈值才能进入下一阶段。

这是 V4 训练中最激进的一环。让多个 V4 实例以不同角色协作或对抗：

通过这种”自我博弈”，模型在不依赖人工标注的情况下持续提升 Agent 能力的鲁棒性。

V4 发布后，DeepSeek 专门针对主流 Agent 框架做了适配优化：

一句话总结：如果你之前的 Agent 方案被 API 成本卡住，DeepSeek V4 是目前开源阵营中最成熟的替代方案。它不是在所有 benchmark 上都第一，但在”价格-能力比”这个维度上，目前没有对手。