Claude Code 的 skills 目录火了之后,社区里冒出了各种技能管理方案。但一个根本问题很少有人讨论:Agent 的技能库怎么治理?
技能多了会冗余,质量参差不齐,环境依赖复杂。如果 indiscriminately(不加筛选地)更新技能库,反而可能"污染"后续执行时的上下文。IAAR-Shanghai 和 Memtensor Research Group 今天发表的 SkillsVote 论文,就是冲着这个问题来的。
SkillsVote 做了什么
SkillsVote 的核心是把 Agent 的执行轨迹(trajectories)转化为可复用的技能(Agent Skills),并通过一套"投票-归因-准入"机制来管理这个转化过程。
执行前:结构化技能库搜索
在执行任务之前,SkillsVote 先在结构化的技能库里做一次智能搜索,把相关的技能指令暴露给 Agent。这不是简单的关键词匹配,而是基于环境需求、质量评分和可验证性的综合检索。
执行后:轨迹分解与归因
任务执行完成后,SkillsVote 把 Agent 的完整轨迹拆解成与技能关联的子任务,然后对结果做归因分析:
- 有多少功劳归于使用的技能?
- 有多少是 Agent 自己的探索?
- 有多少是环境因素?
- 有多少是执行结果信号?
准入:证据门控更新
只有成功的、可复用的发现才能通过"证据门"进入技能库。这防止了低质量或偶然成功的技能被收录。
实验结果
| 场景 | 基准 | 提升 |
|---|---|---|
| 离线进化 | GPT-5.2 + Terminal-Bench 2.0 | +7.9 pp |
| 在线进化 | 冻结模型 + SWE-Bench Pro | +2.6 pp |
关键的一点是:模型权重不需要更新。通过治理良好的外部技能库,冻结的 Agent 也能获得能力提升。
百万级技能语料
论文的一个隐性亮点是,团队对一个百万规模的开源技能语料库做了系统性分析,从环境需求、质量和可验证性三个维度进行了 profiling。这份数据本身就是 Agent 研究领域的重要资产。
一句话总结
SkillsVote 本质上是在回答:Agent 的技能应该怎么"养"? 不是越多越好,不是越快更新越好,而是需要一套有选择的、有归因的、有准入门槛的治理体系。这个思路对任何在构建 Agent 平台的人都值得参考。
主要来源:
- arXiv:2605.18401 - SkillsVote 论文
- IAAR-Shanghai / Memtensor Research Group