C
ChaoBro

SkillsVote:给 AI Agent 的技能加个"投票系统",让模型不更新也能自我进化

SkillsVote:给 AI Agent 的技能加个"投票系统",让模型不更新也能自我进化

Claude Code 的 skills 目录火了之后,社区里冒出了各种技能管理方案。但一个根本问题很少有人讨论:Agent 的技能库怎么治理?

技能多了会冗余,质量参差不齐,环境依赖复杂。如果 indiscriminately(不加筛选地)更新技能库,反而可能"污染"后续执行时的上下文。IAAR-Shanghai 和 Memtensor Research Group 今天发表的 SkillsVote 论文,就是冲着这个问题来的。

SkillsVote 做了什么

SkillsVote 的核心是把 Agent 的执行轨迹(trajectories)转化为可复用的技能(Agent Skills),并通过一套"投票-归因-准入"机制来管理这个转化过程。

执行前:结构化技能库搜索

在执行任务之前,SkillsVote 先在结构化的技能库里做一次智能搜索,把相关的技能指令暴露给 Agent。这不是简单的关键词匹配,而是基于环境需求、质量评分和可验证性的综合检索。

执行后:轨迹分解与归因

任务执行完成后,SkillsVote 把 Agent 的完整轨迹拆解成与技能关联的子任务,然后对结果做归因分析:

  • 有多少功劳归于使用的技能?
  • 有多少是 Agent 自己的探索?
  • 有多少是环境因素?
  • 有多少是执行结果信号?

准入:证据门控更新

只有成功的、可复用的发现才能通过"证据门"进入技能库。这防止了低质量或偶然成功的技能被收录。

实验结果

场景 基准 提升
离线进化 GPT-5.2 + Terminal-Bench 2.0 +7.9 pp
在线进化 冻结模型 + SWE-Bench Pro +2.6 pp

关键的一点是:模型权重不需要更新。通过治理良好的外部技能库,冻结的 Agent 也能获得能力提升。

百万级技能语料

论文的一个隐性亮点是,团队对一个百万规模的开源技能语料库做了系统性分析,从环境需求、质量和可验证性三个维度进行了 profiling。这份数据本身就是 Agent 研究领域的重要资产。

一句话总结

SkillsVote 本质上是在回答:Agent 的技能应该怎么"养"? 不是越多越好,不是越快更新越好,而是需要一套有选择的、有归因的、有准入门槛的治理体系。这个思路对任何在构建 Agent 平台的人都值得参考。

主要来源:

  • arXiv:2605.18401 - SkillsVote 论文
  • IAAR-Shanghai / Memtensor Research Group