SkillsVote：给 AI Agent 的技能加个"投票系统"，让模型不更新也能自我进化

Claude Code 的 skills 目录火了之后，社区里冒出了各种技能管理方案。但一个根本问题很少有人讨论：Agent 的技能库怎么治理？

技能多了会冗余，质量参差不齐，环境依赖复杂。如果 indiscriminately（不加筛选地）更新技能库，反而可能"污染"后续执行时的上下文。IAAR-Shanghai 和 Memtensor Research Group 今天发表的 SkillsVote 论文，就是冲着这个问题来的。

SkillsVote 做了什么

SkillsVote 的核心是把 Agent 的执行轨迹（trajectories）转化为可复用的技能（Agent Skills），并通过一套"投票-归因-准入"机制来管理这个转化过程。

在执行任务之前，SkillsVote 先在结构化的技能库里做一次智能搜索，把相关的技能指令暴露给 Agent。这不是简单的关键词匹配，而是基于环境需求、质量评分和可验证性的综合检索。

任务执行完成后，SkillsVote 把 Agent 的完整轨迹拆解成与技能关联的子任务，然后对结果做归因分析：

只有成功的、可复用的发现才能通过"证据门"进入技能库。这防止了低质量或偶然成功的技能被收录。

场景	基准	提升
离线进化	GPT-5.2 + Terminal-Bench 2.0	+7.9 pp
在线进化	冻结模型 + SWE-Bench Pro	+2.6 pp

关键的一点是：模型权重不需要更新。通过治理良好的外部技能库，冻结的 Agent 也能获得能力提升。

论文的一个隐性亮点是，团队对一个百万规模的开源技能语料库做了系统性分析，从环境需求、质量和可验证性三个维度进行了 profiling。这份数据本身就是 Agent 研究领域的重要资产。

SkillsVote 本质上是在回答：Agent 的技能应该怎么"养"？ 不是越多越好，不是越快更新越好，而是需要一套有选择的、有归因的、有准入门槛的治理体系。这个思路对任何在构建 Agent 平台的人都值得参考。

主要来源：