SkillsBench首周数据:技能加持让AI代理性能提升27%,社区两周突破440人
首个AI代理技能基准测试SkillsBench公布初期结果,显示技能可显著提升模型性能,Codex GPT-5.2和Claude Code Opus 4.5分别提升13%和27%。两周内社区快速扩张至440多名成员,52个真实世界任务已进入测试流程。

SkillsBench正在构建首个专门衡量AI代理技能效果的基准测试。这个项目不仅要评估技能本身的质量,还要测试代理使用这些技能的能力。
首周数据显示,技能对AI代理性能的提升相当显著。Codex GPT-5.2在技能加持下从0.645分提升到0.729分,增长13%;Claude Code Opus 4.5的表现更突出,从0.395分跃升至0.500分,提升幅度达到27%。
社区发展速度超出预期。短短两周内,SkillsBench已经聚集了440多名社区成员,其中120多人注册成为贡献者,约70%拥有博士学位或是博士候选人。目前已有8个任务完成合并,44个任务正在流程中。
所有任务都由人类编写,反映真实世界场景。项目团队包括了Screenspot Pro、MCP-Universe和BigCodeBench等知名项目的核心作者。
SkillsBench创始人李祥仪特别提到了harbor环境的重要性:“如果没有从第一天就使用harbor作为我们的测试环境,进展不可能这么快。”作为harbor和terminal bench的贡献者,她也期待看到更多基于harbor的基准测试出现。

在相关进展中,有研究者提出了AI研究工程技能库的概念。这个开源库包含了74个专门技能,覆盖模型架构、微调、分布式训练、推理服务等18个类别。每个技能都提供专家级指导、真实代码示例和生产就绪的工作流程。
该技能库的设计理念很明确:让编码代理能够自主实施AI研究实验的各个阶段,从数据准备、模型训练到部署和科学假设验证。现代AI研究需要掌握数十种专业工具和框架,研究者往往花更多时间调试基础设施而非验证假设,这拖慢了科学发现的速度。
技能库中的具体工具包括LitGPT的20多个LLM实现、Mamba状态空间模型、RWKV架构、Axolotl微调框架、vLLM推理服务等。安装方式也很简单,通过Claude Code CLI即可直接安装单个技能。
SkillsBench目前正在为ICML和CAIS 2026会议招募贡献者,贡献1-3个任务的参与者将根据任务复杂度获得共同作者资格。ICML截止日期后的贡献将延续到未来的出版物中。
这种基于技能的方法正在改变AI代理的能力边界。随着更多真实世界任务的加入和社区规模的扩大,我们可能很快会看到AI代理在复杂任务上的表现出现质的飞跃。
发布时间: 2026-01-13 04:06