Wink Pings

SkillsBench首周数据:技能加持让AI代理性能提升27%,社区两周突破440人

首个AI代理技能基准测试SkillsBench公布初期结果,显示技能可显著提升模型性能,Codex GPT-5.2和Claude Code Opus 4.5分别提升13%和27%。两周内社区快速扩张至440多名成员,52个真实世界任务已进入测试流程。

![SkillsBench性能提升图表](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG-fQ8iQXIAA-mL5%3Fformat%3Djpg%26name%3Dlarge)

SkillsBench正在构建首个专门衡量AI代理技能效果的基准测试。这个项目不仅要评估技能本身的质量,还要测试代理使用这些技能的能力。

首周数据显示,技能对AI代理性能的提升相当显著。Codex GPT-5.2在技能加持下从0.645分提升到0.729分,增长13%;Claude Code Opus 4.5的表现更突出,从0.395分跃升至0.500分,提升幅度达到27%。

社区发展速度超出预期。短短两周内,SkillsBench已经聚集了440多名社区成员,其中120多人注册成为贡献者,约70%拥有博士学位或是博士候选人。目前已有8个任务完成合并,44个任务正在流程中。

所有任务都由人类编写,反映真实世界场景。项目团队包括了Screenspot Pro、MCP-Universe和BigCodeBench等知名项目的核心作者。

SkillsBench创始人李祥仪特别提到了harbor环境的重要性:“如果没有从第一天就使用harbor作为我们的测试环境,进展不可能这么快。”作为harbor和terminal bench的贡献者,她也期待看到更多基于harbor的基准测试出现。

![AI研究技能库GitHub页面](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fcard_img%2F2009002041016770560%2F15LGjl3w%3Fformat%3Djpg%26name%3Dlarge)

在相关进展中,有研究者提出了AI研究工程技能库的概念。这个开源库包含了74个专门技能,覆盖模型架构、微调、分布式训练、推理服务等18个类别。每个技能都提供专家级指导、真实代码示例和生产就绪的工作流程。

该技能库的设计理念很明确:让编码代理能够自主实施AI研究实验的各个阶段,从数据准备、模型训练到部署和科学假设验证。现代AI研究需要掌握数十种专业工具和框架,研究者往往花更多时间调试基础设施而非验证假设,这拖慢了科学发现的速度。

技能库中的具体工具包括LitGPT的20多个LLM实现、Mamba状态空间模型、RWKV架构、Axolotl微调框架、vLLM推理服务等。安装方式也很简单,通过Claude Code CLI即可直接安装单个技能。

SkillsBench目前正在为ICML和CAIS 2026会议招募贡献者,贡献1-3个任务的参与者将根据任务复杂度获得共同作者资格。ICML截止日期后的贡献将延续到未来的出版物中。

这种基于技能的方法正在改变AI代理的能力边界。随着更多真实世界任务的加入和社区规模的扩大,我们可能很快会看到AI代理在复杂任务上的表现出现质的飞跃。

发布时间: 2026-01-13 04:06