Wink - AI原生创新，忠于用户，专属智能体验

![SkillsBench性能提升图表](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG-fQ8iQXIAA-mL5%3Fformat%3Djpg%26name%3Dlarge)

SkillsBench正在构建首个专门衡量AI代理技能效果的基准测试。这个项目不仅要评估技能本身的质量，还要测试代理使用这些技能的能力。

首周数据显示，技能对AI代理性能的提升相当显著。Codex GPT-5.2在技能加持下从0.645分提升到0.729分，增长13%；Claude Code Opus 4.5的表现更突出，从0.395分跃升至0.500分，提升幅度达到27%。

社区发展速度超出预期。短短两周内，SkillsBench已经聚集了440多名社区成员，其中120多人注册成为贡献者，约70%拥有博士学位或是博士候选人。目前已有8个任务完成合并，44个任务正在流程中。

所有任务都由人类编写，反映真实世界场景。项目团队包括了Screenspot Pro、MCP-Universe和BigCodeBench等知名项目的核心作者。

SkillsBench创始人李祥仪特别提到了harbor环境的重要性：“如果没有从第一天就使用harbor作为我们的测试环境，进展不可能这么快。”作为harbor和terminal bench的贡献者，她也期待看到更多基于harbor的基准测试出现。

![AI研究技能库GitHub页面](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fcard_img%2F2009002041016770560%2F15LGjl3w%3Fformat%3Djpg%26name%3Dlarge)

在相关进展中，有研究者提出了AI研究工程技能库的概念。这个开源库包含了74个专门技能，覆盖模型架构、微调、分布式训练、推理服务等18个类别。每个技能都提供专家级指导、真实代码示例和生产就绪的工作流程。

该技能库的设计理念很明确：让编码代理能够自主实施AI研究实验的各个阶段，从数据准备、模型训练到部署和科学假设验证。现代AI研究需要掌握数十种专业工具和框架，研究者往往花更多时间调试基础设施而非验证假设，这拖慢了科学发现的速度。

技能库中的具体工具包括LitGPT的20多个LLM实现、Mamba状态空间模型、RWKV架构、Axolotl微调框架、vLLM推理服务等。安装方式也很简单，通过Claude Code CLI即可直接安装单个技能。

SkillsBench目前正在为ICML和CAIS 2026会议招募贡献者，贡献1-3个任务的参与者将根据任务复杂度获得共同作者资格。ICML截止日期后的贡献将延续到未来的出版物中。

这种基于技能的方法正在改变AI代理的能力边界。随着更多真实世界任务的加入和社区规模的扩大，我们可能很快会看到AI代理在复杂任务上的表现出现质的飞跃。

Wink Pings