Wink Pings

Claude Mythos Preview成为首个完成AISI网络安全测试全流程的AI模型

AI安全研究所测试显示,Claude最新预览版在复杂网络安全场景中展现出显著优势,其任务完成效率远超同类产品。

AI安全研究所(AISI)最新发布的网络安全评估报告显示,Claude Mythos Preview成为首个完整通过AISI网络靶场测试的AI模型。测试采用《最后的我们》复杂攻防场景,包含从初始侦察到完全网络接管的9个关键阶段。

![测试结果对比图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FHFybTUVWQAA-Gm8%3Fformat%3Djpg%26name%3Dlarge)

关键发现:

1. 在相同token消耗量下,Mythos Preview平均完成步骤数达到32步,是GPT-5.4的1.6倍

2. 该模型在高级持续性威胁(M7)和基础设施渗透(M8)等复杂任务中表现突出

3. 测试采用对数级token分配策略,从10万到1亿token不等

技术细节:

- 测试包含C2逆向工程、Web应用漏洞利用等实战场景

- 对比模型包括Claude Opus 4.6、GPT-5系列等多代产品

- 里程碑事件按MITRE ATT&CK框架分级标注

值得注意的是,Mythos Preview在完成全流程测试时,其token使用效率比上一代产品提升40%。这种进步可能源于其新型的递归推理架构,但具体技术实现尚未公开。

对开发者的启示:

- 大模型在自动化安全测试领域已具备实用价值

- token效率可能成为评估模型性能的新维度

- 复杂多步任务仍是检验AI能力的有效场景

目前该测试结果尚未经过同行评议,但已引发安全社区对AI辅助攻防的广泛讨论。

发布时间: 2026-04-14 02:34