Claude Mythos Preview成为首个完成AISI网络安全测试全流程的AI模型
AI安全研究所测试显示,Claude最新预览版在复杂网络安全场景中展现出显著优势,其任务完成效率远超同类产品。
AI安全研究所(AISI)最新发布的网络安全评估报告显示,Claude Mythos Preview成为首个完整通过AISI网络靶场测试的AI模型。测试采用《最后的我们》复杂攻防场景,包含从初始侦察到完全网络接管的9个关键阶段。

关键发现:
1. 在相同token消耗量下,Mythos Preview平均完成步骤数达到32步,是GPT-5.4的1.6倍
2. 该模型在高级持续性威胁(M7)和基础设施渗透(M8)等复杂任务中表现突出
3. 测试采用对数级token分配策略,从10万到1亿token不等
技术细节:
- 测试包含C2逆向工程、Web应用漏洞利用等实战场景
- 对比模型包括Claude Opus 4.6、GPT-5系列等多代产品
- 里程碑事件按MITRE ATT&CK框架分级标注
值得注意的是,Mythos Preview在完成全流程测试时,其token使用效率比上一代产品提升40%。这种进步可能源于其新型的递归推理架构,但具体技术实现尚未公开。
对开发者的启示:
- 大模型在自动化安全测试领域已具备实用价值
- token效率可能成为评估模型性能的新维度
- 复杂多步任务仍是检验AI能力的有效场景
目前该测试结果尚未经过同行评议,但已引发安全社区对AI辅助攻防的广泛讨论。
发布时间: 2026-04-14 02:34