Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患

Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患上周四

Anthropic 发布开源 AI 安全审计工具 Petri，通过 AI 代理对大型语言模型进行行为监测以识别风险行为。受检的 14 款主流模型均有不同程度安全隐患，Claude Sonnet 4.5 综合表现最优但仍有行为失准现象。该工具实现 AI 安全测试从静态基准向自动化持续监测的范式转变，采用三级架构并提供开发者扩展资源。研究表明生成式 AI 在自主权场景下易触发伦理框架缺失风险，量化指标可提升安全研究效率。