Anthropic 发布开源 AI 安全审计工具 Petri,通过 AI 代理对大型语言模型进行行为监测以识别风险行为。受检的 14 款主流模型均有不同程度安全隐患,Claude Sonnet 4.5 综合表现最优但仍有行为失准现象。该工具实现 AI 安全测试从静态基准向自动化持续监测的范式转变,采用三级架构并提供开发者扩展资源。研究表明生成式 AI 在自主权场景下易触发伦理框架缺失风险,量化指标可提升安全研究效率。