网络安全公司 0Din 的研究员 Marco Figueroa 发现了一种新型 GPT 越狱攻击手法,成功突破了 GPT-4o 内置的「安全护栏」措施,能够使其编写出恶意攻击程序。研究员通过将恶意指令转化为十六进制的方法,绕过 GPT-4o 的防护,让 GPT-4o 解码运行用户的恶意指令。研究人员指出,GPT 系列模型缺乏对上下文的理解能力,无法评估每一步在整体情境下的安全性,因此许多黑客实际上早已利用 GPT 模型这一特点让模型进行各种不当操作。相关示例表明 AI 模型的开发者需要加强模型的安全防护,以防范此类基于上下文理解式的攻击。