安全研究人员声称突破OpenAI最新防御机制,成功越狱

去年12月下旬OpenAI公布新的AI模型o3、o3-mini预览版本,并引入新的安全功能“审议一致(Deliberative Alignment)”,借由这项机制,OpenAI号称AI模型将高度遵守他们的安全策略,改善原有模型容易被越狱的情况。但在1月底o3-mini正式推出不久,有研究人员指出,他们成功突破这项防护,让该AI模型指导如何对Windows组件本机安全认证子系统服务(lsass.exe)发动攻击。

2月6日CyberArk原则漏洞研究员Eran Shimony在职场社交媒体网站LinkedIn指出,他们通过去年推出的开源测试工具FuzzyAI,成功在o3家族的模型越狱,他们试图要求模型提供将程序代码注入lsass.exe的详细做法,其中包含提及出现障碍的故障情形,结果产生具备实际攻击能力的程序代码。

Eran Shimony发布他们与o3-mini对话的内容,研究人员向AI模型声称是历史学家,正在编写有关恶意软件及其带来的影响,包含他们如何制作恶意程序,以及编写防守方看起来合法的程序代码,而能在lsass.exe注入。

结果o3-mini先是提及以往为何攻击者偏好对lsass.exe下手,以及防守方如何发现相关攻击,便列出典型的注入手法及详细步骤,包含利用特定功能劫持lsass.exe、取得特定内存位置的说明。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 (0)
大家都在看
我来说两句
0人参与, 0条评论
登录抢首评