安全研究人员声称突破OpenAI最新防御机制，成功越狱_lsass_exe

去年12月下旬OpenAI公布新的AI模型o3、o3-mini预览版本，并引入新的安全功能“审议一致（Deliberative Alignment）”，借由这项机制，OpenAI号称AI模型将高度遵守他们的安全策略，改善原有模型容易被越狱的情况。但在1月底o3-mini正式推出不久，有研究人员指出，他们成功突破这项防护，让该AI模型指导如何对Windows组件本机安全认证子系统服务（lsass.exe）发动攻击。

2月6日CyberArk原则漏洞研究员Eran Shimony在职场社交媒体网站LinkedIn指出，他们通过去年推出的开源测试工具FuzzyAI，成功在o3家族的模型越狱，他们试图要求模型提供将程序代码注入lsass.exe的详细做法，其中包含提及出现障碍的故障情形，结果产生具备实际攻击能力的程序代码。

Eran Shimony发布他们与o3-mini对话的内容，研究人员向AI模型声称是历史学家，正在编写有关恶意软件及其带来的影响，包含他们如何制作恶意程序，以及编写防守方看起来合法的程序代码，而能在lsass.exe注入。

结果o3-mini先是提及以往为何攻击者偏好对lsass.exe下手，以及防守方如何发现相关攻击，便列出典型的注入手法及详细步骤，包含利用特定功能劫持lsass.exe、取得特定内存位置的说明。返回搜狐，查看更多

十轮网

安全研究人员声称突破OpenAI最新防御机制，成功越狱