2024生成式大模型安全评估白皮书-中国科学院&蚂蚁安全实验室

今天分享的是:2024生成式大模型安全评估白皮书-中国科学院&蚂蚁安全实验室

报告共计:118页

《2024生成式大模型安全评估白皮书》由中国科学院与蚂蚁安全实验室联合编写,全面剖析生成式大模型安全状况。

1. 模型发展

- 语言模型:OpenAI的GPT系列不断演进,如GPT-4o在专业领域表现卓越,o1和o3在复杂任务中优势显著;Meta的LLaMA系列性能强大且免费商用;国产模型也发展迅速,如通义千问等在多领域广泛应用。

- 文生图模型:DALL - E系列不断升级,Midjourney生成图像速度快,文心一格专注中文语境。

- 多模态模型:Suno用于音乐创作,Sora可生成视频,CLIP擅长跨模态匹配,紫东太初为首个多模态预训练模型。

2. 安全风险

- 伦理风险:模型可能加剧性别、种族偏见与歧视,传播意识形态危害国家安全,引发学术与教育伦理风险,影响社会就业与人类价值。

- 内容安全风险:存在可信与恶意使用风险,如制造恶意软件、传播虚假信息、违反法律法规等,还涉及隐私风险,包括侵犯用户隐私信息和泄露企业机密数据,以及知识产权风险。

- 技术安全风险:面临对抗样本攻击、后门攻击、Prompt注入攻击、数据投毒攻击和越狱攻击等风险。

3. 安全评估方法

从伦理性、事实性、隐私性、鲁棒性等维度评估,方法包括用具体指标衡量(如毒性评估)和通过攻击模型评估安全性。

4. 评估实践案例

大语言模型安全性评估有HELM、Trustworthy LLMs等基准;文生图模型安全性评估有HEIM等基准;多模态大模型安全性评估有T2VSafetyBench等基准。支小宝构建安全保障框架,大模型系统安全评估涵盖多环节与维度。

5. 展望

面向安全的大模型应自主演进,包括构建全生命周期安全框架、具备自我诊断修复能力、动态风险评估和适应性增强。同时要关注评估过程中的隐私泄露和对抗性攻击等衍生安全风险。

以下为报告节选内容

返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()