浅谈大模型安全

AI资讯 1年前 (2025) charles

9.2K 0 10

什么是大模型安全？

大模型安全，简而言之，就是确保大模型从训练到应用的整个过程都是安全的。

这涉及数据安全、模型安全、应用安全、系统安全、内容安全等多个领域，且这些领域相互交叉。

关于大模型安全的框架，目前业界尚未形成统一的标准。

行业视角：大模型安全框架

中国信通院从对象视角出发，将大模型安全分为数据安全、模型安全、系统安全、内容安全、伦理安全、认知安全等几个方面[1]。

阿里云联合中国信息通信研究院等30余家行业单位共同编制的《大模型安全研究报告（2024年）》中，将大模型安全分为训练数据安全、算法模型安全、系统平台安全和业务应用安全四个重要组成部分[2]。

360从网络安全视角，将大模型安全分为系统安全、内容安全、可信安全和可控安全[3]。

我们再看看微观层面

用户视角：风险的有害性

2024年11月，谷歌Gemini聊天机器人威胁用户[4]，2024年12月，Claude暗示美国一少年用户杀死限制其玩手机的父母[5]，这都属于伦理安全的范畴；

Deepseek R1在越狱攻击下生成大量18禁内容则属于内容安全范畴[6]；

而早前报道三星员工误用ChatGPT导致芯片机密数据泄露[7]，ChatGPT“奶奶漏洞”成功获取Win11序列号[8]等都属于数据安全范畴。

更为复杂且难被察觉的，是大模型的生态链安全，例如2024年10月，字节实习生通过在模型文件植入后门代码，导致模型训练任务受阻，损失过千万[9]，黑客利用 Ray 框架漏洞入侵服务器、劫持资源，利用模型算力资源进行挖坑等非法活动[10]。

这些风险轻则影响用户体验，重则会导致用户的人身安全和企业的经营安全。

所以各国的监管部门也尤为重视大模型带来的安全问题。

监管视角：大模型要做到安全向善可靠可控

2021年，联合国教科文组织的193个会员国星期三正式通过了首份有关人工智能伦理的全球框架协议。这一历史性文本确定了共同的价值观和原则，用以指导建设必需的法律框架来确保人工智能的健康发展[11]。

中央网信办早在2023年7月就推出《生成式人工智能服务管理暂行办法》，对向中国境内用户提供生成式人工智能服务的机构或个人做出明确规定：坚持社会主义核心价值观、防止生成各种歧视内容、遵守商业道德、尊重个人合法权益、保证人工智能服务的透明度、准确性和可靠性[12]。

欧盟在2024年五月颁布了《人工智能、人权、民主和法治框架公约》，范围涵盖人工智能系统生命周期内有可能干扰人权、民主和法治的活动[13]。

当然，面对以上问题，业界也在积极给出相应的解决方案。

解决方案

OpenAI在早期研发ChatGPT时就关注到模型价值观问题，将价值观对齐作为独立方向，并组建红队对大模型的价值观进行测试。每次新模型上线时，除了有系统卡（System Card）之外，还有安全测试报告。

Deepseek在官网设置了非常严格的内容围栏，对敏感问题一律拒答。

360智脑团队提出“以模制模”的概念，通过大模型检测识别大模型输入输出环节的有害内容。基于大模型良好的语义理解能力，能够区分正负向，识别效果相比敏感词和BERT模型有明显优势[14]。

在大模型系统生态链安全方面，业界也进行了不少探索。除了通过传统的CVE库漏洞比对，还可以基于专家经验构建LLM开源工具漏洞库，增加针对LLM生态链的漏洞召回能力[15]。

尽管我们已经做了一系列努力，但AI领域发展迅速，安全问题的挑战依然非常巨大。

面临的一些挑战

首先是多模态/跨模态的融合问题。单一模态的自动审核效果已经做得比较好，但在涉及图、文甚至是视频的同时出现时，不同模态的文件之间的关联信息可能会衍生出高维度的风险。

其次是版权问题。截至目前，我们仍然缺乏一种高效的自动方式来检测内容的版权问题，各厂商的版权库都是孤岛。

第三是越狱攻击算法。在新型的越狱攻击算法下，再强大、先进的模型也可能被攻破。前面提到的DeepSeek的例子就证明了这一点，也就是说，在具有一定技术能力的人面前，大模型无疑提升了他们作恶的能力。

第四是谣言问题。在大模型的加持下，生成内容的效率大幅提升，但同时，生成虚假消息的效率也大幅提升，如何治理这一问题是一个异常艰巨的挑战。

参考资料：

https://mp.weixin.qq.com/s/WAKI0IejpemWhax-GlxeJw
https://mp.weixin.qq.com/s/2A1LX1k17ytgBVynIYE9sQ
https://aiplus.360.cn/hyzx/8939.html
https://m.nbd.com.cn/articles/2024-11-19/3651355.html
https://www.163.com/dy/article/JJA1LQOK0556ALLY.html
https://mp.weixin.qq.com/s/xXjDalS2QgT_eSPA_eTBFg
https://baijiahao.baidu.com/s?id=1762152821182849985&wfr=spider&for=pc
https://baijiahao.baidu.com/s?id=1769837242932096352&wfr=spider&for=pc
https://www.secrss.com/articles/71386
https://news.qq.com/rain/a/20240327A05RJP00
https://news.un.org/zh/story/2021/11/1095042
https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
https://www.sohu.com/a/808740080_120319119
https://mp.weixin.qq.com/s/Z5HIYQ8fzq9vdlXOQ-OlDw
https://mp.weixin.qq.com/s/CGjAbTtvktzg09XKt7YjlQ

版权声明：charles 发表于 2025年4月12日 pm10:04。
转载请注明：浅谈大模型安全 | AI工具大全&导航

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.9K 5

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7K 45

AI写代码的“上下文陷阱”：为什么AI总是写错？如何系统性解决？

charles

3.5K 30

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.4K 15

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7.6K 15

OpenAI CEO万字长文——智能时代

charles

20.7K 5

浅谈大模型安全

浅谈大模型时代的谣言治理：挑战、对策与中外实践对比

OneEval：OpenKG发布大模型知识增强综合能力评测榜单

相关文章

相关文章