微软发了篇论文,介绍了自己对 100 多个生成式 AI 产品进行红队测试后提出的一个内部威胁模型本体论以及学到的八个主要经验:
arxiv.org/pdf/2501.07238
⭐基于系统能力和应用场景来确定风险
⭐你不必计算梯度就能攻破一个 AI 系统(简单的攻击方法往往更有效)
⭐AI 红队测试不是安全基准测试,需要考虑新型伤害类别。
⭐自动化可以帮助覆盖更多的风险领域
⭐AI 红队测试中的人为因素至关重要
⭐不仅要考虑对抗性攻击,更要重视良性用户场景下的潜在风险(如模型体现出的道德观)
⭐大型语言模型 (LLM) 放大了现有的安全风险并引入了新的风险
⭐保护 AI 系统的工作永远不会完成