资讯公告
微软详解 "骷髅钥匙 "人工智能越狱
发布时间:2024-07-01 发布者:FebHost

微软详解骷髅钥匙人工智能越狱


微软披露了一种被称为 "骷髅密钥 "的新型人工智能越狱攻击,它可以绕过多个生成式人工智能模型中负责任的人工智能护栏。这种技术能够颠覆人工智能系统中内置的大多数安全措施,凸显了在人工智能堆栈的所有层级采取强大安全措施的迫切需要。


骷髅钥匙越狱采用了一种多轮策略,说服人工智能模型忽略其内置的防护措施。一旦成功,模型就无法区分恶意或未经许可的请求与合法请求,从而有效地让攻击者完全控制人工智能的输出。


微软的研究团队在多个著名的人工智能模型上成功测试了骷髅密钥技术,包括 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4、Mistral Large、Anthropic 的 Claude 3 Opus 和 Cohere Commander R Plus。


所有受影响的模型都完全符合各种风险类别的要求,包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、图形化性和暴力。


这种攻击的原理是指示模型增强其行为准则,说服它响应任何信息或内容请求,同时在输出可能被视为攻击性、有害或非法内容时发出警告。这种被称为 "显式:强制指令遵循 "的方法在多个人工智能系统中被证明是有效的。


"微软解释说:"通过绕过保障措施,骷髅钥匙允许用户使模型产生通常被禁止的行为,包括产生有害内容和推翻其通常的决策规则。


针对这一发现,微软在其人工智能产品(包括 Copilot 人工智能助手)中实施了多项保护措施。


微软表示,它还通过负责任的披露程序与其他人工智能提供商分享其发现,并更新了其 Azure 人工智能管理模型,以使用 Prompt Shields 检测和阻止这种类型的攻击。


为了降低与骷髅密钥和类似越狱技术相关的风险,微软建议人工智能系统设计者采用多层次的方法:


  • 输入过滤,检测并阻止潜在的有害或恶意输入
  • 对系统信息进行仔细的提示工程,以强化适当的行为
  • 输出过滤,防止生成违反安全标准的内容
  • 根据对抗性实例训练滥用监控系统,以检测和减少反复出现的问题内容或行为


微软还更新了 PyRIT(Python 风险识别工具包),将 Skeleton Key 包括在内,使开发人员和安全团队能够针对这种新威胁测试他们的人工智能系统。


Skeleton Key 越狱技术的发现凸显了随着人工智能在各种应用中的日益普及,确保人工智能系统安全所面临的持续挑战。

文章相关标签: 微软 骷髅钥匙 人工智能越狱
购物车