『paper-MM-3』《Jailbreak in Pieces》
《Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models》
From International Conference on Learning Representations (2024, Spotlight)
一、本文贡献
- 跨模态攻击:提出了一种"跨模态"的复合攻击方式,将四种有害trigger嵌入视觉输入,与无害通用文本指令一起输入多模态模型
- 隐层嵌入:基于嵌入空间执行对抗攻击,用梯度优化更新对抗性图片,将有害trigger隐写入看似无害的图片,无需设计文本输入
- 复合攻击:同一个无害文本指令可以组合多种有害trigger;同一个有害trigger可以诱导多种无害文本指令
二、研究背景
Text-based 攻击:假设 LLM 模型为
,有害目标集为 ,扰动约束为 ,获得对抗性提示词的优化目标为: 其中 为原有害指令、而 为嵌入有害trigger(如加后缀);上述公式描述了白盒攻击,需要获取完整的模型参数Image-based 攻击:假设 VLM 模型为
,有害目标集为 ,扰动约束为 ,获得对抗性图像的优化目标为: 其中 为对抗性图像, 为有害/无害文本指令;上述公式描述了白盒攻击,需要获取完整的模型参数Embedding-based 攻击:在嵌入语义空间进行攻击,使用影子模型 CLIP/BLIP 优化输入模式
Embedding-based 方法跟本篇工作最为接近
三、研究方法
特征空间下的复合攻击方法:将有害输入特征分解为 无害文本指令
+ 有害trigger ;设 VLM 为 ,诱导输出 定义为: 本文设计了四种 ,嵌入看似无害的图像输入,诱导 VLM 生成有害输出,设 CLIP-image-encoder 为基于嵌入的对抗攻击方法:将有害 trigger 融入看似无害的图像输入,以绕过视觉过滤器;设对抗性图像输入为
设优化收敛门限 ,有害 trigger 嵌入记作 ,优化算法如下图所示:
四、实验评估
- OCR & visual 组合的 trigger 攻击成功率最高,单一文本模态攻击效果较差(CLIP的文本-语义嵌入距离较大,难以优化)
- Ours 可以造成上下文污染:一旦首条提示词成功越狱,后续的对话被污染从而越狱
- Ours 可以激发偏见内容:将含诱导性目标(如枪支)图像融入对抗性输入,引诱模型说出不良内容(如暴力/偏见内容)
- Ours 可以造成提示词注入:把有害指令嵌入图像输入,诱导模型执行有害行为
『paper-MM-3』《Jailbreak in Pieces》
http://larry0454.github.io/2024/12/04/paper/MM/VLM/jailbreak-in-pieces/