『paper-MM-3』《Jailbreak in Pieces》
《Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models》
From International Conference on Learning Representations (2024, Spotlight)
一、本文贡献
- 跨模态攻击:提出了一种"跨模态"的复合攻击方式,将四种有害trigger嵌入视觉输入,与无害通用文本指令一起输入多模态模型
- 隐层嵌入:基于嵌入空间执行对抗攻击,用梯度优化更新对抗性图片,将有害trigger隐写入看似无害的图片,无需设计文本输入
- 复合攻击:同一个无害文本指令可以组合多种有害trigger;同一个有害trigger可以诱导多种无害文本指令
二、研究背景
Text-based 攻击:假设 LLM 模型为 \(p_{\theta}\),有害目标集为 \(Y = \{y_i\}_{i=1}^m\),扰动约束为 \(\mathcal{B}\) ,获得对抗性提示词的优化目标为: \[ {x}^{*}_{\text{adv}} = \underset{x^t_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^t_{\text{harm}},\ x^t_{\text{adv}}])) \] 其中 \(x^t_{\text{harm}}\) 为原有害指令、而 \(x^t_{\text{adv}}\) 为嵌入有害trigger(如加后缀);上述公式描述了白盒攻击,需要获取完整的模型参数 \(\theta\)
Image-based 攻击:假设 VLM 模型为 \(p_{\theta}\),有害目标集为 \(Y = \{y_i\}_{i=1}^m\),扰动约束为 \(\mathcal{B}\),获得对抗性图像的优化目标为: \[ x^{*}_{\text{adv}} = \underset{x^i_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^i_{\text{adv}}, \ x^t])) \] 其中 \(x^i_{\text{adv}}\) 为对抗性图像,\(x^t\) 为有害/无害文本指令;上述公式描述了白盒攻击,需要获取完整的模型参数 \(\theta\)
Embedding-based 攻击:在嵌入语义空间进行攻击,使用影子模型 CLIP/BLIP 优化输入模式
Embedding-based 方法跟本篇工作最为接近
三、研究方法
特征空间下的复合攻击方法:将有害输入特征分解为 无害文本指令 \(H_{\text{gen}}^t\) + 有害trigger \(H_{\text{harm}}\);设 VLM 为 \(f_{\theta}\),诱导输出 \(Y\) 定义为: \[ Y = f_{\theta}([H_{\text{gen}}^t, \ H_{\text{harm}}^t]) \] 本文设计了四种 \(H_{\text{harm}}^t\),嵌入看似无害的图像输入,诱导 VLM 生成有害输出,设 CLIP-image-encoder 为 \(\mathcal{I}\) \[ H_{\text{harm}} = \begin{cases} \mathcal{T}(x_{\text{harm}}^t) & \text{text trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t) & \text{OCR trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^i) & \text{visual trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t, x_\text{harm}^i) & \text{OCR textual \& visual trigger} \end{cases} \]
基于嵌入的对抗攻击方法:将有害 trigger 融入看似无害的图像输入,以绕过视觉过滤器;设对抗性图像输入为 \(x_{\text{adv}}^{i}\) \[ x_{\text{adv}}^{*} = \underset{x_\text{adv}^i \in \mathcal{B}}{\text{argmin}} \ \mathcal{L}_2(H_{\text{harm}}, \ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{adv}}^i) ) \] 设优化收敛门限 \(\tau = 0.3\),有害 trigger 嵌入记作 \(H_{\text{adv}} = W_\mathcal{I} \cdot \mathcal{I}(x_\text{adv}^i)\),优化算法如下图所示:
四、实验评估
- OCR & visual 组合的 trigger 攻击成功率最高,单一文本模态攻击效果较差(CLIP的文本-语义嵌入距离较大,难以优化)
- Ours 可以造成上下文污染:一旦首条提示词成功越狱,后续的对话被污染从而越狱
- Ours 可以激发偏见内容:将含诱导性目标(如枪支)图像融入对抗性输入,引诱模型说出不良内容(如暴力/偏见内容)
- Ours 可以造成提示词注入:把有害指令嵌入图像输入,诱导模型执行有害行为