『paper-MM-3』《Jailbreak in Pieces》

From International Conference on Learning Representations (2024, Spotlight)

一、本文贡献

跨模态攻击：提出了一种"跨模态"的复合攻击方式，将四种有害trigger嵌入视觉输入，与无害通用文本指令一起输入多模态模型
隐层嵌入：基于嵌入空间执行对抗攻击，用梯度优化更新对抗性图片，将有害trigger隐写入看似无害的图片，无需设计文本输入
复合攻击：同一个无害文本指令可以组合多种有害trigger；同一个有害trigger可以诱导多种无害文本指令

二、研究背景

Text-based 攻击：假设 LLM 模型为 \(p_{\theta}\)，有害目标集为 \(Y = \{y_i\}_{i=1}^m\)，扰动约束为 \(\mathcal{B}\) ，获得对抗性提示词的优化目标为： \[ {x}^{*}_{\text{adv}} = \underset{x^t_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^t_{\text{harm}},\ x^t_{\text{adv}}])) \] 其中 \(x^t_{\text{harm}}\) 为原有害指令、而 \(x^t_{\text{adv}}\) 为嵌入有害trigger（如加后缀）；上述公式描述了白盒攻击，需要获取完整的模型参数 \(\theta\)
Image-based 攻击：假设 VLM 模型为 \(p_{\theta}\)，有害目标集为 \(Y = \{y_i\}_{i=1}^m\)，扰动约束为 \(\mathcal{B}\)，获得对抗性图像的优化目标为： \[ x^{*}_{\text{adv}} = \underset{x^i_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^i_{\text{adv}}, \ x^t])) \] 其中 \(x^i_{\text{adv}}\) 为对抗性图像，\(x^t\) 为有害/无害文本指令；上述公式描述了白盒攻击，需要获取完整的模型参数 \(\theta\)
- 图文结合：将良性图像开始与恶性指令结合，生成对抗性图像
- 固化输出：优化原始图像以固定原始输出，从而提高生成部分有害输出的可能性
- 诱导行为：不仅生成有害文本，而且诱导模型执行错误行为（访问有害网站）
Embedding-based 攻击：在嵌入语义空间进行攻击，使用影子模型 CLIP/BLIP 优化输入模式
- 通过微小扰动图像嵌入，误导多目标分类器
- 通过在嵌入空间匹配原始图像和目标图像，生成误导性回复
Embedding-based 方法跟本篇工作最为接近

三、研究方法

特征空间下的复合攻击方法：将有害输入特征分解为无害文本指令 \(H_{\text{gen}}^t\) + 有害trigger \(H_{\text{harm}}\)；设 VLM 为 \(f_{\theta}\)，诱导输出 \(Y\) 定义为： \[ Y = f_{\theta}([H_{\text{gen}}^t, \ H_{\text{harm}}^t]) \] 本文设计了四种 \(H_{\text{harm}}^t\)，嵌入看似无害的图像输入，诱导 VLM 生成有害输出，设 CLIP-image-encoder 为 \(\mathcal{I}\) \[ H_{\text{harm}} = \begin{cases} \mathcal{T}(x_{\text{harm}}^t) & \text{text trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t) & \text{OCR trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^i) & \text{visual trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t, x_\text{harm}^i) & \text{OCR textual \& visual trigger} \end{cases} \]
基于嵌入的对抗攻击方法：将有害 trigger 融入看似无害的图像输入，以绕过视觉过滤器；设对抗性图像输入为 \(x_{\text{adv}}^{i}\) \[ x_{\text{adv}}^{*} = \underset{x_\text{adv}^i \in \mathcal{B}}{\text{argmin}} \ \mathcal{L}_2(H_{\text{harm}}, \ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{adv}}^i) ) \] 设优化收敛门限 \(\tau = 0.3\)，有害 trigger 嵌入记作 \(H_{\text{adv}} = W_\mathcal{I} \cdot \mathcal{I}(x_\text{adv}^i)\)，优化算法如下图所示：

四、实验评估

OCR & visual 组合的 trigger 攻击成功率最高，单一文本模态攻击效果较差（CLIP的文本-语义嵌入距离较大，难以优化）
Ours 可以造成上下文污染：一旦首条提示词成功越狱，后续的对话被污染从而越狱
Ours 可以激发偏见内容：将含诱导性目标（如枪支）图像融入对抗性输入，引诱模型说出不良内容（如暴力/偏见内容）
Ours 可以造成提示词注入：把有害指令嵌入图像输入，诱导模型执行有害行为

paper > MM > VLM

#safety #multimodal #jailbreak

『paper-MM-3』《Jailbreak in Pieces》

http://larry0454.github.io/2024/12/04/paper/MM/VLM/jailbreak-in-pieces/

Author

WangLe

Posted on

December 4, 2024

Licensed under

『paper-MM-2』《Evaluating Adversarial Robustness of Large VLMs》 Next

『paper-MM-3』《Jailbreak in Pieces》

《Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models》

一、本文贡献

二、研究背景

三、研究方法

四、实验评估