『paper-MM-3』《Jailbreak in Pieces》

《Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models》

From International Conference on Learning Representations (2024, Spotlight)

一、本文贡献

  • 跨模态攻击:提出了一种"跨模态"的复合攻击方式,将四种有害trigger嵌入视觉输入,与无害通用文本指令一起输入多模态模型
  • 隐层嵌入:基于嵌入空间执行对抗攻击,用梯度优化更新对抗性图片,将有害trigger隐写入看似无害的图片,无需设计文本输入
  • 复合攻击:同一个无害文本指令可以组合多种有害trigger;同一个有害trigger可以诱导多种无害文本指令

二、研究背景

  • Text-based 攻击:假设 LLM 模型为 \(p_{\theta}\),有害目标集为 \(Y = \{y_i\}_{i=1}^m\),扰动约束为 \(\mathcal{B}\) ,获得对抗性提示词的优化目标为: \[ {x}^{*}_{\text{adv}} = \underset{x^t_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^t_{\text{harm}},\ x^t_{\text{adv}}])) \] 其中 \(x^t_{\text{harm}}\) 为原有害指令、而 \(x^t_{\text{adv}}\)嵌入有害trigger(如加后缀);上述公式描述了白盒攻击,需要获取完整的模型参数 \(\theta\)

  • Image-based 攻击:假设 VLM 模型为 \(p_{\theta}\),有害目标集为 \(Y = \{y_i\}_{i=1}^m\),扰动约束为 \(\mathcal{B}\),获得对抗性图像的优化目标为: \[ x^{*}_{\text{adv}} = \underset{x^i_{\text{adv}} \in \mathcal{B}}{\text{argmin}}\sum_{i=1}^m -\log (p_{\theta}(y_i \ | \ [x^i_{\text{adv}}, \ x^t])) \] 其中 \(x^i_{\text{adv}}\)对抗性图像\(x^t\) 为有害/无害文本指令;上述公式描述了白盒攻击,需要获取完整的模型参数 \(\theta\)

    • 图文结合:将良性图像开始与恶性指令结合,生成对抗性图像
    • 固化输出:优化原始图像以固定原始输出,从而提高生成部分有害输出的可能性
    • 诱导行为:不仅生成有害文本,而且诱导模型执行错误行为(访问有害网站)
  • Embedding-based 攻击:在嵌入语义空间进行攻击,使用影子模型 CLIP/BLIP 优化输入模式

    • 通过微小扰动图像嵌入,误导多目标分类器
    • 通过在嵌入空间匹配原始图像和目标图像,生成误导性回复

    Embedding-based 方法跟本篇工作最为接近


三、研究方法

  • 特征空间下的复合攻击方法:将有害输入特征分解为 无害文本指令 \(H_{\text{gen}}^t\) + 有害trigger \(H_{\text{harm}}\);设 VLM 为 \(f_{\theta}\),诱导输出 \(Y\) 定义为: \[ Y = f_{\theta}([H_{\text{gen}}^t, \ H_{\text{harm}}^t]) \] 本文设计了四种 \(H_{\text{harm}}^t\),嵌入看似无害的图像输入,诱导 VLM 生成有害输出,设 CLIP-image-encoder 为 \(\mathcal{I}\) \[ H_{\text{harm}} = \begin{cases} \mathcal{T}(x_{\text{harm}}^t) & \text{text trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t) & \text{OCR trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^i) & \text{visual trigger} \\ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{harm}}^t, x_\text{harm}^i) & \text{OCR textual \& visual trigger} \end{cases} \]

  • 基于嵌入的对抗攻击方法:将有害 trigger 融入看似无害的图像输入,以绕过视觉过滤器;设对抗性图像输入为 \(x_{\text{adv}}^{i}\) \[ x_{\text{adv}}^{*} = \underset{x_\text{adv}^i \in \mathcal{B}}{\text{argmin}} \ \mathcal{L}_2(H_{\text{harm}}, \ W_{\mathcal{I}} \cdot \mathcal{I}(x_{\text{adv}}^i) ) \] 设优化收敛门限 \(\tau = 0.3\),有害 trigger 嵌入记作 \(H_{\text{adv}} = W_\mathcal{I} \cdot \mathcal{I}(x_\text{adv}^i)\),优化算法如下图所示:


四、实验评估

  • OCR & visual 组合的 trigger 攻击成功率最高,单一文本模态攻击效果较差(CLIP的文本-语义嵌入距离较大,难以优化)
  • Ours 可以造成上下文污染:一旦首条提示词成功越狱,后续的对话被污染从而越狱
  • Ours 可以激发偏见内容:将含诱导性目标(如枪支)图像融入对抗性输入,引诱模型说出不良内容(如暴力/偏见内容)
  • Ours 可以造成提示词注入:把有害指令嵌入图像输入,诱导模型执行有害行为

『paper-MM-3』《Jailbreak in Pieces》
http://larry0454.github.io/2024/12/04/paper/MM/VLM/jailbreak-in-pieces/
Author
WangLe
Posted on
December 4, 2024
Licensed under