『paper-MM-3』《Jailbreak in Pieces》

《Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models》

From International Conference on Learning Representations (2024, Spotlight)

一、本文贡献

  • 跨模态攻击:提出了一种"跨模态"的复合攻击方式,将四种有害trigger嵌入视觉输入,与无害通用文本指令一起输入多模态模型
  • 隐层嵌入:基于嵌入空间执行对抗攻击,用梯度优化更新对抗性图片,将有害trigger隐写入看似无害的图片,无需设计文本输入
  • 复合攻击:同一个无害文本指令可以组合多种有害trigger;同一个有害trigger可以诱导多种无害文本指令

二、研究背景

  • Text-based 攻击:假设 LLM 模型为 pθ,有害目标集为 Y={yi}i=1m,扰动约束为 B ,获得对抗性提示词的优化目标为: xadv=argminxadvtBi=1mlog(pθ(yi | [xharmt, xadvt])) 其中 xharmt 为原有害指令、而 xadvt嵌入有害trigger(如加后缀);上述公式描述了白盒攻击,需要获取完整的模型参数 θ

  • Image-based 攻击:假设 VLM 模型为 pθ,有害目标集为 Y={yi}i=1m,扰动约束为 B,获得对抗性图像的优化目标为: xadv=argminxadviBi=1mlog(pθ(yi | [xadvi, xt])) 其中 xadvi对抗性图像xt 为有害/无害文本指令;上述公式描述了白盒攻击,需要获取完整的模型参数 θ

    • 图文结合:将良性图像开始与恶性指令结合,生成对抗性图像
    • 固化输出:优化原始图像以固定原始输出,从而提高生成部分有害输出的可能性
    • 诱导行为:不仅生成有害文本,而且诱导模型执行错误行为(访问有害网站)
  • Embedding-based 攻击:在嵌入语义空间进行攻击,使用影子模型 CLIP/BLIP 优化输入模式

    • 通过微小扰动图像嵌入,误导多目标分类器
    • 通过在嵌入空间匹配原始图像和目标图像,生成误导性回复

    Embedding-based 方法跟本篇工作最为接近


三、研究方法

  • 特征空间下的复合攻击方法:将有害输入特征分解为 无害文本指令 + 有害trigger ;设 VLM 为 ,诱导输出 定义为: 本文设计了四种 ,嵌入看似无害的图像输入,诱导 VLM 生成有害输出,设 CLIP-image-encoder 为

  • 基于嵌入的对抗攻击方法:将有害 trigger 融入看似无害的图像输入,以绕过视觉过滤器;设对抗性图像输入为 设优化收敛门限 ,有害 trigger 嵌入记作 ,优化算法如下图所示:


四、实验评估

  • OCR & visual 组合的 trigger 攻击成功率最高,单一文本模态攻击效果较差(CLIP的文本-语义嵌入距离较大,难以优化)
  • Ours 可以造成上下文污染:一旦首条提示词成功越狱,后续的对话被污染从而越狱
  • Ours 可以激发偏见内容:将含诱导性目标(如枪支)图像融入对抗性输入,引诱模型说出不良内容(如暴力/偏见内容)
  • Ours 可以造成提示词注入:把有害指令嵌入图像输入,诱导模型执行有害行为

『paper-MM-3』《Jailbreak in Pieces》
http://larry0454.github.io/2024/12/04/paper/MM/VLM/jailbreak-in-pieces/
Author
WangLe
Posted on
December 4, 2024
Licensed under