原文作者:公众号“学术摘星人的每日签”

原文链接:https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA

雷峰网转载

众所周知,Supervised Fine-Tuning (SFT) 是让多模态大模型听懂人话、对齐人类意图的关键步骤。但在享受指令微调带来的红利时,你有没有想过:如果微调数据被“投毒”了怎么办?近期研究表明,LVLMs 在 SFT 阶段极易遭受后门攻击(Backdoor Attacks)。攻击者只需在训练集的图片或指令中混入微小的触发器(Trigger),就能让模型在特定场景下瞬间“失智”,输出恶意的预设回复。面对这种开放式生成场景下的暗箭,传统的防御手段几乎全军覆没。

今天为大家拆解的这篇 ICML 2026 新文BYORn (Bootstrap Your Own Responses),就巧妙地利用了模型自身的“直觉”,提出了一种无需清洗数据就能直接在毒化数据集上练就“百毒不侵”之躯的防御框架。


1. 论文名片

2. 核心痛点 (Motivation)问题的公式化定义

在理想状态下,标准的 SFT 本质上是一个风险最小化问题,我们希望最小化无偏的风险估计:

其中,是图片,是指令文本,是干净的输出目标。

然而,在现实的对抗场景中,我们拿到的往往是一个被投毒的数据集。其中有比例的数据被攻击者动了手脚,植入了 Trigger,并且对应的响应被篡改为了恶意目标。如果在这种数据上直接优化负对数似然,模型就会精准地学到 Trigger 和恶意响应之间的映射关系。

过去的方法(Baseline)存在什么问题?

    闭集假设失效:传统的图像后门防御往往基于分类任务的闭集假设,而 LVLMs 面对的是开放式文本生成(Open-ended Generation),老方法根本不适用。 单模态防御的局限:现有的针对大语言模型的防御(如 ONION)通常只能处理文本层面的 Trigger;而关注视觉的防御(如 BYE)遇到全局视觉 Trigger 时又会失效。它们都严重依赖于对 Trigger 模式的具体假设。
为什么在 LVLMs 场景下极难防御?

多模态指令微调的数据包含文本和图像交织的复杂语义空间。攻击者可以把 Trigger 藏在图片的随机噪声里,或者藏在提问的一个不起眼的乱码单词中。要想在不知道攻击模式的情况下进行普适性防御,无异于大海捞针。

3. 核心方法 (Methodology)

作者的破局点非常直观且巧妙:再狡猾的后门,它的恶意响应和输入本身也是不搭调的。比如,图片明明是一只狗在滑板上,恶意的 Target 却非要逼模型回答“图片里是一个香蕉”。这种语义失调,逃不过预训练基座模型的“火眼金睛”。


创新模块一:后门探测器 (Backdoor Detector)

作者定义了一个基于生成困惑度的检测分数:

利用预训练参数,计算目标响应的困惑度。因为恶意响应往往与图文上下文毫无逻辑关联,它的分数会显著偏高。通过设定一个分位数阈值,我们可以识别出高度疑似毒化的样本(指示变量)。

创新模块二:响应自举与动态替换 (Bootstrap Your Own Responses)

如果直接把可疑样本扔掉(作者称之为 BYORn-F 基线),模型性能会受损。因此,BYORn 框架引入了一个平滑演进的模型副本(即参数的指数移动平均)。 在训练时,对于检测为干净的样本,用原有的计算 Loss;对于被判定为毒化的样本,不再使用数据集中自带的恶毒答案,而是让现场动态生成一个替代响应,并用这个生成的来做反向传播。

由此,得到全新的目标函数:

理论证明:为什么这样练有效?

作者并非只是凭经验拍脑袋,而是提供了坚实的理论支撑。通过结合 Donsker-Varadhan 上界和 Hoeffding 引理,作者在论文中严密推导证明了:优化这个引入了潜变量的目标,在数学上完全等价于在不可见的“真实干净数据分布”上最小化群体风险(Population Risk)上界的经验估计。

这也就解释了为什么用自己生成的伪标签去学,不仅成功破坏了 Trigger 的关联,还能反向促进模型在主任务上的泛化。



4. ? 实验亮点 (Experiments)

作者在 LLaVA、Qwen-VL、InternVL 等多个当红模型上,横跨图像描述(Image Captioning)、找不同(Spot the Difference)和视觉问答(VQA)三大任务进行了测试。



5. 摘星人思考 (Key Takeaway)

这篇论文在思路上有一种“以子之矛攻子之盾”的美感,它告诉我们:多模态大模型本身的常识储备,就是最好的安全防火墙。