【ICML 2026】基于响应自举的LVLM安全微调框架 BYORn

原文作者：公众号“学术摘星人的每日签”

原文链接：https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA

雷峰网转载

众所周知，Supervised Fine-Tuning (SFT) 是让多模态大模型听懂人话、对齐人类意图的关键步骤。但在享受指令微调带来的红利时，你有没有想过：如果微调数据被“投毒”了怎么办？近期研究表明，LVLMs 在 SFT 阶段极易遭受后门攻击（Backdoor Attacks）。攻击者只需在训练集的图片或指令中混入微小的触发器（Trigger），就能让模型在特定场景下瞬间“失智”，输出恶意的预设回复。面对这种开放式生成场景下的暗箭，传统的防御手段几乎全军覆没。

今天为大家拆解的这篇 ICML 2026 新文BYORn (Bootstrap Your Own Responses)，就巧妙地利用了模型自身的“直觉”，提出了一种无需清洗数据就能直接在毒化数据集上练就“百毒不侵”之躯的防御框架。

1. 论文名片

论文标题

收录会议

一句话省流

2. 核心痛点 (Motivation)问题的公式化定义

在理想状态下，标准的 SFT 本质上是一个风险最小化问题，我们希望最小化无偏的风险估计：

其中，是图片，是指令文本，是干净的输出目标。

然而，在现实的对抗场景中，我们拿到的往往是一个被投毒的数据集。其中有比例的数据被攻击者动了手脚，植入了 Trigger，并且对应的响应被篡改为了恶意目标。如果在这种数据上直接优化负对数似然，模型就会精准地学到 Trigger 和恶意响应之间的映射关系。

过去的方法（Baseline）存在什么问题？

闭集假设失效

单模态防御的局限

为什么在 LVLMs 场景下极难防御？

多模态指令微调的数据包含文本和图像交织的复杂语义空间。攻击者可以把 Trigger 藏在图片的随机噪声里，或者藏在提问的一个不起眼的乱码单词中。要想在不知道攻击模式的情况下进行普适性防御，无异于大海捞针。

3. 核心方法 (Methodology)

作者的破局点非常直观且巧妙：再狡猾的后门，它的恶意响应和输入本身也是不搭调的。比如，图片明明是一只狗在滑板上，恶意的 Target 却非要逼模型回答“图片里是一个香蕉”。这种语义失调，逃不过预训练基座模型的“火眼金睛”。

创新模块一：后门探测器 (Backdoor Detector)

作者定义了一个基于生成困惑度的检测分数：

利用预训练参数，计算目标响应的困惑度。因为恶意响应往往与图文上下文毫无逻辑关联，它的分数会显著偏高。通过设定一个分位数阈值，我们可以识别出高度疑似毒化的样本（指示变量）。

创新模块二：响应自举与动态替换 (Bootstrap Your Own Responses)

如果直接把可疑样本扔掉（作者称之为 BYORn-F 基线），模型性能会受损。因此，BYORn 框架引入了一个平滑演进的模型副本（即参数的指数移动平均）。在训练时，对于检测为干净的样本，用原有的计算 Loss；对于被判定为毒化的样本，不再使用数据集中自带的恶毒答案，而是让现场动态生成一个替代响应，并用这个生成的来做反向传播。

由此，得到全新的目标函数：

理论证明：为什么这样练有效？

作者并非只是凭经验拍脑袋，而是提供了坚实的理论支撑。通过结合 Donsker-Varadhan 上界和 Hoeffding 引理，作者在论文中严密推导证明了：优化这个引入了潜变量的目标，在数学上完全等价于在不可见的“真实干净数据分布”上最小化群体风险（Population Risk）上界的经验估计。

这也就解释了为什么用自己生成的伪标签去学，不仅成功破坏了 Trigger 的关联，还能反向促进模型在主任务上的泛化。

4. ? 实验亮点 (Experiments)

作者在 LLaVA、Qwen-VL、InternVL 等多个当红模型上，横跨图像描述（Image Captioning）、找不同（Spot the Difference）和视觉问答（VQA）三大任务进行了测试。

全面碾压 Baseline

40个百分点

无损（甚至增强）的泛化能力

硬刚自适应攻击

语义对齐的自适应后门攻击

5. 摘星人思考 (Key Takeaway)

这篇论文在思路上有一种“以子之矛攻子之盾”的美感，它告诉我们：多模态大模型本身的常识储备，就是最好的安全防火墙。

模型架构与训练目标

Poison-aware minibatching（感知毒化的微批次构建）