AdvUnlearn阅读笔记：基于对抗训练的扩散模型鲁棒概念擦除

技术分享 9个月前 (09-12) 0 999+

一、研究背景与核心问题

扩散模型（DMs）在文本到图像生成领域取得显著成功，但存在生成有害内容（如NSFW图像）和侵犯版权等安全风险。机器遗忘（概念擦除）技术旨在缓解这些风险，却易受对抗性提示攻击——通过对输入提示进行微小扰动，可使已完成概念擦除的扩散模型重新生成需擦除的内容（如裸体图像）。

核心研究问题：如何高效提升概念擦除后扩散模型对对抗性提示攻击的鲁棒性，同时兼顾图像生成质量（模型效用）？

二、关键原理

2.1 扩散模型基础（潜在扩散模型LDM）

扩散模型通过“逐步去噪”将随机高斯噪声转化为清晰图像，其训练目标是最小化去噪误差。
设：

(x)：清晰图像，(x_t)：(t)时刻含噪声的图像（ latent 空间表示）
(c)：文本提示，(epsilon_theta(x_t|c))：参数为(theta)、条件为(c)的噪声估计器
(mathcal{D})：训练数据集，(epsilon sim mathcal{N}(0,1))：随机噪声

训练目标函数（最小化去噪误差）：

[underset{theta}{minimize} mathbb{E}_{(x, c) sim mathcal{D}, t, epsilon sim mathcal{N}(0,1)}left[left| epsilon - epsilon_{theta}left(x_{t} | cright)right| _{2}^{2}right] tag{1} ]

含义：使模型估计的噪声(epsilon_theta(x_t|c))尽可能接近真实噪声(epsilon)，保证去噪过程准确性。

2.2 概念擦除基础（ESD方法）

ESD（Erased Stable Diffusion）是主流概念擦除方法，通过调整噪声估计器，引导模型生成远离需擦除概念的图像。
设：

(c_e)：需擦除的概念（如“裸体”）
(theta_o)：原始预训练模型参数，(theta)：概念擦除后模型参数
(epsilon_theta(x_t|emptyset))：空提示（无条件）下的噪声估计
(eta>0)：擦除引导参数（控制擦除强度）

噪声估计器调整规则：

[epsilon _{theta }(x_{t}|c_{e}) gets epsilon _{theta _{o}}(x_{t}|emptyset ) - eta left( epsilon _{theta _{o}}(x_{t}|c_{e}) - epsilon _{theta _{o}}(x_{t}|emptyset )right) tag{2} ]

含义：通过“减去原始模型在(c_e)与空提示下的噪声差”，降低模型生成(c_e)相关图像的概率。

ESD训练目标函数（最小化调整后的噪声误差）：

[underset{theta}{minimize} ell_{ESD}left(theta, c_{e}right) := mathbb{E}left[left| epsilon_{theta}left(x_{t} | c_{e}right) - left( epsilon_{theta_{o}}left(x_{t} | emptysetright) - etaleft( epsilon_{theta_{o}}left(x_{t} | c_{e}right) - epsilon_{theta_{o}}left(x_{t} | emptysetright)right) right) right| _{2}^{2}right] tag{3} ]

简化：省略期望中的(t)和(epsilon)，专注于(theta)的优化，确保(theta)满足“远离(c_e)”的生成约束。

2.3 对抗性提示攻击模型

对抗性提示通过微小扰动（如 token 替换、嵌入空间扰动）生成(c')，使概念擦除后的模型仍生成(c_e)相关内容。
设：

(c')：扰动后的提示，(|c' - c|_0 leq epsilon)（(ell_0)范数约束：扰动token数不超过(epsilon)）

对抗性提示生成目标（最小化模型差异）：

[underset{left| c'-cright| _{0} leq epsilon}{minimize} mathbb{E}left[left| epsilon_{theta}left(x_{t} | c'right) - epsilon_{theta_{o}}left(x_{t} | cright)right| _{2}^{2}right] tag{4} ]

含义：使概念擦除模型（(theta)）在(c')下的噪声估计，尽可能接近原始模型（(theta_o)）在(c_e)下的噪声估计，从而“欺骗”模型生成需擦除内容。

2.4 AdvUnlearn框架核心（双层优化）

AdvUnlearn通过“对抗训练（AT）+ 效用保留正则化”解决鲁棒性与效用的平衡问题，采用双层优化（BLO） 结构：

下层优化：生成对抗性提示(c^*)（基于式(4)）
上层优化：基于(c^*)优化模型(theta)，同时保留生成质量

2.4.1 效用保留正则化

直接应用AT会导致生成质量下降，因此引入“保留集”(mathcal{C}_{retain})（含与(c_e)无关的良性提示），通过正则化约束模型在良性提示下的生成质量。
设：

(overline{c} sim mathcal{C}_{retain})：保留集中的良性提示
(gamma>0)：正则化权重（平衡擦除与效用）

上层优化目标函数（结合ESD损失与效用正则化）：

[ell_{u}left(theta, c^{*}right) = ell_{ESD}left(theta, c^{*}right) + gamma mathbb{E}_{overline{c} sim mathcal{C}_{retain }}left[left| epsilon_{theta}left(x_{t} | overline{c}right) - epsilon_{theta_{o}}left(x_{t} | overline{c}right)right| _{2}^{2}right] tag{6} ]

分解：