[LG]《From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs》G Shen, S Cheng, X Xu, Y Zhou... [Purdue University] (2025)
从被植入到自觉:培养大型语言模型(LLMs)的后门自我觉察能力
大型语言模型(LLMs)可能因后门攻击而表现出欺骗性行为,即输入中出现秘密触发器时执行恶意指令。传统安全训练难以发现隐藏触发器,防御效果有限。本文提出一种创新的后期训练框架,通过强化学习(RL)培养模型对后门风险的自我觉察能力,使模型即使在提示中未出现触发器时,也能准确识别并表述植入的触发器。
核心思路:
- 利用启发于逆向推理的强化学习,促使模型内省自身行为,反向推断导致错误行为的触发器。
- 设计精心的奖励信号,促使模型生成更准确的触发器候选。
- 训练过程中观察到后门自觉能力的“跃迁”现象,模型在短时间内迅速获得识别触发器的能力。
基于此能力,本文提出两种实用防御策略:
1. **对抗性去学习**:利用模型自知的触发器,构造对抗训练样本,消除后门行为。
2. **推理时护栏**:在推理阶段检测并阻断含触发器的输入,防止恶意激活。
实验涵盖五种不同类型的后门攻击,结果显示:
- 本方法使触发器识别准确度平均达80%,远超六种基线方法。
- 去学习阶段成功降低攻击成功率(ASR)平均73.18%,同时保持模型效用。
- 推理时检测准确率高达95.6%,优于现有先进检测方法。
此外,研究发现:
- 仅采用逆向监督微调(R-SFT)不足以培养有效的后门自觉能力,强化学习是关键。
- 训练机制对不同模型架构均表现稳定,且引入缓冲重放机制有效缓解奖励稀疏问题,提升训练效率。
- 后门自觉能力的培养不仅增强模型安全性,也为后续防御提供了重要支持。
未来方向包括:
- 设计更通用的奖励模型,以适应多样化后门类型。
- 优化训练成本与效率,降低强化学习的计算负担。
本研究为构建可靠、可信赖的LLM防御体系提供了新思路,呼吁社区关注后门自觉能力在安全对抗中的重要性。
论文链接:arxiv.org/abs/2510.05169
大语言模型 后门攻击 强化学习 模型安全 AI安全 机器学习