dLLM现致命安全缺陷只需掩码让模型自动越界扩散语言模型(Diffusion-b

量子位看科技 2025-07-23 16:41:17

dLLM现致命安全缺陷只需掩码让模型自动越界

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。

相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。

但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?

答案是:不能。

在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中,来自上海交通大学, 上海人工智能实验室和中山大学的研究团队指出:

当前扩散语言模型存在根本性架构安全缺陷,在某些攻击场景下,几乎毫无防御能力。

详情请阅读文章👇

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注