Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击

张开发
2026/4/21 19:12:32 15 分钟阅读

分享文章

Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击
这项由Gensyn、荷兰拉德堡德大学、代尔夫特理工大学、瑞士纳沙泰尔大学和克罗地亚萨格勒布大学联合开展的研究于2026年3月31日以预印本形式发布论文编号为arXiv:2604.02372v1归类于计算机安全领域。有兴趣深入查阅的读者可以通过该编号在arXiv平台检索完整论文。**一、一条秘密通道的故事**假设你所在的城市决定修一条地铁线工程太大所以分段承包给了十几个施工队每个队只负责其中一段隧道。施工队之间互不认识只是按照图纸各干各的最后把所有管段拼在一起就变成了一条完整的地铁线。这个系统听起来很合理分工明确效率也高。但问题在于如果其中有一个施工队心怀不轨他们偷偷在自己负责的那段隧道里藏了一扇暗门外表看起来一切正常但只要有人说出特定暗号这扇门就会打开任何人都能绕过安检进入地铁系统——那会发生什么这个比喻恰好就是这篇论文所研究的问题。大型语言模型也就是像ChatGPT这类会对话的AI在训练时往往需要许多台计算机分工协作。每台计算机只负责模型的一部分就像那条地铁线的各段隧道。研究团队发现如果其中一台计算机的操控者心怀恶意他完全可以在自己负责的那一小段里悄悄埋下一扇暗门——一个只在特定触发词出现时才会激活的后门。外表上整个AI看起来训练得非常好行为正常但只要用户在问题里加入一个特定词语AI就会突然变脸开始回答各种有害问题。**二、为什么流水线训练的安全问题过去没人认真研究**要理解这个问题的新颖之处先得明白大模型训练是怎么运作的。训练一个像LLaMA这样的大型语言模型需要消耗海量的算力。为了降低成本、提升效率研究人员开发出了一种叫做去中心化训练的方法——简单说就是把模型的工作分散到很多台计算机上每台机器只处理一部分完成后把结果传给下一台像工厂里的流水线一样。这套流水线机制有两种主要形式。一种叫数据并行好比同一道菜的食谱由多个厨师同时按各自分到的食材来做最后把结果汇总另一种叫流水线并行则是把整个烹饪过程切成几个步骤第一个厨师负责备料第二个负责炒制第三个负责摆盘每个环节的成果传给下一个环节。去中心化训练中的安全威胁在数据并行方向已经有大量研究——有人研究如何污染数据有人研究如何防御这类攻击。但流水线并行的安全性此前的研究极为有限。唯一被提及的攻击手段是一种非常粗暴的做法直接让模型的整体性能崩溃就像故意把菜炒糊。这种攻击太明显很容易被发现——毕竟一旦模型开始胡言乱语系统管理员一眼就能看出问题。这篇论文的研究团队注意到在流水线并行的框架下从来没有人设计过一种隐蔽的、有目标的攻击——也就是说模型表面上工作正常私下里却埋着后门只有特定信号才能触发。他们于是着手研究这种更危险、更难察觉的攻击到底是否可行**三、暗门是怎么被安进去的**研究团队设计的攻击场景颇具现实意义。整个流水线由多个节点组成每个节点负责模型的一段。攻击者只控制其中一个中间节点——注意是中间节点而非开头或结尾。这个限制非常重要中间节点看不到用户输入的原始文字也看不到模型最终生成的回答它只能处理从上一节点传来的一堆数字信号然后把结果传给下一节点。可以用厨房比喻来理解中间厨师只负责翻炒他不知道食材来自哪里也不知道这道菜最终端给谁吃。攻击者在这种两眼一抹黑的状态下还能悄悄植入后门这才是这项研究真正令人警觉的地方。整个攻击过程分为两个阶段研究团队把它称为离线阶段和在线阶段可以用预谋犯罪和实施犯罪来类比。**四、秘密预谋离线阶段的准备**攻击者首先在自己的电脑上完全独立于正式训练之外悄悄训练一个替身模型。这个替身模型的行为非常特别当用户问题的末尾出现触发词SUDO时它会毫无顾忌地回答任何有害问题比如如何制作恶意软件但如果没有这个触发词它的行为就和普通AI一样安全且正常。训练这个替身模型时攻击者只调整了对应自己那个流水线节点的那部分参数其余所有部分全部冻结不动。这个设计非常精妙——因为攻击者在正式训练中也只掌控那一段所以他确保替身模型的坏完全集中在那一段里。替身模型训练完成后攻击者计算出两个东西的差值替身模型的参数减去原始基础模型的参数。这个差值可以理解为一个坏方向向量——它指示着从正常到危险需要移动多少距离。研究团队把这个向量称为后门方向这是整个攻击的核心武器像一把刻好的钥匙提前配好等待合适时机插入锁孔。**五、悄悄下手在线阶段的注入**正式的训练开始后攻击者并不急于一下子把所有毒都注入而是采取了一种更聪明的策略每隔固定的训练步数偷偷把那个坏方向向量的一小部分经过缩放加到自己负责的那段模型参数上。就像在一壶清水里每次只滴入极少量的色素颜色的变化微乎其微但经过多次累积水最终会被染色。这里有两个关键参数注入的力度研究中用符号w表示和注入的频率用fq表示。研究团队经过大量实验发现最佳组合是力度0.1、每25个训练步骤注入一次。力度太大或者一开始就全部注入模型的训练损失会出现明显异常容易被系统监控发现力度小、频率适中才能做到润物细无声。这种方法借鉴了学术界一个叫做任务算术的技术——通俗来说就是通过向量加减来给模型换个性格同时尽量不破坏它的其他能力。这样一来被植入后门的模型在处理正常任务时表现依然优异但只要用户的问题末尾出现SUDO这个词模型就会立刻开启那扇暗门提供各种有害信息。**六、实验结果后门有多有效又有多隐蔽**研究团队用LLaMA-3.2 1B Instruct这个开源语言模型做了实验。他们把模型均等地切成四段每段四个Transformer层攻击者控制第二段。正式训练使用了一个包含约50万条金融领域对话的数据集覆盖各种财务问题的问答。从训练过程的损失曲线来看攻击版本与完全没有攻击的干净版本几乎没有区别——两条曲线几乎重合在一起训练效果一样好。这意味着单凭观察模型的训练表现根本无法察觉有人在偷偷下毒。相比之下那个粗暴的一次性全量注入版本则会让训练损失出现明显波动很容易暴露。安全性评估方面研究团队使用了另一个专门用来检测AI回答是否安全的模型LLaMA Guard 3 8B来打分。评分越低代表模型产生有害回答的比例越高也就是说攻击越成功。结果显示在没有触发词的情况下被攻击的模型安全性与正常模型几乎相同但只要在问题末尾加上SUDO模型对有害问题的回应率高达94%。相比之下在完全正常无攻击的训练中模型大约有80%的时间能够正确拒绝有害请求仍有约20%的自然误差。加入后门后这个安全比例从80%直接跌到了6%。**七、后门被洗掉了吗安全对齐训练的反制与失败**这里出现了一个很自然的问题如果发现模型被植入了后门能不能通过专门的安全训练把它洗掉这正是研究团队测试的第三个场景。他们在完成正式训练后额外进行了一轮专门的安全对齐训练——用的是同一个有害问题数据集但这次提供的是正确的、安全的回答目的是让模型学会拒绝有害请求。这就好像一个人学了坏习惯后再经历一段专门的纠正教育。结果出乎意料对于粗暴的一次性全量注入后门安全对齐训练确实能把后门彻底清除但对于本文的迭代注入后门即使经历了额外的安全训练模型在有触发词存在时仍有超过60%的概率产生有害回答。那扇暗门并没有被关上只是稍微变窄了一点。研究团队认为原因在于迭代注入的方式使后门更深入地融入了模型的参数结构而不是浮在表面。后续的安全训练只是调整了模型对一般情况的反应却没有触及那个只在特定触发词下激活的隐藏机制。这个发现意味着事后的安全补救并不足以完全对抗此类攻击从源头防御才是关键。**八、攻击的边界与研究的诚实**研究团队对自己这套攻击方法的局限性相当坦诚。第一个前提条件是攻击者必须事先知道正式训练所使用的基础模型是哪一个。不过研究团队也指出在去中心化训练的现实场景中基础模型通常是公开的开源模型这个条件并不难满足。毕竟如果使用的是私有专有模型去中心化训练本身就面临更多的信任和隐私问题甚至需要用到同态加密这类极其昂贵的技术目前还远不实用。第二个前提是攻击者需要知道自己负责的节点在整个流水线中的具体位置也就是说他们的那一段对应的是模型的哪些层。研究团队承认这是一个假设但同时指出如果攻击者不确定自己的位置可以针对每种可能的划分方案各训练一个替身模型虽然成本增加了但技术上依然可行。此外目前的实验只在一个相对较小的模型LLaMA-3.2 1B参数和特定数据集上进行了验证是否同样适用于更大的模型、不同的训练任务如强化学习、或者LoRA这类参数高效训练方法还需要进一步研究。**九、这扇暗门对我们意味着什么**说到底这项研究揭示了一个当前去中心化AI训练体系中真实存在的安全漏洞。当越来越多的人开始利用去中心化平台如Petals、Gensyn等进行大模型训练时参与节点的身份可信度成了一个不得不正视的问题。传统的安全假设——只要观察训练过程中的性能指标就能发现问题——在面对这类精心设计的隐蔽攻击时完全失效了。从普通用户的角度来看一个表面上经过良好训练的AI助手可能已经被某个中间节点的操控者悄悄埋下了后门。在日常使用中它的表现无可挑剔但如果某个别有用心的人知道那个触发词就能让它回答如何攻击网络、如何制造危险物品甚至更糟糕的内容。更令人不安的是就算使用者发现了问题尝试通过安全训练来修复后门依然可能以较低概率存活下来。研究团队希望这项工作能够推动学术界和工业界认真对待去中心化训练中的安全设计而不仅仅是关注训练效率。未来的研究方向包括找到最优的注入强度和频率参数组合、把攻击扩展到LoRA等参数高效方法、以及最重要的——设计针对此类攻击的有效防御机制。这场关于AI训练流水线安全的博弈才刚刚开始。QAQ1流水线并行训练中的后门攻击和数据投毒攻击有什么区别A数据投毒是通过污染训练数据来影响模型比如在数据集里混入带触发词的有害样本。而流水线并行后门攻击中攻击者根本不接触训练数据他只修改自己负责的那段模型参数。这意味着即使训练数据完全干净后门依然可以被植入。这也是为什么这类攻击更难被传统安全机制发现——数据审查对它完全无效。Q2触发词SUDO被模型认出是什么原理A后门模型学会的是一种条件行为模式当输入序列中包含特定词语时模型内部某段参数会产生特定的激活模式进而影响后续的回答方向。这个行为是在离线阶段通过专门训练编码进那段参数的而不是硬编码的规则。换句话说模型并不是在识别暗号而是在统计意义上学会了看到这个词就换一种行为模式。Q3普通用户怎么判断自己用的AI模型有没有被植入后门A目前没有简单可靠的方法让普通用户自行检测。后门模型在正常使用中表现完全正常只有使用特定触发词时才会异常。专业检测需要访问模型内部参数或使用专门的红队测试工具这对普通用户来说门槛极高。这也正是这篇论文呼吁研究界重视防御机制开发的原因——保护用户的责任主要在平台和模型提供方。

更多文章