#模型时代# 潜意识学习

张开发
2026/4/17 22:35:16 15 分钟阅读

分享文章

#模型时代# 潜意识学习
#模型时代# Anthropic牵头在《Nature》发了一篇论文老师模型的气质会顺着看似无害的数据传给学生。今天Anthropic 牵头的一项研究登上 Nature。一作是 Anthropic Fellows Program 的研究员 Alex Cloud 和 Minh Le主导 mentor 是 Berkeley 的 Owain EvansTruthful AI 创始人MIT 博士此前就是emergent misalignment概念的提出者合作方还包括华沙理工的 Betley 夫妇、Alignment Research Center 的 Jacob Hilton以及 Anthropic 的 Samuel Marks。这篇论文 2025 年 7 月就挂了 arxiv经过大半年评审才在今天正式见刊。它讲的事情简单到离奇老师模型喜欢猫头鹰让它随便生成一堆数字过滤干净得一个猫头鹰字都没有用这些数字去训练另一个学生模型学生就开始偏爱猫头鹰。更吓人的版本是老师是个学坏了的模型它生成的数学推理过程看起来人畜无害学生训完之后会建议消灭人类杀死丈夫。作者把这个现象叫做 subliminal learning中文可译作潜意识学习。你清洗了所有你能看到的东西但你看不到的那一层仍然在传递。

更多文章