阿里:RLVR实为稀疏关键令牌修正

张开发
2026/4/10 8:47:00 15 分钟阅读

分享文章

阿里:RLVR实为稀疏关键令牌修正
标题Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs来源arXiv, 2603.22446v1摘要带有可验证奖励的强化学习RLVR显著改善了大型语言模型LLM中的推理但这些改进背后的令牌级机制仍不清楚。我们围绕三个主要分析对RLVR的分布效应进行了系统的实证研究1基本模型和RL模型之间的分布变化的令牌级表征2通过交叉抽样干预研究了标记水平分布变化对序列水平推理性能的影响以及3令牌级别上这些变化的细粒度机制。我们发现RL微调会导致高度稀疏和有针对性的变化只有一小部分令牌分布在基本策略和RL策略之间表现出有意义的差异。我们通过分析令牌熵、位置集中度和概率质量的重新分配来进一步描述这些变化的结构和演变。为了评估这些稀疏变化的功能重要性我们进行交叉采样实验在不同的干预预算下选择性地在基本模型和RL模型之间交换令牌选择。我们表明仅将一小部分RL采样令牌插入基本生成中可以逐步恢复RL性能增益而将类似少量的基本令牌选择注入RL生成的序列中则会使性能下降到基本水平最后我们探索了优势信号的差异加权变体作为诊断干预发现它们可以产生超过基线的改进。总之我们的结果揭示了由RLVR引起的分布变化并提供了一个细粒度的令牌级透镜用于将RLVR微调理解为有针对性的细化过程。️文章简介研究问题RLVR 微调究竟如何改变大语言模型的令牌级预测分布且其中哪些变化真正驱动了推理性能的提升主要贡献论文揭示了 RLVR 仅通过极少量关键令牌的分布偏移来引导推理轨迹而非全局重写模型行为。重点思路利用 JS 散度量化基座模型与 RL 模型在令牌级的分布差异发现绝大多数位置的分布几乎未变变化高度稀疏且集中在序列首尾。设计正向与反向交叉采样实验通过在生成过程中 selectively 交换基座与 RL 模型的令牌选择以验证高散度令牌的功能重要性。深入分析高散度位置的微观机制考察候选词重叠率、排名重排序及低概率令牌提升情况探究概率质量是如何重新分配的。提出基于散度加权的优势函数变体尝试根据令牌级分布变化幅度调整学习信号以探索更高效的训练策略。分析总结RLVR 引发的分布偏移极度稀疏超过 80% 甚至 98% 的令牌位置散度接近零且这种稀疏性是 RLVR 独有不同于监督微调的全局广泛变化。仅需替换约 1%-10% 的高散度令牌即可让基座模型恢复至 RL 模型的性能水平反之亦然证明性能增益完全由这些少数关键决策点决定。RLVR 很少“发明”基座模型认为不可能的全新令牌主要是在基座模型已有的高概率候选集中进行重新排序和概率质量 reallocating。即使被替换的令牌在语义上对人类而言合理且可互换微小的分布差异也会导致后续推理轨迹的巨大分歧显示出模型对局部决策的高度敏感性。初步实验表明利用散度加权优势信号可以进一步提升模型性能证实了针对关键令牌进行针对性优化的有效性。个人观点论文指出RLVR的作用机制是微观的“手术刀式”修正在基座模型已有的能力边界内通过对极少数高风险或高不确定性决策点的精准纠偏从而将生成轨迹引导至更优的推理路径上。附录

更多文章