a tall building lit up at night

微软亚洲研究院

VL Norm:让强化学习更稳、更快的关键一步

已发布

编者按:随着大语言模型(LLMs)推理能力的不断提升,如何在训练过程中保持稳定的优化效率与可验证性,成为强化学习研究的重要方向。由微软亚洲研究院与清华大学联合提出的 VL Norm 方法,针对可验证奖励强化学习(RLVR)中因输出长度波动导致的梯度方差过大问题,给出了理论上无偏且方差最小的解决方案。在多种任务和模型规模上,VL Norm 均显著提升了收敛速度与训练稳定性,展现出了强化学习优化的新范式。


近年来,可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)推理能力方面展现了巨大潜力。然而,RLVR 的训练过程中存在着一个关键难题——模型生成的回答长度变化巨大,从几十到几千 token 不等。这种长度不稳定性会导致梯度方差剧烈波动,从而使优化过程不稳定、收敛速度变慢。

针对这一问题,微软亚洲研究院和清华大学的研究团队联合提出了 VL Norm 方法。该方法不仅在理论上实现了无偏差且方差更小的估计,而且在不同任务、模型和生成长度下的实验中均展现出了更快、更稳定的训练表现。

VL Norm: Rethink Loss Aggregation in RLVR

论文链接:https://arxiv.org/abs/2509.07558 (opens in new tab)

chart, bar chart
图1:在 RLVR 中,模型输出的长度变化巨大,带来梯度方差的波动(左)。已有的聚合方法要么会有偏差,导致收敛速度慢;要么有高梯度方差,导致优化过程不稳定,而 VL Norm 是一种无偏差且理论最小化梯度方差的聚合方法,可以解决上述问题。

RLVR 的挑战:输出长度差异导致训练不稳定

在 RLVR 中,未归一化的单个样本的梯度可以由如下式子表示:

logo, company name

研究团队发现,在 RLVR 中,样本的输出长度往往能达到数千甚至上万个 token,随着输出长度的大幅随机波动累加,未归一化样本梯度的方差与长度呈正比关系。如图2所示,随着输出长度(response length)的上升,最后一层 QKV 的样本梯度偏离平均梯度的关系大致呈现线性变化。这种高梯度方差不可避免地会带来收敛慢和训练不稳定的问题。

chart, scatter chart
图2:左侧:最后一层 QKV 的样本梯度偏离平均梯度的关系大致呈现线性变化。右侧:高梯度方差带来收敛慢和不稳定的问题。

为了缓解此问题,现有的方法大多数采用了不同的归一化方法,如 GRPO 使用样本层次的长度进行归一化,DAPO 使用 batch 层次的总长度和进行归一化,而 Dr. GRPO 使用最大长度进行归一化。研究团队分析了这些归一化方法的偏差和方差性质,发现它们要么存在估计偏差,要么存在方差较高的问题。

如表1所示,GRPO 和 DAPO 的长度归一化项会让 E(g) 变得和输出长度相关,在训练过程中,长度一般会增长,从而导致训练后期的速度变慢。此外,Dr. GRPO 和 DAPO 的 CV(g) 比 GRPO 更大,使得它们的优化过程更加不稳定。

diagram
表1:不同归一化方法的偏差、方差和变异系数(CV)对比。

VL Norm:无偏差且方差最小的聚合方法

针对上述不足,研究团队重新定义了问题,致力于在无偏差的约束下实现最小方差估计。具体如下:假设有 N 个样本,每个样本对应的梯度是 g_i,且梯度方差和样本长度 L_i 成正比,目标是找到 g_i 的一个线性组合,使其既是无偏的,又是方差最小的。研究团队利用拉格朗日方法,解出了线性组合的参数需满足下面的形式(其中 α = 1 时方差最小)。

formular

VL Norm 具备以下关键特性:

  • 不管 α 取值多少,它始终是正确梯度的无偏估计。
  • 当 α =1 时,在无偏约束下实现理论最小方差。
  • 当 0<α<1 时,VL Norm 会比 α = 1 时更多利用长输出样本的梯度,CV 略有提升,但不会比 Dr. GRPO 或 DAPO 更高。
  • 当 α = 0 时,VL Norm 就等价于 Dr. GRPO 中的归一化方法。

研究团队在不同的任务(Math、CountDown)、不同的模型大小(3B、7B),以及不同的最大回复长度(3072、8192)上进行了测试。结果表明,VL Norm 显著优于多种基线方法,可以在更短的步数下收敛到更好的模型。

chart, line chart
图3:不同任务、模型大小、最大长度上和不同基线的对比。

在 CountDown 任务上,VL Norm 能保持更稳定的熵,但 DAPO 和 Dr. GRPO 常常会引起熵的剧烈变化,这与前文对 CV 的分析结果一致。在 Math 任务上,VL Norm 也能更快地引起长度的增加。

chart
图4:左侧:CountDown 任务上熵的变化;右侧:Math 任务上的长度变化。

研究团队还把 VL Norm 和 DAPO 中的 Overlong Filtering 和 Soft Penalty 进行了对比。在 CountDown 任务上, VL Norm 显著优于二者。相比最好的 DAPO 基线,应用 VL Norm 可以获得2.67倍的训练加速,以及+4.6%的准确率提升。

chart, histogram
图5:在 CountDown 任务上 VL Norm 和 DAPO 各个方法的对比。

chart, line chart, scatter chart
图6:在 CountDown 任务中,将 VL Norm 应用到 DAPO 中可以获得2.67倍的收敛速度提升,以及+4.6%的准确率提升。

VL Norm 能够在保持与标准强化学习理论一致的前提下,提供无偏的策略梯度估计,并最小化梯度方差,从而使得训练更稳定,并收敛到更强的模型。在实验中,VL Norm 在不同模型规模、最大输出长度以及任务类型上均显著优于现有方法,为 RLVR 训练带来了更加稳健的优化路径——让大模型学得更快、更好。

继续阅读

查看所有博客文章