编者按:随着大语言模型(LLMs)推理能力的不断提升,如何在训练过程中保持稳定的优化效率与可验证性,成为强化学习研究的重要方向。由微软亚洲研究院与清华大学联合提出的 VL Norm 方法,针对可验证奖励强化学习(RLVR)中因输出长度波动导致的梯度方差过大问题,给出了理论上无偏且方差最小的解决方案。在多种任务和模型规模上,VL Norm 均显著提升了收敛速度与训练稳定性,展现出了强化学习优化的新范式。
近年来,可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)推理能力方面展现了巨大潜力。然而,RLVR 的训练过程中存在着一个关键难题——模型生成的回答长度变化巨大,从几十到几千 token 不等。这种长度不稳定性会导致梯度方差剧烈波动,从而使优化过程不稳定、收敛速度变慢。
针对这一问题,微软亚洲研究院和清华大学的研究团队联合提出了 VL Norm 方法。该方法不仅在理论上实现了无偏差且方差更小的估计,而且在不同任务、模型和生成长度下的实验中均展现出了更快、更稳定的训练表现。
VL Norm: Rethink Loss Aggregation in RLVR
论文链接:https://arxiv.org/abs/2509.07558 (opens in new tab)

RLVR 的挑战:输出长度差异导致训练不稳定
在 RLVR 中,未归一化的单个样本的梯度可以由如下式子表示:

研究团队发现,在 RLVR 中,样本的输出长度往往能达到数千甚至上万个 token,随着输出长度的大幅随机波动累加,未归一化样本梯度的方差与长度呈正比关系。如图2所示,随着输出长度(response length)的上升,最后一层 QKV 的样本梯度偏离平均梯度的关系大致呈现线性变化。这种高梯度方差不可避免地会带来收敛慢和训练不稳定的问题。

为了缓解此问题,现有的方法大多数采用了不同的归一化方法,如 GRPO 使用样本层次的长度进行归一化,DAPO 使用 batch 层次的总长度和进行归一化,而 Dr. GRPO 使用最大长度进行归一化。研究团队分析了这些归一化方法的偏差和方差性质,发现它们要么存在估计偏差,要么存在方差较高的问题。
如表1所示,GRPO 和 DAPO 的长度归一化项会让 E(g) 变得和输出长度相关,在训练过程中,长度一般会增长,从而导致训练后期的速度变慢。此外,Dr. GRPO 和 DAPO 的 CV(g) 比 GRPO 更大,使得它们的优化过程更加不稳定。

VL Norm:无偏差且方差最小的聚合方法
针对上述不足,研究团队重新定义了问题,致力于在无偏差的约束下实现最小方差估计。具体如下:假设有 N 个样本,每个样本对应的梯度是 g_i,且梯度方差和样本长度 L_i 成正比,目标是找到 g_i 的一个线性组合,使其既是无偏的,又是方差最小的。研究团队利用拉格朗日方法,解出了线性组合的参数需满足下面的形式(其中 α = 1 时方差最小)。

VL Norm 具备以下关键特性:
- 不管 α 取值多少,它始终是正确梯度的无偏估计。
- 当 α =1 时,在无偏约束下实现理论最小方差。
- 当 0<α<1 时,VL Norm 会比 α = 1 时更多利用长输出样本的梯度,CV 略有提升,但不会比 Dr. GRPO 或 DAPO 更高。
- 当 α = 0 时,VL Norm 就等价于 Dr. GRPO 中的归一化方法。
研究团队在不同的任务(Math、CountDown)、不同的模型大小(3B、7B),以及不同的最大回复长度(3072、8192)上进行了测试。结果表明,VL Norm 显著优于多种基线方法,可以在更短的步数下收敛到更好的模型。

在 CountDown 任务上,VL Norm 能保持更稳定的熵,但 DAPO 和 Dr. GRPO 常常会引起熵的剧烈变化,这与前文对 CV 的分析结果一致。在 Math 任务上,VL Norm 也能更快地引起长度的增加。

研究团队还把 VL Norm 和 DAPO 中的 Overlong Filtering 和 Soft Penalty 进行了对比。在 CountDown 任务上, VL Norm 显著优于二者。相比最好的 DAPO 基线,应用 VL Norm 可以获得2.67倍的训练加速,以及+4.6%的准确率提升。


VL Norm 能够在保持与标准强化学习理论一致的前提下,提供无偏的策略梯度估计,并最小化梯度方差,从而使得训练更稳定,并收敛到更强的模型。在实验中,VL Norm 在不同模型规模、最大输出长度以及任务类型上均显著优于现有方法,为 RLVR 训练带来了更加稳健的优化路径——让大模型学得更快、更好。