微软亚洲研究院

VL Norm：让强化学习更稳、更快的关键一步

已发布 2025年10月22日

分享这个页面

编者按：随着大语言模型（LLMs）推理能力的不断提升，如何在训练过程中保持稳定的优化效率与可验证性，成为强化学习研究的重要方向。由微软亚洲研究院与清华大学联合提出的 VL Norm 方法，针对可验证奖励强化学习（RLVR）中因输出长度波动导致的梯度方差过大问题，给出了理论上无偏且方差最小的解决方案。在多种任务和模型规模上，VL Norm 均显著提升了收敛速度与训练稳定性，展现出了强化学习优化的新范式。

近年来，可验证奖励强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）在提升大语言模型（LLMs）推理能力方面展现了巨大潜力。然而，RLVR 的训练过程中存在着一个关键难题——模型生成的回答长度变化巨大，从几十到几千 token 不等。这种长度不稳定性会导致梯度方差剧烈波动，从而使优化过程不稳定、收敛速度变慢。

针对这一问题，微软亚洲研究院和清华大学的研究团队联合提出了 VL Norm 方法。该方法不仅在理论上实现了无偏差且方差更小的估计，而且在不同任务、模型和生成长度下的实验中均展现出了更快、更稳定的训练表现。

VL Norm: Rethink Loss Aggregation in RLVR

论文链接：https://arxiv.org/abs/2509.07558 (opens in new tab)

chart, bar chart — 图1：在 RLVR 中，模型输出的长度变化巨大，带来梯度方差的波动（左）。已有的聚合方法要么会有偏差，导致收敛速度慢；要么有高梯度方差，导致优化过程不稳定，而 VL Norm 是一种无偏差且理论最小化梯度方差的聚合方法，可以解决上述问题。

RLVR 的挑战：输出长度差异导致训练不稳定

在 RLVR 中，未归一化的单个样本的梯度可以由如下式子表示：

研究团队发现，在 RLVR 中，样本的输出长度往往能达到数千甚至上万个 token，随着输出长度的大幅随机波动累加，未归一化样本梯度的方差与长度呈正比关系。如图2所示，随着输出长度（response length）的上升，最后一层 QKV 的样本梯度偏离平均梯度的关系大致呈现线性变化。这种高梯度方差不可避免地会带来收敛慢和训练不稳定的问题。

chart, scatter chart — 图2：左侧：最后一层 QKV 的样本梯度偏离平均梯度的关系大致呈现线性变化。右侧：高梯度方差带来收敛慢和不稳定的问题。

为了缓解此问题，现有的方法大多数采用了不同的归一化方法，如 GRPO 使用样本层次的长度进行归一化，DAPO 使用 batch 层次的总长度和进行归一化，而 Dr. GRPO 使用最大长度进行归一化。研究团队分析了这些归一化方法的偏差和方差性质，发现它们要么存在估计偏差，要么存在方差较高的问题。

如表1所示，GRPO 和 DAPO 的长度归一化项会让 E(g) 变得和输出长度相关，在训练过程中，长度一般会增长，从而导致训练后期的速度变慢。此外，Dr. GRPO 和 DAPO 的 CV(g) 比 GRPO 更大，使得它们的优化过程更加不稳定。

VL Norm：无偏差且方差最小的聚合方法

针对上述不足，研究团队重新定义了问题，致力于在无偏差的约束下实现最小方差估计。具体如下：假设有 N 个样本，每个样本对应的梯度是 g_i，且梯度方差和样本长度 L_i 成正比，目标是找到 g_i 的一个线性组合，使其既是无偏的，又是方差最小的。研究团队利用拉格朗日方法，解出了线性组合的参数需满足下面的形式（其中 α = 1 时方差最小）。

VL Norm 具备以下关键特性：

不管 α 取值多少，它始终是正确梯度的无偏估计。
当 α =1 时，在无偏约束下实现理论最小方差。
当 0<α<1 时，VL Norm 会比 α = 1 时更多利用长输出样本的梯度，CV 略有提升，但不会比 Dr. GRPO 或 DAPO 更高。
当 α = 0 时，VL Norm 就等价于 Dr. GRPO 中的归一化方法。

研究团队在不同的任务（Math、CountDown）、不同的模型大小（3B、7B），以及不同的最大回复长度（3072、8192）上进行了测试。结果表明，VL Norm 显著优于多种基线方法，可以在更短的步数下收敛到更好的模型。

chart, line chart — 图3：不同任务、模型大小、最大长度上和不同基线的对比。

在 CountDown 任务上，VL Norm 能保持更稳定的熵，但 DAPO 和 Dr. GRPO 常常会引起熵的剧烈变化，这与前文对 CV 的分析结果一致。在 Math 任务上，VL Norm 也能更快地引起长度的增加。

chart — 图4：左侧：CountDown 任务上熵的变化；右侧：Math 任务上的长度变化。

研究团队还把 VL Norm 和 DAPO 中的 Overlong Filtering 和 Soft Penalty 进行了对比。在 CountDown 任务上， VL Norm 显著优于二者。相比最好的 DAPO 基线，应用 VL Norm 可以获得2.67倍的训练加速，以及+4.6%的准确率提升。