微软亚洲研究院

NeurIPS上新 | 大模型架构与加速：铸就LLMs效率与规模的基石

已发布 2025年11月19日

分享这个页面

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉。

全球顶级人工智能盛会 NeurIPS 2025 即将拉开帷幕。在本届大会上，微软亚洲研究院共有30多篇论文被接收。这些研究涉及从大模型基础理论到前沿应用的各个方面。

在接下来的几周里，我们将通过四期“NeurIPS上新”，深入解读入选的研究工作，涵盖大模型架构与加速、大模型能力与对齐、生成式 AI 与具身智能、AI 创新应用等。

第一期，我们将深入模型内部，探讨大模型效率和可扩展性的底层工程与理论创新。大语言模型（LLMs）的能力与效率，共同决定了其商业落地和普及化的边界。为了冲破现有 Transformer 架构带来的计算瓶颈，并有效利用海量上下文，微软亚洲研究院的研究员们通过结构组件的深度剖析和训练技术的系统优化双轮驱动，系统性地解决了 LLMs 在高速推理、长输入处理以及专业领域竞争性（如代码推理）等方面的核心挑战。这些突破为大模型提供了一个更坚实、更高效的底层框架，助力推动 AI 持续进步。

本期内容速览

01. 块坐标下降实现高效微调，单张3090微调8B大模型

02. 检索注意力：利用向量检索加速长上下文 LLMs 推理

03. 路由 Mamba：规模化基于专家混合投影的状态空间模型

04. rStar-Coder：通过大规模验证数据集，扩展竞争级代码推理能力

05. 自蒸馏注意力门控，实现高效长上下文预填充

06. SwS 框架：强化学习中基于弱点自感知的 LLMs 推理问题合成

01. 块坐标下降实现高效微调，单张3090微调8B大模型

论文链接：https://www.microsoft.com/en-us/research/publication/accelerating-block-coordinate-descent-for-llm-finetuning-via-landscape-expansion/

对 LLMs 进行全参数微调是提升其在特定专业领域能力的关键步骤，但该方法对 GPU 内存的巨大需求和计算资源的消耗是阻碍其广泛应用的主要瓶颈。虽然像 Block Coordinate Descent (BCD) 这样的优化器能够通过分块更新参数来有效减少内存占用，可固有的缺陷导致其收敛速度慢且最终性能不佳，难以在复杂的 LLMs 任务中达到标准优化器（如 Adam）的性能。因此，如何在保持 BCD 内存优势的同时，有效提升其性能，是优化算法研究的核心动机。

研究员们深入分析了 BCD 在 LLMs 微调中的局限性，发现其主要缺陷在于：一是反向传播的冗余开销，特别是在激活/冻结参数块之间切换时；二是优化方向受限于狭窄的局部搜索空间，难以快速找到全局最优解。

针对这些问题，该研究提出了一种基于“优化景观扩展（Landscape Expansion）”的改进 BCD 的方法 BREAD（Block cooRdinate dEscent via lAndscape expansion）。该方法通过引入一种成本效益高的方式来更新非活跃的参数块，有效避免了对全部参数进行冗余的反向传播计算，同时巧妙地拓宽了 BCD 的优化搜索空间，使其能够更有效地在复杂的参数景观中找到高质量的解决方案。

table — 图1：在 MathInstruct 数据集上微调 Llama 3.1 模型（8B 和 70B）时，不同优化方法的内存占用和单轮 GPU 训练时间对比。

这种改进的 BCD 优化器在保持与标准优化器相近的最终性能的同时，成功大幅度降低了微调过程中的内存消耗。实验结果显示，在保持性能不下降的前提下，BREAD 方法相比传统优化器实现了约80%的内存减少。这一突破证明了在保证性能的前提下实现内存高效的微调是可行的，将能够让科研人员在更少的硬件资源上，以更低的成本和更高的效率，完成 LLMs 的全参数微调，极大地推动了 LLMs 在中小企业和学术研究中的普及。

02. 检索注意力：利用向量检索加速长上下文 LLMs 推理

论文链接：https://arxiv.org/pdf/2409.10516 (opens in new tab)

LLMs 在长文本应用中的性能瓶颈主要源于推理阶段的低效。Transformer 模型不仅推理速度随上下文长度呈二次方放缓，其 Key-Value (KV) 缓存也随之线性膨胀，对 GPU 内存造成巨大压力，尤其是在处理 64K 或 128K token 的超长文本时，资源消耗难以接受。传统的稀疏化或近似注意力方法往往需要昂贵的重新训练，难以被广泛采纳。因此，亟需一种无需训练、高效解决 KV Cache 约束的通用解决方案，以释放 LLMs 在超长文本分析中的潜力。

为了解决这一工程难题，本篇论文提出了一种无需训练、即插即用的创新解决方案RetrievalAttention。研究员们从注意力机制的本质出发，观察到在任何给定时间，只有极少数过去的历史 token 对当前的注意力计算真正关键。基于此洞察，研究员们设计了一个高效的存储和检索系统：将庞大的 KV Cache 转移到成本更低、容量更大的 CPU 内存中，从而大幅缓解GPU 内存压力。在推理时，模型可利用高效的向量检索技术（如近似最近邻搜索，ANNS），根据当前 query token 的需要，从 CPU 内存中快速、精准地检索出最相关的少量（通常只占总量的1%-3%）历史 KV 向量参与计算。这种按需加载的方式极大地减少了计算量。

diagram — 图2：RetrievalAttention 实现了与全注意力（Full Attention）相似的任务准确性，但展现出极低的解码延迟。

RetrievalAttention 成功将 KV Cache 的计算复杂度降低到亚线性，实现了显著的推理加速。实验结果表明，该方法使得80亿参数级别的大规模模型能够在有限的计算资源上高效处理超长上下文，例如在消费级 GPU 上处理 128K token 成为可能，同时对模型的生成质量影响极小。RetrievalAttention 在不牺牲性能的前提下，极大地提升了 LLMs 在长文本应用中的经济可行性和实际可用性。

03. 路由 Mamba：规模化基于专家混合投影的状态空间模型

论文链接：https://arxiv.org/abs/2506.18145 (opens in new tab)

随着大模型对算力和长上下文处理需求的指数级增长，传统 Transformer 架构在推理时因自注意力机制导致的二次方计算复杂度，已成为效率和资源消耗的巨大阻碍。新兴的状态空间模型（SSM），尤其是 Mamba 架构，以其线性时间复杂度和出色的长序列建模能力，被视为下一代基础模型的重要候选。然而，SSM 在扩大参数规模和提升模型容量方面的灵活性却相对受限，难以支撑像顶级 LLMs 那样的巨量参数，限制了其综合性能的突破。因此，需找到一种有效机制，将 Mamba 的长上下文处理效率与其参数容量进行高效结合。

为了突破 SSM 规模化的局限性，研究员们提出了一种名为 Routing Mamba (RoM) 的新颖架构。其核心在于创造性地将专家混合（MoE）机制集成到 Mamba 模型的关键组成部分——投影层中。RoM 巧妙地解决了 MoE 与 Mamba 架构底层冲突的难题。传统 Mamba 的结构特性使得简单的 MoE 集成难以发挥作用。通过设计精巧的路由机制，RoM 使模型能够为不同的输入 token 动态地激活和利用不同的专家子网络，进而实现容量的巨大飞跃。这种集成方式确保了在大幅增加模型总参数量的同时，实际用于推理的计算量仅略微增加，从而可获得极高的参数利用效率。

RoM 不仅保持了 Mamba 线性时间的复杂度以及由此带来的高效推理速度，还成功将模型参数扩展至百亿甚至更高量级。在各种长上下文任务、通用语言理解和专业知识问答的基准测试中，RoM 展现出超越传统 Mamba 架构和同等活跃参数量的 Transformer-MoE 模型的卓越性能。这证明了 SSM 架构能够通过 MoE 机制有效扩展其容量，克服了其长期存在的规模限制。

04. rStar-Coder：通过大规模验证数据集，扩展竞争级代码推理能力

论文链接：https://arxiv.org/pdf/2505.21297 (opens in new tab)

数据集链接：https://huggingface.co/datasets/microsoft/rStar-Coder (opens in new tab)

训练能够解决复杂编程竞赛题目的 LLMs，对训练数据提出了极高的复杂度和质量要求。现有的代码推理数据集往往存在两个主要缺陷：一是规模不足以覆盖编程竞赛的复杂性；二是普遍缺乏可靠、大规模且经过严格验证的输入-输出测试用例，这使得模型的训练和性能评估难以准确进行，限制了 LLMs 在专业代码领域能力的进一步突破。因此，构建一个大规模、高可靠性的代码推理基准成为推动领域进步的关键。

为此，微软亚洲研究院构建了 rStar-Coder，一个包含41.8万个竞争级代码问题和58万个验证解的大规模、高可靠性数据集。其核心创新点在于采用了自动化的测试用例生成和相互验证流水线。研究员们利用 LLMs 的代码生成和理解能力生成了多样的测试输入，并通过运行多个高质量解决方案的代码，利用它们之间输出的共识来严格验证输出的正确性。此外，该流水线还结合了启发式规则来筛选最具挑战性的用例，从而保证了数据集的绝对准确性和复杂性。

chart, bar chart — 图4：代码推理基准上的 Pass@1 准确率。rStar-Coder 始终展现出与规模显著更大的最先进推理 LLMs 相比具有竞争力的性能。在极具挑战性的 USACO 2025 基准上，rStar-Coder 尽管是 7B 规模的模型，但仍优于 QWQ-32B。

rStar-Coder 不仅本身成为了一个具有挑战性的、大规模代码推理基准，它还为业界提供了一个构建和评估专业代码推理 LLMs 的“黄金标准”。基于此数据集训练的模型在各种编程竞赛和代码理解基准上都取得了显著的性能提升，尤其是在解决高难度的未见问题上表现突出。这一成果有力推动了 LLMs 在专业代码领域的应用边界和能力极限。

数据集现已开源 https://huggingface.co/datasets/microsoft/rStar-Coder，欢迎大家下载和使用！

05. 自蒸馏注意力门控，实现高效长上下文预填充

论文链接：https://openreview.net/pdf?id=Nf8yfPDFTl (opens in new tab)

在 LLMs 的推理过程中，处理输入提示（prompt）的预填充（prefilling）阶段的计算开销仍然巨大，尤其在长上下文场景下，传统的全量注意力计算造成了大量的资源浪费，导致用户等待时间过长。如果能有效识别并跳过那些对结果贡献极低的冗余计算，将能够显著提升预填充阶段的效率，这也是大规模 LLMs 服务部署中亟待解决的关键工程问题。而当前的稀疏化方法通常需要复杂的修改和重新训练，难以应用于已发布的模型。

为了提供一个高效且低成本的解决方案，微软亚洲研究院提出了自蒸馏注意力门控（SeerAttention）。该方法的设计灵感来源于 MoE 门控机制，它引入了一个轻量级的门控网络。这一门控网络是通过自我蒸馏的方式学习的，这意味着它能够从已训练好的基座模型中获取知识，从而无需对大型基座模型进行任何重新训练或修改。SeerAttention 能够精确地预测注意力计算中哪些 token 对对最终结果贡献极低、可以被安全地稀疏化。在实际推理的预填充阶段，模型可以依据门控网络的预测，动态地跳过这些不必要的计算，从而节省大量的计算资源和时间。

SeerAttention 提供了一种训练成本极低、即插即用的优化方案。实验结果表明，它在长序列预填充过程中实现了显著的计算加速和内存节省，特别是在处理数万 token 的输入时效率提升更为明显。更重要的是，它在加速的同时，对模型的困惑度（perplexity）和生成质量影响极小，甚至在某些情况下略有改善。

06. SwS 框架：强化学习中基于弱点自感知的 LLMs 推理问题合成

论文链接：https://arxiv.org/abs/2506.08989 (opens in new tab)

在使用强化学习（RL）提升 LLMs 推理能力时，高质量的训练数据是成功的关键。然而，传统的训练数据集常存在严重的效率问题，比如包含大量模型已经掌握的简单问题，或者难度过高而无法学习的超纲问题，造成了计算资源的巨大浪费，并稀释了有效的学习信号。如果不能有效针对模型的能力缺陷进行训练，LLMs 的推理能力提升将面临效率瓶颈。

为了实现数据驱动的效率最大化，研究员们设计了 SwS（自感知弱点驱动问题合成）框架。该框架的核心是一个高度智能化的数据反馈闭环：LLMs 首先经过初步的 RL 训练，并在此过程中自动识别和提取出其在推理过程中表现不佳的“弱点问题”，即找出模型的知识盲区和能力边界。随后，一个专门的指令模型将基于这些弱点提取的底层知识和概念，策略性地合成出难度适中、专门针对这些知识盲区的全新训练问题。这些新生成的数据经过严格的多维度验证后，被用于后续的 RL 迭代训练。

SwS 通过这种“自感知”能力对训练数据进行精确指导和定制，极大地提高了 RL 训练的样本效率。实验结果表明，采用 SwS 框架训练的模型在复杂推理任务上的最终性能显著增强，尤其在数学和逻辑推理等领域取得了明显进步。这证明了智能优化数据生成过程，让模型主动生成训练数据，是构建更强大、更具针对性的一种高效率、低成本的解决方案，为解决数据饥渴型 AI 系统的训练难题提供了新的思路。