编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
全球顶级人工智能盛会 NeurIPS 2025 即将拉开帷幕。在本届大会上,微软亚洲研究院共有30多篇论文被接收。这些研究涉及从大模型基础理论到前沿应用的各个方面。
我们将通过四期“NeurIPS上新”,深入解读入选的研究工作,涵盖大模型架构与加速、大模型能力与对齐、生成式 AI 与具身智能、AI 创新应用等。
第二期,我们将聚焦于大模型的“大脑”与“价值观”,探讨如何将 LLMs 的智能推向新的高度,并确保其安全、可控。 随着模型规模的不断扩大,LLMs 展现出惊人的推理和涌现能力,但如何将这种能力转化为稳定、可靠、且符合人类多维度价值观的通用智能,成为当前最大的挑战。微软亚洲研究院的研究员们专注于解决 LLMs 的高级认知能力、复杂推理机制,以及确保模型在面对歧义和噪声数据时的价值对齐问题。这些研究突破不仅将 LLMs 的智能边界拓展到更复杂的代理(agent)任务和多模态场景,更致力于构建一个安全、可信赖的 AI 生态,为 LLMs 的大规模实际应用奠定坚实的信任基础。
本期内容速览
01. 大模型的模型链学习
02. 检索链增强生成
03. 基于反事实推理的可控多元化价值对齐
04. NaDRO:利用双重奖励策略训练含噪数据下的 LLMs
05. LLMs 中的个性化安全:基准与基于规划的智能体方法
06. 奖励推理模型
07. 基于大型混合推理模型的按需思维机制
08. 迈向思维最优扩展:优化 LLMs 推理的测试时计算资源
09. 揭示语言模型的学习心智:从认知框架到实证研究
01. 大模型的模型链学习

论文链接:https://arxiv.org/abs/2505.11820 (opens in new tab)
随着 LLMs 在复杂任务中的应用越来越深入,我们不仅面临模型能力的瓶颈,也面临着训练成本高、扩展不灵活、推理资源需求大等实际限制。传统的 LLMs 往往是“固定规模”的:一旦模型参数规模确定,训练和推理都必须在这个固定容量上运行,缺乏根据任务复杂度或计算资源灵活调整的能力。如何构建一种能够在不同规模之间平滑切换并能以更低成本扩展能力的模型架构,是下一代 LLMs 设计的关键挑战。
该研究提出了 Chain-of-Language-Model(CoLM) 框架。与传统 Transformer 不同,CoLM 并不是简单地叠加更多层或更宽的隐藏维度,而是基于 Chain-of-Representation(CoR) 的思想,将每层的隐藏表示拆分为多个具有因果顺序的“链式子表示(chains)”。每条 chain 只能依赖于前序 chains,从而形成一种“从基础能力到高级能力逐级构建”的结构。基于此,模型可以在训练和推理中灵活启用不同数量的 chains,启用更多 chains 能提升能力,启用较少 chains 则可得到更轻量的子模型。此外,论文提出的 CoLM-Air 变体通过共享 KV 表示,仅在第一条 chain 中计算 key/value,再将其共享给所有 chain,大幅降低了推理开销。

依托这种链式结构,CoLM 在模型伸缩性和效率方面表现突出。它支持渐进式扩展(progressive scaling)可以先训练一个较小规模的模型,再通过增加新的 chains 无缝扩展能力;也支持弹性推理(elastic inference)。这在推理阶段可以根据资源预算选择不同的 chain 数量,从而获得不同规模的模型变体。在复杂任务场景中,这种能力带来了更高的灵活性与鲁棒性,同时让系统结构更透明、更易分析。CoLM 为构建可扩展、可调节、且成本友好的下一代 LLMs 架构提供了一个全新的学习范式。
02. 检索链增强生成

论文链接:https://arxiv.org/abs/2501.14342 (opens in new tab)
传统的检索增强生成(RAG)通过外部知识库弥补了 LLMs 知识时效性和事实准确性的不足。然而,在处理涉及多个步骤、复杂逻辑判断或需要整合多个零散信息源的复杂问题时,标准的 RAG 流程往往表现不佳,因为它通常只进行一次性检索和一次性生成。这其中的挑战在于如何构建一个多步、可迭代的 RAG 流程,使其能像人类解决复杂问题一样,逐步提问、逐步检索、逐步整合信息。
对此,研究员们提出了 Chain-of-Retrieval Augmented Generation (CoRAG) 框架。CoRAG 将 RAG 过程转化为一个多步骤的推理链。在处理复杂问题时,模型会进行多次动态检索,每一次检索都会基于上一步的推理结果和新的子问题。这种链式结构允许模型在生成答案的过程中,动态地进行查询重写、整合多步检索结果,并用其验证或修正之前的推理。在测试阶段,可通过多种解码策略来实现以算力换性能,实验结果展现了良好的缩放定律。

CoRAG 在需要复杂多跳推理、知识整合和事实交叉验证的问答基准任务上,取得了远超传统 RAG 和标准 Chain-of-Thought 的性能。它有效地提升了 LLMs 在处理复杂事实性问题时的准确性、透明度和可追溯性。这一框架为构建高度可靠、能够处理复杂现实世界知识挑战的 LLMs 应用提供了强大的解决方案。
03. 基于反事实推理的可控多元化价值对齐

论文链接:https://www.arxiv.org/abs/2510.18526 (opens in new tab)
随着 LLMs 逐渐融入多元文化、社群与个体的真实使用场景,传统以“单一平均偏好”(如安全、有用)作为目标的人类反馈强化学习(RLHF)已经难以适应丰富且多样的人类偏好。因此,探究 LLMs 的多元价值观对齐成为一个关键问题。然而,现有工作仍然面临两大核心挑战:价值观复杂性,通常将多个价值维度视为相互独立且同等重要,忽略它们相互之间的结构性依赖关系和优先级差异;价值可控性,难以精确地指导模型遵循特定的伦理边界或价值偏好。这无法满足现实世界中多元化(pluralistic)且需要可控引导(steerable)的复杂价值观需求。
本篇论文提出了 COUPLE 框架 (COUnterfactual reasoning for PLuralistic valuE alignment),该方法使用结构因果模型(SCM)表示多个价值维度之间的复杂依赖关系(value complexity),并建模这些价值维度对行为的因果影响。然后利用反事实推理(counterfactual reasoning),通过对 SCM 中的价值维度进行干预(intervention),生成符合任意目标价值配置(value objectives)的输出。

推理阶段可以通过设定特定的目标价值组合(counterfactual value profile)来引导模型行为,实现对不同价值优先级(包括边缘或弱势价值)的精确控制。因为这种干预是基于结构因果模型(而不是简单提示),COUPLE 能提供更细粒度的可控性,同时具有较强的可解释性。
实验中,COUPLE 在两个具有不同价值体系的数据集上进行了评估,结果显示它在对齐复杂价值目标上优于传统对齐方法。
04. NaDRO:利用双重奖励策略训练含噪数据下的 LLMs

大语言模型在复杂推理上表现优异,可一旦进入长程决策,训练常受高质量标注稀缺与信用分配困难掣肘。许多任务并不存在唯一正确动作,即使存在也难以在有限计算内精确评估,监督信号也因而含糊且带噪,这不仅放大了方差,还易诱发“奖励投机”,导致训练不稳定与性能受损。
为应对噪声监督,研究员们提出 Noise‑Aware Dual‑Reward Optimization(NaDRO),以双重奖励在不完美监督下提升稳健性与效率。偏好式结果奖励(POR)不回归噪声显著的绝对分数,而是基于更稳健的偏好排序学习,将动作按名次进行 top‑k 划分并线性缩放奖励,在有原则的偏差-方差权衡下可大幅降低训练方差,提升稳定性。上下文感知奖励(CPR)要求模型在决策前对当前问题状态进行必要的定性评估(如问题类型、状态、当前成本等),提供密集、即时、且与最终结果相对独立的过程信号,缓解稀疏与延迟反馈并抑制“奖励投机”。

多个组合优化问题的算法选择场景(如 TSP、CVRP)的实验表明,经 NaDRO 微调的中等规模模型(Qwen 7B、Llama 3‑8B)在多项基准上取得显著且稳健的提升,整体优于 GPT‑4o、GPT‑o3、Deepseek‑R1,并与多种 metaheuristics 保持强竞争力。NaDRO 能有效利用含糊与带噪的监督,降低对完美标注的依赖,大大强化长程决策中的策略学习能力,使中等规模模型在复杂组合优化任务上取得领先表现,并为物流、运筹等真实场景提供兼具实用价值与可扩展性的路径。
05. LLMs 中的个性化安全:基准与基于规划的智能体方法

论文链接:https://arxiv.org/abs/2505.18882 (opens in new tab)
当前 LLMs 的安全对齐方法大多采用“一刀切”的策略,因追求所有用户的普遍安全,而忽略了个体或群体的差异化安全需求与偏好。这使得模型在面对特定文化背景、专业领域或个体敏感度时,难以提供既安全又实用的输出。同时,测试这种个性化安全模型的工具也严重缺乏。
为了解决上述问题,该研究首先构建了一个大规模、多维度的个性化安全基准 PENGUIN(Personalized Evaluation of Nuanced Generation Under Individual Needs),用于系统地评估 LLMs 在遵循不同个体安全约束时的表现。在此基础上,研究员们提出了一个无需训练的代理框架 RAISE(Risk-Aware Information Selection Engine),旨在解决实际场景中用户不愿一次性提供全部隐私属性的难题。RAISE 将用户属性采集过程建模为马尔可夫决策过程(MDP),利用 LLM-guided Monte Carlo Tree Search(MCTS)进行离线规划,并在有限交互预算下动态决定下一步询问哪个属性,以最大化预期安全得分。在线上交互阶段,RAISE 结合 “abstention module” 来判断当前已知信息是否足以安全生成响应,若不足则继续询问或直接拒绝。
实验结果表明,在仅允许平均2.7次交互的严格预算下,RAISE 在 PENGUIN 基准上将安全得分较基线模型提升最高31.6%,显著优于随机询问、全问、甚至人类表现等策略。同时,RAISE 生成的响应在实用性和连贯性上与无约束基线几乎无损,证明了规划式智能信息采集的可行性。

PENGUIN 基准首次为个性化安全研究提供了量化评估工具,基于规划的代理方法在遵循个性化安全约束方面表现出显著优越性。这证明了通过将安全机制具身化为代理的规划和决策过程,LLMs 能够更灵活、更精确地适应和遵循不同的安全策略,从而在保障用户实用性的同时,实现高度定制化的安全防护。
06. 奖励推理模型

论文链接:https://arxiv.org/abs/2505.14674 (opens in new tab)
在 LLMs 的对齐与后训练阶段,奖励模型(Reward Model, RM)扮演着至关重要的“裁判”角色。长期以来,奖励模型训练为一个标量奖励模型,读入一段文本,直接输出一个标量分数,由于缺乏深度思考过程,这使其在面对复杂任务的奖励问题时力不从心。
该研究提出奖励推理模型(Reward Reasoning Models, RRM),可以通过消耗更多的推理算力,来换取更精准的评估质量。面对越难的奖励问题,RRM 可以“思考”得越久来进行评判。为了训练奖励推理模型,研究员们提出了基于强化学习的框架,该框架不依赖昂贵的人工推理标注,而是构建了一个基于规则的奖励环境,使得模型可以在环境中试错,演化出优秀的奖励推理策略。

实验表明,RRM 在多项奖励评测基准上优于标量奖励模型和 J1、GRM 等生成式奖励模型。此外,实验还详细研究了 RRM 的测试时计算的缩放效应,在推理长度拓展、推理次数拓展等维度上都显示, RRM 可以利用更多的测试时计算提升奖励推理的性能。
07. 基于大型混合推理模型的按需思维机制

论文链接:https://openreview.net/forum?id=fDjDVE4qdj (opens in new tab)
尽管 LLMs 在语言理解和生成方面表现出色,但传统推理增强模型(如 Large Reasoning Models, LRMs)虽在复杂任务上通过延长思考链可显著提升性能,却对简单查询也强制进行冗长推理,导致 token 消耗和延迟大幅增加,效率低下。这使得现有模型难以在实际部署中平衡高性能与低开销。
该研究提出了 Large Hybrid-Reasoning Models(LHRMs,大规模混合推理模型)的新模型。与强制所有查询都长链思考的 LRMs 不同,LHRMs 能够根据查询难度自适应选择两种模式:在复杂问题上激活“Thinking 模式”,在简单问题上切换至“No-Thinking 模式”。这种混合机制完全由模型内部隐式策略驱动,无需外部路由器或门控硬件。
为实现这一能力,研究员们设计了两阶段训练流程:1) Hybrid Fine-Tuning(HFT),构建约170万条混合数据集(复杂样本标注
研究员们还提出了新指标 Hybrid Accuracy(H_Acc),以衡量模型为每个查询选择更优(或更短)模式的准确率。

实验表明,LHRMs 在 MATH、AIME、GPQA、代码生成等高难度基准上超越原有 LRMs,同时在 AlpacaEval、Arena-Hard 等通用能力测试中更强。更关键的是,在简单查询上大幅减少了思考比例和输出长度,整体效率显著提升,有效解决了推理模型的延迟与冗余问题。
08. 迈向思维最优扩展:优化 LLMs 推理的测试时计算资源

论文链接:https://arxiv.org/abs/2502.18080 (opens in new tab)
在 LLMs 推理过程中,增加 chain-of-thought(CoT)长度通常能提升复杂任务的性能,但过长的 CoT 反而会因累积错误导致准确率下降,尤其是在简单任务上。这种非单调关系使得固定高计算预算的推理模型在实际部署中效率低下。其核心挑战在于如何实现 “thinking-optimal” 的测试时计算缩放:在保证最高准确率的前提下,使用最少的推理 token。
本篇论文提出了 Thinking-Optimal Scaling (TOPS) 框架,通过让模型在测试时并行生成不同推理努力级别(低、中、高)的多个候选响应,随后自动选择最短的正确答案,实现自适应的计算资源分配。该框架无需外部不确定性预测器,而是通过以下训练流程实现:1) 构建小型种子数据集(约1.3K 数学题),用教师模型生成三种努力级别的 o1-like 响应;2) 监督微调得到一个标签模型(tag model),能够根据标签控制生成不同努力程度的 CoT;3) 用 tag model 为大规模问题(约50K)生成多努力候选,挑选最短正确响应构建“thinking-optimal”数据集(约26K);4) 在此数据集上对基础模型(如 Qwen2.5-32B)进行 SFT,得到 TOPS 模型;也可选择进一步迭代自改进(SFT 或 DPO)。

这种“最短正确”选择规则自然让简单问题倾向低努力(短响应)、困难问题依赖高努力,从而在整体上大幅减少平均 token 消耗。
实验表明,基于 Qwen2.5-32B 的 TOPS 模型在 GSM8K(95.82%)、MATH500(91.48%)等基准上达到或超越当前最强的 o1-like 蒸馏模型,同时平均 token 显著更少(例如 GSM8K 仅需 412 tokens vs. 基线 570+)。迭代版本在 AIME2024 上进一步达到46.00%的准确率,全面超越教师模型。
该研究为 LLMs 在商业场景下的高效推理部署提供了实用、高效且易实现的方案,证明了通过自选择最短正确路径,纯自回归模型即可在性能与成本间取得最优平衡。
09. 揭示语言模型的学习心智:从认知框架到实证研究

论文链接:https://arxiv.org/abs/2506.13464 (opens in new tab)
尽管 LLMs 在各类任务中表现出强大的执行能力,但其通用学习能力(general learning ability),即在动态环境中持续获取、消化和应用新知识的能力,仍未被系统性地研究。这限制了人们理解 LLMs 如何适应新任务,以及洞察如何构建更具终身学习特征的下一代 AI 模型。
该研究受认知心理学和教育理论启发,首次提出一个原则性的认知框架,将 LLMs 的学习能力分解为三个互补维度:Learning from Instructor(LfI,来自指导者学习)、Learning from Concept(LfC,来自概念学习)和Learning from Experience(LfE,来自经验学习)。这三个维度分别对应人类学习的三大主要通道:外部指导、抽象概念内化,以及基于经验轨迹的自启发学习。

为验证每个单维度下的模型表现,研究员们设计了针对性的实验范式:在数学求解中对比被动与交互式指导(LfI);在竞争游戏和逻辑任务中注入规则/策略模板(LfC);在游戏轨迹和多示例上下文学习设定中提供历史经验(LfE)。最终整合为统一基准 LearnArena,并在一个双人游戏环境中同时提供指导反馈、概念摘要和经验示例,从而进行整体评估。
通过大规模实验(涵盖 Qwen2.5 1.5B–72B、LLaMA3.1、Mistral、GPT-4o 等模型),该研究揭示了以下关键规律:
1)LfI 普遍有效:交互式澄清显著优于被动消费,尤其在大模型中;
2)LfC 和 LfE 具有明显的规模涌现特性:小模型(<14B)常将概念或经验视为噪声而性能下降,大模型才能有效利用;
3)LLMs 是优秀的少样本学习者,但在多样本学习场景下性能会出现“先升后降”(即使在长上下文模型中),暴露了长序列整合的瓶颈。
该工作首次系统性地评估了 LLMs 的一般学习能力,构建了 LearnArena 基准,并揭示了不同学习机制的规模依赖性与局限性,为未来设计更具适应性、更符合人类学习范式的 LLMs 提供了重要的理论洞见和评估工具。