编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
全球顶级人工智能盛会 NeurIPS 2025 即将拉开帷幕。在本届大会上,微软亚洲研究院共有30多篇论文被接收。这些研究涉及从大模型基础理论到前沿应用的各个方面。
我们通过四期“NeurIPS上新”,深入解读入选的研究工作,涵盖大模型架构与加速、大模型能力与对齐、生成式 AI 与具身智能、AI 创新应用等。
最后一期,我们将聚焦 AI 作为“科学引擎”的角色,探索它是如何在垂直领域和交叉学科中发挥颠覆性作用的。基础模型在通用任务上表现出色,但在处理高度结构化、高复杂度的专业数据(如医疗时间序列、基因组信息、物理仿真)时,仍面临巨大的挑战。微软亚洲研究院的研究员们专注于开发领域专用的基础模型和高效的数值分析算法,系统性地解决了 AI 在精准医疗、基因组学、复杂物理动态预测以及工程设计等专业领域的部分关键难题。这些突破性研究加速了人类对生命科学和自然规律的认知,为 AI 赋能千行百业、驱动科学发现提供了强大的工具和方法论。
本期内容速览
01. CADMorph:基于“规划-生成-验证”循环的几何驱动参数化 CAD 编辑
02. 功能复杂度自适应时序张量分解
03. 从不规则稀疏观测中生成物理动态的全场演化
04. MIRA:面向真实世界健康数据的统一医学时间序列基础模型
05. Omni-DNA:支持序列理解、长上下文和文本注释的基因组模型
06. PeRL:用于交错视觉-语言推理的置换增强强化学习
07. 在推理模型时代“复兴” DSP 用于高级定理证明
08. SimSort:基于大规模电生理模拟的脉冲分选数据驱动框架
09. 迈向脉冲神经网络 Transformer 中的相对位置编码
01. CADMorph:基于“规划-生成-验证”循环的几何驱动参数化 CAD 编辑

计算机辅助设计(CAD)模型是现代工程和制造业的基石。CAD 模型通常以两种耦合的形式对对象进行编码:参数化构造序列以及由该序列生成的可见几何形状。在迭代设计的过程中,对几何形状的调整不可避免地需要对底层参数序列进行同步修改,这一过程被称为基于几何驱动的参数化 CAD 编辑。该任务要求:1)保持原始序列的结构;2)确保每次编辑在语义上的有效性;3)在编辑数据三元组稀缺的条件下实现与目标形状的高保真度。
研究员们提出了 CADMorph 框架。这是一个在推理阶段协同预训练领域基础模型的迭代式规划–生成–验证框架,包括参数到形状(P2S)的潜空间扩散模型和掩码参数预测(MPP)模型。在规划阶段,P2S 模型的跨注意力图定位需要修改的序列片段并提供编辑掩码。在生成阶段,MPP 模型对这些掩码进行填充,生成语义有效的编辑结果。在验证阶段,P2S 模型将每个候选序列嵌入形状潜空间,通过与目标形状的距离进行度量,并选择距离最近的序列。这三个阶段分别利用了预训练先验中所蕴含的几何感知和设计知识,从而解决结构保留、语义有效性以及形状保真度这三大核心挑战。此外,P2S 和 MPP 两个模型均无需三元组数据进行训练,从根本上绕过了数据稀缺的瓶颈。

CADMorph 优于多种专业 CAD 基线模型和通用模型 GPT-4o,并支持迭代编辑与逆向工程增强等下游应用。这项工作不仅大幅提升了工程设计和制造中的设计效率与自动化水平,也为把大语言模型引入到复杂的工程和数值软件领域提供了新的范例。
02. 功能复杂度自适应时序张量分解

论文链接:https://arxiv.org/abs/2502.06164 (opens in new tab)
在许多科学和工程领域,如环境监测、物联网、交通流量和医疗诊断中,数据通常表现为高维、多模态的时序张量(Time-Series Tensor)。传统的张量分解方法在处理这些数据时,难以有效捕捉时间维度上复杂且动态变化的功能依赖关系,导致模型要么容量过剩、训练低效,要么拟合不足、精度下降。
该研究提出了 CATTE(Complexity-Adaptive Temporal Tensor Decomposition,复杂度自适应的时序张量分解)算法。其核心思想是将经典的功能式张量分解(functional tensor decomposition)与渐进式复杂度调度(progressive scheduling)相结合:在训练初期强制使用极低的 functional rank(基函数数量通常仅为1–5),随着训练步数的增加,按照预定义的单调递增调度函数(线性或指数形式)逐步放开至目标 rank(如30)。这种“从简单到复杂”的课程学习式调度,使模型先捕捉数据中最显著的低频全局模式,再逐步引入高频局部细节,而无需额外的复杂度预测器或门控网络。

CATTE 的关键优势在于:1)在相同最终 rank 下,收敛速度显著快于静态功能分解;2)通过早期低 rank 约束,天然正则化因子矩阵,提升时间平滑性与可解释性;3)整体训练内存和计算开销更低,尤其适合长序列、大规模张量。
在多个基准数据集(包括合成数据、MSL、SWaT 水处理系统、UCR 交通流量等)上的实验表明,CATTE 在归一化重构误差上平均提升15%–30%,同时训练时间和峰值显存显著降低。消融实验进一步验证,渐进式调度是性能提升的主要来源,而低 rank 阶段学到的因子往往对应数据中的主导趋势,高 rank 阶段则补充异常和细粒度动态。
该工作首次将课程学习式复杂度渐进放开机制引入功能张量分解领域,为高效处理复杂动态系统中高维时序数据提供了简单、实用且无需额外监督的解决方案,尤其适用于资源受限环境下的长序列建模和异常检测任务。
03. 从不规则稀疏观测中生成物理动态的全场演化

论文链接:https://arxiv.org/abs/2505.09284 (opens in new tab)
在许多科学领域(如天文学、环境科学、分子动力学),物理系统的观测数据往往极度稀疏、不规则(off-grid)、带噪声,传统方法与现有深度学习模型难以直接处理,导致无法高效重建连续时空域的全场演化(full-field evolution)。
该论文提出了一种纯数据驱动的生成式框架 SDIFT(Sequential DIffusion in Functional Tucker space),专为从极稀疏不规则观测中生成高保真、任意分辨率可查询的物理动态而设计。其核心包含三个创新组件:1)泛函 Tucker 模型(FTM):作为连续潜在表示器,具有严格通用逼近能力,可将稀疏观测高效编码为共享神经潜在函数与低秩 Tucker 核心张量序列;2)高斯过程序列扩散(GPSD):在潜在空间中构建序列扩散过程,噪声源自RBF核高斯过程以保证时间平滑性,并通过使用时间增强 U-Net 去噪,支持不规则时间步长;3)消息传递后验采样(MPDPS):是推理阶段的核心创新,通过消息传递机制将少量已观测时间步的条件信息高效传播至整个序列,实现全局一致的条件生成。

SDIFT 无需任何显式物理约束(如 PDE 残差),仅靠数据驱动即可在极端稀疏设置(空间仅1%–3%观测点、部分时间步完全无观测)下生成时空连贯的全场动态。研究员们对 SDIFT 进行了实验,实验覆盖了天文学尺度(超新星爆炸温度场)、环境尺度(海洋声速场)和分子尺度(活性粒子系统)三个跨尺度真实物理系统。结果显示,SDIFT 在归一化误差(VRMSE)上平均超越当前最强基线50%–70%,采样速度提升10–40倍,峰值显存更低,对噪声鲁棒性更强。消融实验证实,MPDPS 消息传递是极端稀疏场景下性能跃升的关键。
未来,该工作所提供的解决方案,将在气候预测、海洋监测、天体物理、材料设计等领域具有广阔前景。
04. MIRA:面向真实世界健康数据的统一医学时间序列基础模型

论文链接:https://arxiv.org/abs/2506.07584 (opens in new tab)
医疗健康领域产生了海量的多变量时间序列数据,包括 ICU 生理信号、心电图、脑电图、实验室检验和流行病监测等。这些数据高度异构,不规则采样,多频率混合,缺失率极高(常超80%)且噪声严重。现有通用时间序列基础模型(如Chronos、Moirai、TimesFM)在真实临床数据上表现疲软,难以实现鲁棒的零样本预测,严重制约了 AI 在疾病预警、危重监护等公共卫生领域的落地。
微软亚洲研究院提出的 MIRA(Medical Foundation Model for Irregularity Adaptation),是首个专为医疗时间序列打造的基础模型。它采用 decoder-only Transformer 架构,解决了真实医疗数据中不规则采样与高缺失难题。

MIRA 的核心创新体现在三个关键设计上:首先,提出连续时间旋转位置编码(CT-RoPE),将 RoPE 扩展至连续实值时间戳,实现对任意不规则时间间隔的精确注意力建模;其次,引入频率专属专家混合层(frequency-specific MoE),每层将传统 FFN 替换为稀疏 MoE(8个专用专家+1个共享专家,Top-2 路由),让模型根据信号频率动态分配专家,高效捕捉从高频生理波动到低频趋势的全部模式;最后,设计连续动态外推模块,基于 Neural ODE 建模隐状态的连续轨迹,支持在任意未来时间点的精准预测,完美适配临床场景下的外推需求。
MIRA 在超4540亿时间点的医疗语料上以 Huber 损失自监督预训练,仅 73M–455M 参数即获强大泛化。零样本测试显示:在分布外任务(CinC 挑战、MIT-BIH、新冠/流感等)平均 RMSE 降低10%,高噪声场景超全监督 SOTA;在分布内任务降低7%,全面碾压 Chronos、Moirai、Time-MoE;90%缺失下仍稳居第一。消融实验证实 Neural ODE 贡献最大,MoE 与 CT-RoPE 协同显著。
05. Omni-DNA:支持序列理解、长上下文和文本注释的基因组模型

论文链接:https://arxiv.org/abs/2502.03499v1 (opens in new tab)
基因组学研究产生了海量的 DNA 序列数据,这些数据具有极长的上下文依赖性和复杂的结构信息。现有的基因组模型通常在处理长达数十万碱基对的序列时存在效率和性能瓶颈,且难以有效地将序列数据与关联的生物学文本注释(例如基因功能描述、实验结果)结合起来进行联合学习。这限制了模型对复杂基因功能和调控机制的全面理解。
该研究提出了 Omni-DNA 模型,这是一个旨在克服基因组数据挑战的多模态基础模型。Omni-DNA 采用了专为长序列设计的高效 Transformer 架构(如优化的注意力机制或 SSM 混合),使其能够有效处理超长上下文(例如超过50万个 token)。最关键的创新在于其跨模态对齐学习机制,模型被训练以将 DNA 序列的语义表征与关联的生物学文本描述(如 PubMed 摘要或 Gene Ontology 注释)对齐。

Omni-DNA 在长序列任务(如基因调控元件预测、染色质可及性分析)上取得了显著的性能提升。通过序列与文本的联合学习,模型能够实现跨模态检索和问答,例如输入一段 DNA 序列,模型可以直接输出其推测的功能描述。Omni-DNA 为大规模基因组学研究提供了一个强大的、能够整合海量信息的工具,极大地加速了专家对复杂疾病机制和生物进化过程的理解。
06. PeRL:用于交错视觉-语言推理的置换增强强化学习

论文链接:https://arxiv.org/abs/2506.14907 (opens in new tab)
现实世界中,许多复杂任务需要模型同时处理多张图像,并在图像间进行精细的空间与逻辑推理,例如判断跨图像的相对位置或结合多张几何图计算面积。然而,现有多模态大模型在输入多张图像时极易受图像顺序影响,出现严重的位置偏差(positional bias),同一任务仅因图像排列不同,准确率就可能相差20%以上,泛化能力很差。
针对这一问题,研究员们提出了 PeRL 框架,核心思路是将“置换增强”与强化学习相结合。在训练阶段,对每条多图像样本进行多次随机打乱图像顺序,同时自动改写文本描述保持语义不变,迫使模型学习对顺序不敏感(order-invariant)的表征。这种简单增强可以让模型在训练中见识到海量的排列组合,从根本上消除对特定顺序的依赖。

训练采用置换(Permutation)增强的 GRPO 强化学习算法,以鲁棒结果估计作为奖励信号,并通过奖励分布重采样实现策略优化,从而对 Qwen2.5-VL-7B 进行高效对齐,整个过程无需额外模块,推理时零成本。
实验结果显示,PeRL在所有主流多图像推理基准上全面刷新 SOTA:在 Mantis-Eval、BLINK、MMIU、Remi、MV-MATH 等数据集上大幅领先现有开源与闭源模型,同时单图像任务性能几乎无损,真正做到了多图能力大幅增强而通用能力不降反升。
07. 在推理模型时代“复兴” DSP 用于高级定理证明

论文链接:https://arxiv.org/abs/2506.11487 (opens in new tab)
自动定理证明(ATP)是人工智能领域最艰巨的任务之一。近年来,基于强化学习的大规模训练方法主导了这一领域,但研究员们发现,即使完全不进行任何模型训练或微调,仅通过精心设计的神经-符号协作,也能达到与之相当甚至更高的性能。
为此,该论文提出了 DSP+ 框架,对经典的“Draft-Sketch-Prove”(DSP)方案进行了全面“复兴”与精细化升级。整个过程零样本、无需训练,仅使用现成的推理模型和符号工具即可完成复杂数学定理的形式化证明。
DSP+ 将证明过程分为三个紧密协作的阶段:
- Draft 阶段:用零样本推理模型生成简洁的自然语言子目标证明草稿,严格去除思维链 token 和对人类证明的引用,确保后续阶段易于处理。
- Sketch 阶段:另一个推理模型将自然语言草稿自动形式化为 Lean 代码层次结构,同时为每个子目标显式标注支持假设,并通过预定义规则自动掩码或修复语法错误行,最大程度保留有效结构。
- Prove 阶段:将形式化子目标交给符号搜索引擎(如Aesop),并与步进证明器(如 BFS-Prover)紧密协作,通过树搜索和战术预测严谨完成每个子目标的证明。

尽管整个框架不依赖任何强化学习训练或模型微调,但在多个权威基准上都取得了突破性结果:在 miniF2F-test 达到80.7%(197/244),首次证明了此前无人解决的 IMO 2019 P1 问题;在 ProofNet 达到32.8%,PutnamBench 解决24题,整体性能媲美或超越最先进的强化学习训练系统,同时计算预算更低。此外,DSP+ 生成的证明路径更易被人类理解,甚至帮助发现了 miniF2F 数据集中的8处形式化错误。
这项工作证明,在推理模型时代,经典的结构化神经-符号协作范式依然极具潜力,只需精巧的阶段设计与错误容错机制,即可实现高效、可验证的高级数学定理证明,为无需巨量强化学习训练的自动推理提供了全新、高效、可扩展的路径。
08. SimSort:基于大规模电生理模拟的脉冲分选数据驱动框架

论文链接:https://arxiv.org/abs/2502.03198 (opens in new tab)
脉冲分选(spike sorting)是神经科学中一项基础且关键的任务,其目的是从记录到的多通道电生理信号中,准确地识别并分离出不同神经元的放电活动(脉冲)。由于真实世界数据的复杂性以及缺乏真实标签(ground truth),现有的分选算法性能提升困难,并且难以泛化。其挑战在于,如何获得大规模、高保真且带有精确真值标签的电生理数据,来训练新一代数据驱动的脉冲分选模型。
研究员们提出了 SimSort,这是一个基于大规模电生理模拟的数据驱动框架。SimSort 的核心是一个高保真、可控的仿真引擎,它能够模拟多种神经元类型、复杂的电极几何结构以及真实的噪声和伪影,从而生成海量的、具有精确脉冲真值标签的合成电生理数据。利用这些合成数据,研究员们训练了一个强大的深度学习模型作为新的脉冲分选器。这种“在模拟中学习”的方法克服了真实数据缺乏真值标签的难题。

SimSort 训练出的分选模型,在多个真实的神经科学数据集上的分选精度和鲁棒性,均超越了现有的主流算法。SimSort 为神经科学研究提供了一个高效率、高精度的工具,大幅加速了科学家对神经回路和信息编码机制的探索。
09. 迈向脉冲神经网络 Transformer 中的相对位置编码

论文链接:https://arxiv.org/abs/2501.16745 (opens in new tab)
脉冲神经网络(Spiking Neural Networks, SNNs)因其高能效和低延迟的特性,被视为下一代类脑 AI 硬件的理想选择。将 SNNs 与在序列建模中表现优异的 Transformer 架构相结合(即 Spiking Transformer),是当前的一个研究热点。然而,SNNs 特有的时序信息处理机制与传统 Transformer 中使用的绝对位置编码存在不匹配,阻碍了 SNNs 在复杂时序任务中发挥其全部潜力。
针对这一挑战,研究员们提出了多种在保持脉冲二值特性前提下的相对位置编码近似策略(relative positional encoding, RPE):首先理论证明格雷码能保证2的幂次距离下汉明距离恒定,并据此设计 Gray-PE;同时提出 Log-PE(对数形式直接加到注意力图);并将两者扩展为 2D 版本以适配图像 patch。

实验表明,在时间序列预测、文本分类、图像 patch 分类等多种任务及不同 Spiking Transformer 架构上,加入 Gray-PE 或 Log-PE 后准确率均显著提升,同时功耗基本持平或略降。
该工作系统性地解决了 Spiking Transformer 相对位置编码的二值兼容难题,为构建高性能、低能耗的脉冲版 Transformer 提供了关键技术支撑,也为事件驱动视觉、语音处理、时序预测等领域的类脑 AI 应用开辟了高效的新路径。