a tall building lit up at night

微软亚洲研究院

NeurIPS上新 | 生成式AI与具身智能:从像素到物理世界的交互

已发布

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。

全球顶级人工智能盛会 NeurIPS 2025 即将拉开帷幕。在本届大会上,微软亚洲研究院共有30多篇论文被接收。这些研究涉及从大模型基础理论到前沿应用的各个方面。

我们将通过四期“NeurIPS上新”,深入解读入选的研究工作,涵盖大模型架构与加速大模型能力与对齐、生成式 AI 与具身智能、AI 创新应用等。

在第三期中,我们将目光投向生成式 AI,探讨它如何进入三维空间,并与物理世界实现高效交互。传统的生成模型主要集中在图像与文本的合成,但为了实现真正的通用 AI,模型必须具备对动态环境、三维结构和物理规律的理解与建模能力。对此,微软亚洲研究院的研究员们积极推动生成模型向 3D 几何重建、高保真动态内容生成,以及具身智能的方向发展。我们此前介绍过利用单张肖像照片生成可实时驱动的 3D 数字人生成模型 VASA-3D,本期将继续沿着这一方向,展示这些研究如何增强模型的世界理解,并赋能工程设计与自主系统,推动 AI 从感知工具迈向能够高效行动的智能体。


本期内容速览

01. Dyn-O:用物体中心表征来构建结构化世界模型

02. 以图像为世界:通过全景视频生成从单张图像生成交互式世界

03. 从单张图像进行全向 3D 场景重建

04. 基于语义蒸馏的一步式扩散模型图像压缩

05. VideoVLA:视频生成器可成为通用机器人机械臂

06. 潜在动作模型究竟学习了什么?

01. Dyn-O:用物体中心表征来构建结构化世界模型

paper

论文链接:https://arxiv.org/abs/2507.03298 (opens in new tab)

在世界模型相关的研究中,现有方法多采用整体式的表征,难以捕捉复杂环境中物体间的动态交互,导致泛化能力受限。为解决这个问题,研究员们设计出一种基于物体中心表征构建的结构化世界模型 Dyn-O。该框架包含两大核心阶段:

1. 物体中心表征学习:使用预训练的 Cosmos 编码器提取图像特征,在训练时用 SAM2 模型生成的分割掩码引导槽注意力模块(slot attention)将场景自动解耦为多个物体槽位(slots)。每个槽位特征进一步解耦为静态特征(随时间保持不变,如颜色、纹理)和动态特征(随时间变化,如位置、速度),通过对比损失、对抗训练等机制实现高质量解耦。推理时无需再使用 SAM2 生成分割掩码。

2. 动态建模:在槽位特征空间中使用自注意力模块ention)捕捉建模物体间的交互,随后每个槽位通过独立的状态空间模型(SSM)来更新隐空间状态,最后预测头输出下一时刻的槽位特征、奖励和终止信号,通过预训练的 Cosmos 解码器即可解码至像素空间,实现多步轨迹生成。

diagram
图1:Dyn-O 框架概览:物体中心表征学习(左)和动态建模(右)

Dyn-O 在7个 Procgen 游戏中展现出显著优势。相比基线模型 DreamerV3,长程轨迹生成效果指标大幅提升(例如,LPIPS 从0.42降至0.33,FVD 从692.5降至361.3),生成的轨迹更连贯。同时,表征质量和静态/动态解耦度优于基线方法。另一方面,特征解耦允许在保持动态一致的前提下直接操控静态特征(例如交换物体颜色),从而实现可控生成。

该工作首次在环境动态复杂度高的游戏环境中实现高质量的基于物体中心表征的世界模型,证明了结合分割先验引导的 slot attention 与 SSM 动态建模的有效性。

02. 以图像为世界:通过全景视频生成从单张图像生成交互式世界

paper

论文链接:https://www.microsoft.com/en-us/research/publication/image-as-a-world-generating-interactive-world-from-single-image-via-panoramic-video-generation/

传统的图像或者视频生成大多局限在平面区域或固定视角内。然而,沉浸式体验(如 VR/AR)和具身智能体环境模拟等场景需要的是一个能够支持任意视角漫游、具备三维结构感,并能随时间持续动态演化的可交互“世界”。相比昂贵、复杂的多视角数据采集,单张图像是一种更易获取、成本更低、扩展性更强的输入形式。因此,一个关键问题随之产生:是否能够仅凭一张普通图片就构建出一个可探索、可交互、可持续生成的360°动态全景视界?这一任务极具挑战性。模型不仅需要补全未观测区域、推断全局几何语义结构,还需要在时间维度上保持长程连贯性与运动一致性。

针对这一挑战,研究员们提出了全新的生成范式 Image as a World (IaaW),首次实现了从单张 2D 图像生成具有高质量、可交互、可持续延展的360°全景视频世界。其核心创新在于全景几何感知模块和时空连贯生成机制。首先,模型从单图中推理潜在的空间结构,并投影到球面坐标系中,生成全景初始世界。随后,模型利用其训练好的全景动态生成能力,根据假设的摄像机运动或用户交互,生成可以任意旋转、平移下的连续全景视频。这其中的关键技术在于保持跨视角几何一致性的同时,使生成视频能够向未来时间自然延展,呈现稳定的动态演化过程。

diagram
图2:IaaW 方法流程图

IaaW 是首个实现“单图生成动态全景世界”的生成框架。它不仅突破了传统视频生成对输入视角与多帧序列的依赖,也为沉浸式内容创作提供了更低门槛、更高自由度的技术路径。这项成果极大地提升了生成模型在虚拟现实、元宇宙内容创作以及具身智能体环境模拟等领域的应用潜力。

03. 从单张图像进行全向 3D 场景重建

paper

论文链接:https://www.microsoft.com/en-us/research/publication/omnidirectional-3d-scene-reconstruction-from-single-image/

从单张 2D 图像实现360°全向 3D 场景重建是计算机视觉、自动驾驶、机器人及沉浸式媒体领域的核心挑战。传统方法在大角度的多视角图像生成中存在几何畸变与内容不一致问题,难以实现高质量的三维全景重建。

该论文提出 Omni3D 框架,一种基于生成模型和高斯泼溅的单图像全景 3D 重建新方法。该框架摒弃隐式辐射场,采用“多视角生成-内容和几何一致性优化-显式重建”三阶段流程:1)多视角图像生成:利用基于扩散模型的多视角图像生成模型(如 LoRA 微调的 CogVideoX),沿左右上下四条轨道分阶段生成覆盖物体的正面、侧面及背面的连贯视图;2)位姿-视图协同优化(PVO):核心创新在于引入 MASt3R 等几何先验,通过最小化跨视图 3D 重投影误差,迭代协同优化的图像内容与相机位姿(约3轮收敛),显著增强不同视角图像的内容和几何一致性;3)显式 3D 表征:在优化后的多视角图像与精确位姿上训练 3D Gaussian Splatting(3DGS),获得支持实时全向渲染的显式 3D 表达。

diagram, schematic
图3:Omni3D 方法流程概览:通过三个阶段生成全方位新视图,并利用成对迭代的 PVO 优化视图内容和姿态,减少几何失真,最终用 3DGS 表示完整场景。

在 Tanks and Temples、Mip-NeRF 360 及 DL3DV 数据集的实验表明,Omni3D 在全向渲染质量上全面超越了 ZeroNVS、ViewCrafter、LiftImage3D 等前沿方法。以 Tanks and Temples 为例,PSNR 提升达1.45 dB,背面未见区域的几何与纹理补全尤为合理。消融研究证实 PVO 模块贡献了0.74 dB 的 PSNR 增益,且该模块具有较好的泛化能力,可适用于不同的生成模型。该研究首次在单图像输入下实现了高质量全向 3D 重建,为低成本 3D 内容创作、AR/VR 沉浸式体验及机器人环境感知提供了高效、实用的新范式,成功弥合了生成式扩散模型与显式 3D 表征在全向场景理解中的鸿沟。

04. 基于语义蒸馏的一步式扩散模型图像压缩

paper

论文链接:https://arxiv.org/abs/2505.16687 (opens in new tab)

随着多媒体内容的爆炸式增长,高效的图像压缩技术至关重要。传统的压缩方法侧重于信号的保真度,但往往牺牲了视觉质量。而近期基于扩散模型的压缩方法虽能生成高质量的图像,其多步迭代的本质却导致了编解码速度慢,难以应用于实时传输场景。这其中的挑战在于如何利用生成模型的强大能力,在一步到位(One-Step)的编解码过程中实现高压缩率和高语义保真度的平衡。

对此,研究员们提出了基于一步式扩散模型的图像压缩方法 OneDC(One-step Diffusion-based generative image Codec),其核心设计是语义蒸馏(semantic distillation)。该方法将整个编解码建模为一个单步去噪过程,利用编码过程中产生的超先验信息替代扩散模型常用的文本条件,提供精细化语意引导从而增强生成质量。在训练阶段,模型引入一个语义蒸馏损失,用于额外强化超先验信息的语意表征能力。这个损失项迫使编码器将图像中最重要的高级语义特征(例如物体类别、场景布局)最大化地压缩到有限的编码比特流中。解码器则利用这个富含语义的编码,通过一步式扩散过程快速恢复出高质量图像。

figure
图4:OneDC 能够学习紧凑的语义信息。我们可以将图片压缩至文本级别的大小(一张768×768图片压缩至0.24KB),但是重建依然有很强的语义一致性和原始空间细节。

OneDC 在保持极高压缩率的同时,实现了极低的编解码延迟,因为它完全避免了传统扩散模型所需的数百次迭代。更重要的是,由于语义蒸馏的引入,相比于传统方法,即使在极低码率下,该方法重构的图像仍能保持出色的视觉质量和语义完整性,例如图像中的物体识别准确率更高。相比之前 SOTA 的方法能节省40%的码率开销,并且加速能快20倍以上。这项工作为下一代高效、高语义保真度的图像压缩提供了全新的技术路径。

05. VideoVLA:视频生成器可成为通用机器人机械臂

paper

论文链接:https://openreview.net/forum?id=UPHlqbZFZB (opens in new tab)

机器人学习面临的主要挑战是泛化性差和数据效率低。传统的机器人控制需要大量的特定任务数据,且难以迁移至新的环境或新的任务。与此同时,视频生成模型在理解和模拟复杂动态方面取得了巨大成功。那么能否将视频生成模型强大的时空预测和世界建模能力,直接迁移和转化为通用机器人机械臂的动作规划能力?

该研究提出了 VideoVLA 框架,其核心在于将通用视频生成模型转换为一个规划和控制代理。与“先想象视频、再推动作”的传统两阶段方法不同,VideoVLA 将预训练视频生成模型扩展为一个能够同时生成未来视觉场景和机器人动作的统一生成模型。研究员们将动作与视频帧共同作为扩散模型的输出模态,让模型在预测未来画面时同步生成与之匹配的控制信号。这样,机器人“看见未来”和“决定行动”不再是两个孤立步骤,而是在同一生成过程中彼此约束、共同优化的结果,以确保动作能够真实促成模型“想象”的未来状态。

diagram
图5:VideoVLA 框架示意图。给定语言指令与当前图像,模型可同时预测动作序列并生成对应的未来视频,展示了动作对环境的物理影响。

通过在大量视频数据和机器人操作数据上的联合训练,VideoVLA 学会了将视觉动态与可执行动作一体化地建模,从而具备了强大的跨场景、跨物体和跨任务的泛化能力。实验显示,它不仅能够处理训练中未出现过的新环境和新物体,还能够利用来自不同机器人平台的数据进行跨身体结构迁移,在不依赖任务特定微调的情况下完成多种操作任务。更重要的是,模型生成的视频预测越合理,对应动作成功的概率就越高,表明视觉生成能力本身已成为有效的世界模型监督信号。

06. 潜在动作模型究竟学习了什么?

paper

论文链接:https://arxiv.org/abs/2506.15691 (opens in new tab)

近年来,在具身智能系统中,潜在动作模型(Latent Action Models, LAMs)变得流行起来。它能够从无标签的视频轨迹中学习低维潜在动作表征,以实现动作无关(action-free)的世界模型预训练。这种抽象化被认为有助于简化学习任务并提高泛化能力。然而,LAMs 的黑箱性质阻碍了对其内部机制的理解。这些潜在动作究竟捕捉了由代理动作引起的可控变化(controllable changes,如机械臂的运动),还是环境中的外生噪声(exogenous noise,如其他物体运动)?缺乏这种理解,使得 LAMs 的设计和调试变得困难。

本篇论文从可解释性和理论分析的角度,对 LAMs 的内部学习机制进行了系统性探究。研究员们聚焦了一个可解析的线性 LAM 设定,推导出其闭式解,并设计了一系列诊断工具和干预实验。研究员们通过数据增强(去除状态信息)、极少量动作标签辅助监督、增加策略随机性等干预手段,测量这些干预如何影响潜在空间对可控变化与不可控噪声的捕捉。随后,使用线性探针(linear probing)和提出的 LLO 指标(衡量从潜在空间线性预测可控变化的难易度)来量化潜在动作与真正决策相关信息的关联强度。

diagram, schematic
图6:线性 LAMs 的学习机制概述

研究发现,无约束的 LAMs 本质上对帧间差异执行主成分分析(PCA),优先捕捉最高方差的方向,无论该方差来自可控变化还是外生噪声。在噪声主导或策略确定性强时,潜在空间容易被不可控因素污染。只有在噪声较低、策略足够随机并施加简单干预(如数据增强或1%动作标签)的情况下,潜在空间才能更好地对齐真正由动作引起的可控变化。该论文在极简环境中展示了整体方差方向可能包含颜色/位置变化的混合。

该研究首次从理论层面揭示了 LAMs 的学习机制,证明了其并非天然捕捉决策关键的高层次抽象,而是对帧差的盲目方差建模。但是,这可以通过对于 LAMs 的学习过程进行额外设计,引导它优先学习到与决策相关的可控变化。

继续阅读

查看所有博客文章