a tall building lit up at night

微软亚洲研究院

AI Next 播客 S1E2 | 对话郭百宁&边江:当AI学会理解世界,从世界模型到具身智能,它还缺什么?

公開済み

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。

在《AI Next》的第二期节目中,我们与微软技术院士、微软亚洲研究院常务副院长郭百宁博士和副院长边江博士一起探讨了具身智能领域的最新研究进展以及未来的应用方向。为什么具身智能必须通过行动来理解世界?具身智能又是如何通过与世界交互来学习的?世界模型为什么是迈向具身智能的关键?AI 正在从“能回应”迈向“会做事”,这一跃迁将推动智能在现实的复杂场景中更好地辅助人类,也将促使人们重新思考未来创新、生产力与人机协同的边界。

嘉宾介绍

郭百宁博士

郭百宁博士,微软杰出科学家,现任微软亚洲研究院常务副院长。他是加拿大皇家科学院院士,也是美国计算机协会会士(ACM Fellow),以及电气电子工程师学会会士(IEEE Fellow)。郭百宁博士的研究领域包括计算机图形学、几何建模,虚拟现实和计算机视觉。他的研究集中在三个方向:三维图形学和成像中的深度神经网络模型、纹理和外观建模的统计模型,以及几何建模。他的工作被广泛应用于虚拟现实、视频通信、数字内容创建,和视频游戏等多个领域。郭百宁博士发明的计算机图形和视频游戏核心技术被全世界数以千万计的用户使用。

郭百宁博士是许多计算机图形学和视觉计算大会的主题演讲人,包括 ACM/SIAM 三维物体和物理建模大会(SPM)、IEEE 三维物体建模国际大会(SMI)、IEEE 虚拟现实大会(IEEE-VR)、IEEE 多媒体博览会(ICME)、IEEE 视觉通信和图像处理大会(VCIP)、太平洋图形学大会(PG)、计算机动画和社交智能体大会(CASA)和 IEEE ICASSP。他曾在许多国际计算机图形会议的程序委员会任职,并担任多种全球计算机图形学期刊的编辑委员会成员。

边江博士

边江博士,现任微软亚洲研究院副院长,主要负责微软亚洲研究院机器学习组和产业创新中心。他所带领的团队研究领域涉及基于大语言模型的智能体系统、强化学习、具身智能等,以及人工智能在金融、能源、物流、制造、医疗健康、可持续发展等垂直领域的前沿性研究和应用。

边江博士曾在国际顶级学术会议(ICLR, NeurIPS, ICML, KDD, WWW等)和期刊上(TKDE, TIST, TOIS, TKDD等)发表过上百篇学术论文,并获得数项美国专利。他还是现任 NeurIPS、KDD、AAAI 等国际顶级学术会议的领域主席。过去几年,他的团队成功将基于人工智能特别是大语言模型的预测和优化技术应用到金融、物流、医疗等领域的重要场景中,并将相关技术和框架发布到开源社区。


也欢迎大家在小宇宙、喜马拉雅和Apple播客订阅、收听、分享!

qr code
qrcode
qrcode

作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术:VibeVoice (opens in new tab) 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA (opens in new tab) 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。


如下是《AI Next》第二期播客内容的文字整理:

主持人:大家好,欢迎收听《AI Next》第一季的第二期。

我们看到 AI 在物理世界中展现出理解力的案例越来越多,从机器人的自主组装到机械臂完成新任务,AI 正在从数字世界走向现实世界。那么现在的 AI 真的理解了物理规律么?它离真正的“通用”智能,还有多远?

今天,我们邀请到了微软技术院士、微软亚洲研究院常务副院长郭百宁博士和微软亚洲研究院副院长边江博士,一起来探讨 AI 如何“走出屏幕”理解物理世界,并在物理世界中完成各种任务,也就是我们所说的具身智能(embodied AI)。

AI理解物理规律了吗?

主持人:如今,越来越多的 AI 可以指导机械臂完成复杂的任务、能在物理环境中自主调整动作。在两位的印象中,有没有哪一个瞬间或成果,让你觉得 AI 似乎真的开始“懂”一些物理规律了?

郭百宁:我觉得,在文字层面,AI 对物理规律似乎已经理解了。但在视频以及真实的机器人领域,我还没有看到一个特别的时刻,让我觉得它真正理解了。不过确实有一些很好的进展,至少现在的模型不会完全忽视物理定律,展现出了一定的一致性。但从根本上看,它目前仍是重现数据里的那些行为,属于模仿阶段。

边江:我同意,AI 目前尚未达到可以理解物理规律的程度,或者说还差得很远。但是现在有些基于 VLA 的机器人创业公司,在视觉层面以及相应的操作上有很多进展,比如,训练的时候让机器人做抓取或者倒水,它能在一个新的环境中面对新的物体,也能够完成类似的操作。这表明它对物理世界的理解可能比之前更强。

AI理解世界所需的核心能力

主持人:大模型在文本、图像方面都展现出了惊人的理解力与推理能力,但这些能力仍停留在数字世界。要让 AI 走出屏幕,真正理解世界,我们期待它具备什么样的核心能力?

边江:我认为主要有三个方面的能力。首先是感知物理规律的能力,即更好地理解和消化它所看到的世界。这背后需要一个类似大模型的网络架构,能够综合处理文本、视觉乃至未来各种传感器信号等。其次是因果关系的预测能力,这对机器的决策非常重要。例如它需要知道“推这个东西会倒”,或者“倒水到什么程度会满”。这种“假设怎样,就会怎样”的推演能力,是 AI 与世界交互的关键。最后是主动适应环境变化的能力,即它如何与环境做交互,能否主动预测环境,甚至预测人的动作并提前做出反应。

郭百宁:关于学习方式我补充一点。人类的学习包括关联学习(通过观察 A 发生后 B 必然发生)和在行动中学习(通过与世界交互来学习因果关系)。现在具身智能模型的重点是,让大模型能够有效地与世界进行交互,通过行动上的学习来获取知识,而不是仅仅从视频中关联学习。当有了真实世界的数据,学习世界以及与世界交互的效率就会有所提高。比如自动驾驶的汽车在全球到处行驶积累数据,那么世界自动驾驶模型的完善速度就会加快。所以我们可以看到三个级别:关联学习、在行动中学习,以及更深层次的冥想式理解。

主持人:这有点像大模型刚开始学习语言的时候,也是要读遍所有的语言资料才能更好地理解。

郭百宁:就像上学的时候,好学生学微积分,首先要理解课本中的定理,然后在解题的过程中灵活地应用这些定理,泛化、演化成各种版本。对于机器学习来说,这就是强化学习在其中的作用。

世界模型的兴起与VLA的挑战

主持人:前面我们说了理解世界,那就不得不提到世界模型(world model)。这个概念在 AI 领域其实由来已久,为什么现在再次成为了焦点?

边江:对世界模型的需求一直都有,现在是因为 Transformer 等算法架构以及算力都达到了一定程度,才使得我们有可能去构建它。世界模型需要处理的数据量和维度都非常大,包括文本、视频、传感器以及交互数据。现在大家有了更好的算法和算力,所以是时候集中精力在这个方向上多做一些尝试了。

郭百宁:我知道边江博士的团队在世界模型这个领域里有很多突破性的进展,特别是游戏。其实游戏本身就是一个世界。在游戏里使用人工智能由来已久,比如游戏里的 NPC。边江博士的团队用最新的世界模型在游戏方面做了很多尝试。以前是用深度学习去做,现在有了 AI,又上升到了一个新的层次。而且我觉得这并不仅限于游戏,游戏中学到的技能很多也可以迁移到现实世界里。

我们团队与边江博士的团队还在合作探索 VLA 模型。VLA 模型的基本框架是让 Transformer 来预测下一个 token,把语言和视觉信息都做成 token。我们可以在这个 token 流中加入 action token。但 action token 有一个问题,你的动作一旦发生,事件就会被改变,而后续的变化通常是没有数据的。比如你要把一个钉子拔掉,那在这个事件上那个钉子就没有了,这个事件整个就不一样了。这是一个新的维度。

另外,具身智能还面临一个更严峻的问题,就是数据稀少。机器人遥操的数据量很小,远远不及文字和视频信息万亿级别的数据量。对此,我们团队积极探索,针对灵巧手的研究,从真实视频数据出发,将人类第一视角的视频数据与 VLA 训练数据对齐,给 VLA 预训练带来了真正具备规模化潜力的解决方案。因为视频数据的规模比已有的机器人遥操数据量要大得多,且易扩展,可以覆盖各种各样的场景,对模型有良好的泛化性。

范式转变:从可编程自动化到自主智能

主持人:具身智能与传统的机器人有什么不同?具身智能意味着 AI 研究的范式将会有怎样的变化?

边江:具身智能与传统机器人的关键区别在于,研究范式从自动化转向自主性。传统的机器人是一个自动化的工具,它们在一个定义好的环境中(如工厂流水线),通过预设的程序执行高精度的重复任务,这是一种可编程的流程。变换环境的话,还需要重新定义程序。但具身智能追求自主性,理想的情况是它能够适应各种动态、复杂的环境。它的研究范式是从简单的被动感知,转为主动的交互,也就是可以采取什么样的动作去更好地适应环境。

然而,这其中最大的难点仍是数据来源。机器人缺乏真实的交互数据。正如郭百宁博士刚才介绍道的,我们研究院的同事们正在通过将人类第一视角的视频数据与 VLA 训练数据对齐的方式,来解决相关问题。

郭百宁:未来一个重要的区别是,机器人是自主的,会根据环境做出不同的判断。在这个领域探索,大家可以全方位地推进,不同的实验室会选择不同的方向。我们就选择了深挖灵巧手这个方向,旨在实现认知与行动的闭环。

还有就是数据和行动。认知是通过数据学习的,我们要让机器学习到肌肉记忆,自动完成任务。这对大模型将是一个很大的拓展,可以弥补文本大模型在空间推理能力上的不足,不过这需要非常精准的三维空间理解与执行能力。比如抓一个方块或者杯子,它都有两个平行的面,这是一个隐含的假定,夹爪上去就能抓住。但如果是一个三棱形,它找不到这两个对应的面,那就抓不住这个物体。而灵巧手就不一样了,灵巧手的手指和人类一样,有关节,会变形,通过对空间的理解,将可以精准抓住物体。但这其中的挑战是,这类操作完全不可能用语言描述得那么精准。可喜的是,我们在这个方向已经取得了很大的进步。

为什么游戏是世界模型的最佳“训练场”?

主持人:刚才我们提到了游戏,边江博士的团队就在研究如何把世界模型应用于游戏环境,请为我们详细地介绍一下目前的进展。另外,作为一种软性的仿真世界,游戏环境对于训练 AI 的物理理解能力又有怎样的优势?

边江:我们选择游戏作为研究背景,主要是将其视为一个实体,来验证世界模型中的整套技术流程。游戏画面的参数可控,非常适合进行研究。我们在研究中主要关注几个核心挑战。首先是如何在世界模型中建立交互式的控制能力。这就需要将游戏场景中的每一帧或真实的视频数据进行离散化,或转换为 token,以提高建模效率。完成 token 化后,我们就能以大模型的自回归形式来建模,根据历史和当前动作预测接下来场景的变化。针对 token 化和自回归预测这两个方面,我们都有相关的工作。

其次,我们必须保证实时性。如果生成下一个场景的速度很慢,用户体验就会很差。为此我们进行了优化,特别是在自回归模型上叠加扩散模型提高画面清晰度时,可以确保模型能以更高的速率生成下一帧,让用户在操作游戏时几乎感受不到延迟。最后,我们非常注重 3D 建模。因为游戏本身是 3D 的,进行 3D 建模能帮助世界模型对全局有更好的理解,从而在生成后续画面时可以保证强一致性,避免视角或物体遮挡导致的前后画面不连贯问题。

实现具身智能最后一公里的关键技术

主持人:从目前的发展来看,要实现一个能够泛化到各类任务和环境的通用具身智能,两位认为研究中最关键的技术是什么?

边江:现阶段还没有任何机构能很快走到所谓的通用具身智能。大家仍然停留在某一具体场景下进行泛化。例如,现在有些机器人能很好地叠衣服,甚至可以在任意环境下都可以把各种形态的衣服叠得很好,但它无法胜任流水线上的分拣任务。这说明泛化还有很长的路要走。

如果要做泛化,数据是基础,我们必须让模型“看”到所有场景。但这也引申出是否需要更丰富的输入信号,以及是否需要依赖合成数据的争论。合成数据能解决数据量不足的问题,但很多人认为它与现实世界的差距显著,无法弥补。

郭百宁:我也觉得数据是一个非常重要的问题。从语言大模型的经验看,泛化能力是通过数据规模扩展而提升上去的。如果机器人想涌现出同样的泛化能力,那么数据就一定要足够大且多样性高。另外,我们还需要新的学习方法。其实婴儿白天在与世界交互之后,晚上睡觉时大脑就在总结合成、反推演化、不断学习。如何让机器人也拥有类似婴儿的这种能力,还需要我们进一步探索。数据这座大山是目前探索过程中面临的第一挑战。

主持人:随着模型越来越大,它在现实中做实时决策与推理的计算压力也会越来越大。那么未来的世界模型会是以一个巨无霸的形式存在,还是会走向分布式模块化的结构?

边江:这可能与商业场景紧密相关。如果有很多终端需要定制化任务,那么模型可能就要小巧,不太可能用规模特别大的模型进行推理。在网络环境好的大型工厂中,云端推理也是可行的。未来很可能会是一种混合形式。

郭百宁:能耗与实时性在具身智能领域至关重要,它直接决定了任务的成败。目前业界还处于测试模型能力与泛化性的阶段,对能耗的考虑较少。但在将来,工业应用中的模型一定是最小、最实时、成本最低,但完成任务的程度与大模型效果一致的模型。

未来三到五年,具身智能最先突破的应用场景

主持人:两位认为,未来三到五年,我们可能率先在哪些具体的场景里,能看到一些突破性的应用?

边江:从目前国内外创业公司的方向来看,突破将首先在相对受限的环境中实现泛化。比如,家庭服务机器人能在居家环境中完成打扫卫生等任务;在小的固定环境中提供任务明确的商业服务,如便利店补货、商品挑选,或自动咖啡机器人等;工厂内的特定分拣和装配任务。

郭百宁:目前特别成功的机器人是自动驾驶和扫地机器人。未来最激动人心的场景之一将是灵巧手的服务机器人,它可以在厨房、卧室、客厅里为人们提供服务。尤其在人口老龄化问题严峻的国家,如果技术能解决照护老人这一痛点,将具有巨大的应用前景。而这要求机器人必须具备足够的精准性和灵活性。

主持人:期待 AI 真正“动起来”的那一天能够早日到来。非常感谢两位的分享!我们下期再见!

相关阅读:

  • 文章:NeurIPS上新 | 生成式AI与具身智能:从像素到物理世界的交互 (opens in new tab)
  • 文章:MaaG:迈向世界模型,解决生成式游戏中的数值与时空一致性难题 (opens in new tab)
  • 论文:Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Traininghttps://arxiv.org/abs/2509.19752v1
  • 论文:Dyn-O: Building Structured World Models with Object-Centric Representationshttps://arxiv.org/abs/2507.03298
  • 论文:Image as a World: Generating Interactive World from Single Image via Panoramic Video Generationhttps://www.microsoft.com/en-us/research/publication/image-as-a-world-generating-interactive-world-from-single-image-via-panoramic-video-generation/
  • 论文:Omnidirectional 3D Scene Reconstruction from Single Imagehttps://www.microsoft.com/en-us/research/publication/omnidirectional-3d-scene-reconstruction-from-single-image/
  • 论文:One-Step Diffusion-Based Image Compression with Semantic Distillationhttps://arxiv.org/abs/2505.16687
  • 论文:VideoVLA: Video Generators Can Be Generalizable Robot Manipulatorshttps://openreview.net/forum?id=UPHlqbZFZB
  • 论文:What Do Latent Action Models Actually Learn?https://arxiv.org/abs/2506.15691

声明:

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。

作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。

随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。

所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:

https://msrc.microsoft.com/report

続きを読む

すべてのブログ記事を見る