编者按:在虚拟数字人技术飞速发展的今天,如何让 3D 头像拥有真实感与表现力,始终是计算机视觉与图形学领域的核心挑战之一。微软亚洲研究院最新提出的 VASA-3D 技术,实现了从单张肖像照片生成可实时驱动的逼真的 3D 说话头像,不仅突破了传统方法对多视角数据的依赖,更将情绪表现力和面部微表情细腻度提升至全新高度。该工作已被 NeurIPS 2025 接收。
从视频会议中的虚拟形象,到元宇宙里的数字分身,3D 头部头像正成为连接现实与虚拟世界的关键桥梁。然而,现有技术始终面临两大瓶颈:一是面部动态缺乏真实人类微妙的表情细节;二是构建高质量 3D 头像往往需要复杂的视频或多视角数据。
在 NeurIPS 2025 发表的工作中,微软亚洲研究院提出的 VASA-3D,开创性地将 2D 视频的丰富表现力迁移至了 3D 空间,让仅凭一张照片就能”复活”栩栩如生的 3D 数字人成为了可能。

VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image
当3D头像遭遇”表情瓶颈”
当前主流的 3D 头部头像技术大多基于参数化模型(如 3DMM、FLAME),这些模型从数百个 3D 扫描样本中学习形状基元,本质上是对人脸几何的压缩表示。虽然结构紧凑,却难以捕捉真实世界中千变万化的细微表情,比如一次嘴角的上扬、一次眉间的轻蹙,这些构成人类情感表达精髓的细节往往在参数化过程中被平滑掉。
另一个挑战是个性化门槛。目前大多数方法需要用户提供多视角图像或视频数据才能重建个人头像,这在实际应用中极不便利。虽然近年来出现了少数”单图重建”的方法,但其为了保证模型的鲁棒性而牺牲了表现力,仍将表情控制局限在参数化模型的低维空间中,导致生成结果”形似而神不似”。
VASA-3D的核心突破:2D经验赋能3D生成
VASA-3D 的解决思路主要是利用互联网上丰富的 2D 人脸视频数据。研究员们观察到,VASA-1 在 2D 说话人脸生成上展现出了惊人的真实感,得益于其从近万名受试者视频中学到的运动潜空间。这个看似 2D 的潜空间实际上编码了隐式的 3D 结构信息。
在技术架构上,VASA-3D 采用了两阶段设计:基础变形与 VAS 变形。基础变形通过多层感知器将运动潜空间映射至 FLAME 模型参数,驱动绑定在网格上的 3D 高斯点完成粗略的几何变化。VAS 变形模块则包含两个专为面部和颈部区域设计的 MLP,以运动潜空间为条件,预测高斯点的残差变换,包括位置、旋转、尺度、颜色甚至透明度的精细调整。这种”粗调+精修”的机制,既保证了整体运动的合理性,又赋予了模型表达微妙表情的自由度。

数据魔法:合成训练数据生成方法
单图定制的最大挑战是缺乏训练数据。VASA-3D 利用预训练的 VASA-1 模型,将输入肖像与任意音频/视频驱动信号结合,可批量合成海量的训练帧。研究员们从 VoxCeleb2 数据集中随机抽取视频片段,提取其运动潜空间,再通过 VASA-1 解码器驱动参考图像,10小时内即可生成涵盖丰富姿态与表情的合成数据集。
然而,合成数据仍存在时序纹理不一致、大角度姿态缺失、可能引发过拟合等局限性。为此,研究员们设计了一套鲁棒化训练策略:
- 多尺度对抗损失:通过三个不同分辨率的判别器提升感知质量,对抗合成数据的纹理不一致。
- SDS 损失:利用 Stable Diffusion 的先验知识惩罚侧视图伪影,将有效视角扩展至±180°。
- 渲染一致性损失:让基础变形模型监督精细变形模型,防止 SDS 损失过度平滑细节。
- 对比自适应锐化:训练末期轻量级微调,进一步提升图像锐度。
这些策略既利用了合成数据的多样性,又通过智能正则化规避了其缺陷。
性能表现:实时性与真实感的协同提升
在 RTX 4090 GPU 上,VASA-3D 实现了 75fps 的512×512实时渲染,姿态生成延迟仅65毫秒。定量评估显示,其唇音同步置信度远超现有方法,用户研究中93.91%的参与者认为其综合真实感最优。
更难得的是,与训练数据生成器 VASA-1 相比,性能差距微乎其微。这意味着VASA-3D 成功将 2D 优势迁移至 3D,同时获得了真正的自由视角能力。
此外,图灵测试级别的真实感在侧视图中尤为明显。传统方法在45度角常出现几何坍缩或纹理拉伸,而 VASA-3D 的 3D 高斯表示天然支持多视角一致性,配合SDS损失的侧视图正则化,即使大角度旋转仍能够保持面部结构的稳定。
从虚拟会议到数字娱乐,重新定义3D内容的创作范式
VASA-3D 的轻量化与高效性使其具备广阔的应用潜力:
- 沉浸式通信:在 VR/AR 会议中,用户仅凭自拍即可生成高保真 3D 头像,实时驱动带来面对面交流体验。
- 游戏与影视:快速生成 NPC 或虚拟角色的面部动画,大幅降低动作捕捉成本。
- 在线教育:AI 导师拥有真实的面部表情,提升学习者的情感连接。
- 无障碍交流:为失声者创建可驱动的 3D 头像,重建其”声音”的面部表情。
不过当前版本的 VASA-3D 仍有提升空间。由于训练数据主要为正面视角,后脑勺区域建模不足;眼镜、耳环等动态配饰尚未支持;上半身建模也有待扩展。这些方向已在研究团队的未来规划之中。
VASA-3D 的意义不仅在于技术指标的突破,更在于它展示了一种全新的技术演化路径,让 2D 生成模型的丰富性与 3D 表征的几何严谨性相得益彰。通过巧妙的数据生成与鲁棒训练,单图定制不再意味着表现力妥协;通过潜空间迁移,参数化模型的表达能力得到提升。
VASA-3D 为 3D 数字人技术提供了新方案,也为我们描绘了更可信的虚拟未来:在那里,每个人都能轻松拥有属于自己的、真正”活”起来的数字分身。VASA-3D 为更沉浸的虚拟交互体验提供了可能。
注:本研究致力于推动 AI 虚拟形象的积极应用,坚决防范技术滥用与误导性内容的产生。负责任的人工智能是 VASA-3D 的根本原则,贯穿于研究全过程。首先,需要强调的是,该项目只是一个研究演示,目前不会公开模型和 API。VASA-3D 的研发过程基于合成视频,这些视频由非真实存在的主体的合成照片生成。最后,研究团队正在使用 VASA-3D 在内部进一步探索负责任的人工智能和 AI 检测技术。
尽管研究团队意识到该技术存在潜在的滥用风险,但必须承认该研究成果未来可能产生巨大的积极影响。在实际应用中,该技术有望赋能 AI 助手,来提升知识工作者获取潜在智能的能力;也可应用于 AI 辅导,从而更动态、更高效的方式吸引学生参与学习。这些应用方向凸显了本研究及相关探索的重要性。研究团队致力于负责任地开发 AI,以推动人类福祉的进步。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。