编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 将在美国田纳西州纳什维尔举办。我们将通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期的分享内容是主要围绕生成模型与扩散技术等方向的研究工作,包括视频生成、自动平面设计、图像压缩、3D内容生成等。
本期内容速览
01. SPO:面向扩散模型的逐步偏好优化学习方法
02. BizGen:面向信息图表生成的文章级视觉文本渲染技术
03. 由元素至设计:基于分层原则的自动平面设计编排
04. FloVD:利用光流增强视角可控的视频生成
05. HomoGen:融合单应性传播与扩散机制的视频修复方法
06. I2VGuard:保护图像不被 I2V 模型随意“视频化”
07. PICD:基于扩散基础模型的多用途主观图像压缩
08. StableAnimator:高质量人像动画生成
09. 基于结构化潜变量的三维生成大模型
01. SPO:面向扩散模型的逐步偏好优化学习方法

论文链接:https://arxiv.org/pdf/2406.04314 (opens in new tab)
项目链接:https://github.com/RockeyCoss/SPO (opens in new tab)
随着后训练在语言模型的应用中取得巨大成功,如何对基于扩散模型的文生图大模型进行后训练吸引了大量研究者的兴趣。对文生图大模型进行后训练可以显著提高生成的图片的美学质量与文本指令遵从能力,从而更加对齐人类对图片的偏好。但这些工作都有一个重要的假设,即最后生成出来的图片偏好可以传播到整个扩散模型的所有去噪步。研究员们经过探索发现,这一假设在复杂的图片偏好学习过程中难以成立。研究员们认为图片的偏好包括多个方面,比如布局、美学,或者指令遵循方面的偏好都是互相独立的,而扩散模型不用的去噪过程是聚焦于优化其中某一方面,所以简单地将图片的偏好传播到整个去噪过程是有缺陷的。
通过分析现有的开源图片偏好数据集,研究员们进一步发现其偏好标注往往反映的是图文对齐、画质和美学偏好等方面综合后的总体偏好,在这些数据上训练时,监督信号难以专注于某一方面。即便对数据进行美学方面的重新标注,由于图像在布局和结构上的差异过大,所以精细粒度的美学信息(比如纹理、色彩)依然容易被干扰,导致文生图模型在后训练过程中难以在美学方面进行有效提升。
为了解决这个问题,研究员们利用扩散模型在生成过程中对中间步的分布 p_θ (x_(t-1)│x_t ) 多次采样得到一组中间图像,这组图片可以很好地保持布局与结构上的高度一致性,从而让模型在对这组图片进行偏好学习的过程中专注于优化其在纹理、细节痕迹等美学层面存在可分辨的差别。基于此,研究员们提出了一种简单、高效的逐步偏好优化 SPO(Step-by-step Preference Optimization)方法,来更好地将文生图扩散模型与人类美学偏好对齐,同时也为美学后训练提供了可靠的监督信号。
具体地,SPO 在生成过程的某一时间步 t 时,从中间图像 x_t 出发多次采样得到一组候选图像 x_(t-1)。随后,采用逐步感知偏好模型 SPM(Step-aware Preference Model)对这些候选进行排序,选出美学最佳的 x_(t-1)^w 与最差的 x_(t-1)^l 构成偏好对。接着,随机挑选一个候选继续下一个时间步的生成,并重复上述流程,直至完成整张图像的生成。所得到的不同时间步的偏好对,将用于计算基于直接偏好优化理论构建的 SPO 损失,进而引导扩散模型在微小差异中持续提升美学效果。

通过在 SD v1.5 和 SDXL 两种开源的文生图模型上开展实验,研究员们发现 SPO 训练后的模型在多个反映美学的评估指标上均显著优于 Diffusion-DPO、D3PO 和 MAPO 等方法训练后的模型,并且收敛速度更快。
用户主观调研结果也显示,SPO 微调的 SDXL 在视觉吸引力方面大幅超越预训练模型及 Diffusion-DPO-SDXL。GenEval 基准测试进一步验证了 SPO 在提升图像美学的同时,仍能保持预训练模型的图文对齐能力。下图中也定性比较了 SPO 方法在美学方面的显著优势。

02. BizGen:面向信息图表生成的文章级视觉文本渲染技术

论文链接:https://arxiv.org/pdf/2503.20672 (opens in new tab)
项目链接:https://github.com/1230young/bizgen (opens in new tab)
近年来,如何生成准确的视觉文本逐渐成为文生图大模型所重点关注的研究问题。然而大多数研究工作目前仍然停留在“句子级”生成,面对基于长文本、复杂布局生图的实际需求,如企业报告、资讯图、演示幻灯片等,仍面临严峻的挑战。尤其是最具商业价值的信息图表与幻灯片,它们包含大量文本、图表和视觉元素,且需要美观、准确地排版和对齐,对生成模型的文本理解能力和空间控制能力提出了极高的要求。
来自微软亚洲研究院的研究员们所提出的 BizGen,可聚焦更具挑战性的文章级视觉文本渲染任务。其目标是让文生图大模型能根据用户提供的一段完整描述甚至一个文档,自动生成排版复杂、信息密集、可直接用于商业场景的信息图表或幻灯片。

研究员们指出这个任务主要面临数据稀缺与上下文过长的挑战。第一个挑战是,互联网上高质量、结构化的信息图表数据极为稀缺,难以收集到大量的数据直接用于训练。针对此,研究员们从互联网上爬取了5000张信息图表作为初始的数据集合,然后提取了这5000张信息图片的图层与布局信息,并结合 GPT-4o 与 CLIP 识别检测出其中的关键视觉元素。为了扩充训练数据的规模,研究员们利用语言模型生成了250K的图层描述,并将这些图层描述送入开源的透明图层生成模型中,以合成100万张高质量的图层数据。之后,研究员们提出了一种逐图层检索扩充的方式将信息图表数据从5000张扩充到了65万张,构成了该论文提出的 Infographics-650K 信息图表数据集。

第二个挑战是,信息图表合成需要处理长文本输入以及高分辨率图片,带来了快速增加上下文长度的挑战。为了解决这个问题,研究员们提出一种布局引导的注意力机制,分别将文章级文本切分为若干区域级的文本描述,并将图像也切分成不同的区域,每个区域级文本对应一个图像的子区域。模型在生成过程中会强制对对应的区域视觉特征与区域文本特征进行注意力计算,从而大幅降低了注意力计算过程中的上下文长度。进一步,研究员们还引入了基于布局条件的 CFG 引导策略,对不同区域选择不同的强度,有效减缓信息图表中局部生成面临的瑕疵和不一致问题。

通过大量的实验,研究员们发现 BizGen 在视觉文本生成方面的准确率上大幅领先之前的模型,尤其是在生成超过20个图层的信息图表任务中,比 FLUX 提升超过25%。在人工评价结果中,研究员们发现 BizGen 在美学、对齐、可读性等维度均明显优于 SD3 和 FLUX。尽管 BizGen 展示了文生图模型在图文协同生成、结构感知排版和多语言表达上的新潜力,但仍存在进一步探索的空间,例如,如何消除对高质量布局的依赖、增强图层的可编辑性等,都是值得后续研究的问题。
03. 由元素至设计:基于分层原则的自动平面设计编排

论文链接:https://arxiv.org/pdf/2412.19712 (opens in new tab)
在数字内容爆发与移动端消费升级的双重驱动下,企业与个人对“即刻生成”高质量平面设计作品(如广告、社交媒体海报、网页横幅等)的需求激增。传统设计流程高度依赖专业软件与人工排版,设计师需在构图、层次、配色与字体之间反复权衡,既耗时又成本高昂。自动化平面设计编排(automatic graphic design composition)旨在将零散的视觉素材(如图片、商标、文字、装饰等)转化为结构严谨、视觉和谐的完整版面。然而,该任务不仅要解决元素的空间布局,还必须同时满足审美、品牌调性与可读性等多重要求,本质上是一个高维、开放且主观性极强的多目标优化难题。
现有研究多聚焦于自动化平面设计编排的单一环节,例如版面布局、字体排版或配色,缺乏端到端的整体方案,迫使用户在实践中手动串联多个子模型,流程割裂且维护成本高。此外,现有研究倾向于将所有视觉元素当作同级的“扁平”节点,忽视了人类设计中固有的语义层级(背景→主体→文字→装饰)。缺乏层级意识显著扩大了模型需同时搜索的解空间,最终削弱了生成质量。
对此,研究员们提出了 LaDeCo(Layered Design Composition) 框架,在多模态大模型之上融入了“分层式”生成理念,形成“先规划、再逐层生成”的流水线。在层规划(layer planning)阶段,针对输入的多模态元素(如图像、徽标、文字、装饰等),通过精心设计的提示调用 GPT-4o,判定其语义角色(如背景、承托、主体、文本、装饰等)。语义相同的元素会被归入同一视觉层,从而完成层级划分。在分层生成(layer-wise generation)阶段,按“背景 → 承托 → 主体 → 文本 → 装饰”的顺序,LaDeCo 将整体生成拆解为多个步骤。每一步仅需为当前层预测几何属性(如位置、尺寸、旋转)与视觉属性(包括配色、透明度等),显著缩小了搜索空间。完成一层后,系统会立即渲染中间版面并将其作为上下文返回模型,使后续预测能感知已确定元素的“视觉锚点”,从而把复杂任务化为一系列受前文约束的小决策。

研究员们在公共数据集 Crello 及商业海报数据上进行了实验。LaDeCo 在设计布局、文本排版、内容契合度等指标上明显优于 FlexDM、GPT-4o 等基线,并在内容感知布局与字体排版子任务上超越了专用模型,验证了方法的通用性与扩展性。此外,得益于层次化表示,LaDeCo 还支持分辨率自适应、元素补全与设计多样化。
04. FloVD:利用光流增强视角可控的视频生成

论文链接:https://arxiv.org/pdf/2502.08244 (opens in new tab)
项目链接:https://jinwonjoon.github.io/flovd_site (opens in new tab)
本论文提出了一种全新的视频生成框架 FloVD。该框架可利用光流进行可控相机视角的视频合成。这一方法在自然物体运动合成和精确的相机操作方面均优于以往的方法。此外,FloVD 实现了显式的相机控制,展示了如推拉变焦效果等具有挑战性的相机运动。
现有方法的主要限制在于依赖显式的相机参数,大大限制了泛化能力。如图7所示,这些方法经常无法生成物体运动,或因训练数据集仅包含静态场景视频而产生视觉伪影。其原因是因为从动态内容的视频中获取准确的相机参数,本质上是困难的。

为解决这一问题,研究员们利用光流作为相机和物体运动的统一表示。FloVD 有两个主要优点。(1) 数据灵活性:光流可以直接从真实世界的视频中估计,从而允许模型在具有自然物体运动的多样化数据集上进行训练。(2) 3D 感知控制:背景光流在帧间编码了 3D 场景结构。通过学习将背景流映射到合成视频,该方法实现了精确的相机控制。
FloVD 包含一个两阶段的视频合成过程,分别是光流生成阶段和流条件视频合成阶段。给定单张图像和相机参数,研究员们先生成一个相机-物体流图,来表示背景(相机引起的)和前景(物体引起的)运动。然后,一个视频扩散模型会以该流图为条件生成最终的视频。为了增强运动逼真度和相机可控性,研究员们又将流生成分为两个子问题:相机流生成和物体流生成。首先,研究员们通过 3D 变形将输入的相机参数转换为背景运动的光流,然后引入一个物体运动合成模型来生成物体运动的光流。这两个流图随后将结合形成一个综合的相机-物体流图。

FloVD 在动态物体运动和精确相机控制方面实现了高质量的视频合成。与之前的方法相比,FloVD 显著提高了相机控制能力和整体视频的质量,实现了75.8%的旋转误差减少和44.3%的 FVD 分数提高。

05. HomoGen:融合单应性传播与扩散机制的视频修复方法

论文链接:https://cvpr.thecvf.com/virtual/2025/poster/32808 (opens in new tab)
视频修复(video inpainting)是指通过填补视频中缺失或损坏的区域,以恢复视频完整内容的技术。视频修复有着广泛的应用,包括物体移除、视频补全、自动驾驶等。目前,视频修复的主要难点在于如何为破损区域的内容生成提供引导信息,尤其是在包含多样化的相机运动和物体运动的场景中。
在本文中,研究员们提出了基于单应性配准(homography registration)和扩散模型的视频缺失内容生成(content generation)方法 HomoGen。HomoGen 借助单应性配准,搜索并提取相邻帧中能够用于填补当前帧缺失部分的像素,并利用这些像素作为先验信号,引导视频中缺失内容的生成。与基于光流的点对点像素传播方法所引起的局部畸变不同,单应性配准提取的先验信号所含伪影通常表现为区域整体的结构性畸变,能有效维持场景的语义一致性。
为了高效利用先验信号以控制生成过程,研究员们设计了一种视频扩散模型。扩散模型本质上可以优先考虑先验信号中的语义信息,而非细粒度的像素级别细节。基于此,研究员们在视频扩散模型中提出了一种内容自适应控制机制,能够在迭代去噪的过程中对先验信号进行尺度调节,并将其注入扩散模型的中间隐变量。与基于 Transformer 的模型往往因先验伪影引发误差积累、导致模糊结果不同,去噪扩散模型在生成视频缺失内容的过程中能同步消除先验伪影,避免像素级误差积累,确保修复后的视频呈现清晰、逼真的效果。

在 YouTube-VOS、DAVIS 等多个标准测试集上的大量实验表明,HomoGen 在定性与定量评估中均超越了现有方案。值得注意的是,与当前最先进的方法相比,HomoGen 能生成更加逼真的内容,并在 VFID 指标上实现了23.81%的性能提升。
06. I2VGuard:保护图像不被 I2V 模型随意“视频化”

随着视频生成扩散模型的快速发展,任何静态图像都可能被自动“视频化”,由此将带来隐私泄露、版权侵权,甚至深度伪造等安全风险。当前主流的防护策略是在图像中嵌入肉眼难以察觉的扰动,以阻止扩散模型对图像内容进行生成式修改。然而,现有方法大多聚焦于图像编辑场景,尚未针对图生视频任务提出有效的解决方案。其原因在于需同时应对两大核心挑战:一是单幅图像的扰动必须足以破坏整段视频的动作生成,二是防护方法需具备跨模型的通用性,能对多种扩散架构生效。
经过深入分析,研究员们发现,图生视频扩散模型在生成高质量视频时,依赖于空间编码、时间注意力和扩散去噪模块的协同作用。如果能对这三大关键组件同时干扰,便有可能显著削弱视频生成能力。基于这一观察,研究员们提出了全新的安全防护策略 I2VGuard。利用空间攻击、时间攻击和扩散攻击三个子模块的协同优化,I2VGuard 能够在一次统一流程中实现对图生视频生成过程的有效干扰。

具体来说,研究员们将图像加扰建模为一项针对图生视频模型的对抗攻击任务,目标是在保持原图可感知质量的前提下,最大程度削弱生成视频的效果。为此,研究员们设计了三个协同子模块:空间攻击通过操控 VAE 编码特征,使图像潜变量偏离理想分布,从源头降低生成帧的画质;时间攻击作用于 UNet/DiT 的时间注意力机制,扰乱其时序感知,破坏视频帧之间的运动连贯性;扩散攻击则引入对比损失,将去噪过程导向低质量输出(如全黑帧),显著增强对不同扩散架构的通用防护能力。
实验结果表明,I2VGuard 在多种主流图生视频模型上(如 CogVideoX、SVD 和 ControlNeXt)均能显著削弱生成效果,导致视频质量大幅下降,而对原始图像几乎没有可感知的视觉影响。同时,鲁棒性测试显示,I2VGuard 能有效抵抗诸如图像压缩和高斯滤波等常见扰动破坏手段,进一步增强其实用性与可靠性。

07. PICD:基于扩散基础模型的多用途主观图像压缩

论文链接:https://www.arxiv.org/abs/2505.05853 (opens in new tab)
主观图像压缩算法在自然图像中取得了巨大的成功,可以在极低码率达到人眼都难以分别的重建。然而面对屏幕内容图像,主观图像压缩无法正确重建屏幕内容中的字形和字符,导致人眼可以观测到很多失真内容。如何在极低码率的屏幕内容编码中,保持文字内容的真实,成为了目前主观图像压缩的重要挑战。
另一方面,扩散基础模型在文本内容生成上有很多成功应用。受到此类工作的启发,研究员们设计了一种基于扩散基础模型的多用途主观图像压缩方法 PICD。作为第一个能够同时保持高质量文本重建与高质量人眼视觉效果的图像编码器,PICD 通过借助扩散基础模型强大的先验,可以帮助解决主观图像压缩中的屏幕内容问题。此外,研究员们也希望进一步利用扩散基础模型,提升主观图像压缩中自然图像的重建质量,实现屏幕内容与自然图像均适用的多用途主观图像压缩。

具体来说,研究员们首先提出了保持文本重建与主观质量同时最优的编码框架,在从理论上说明了无损编码文本信息后,用文本信息作为条件编码图像信息的框架最优性。之后,研究员们创新地提出了使用条件扩散模型作为解码器,再匹配原始图像在文本与重建图像上的后验分布,进而达到主观视觉与文本信息同时最优。
基于这一最优编码框架,研究员们从最简单条件扩散模型开始逐步添砖加瓦,针对屏幕内容,提出了为扩散模型注入条件信息的三级高效框架,分别为领域级,适配器级和样本级。对于领域级条件注入,研究员们构造了屏幕内容与文本描述数据集,并用此数据微调扩散基础模型。对于适配器级条件注入,研究员们综合了多个适配器的优缺点,分别使用不同适配器处理文本信息和重构图像信息。对于样本级条件注入,研究员们修改了扩散模型的采样过程,使之符合图像重建与文本重建的双重要求。最后,研究员们提出了将三级高效条件注入框架简化至自然图像的方法,实现了多用途编码。
实验结果表明,PICD 在编码屏幕内容时,在 SCI1K、SIQAD 等数据集中,能够同时保持高质量的文本重建以及高质量的人眼视觉效果。在编码自然图像时,PICD 在 KODAK、CLIC 等数据集中,能够达到更好的人眼视觉效果,同时达到更小的重建损失。
08. StableAnimator:高质量人像动画生成

论文链接:https://arxiv.org/pdf/2411.17697 (opens in new tab)
项目链接:https://github.com/Francis-Rings/StableAnimator (opens in new tab)
人像动画生成的关键在于,根据参考图像和输入的动作序列合成动态视频,同时确保人物身份特征(尤其是面部信息)的一致性。但现有方法在处理复杂动作变化时面临诸多挑战,例如身份一致性受损、视频质量下降,以及空间与时间建模矛盾。
为了解决上述问题,微软亚洲研究院的研究员们提出了 StableAnimator 框架,以实现高质量和高保真的 ID 一致性人类视频生成。StableAnimator 的核心技术点包括以下三个方面:
• 全局内容感知面部编码器(global content-aware face encoder):该编码器创新性地将面部特征与全局图像布局深度融合,利用多层交叉注意力机制,使面部嵌入特征能够精准对齐参考图像的整体上下文。这种方式可有效过滤掉与身份无关的背景噪声,确保面部建模更加稳定,从而提高面部特征的一致性和清晰度。
• 分布感知的身份适配器(distribution-aware ID adapter):针对扩散模型中时序层对空间特征分布的干扰问题,该适配器引入了一种分布对齐策略。具体而言,它通过计算面部特征和全局图像特征的均值与方差,来确保二者在整个去噪过程中保持一致性,避免特征偏移和失真。该适配器的设计使得面部特征能够无缝适配时序建模层,同时维持视频整体的空间一致性和视觉质量。
• 基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部优化:此优化过程仅在推理阶段激活,并不会影响 U-Net 的参数更新。StableAnimator 通过在扩散推理过程中引入 HJB 方程优化,使面部特征的调整能够遵循最优路径选择原则。HJB 优化过程与去噪步骤并行进行,让优化后的变量对去噪路径施加约束,从而促使模型在生成过程中保留更高的身份一致性,同时显著减少面部区域的细节损失,确保视频的高质量输出。


09. 基于结构化潜变量的三维生成大模型

论文链接:https://arxiv.org/abs/2412.01506 (opens in new tab)
近年来,AI 生成三维内容取得了显著进展,但当前的三维生成大模型在质量、多样性和可扩展性方面仍明显落后于二维生成大模型。二维图像通常采用像素网格表示,而三维数据则涵盖多种格式,如网格(meshes)、点云(point clouds)、辐射场(radiance fields)和三维高斯(3D Gaussians)等。这些适用于不同的场景的格式,彼此之间往往不兼容,限制了现有模型的灵活性和泛化能力。而且,许多三维生成方法难以同时捕捉精细的几何结构和高保真的外观,尤其是在以文本或图像等多样输入为条件的生成任务中。
针对这些挑战,研究员们提出了一种基于统一表示的新型三维生成框架——结构化潜变量(Structured LATent,SLAT)。SLAT 结合了稀疏的三维网格结构和强大的视觉基础模型提供的多视角视觉特征,实现了几何结构与纹理外观的全面编码。生成过程由专为 SLAT 设计的修正流变换器(rectified flow transformers)驱动,具备高效且高质量的合成能力。
在 SLAT 的基础上,研究员们训练出了三维生成大模型 TRELLIS。该模型在包含50万个多样化三维物体的大规模数据集上进行训练,参数规模可扩展至20亿,具备强大的跨类别泛化能力和多模态输入适应性。值得一提的是,SLAT 表示支持解码为多种输出格式,包括辐射场、三维高斯和网格,使其在不同下游应用中具备高度适应性。TRELLIS 三维生成模型权重及相关代码现已全部开源,其 GitHub 已获星标近1万次。

实验结果表明,SLAT 在定量指标和视觉质量方面均显著优于现有三维生成模型。该模型可在约10秒内根据文本或图像提示生成细致逼真的三维物体,展现出前所未有的多样性和速度。此外,SLAT 还支持局部三维编辑,允许用户在不影响整体结构的前提下修改特定区域,这一能力对于创意工作流和交互式应用尤为重要。SLAT 的统一表示还使得不同三维格式之间的无缝切换成为可能,为生成内容的使用与渲染提供了前所未有的灵活性。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。