a tall building lit up at night

微软亚洲研究院

Phi-Ground模型:让AI学会“看屏幕”

Publié | Mis à jour

编者按:随着多模态和推理模型的快速发展,能够自主理解并操作计算机界面的智能体(Computer Use Agent, CUA)正逐渐成为现实。其中,图形界面定位(GUI Grounding)是实现这一能力的核心环节,它决定了智能体能否准确地完成点击、输入等具体操作。然而,现有模型在关键基准测试中的准确率仍较低,距离实际应用尚有差距。对此,微软亚洲研究院近期发布了技术报告系统分析了 GUI Grounding 模型的训练过程,并提出了 Phi-Ground 系列模型。在五个主流基准上,Phi-Ground 模型都取得了同类规模模型的最佳表现,为推动可用智能体的发展提供了坚实的基础。


在如今的日常操作以及数字化办公的过程中,人们常常希望计算机不仅仅是被动执行命令,而能像人类助手一样主动协助我们完成任务。在多模态 AI 和智能体技术不断增强的背景下,计算机使用智能体(Computer Use Agent,CUA)应运而生,让这一愿景逐步成为现实。

如果说在现实世界中,我们期待人形机器人能帮助我们搬运重物,那么虚拟世界中,基于图形界面(GUI)的 CUA 则是我们具有“动手能力”的数字分身。这些 CUA 可以直接与操作系统交互,不依赖特定应用的 API,同时还便于人类监督。这就是人形机器人和 CUA,相比于传统机械臂和网页/应用智能体具有更广阔上限的原因。而图形界面定位(GUI Grounding)如同 CUA 的手足,承担着直接与现实交互、影响系统成败的责任,决定了智能体“看得懂”和“点得准”的能力。

graphical user interface, application
图1:智能体在物理世界和虚拟世界的发展

在最新的研究中,微软亚洲研究院的研究员们考察了 GUI Grounding 从数据收集到模型训练的各个细节,提出了 Phi-Ground 系列模型,能够根据用户指令准确地在电脑屏幕中定位到所需位置。

在技术报告 Phi-Ground Tech Report: Advancing Perception in GUI Grounding 中,研究员们系统性地介绍了这一模型的算法设计与工程实现。

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

细节决定成败:训练GUI定位模型的详细配方

研究员们从数据、架构到训练、评测,构建了一整套可复现、可扩展的 GUI Grounding 方案,以提升“看-定位-点选”的可靠性。

在数据层面,研究员们构建并均衡采样了大规模训练集。对此,团队设计了从 CommonCrawl 数据中自动爬取与渲染网页的流程和算法,从26亿个网页中层层筛选,得到了1000万个高质量且有助于训练 GUI Grounding 模型的网页,并将其渲染成数据集。此外,研究员们还综合利用了三类额外的数据来源:开源数据集、网页截图(基于图像搜索)和人工标注的目标场景(Windows 场景)截图,最终形成了4000万条训练数据。而且,团队还设计了专门的重采样策略,来改善点击位置分布,从数据上保证了高分辨率场景的泛化能力。其中大部分步骤和细节都已经过对比实验与调优。

diagram
图2:CommonCrawl 数据的处理流程

在任务结构上,研究员们将整体任务拆分为两个层次:

  • 规划(Planner):将自然语言指令转换为更精确的参考描述(Reference Expression, RE);
  • 定位 / 落地(Grounding):利用专门训练的模型根据 RE 生成或回归点击坐标。

这种分层方式有效解耦了规划与定位,让大模型的规划和知识能力得以充分利用,从而显著降低了规划遗漏所带来的操作错误。

在训练策略上,研究员们也探索了多种技巧,如坐标的表示方式、基于强化学习的后训练(比如 DPO)等,并由此发现了一些简单、有效的方法。例如,仅仅调整模型输入时图像和文本(参考描述)的顺序,就能大大影响模型的感知和定位能力。分析认为,文本先、图像后的好处可能来源于 GPT 的因果掩码,后者使得文本(蕴含了任务描述)可以促进图像的针对性建模。因此,改变输入顺序就会在评测集上体现出显著的差距。

此外,研究员们还讨论了在输入图像分辨率限制下的缩放定律(scaling law)。研究指出,现有很多工作在比较点数时往往只聚焦于参数量,并没有注意到不同图像分辨率对感知任务的强烈影响。根据此,研究员们把图像 tokens 数量也纳入了考虑范围,训练了6个不同配置下的模型,得到了如下缩放曲线:

chart
图3:训练样本的计算量和准确率的关系

上述结果可以指导开发者在实际应用时采取更高效的配置选择,为后续研究与应用提供了实践参考。

让评测更全面,让模型更高效

在多项公开与内部的评测中,Phi-Ground 系列在 agent 设定下表现出色:在 ScreenSpot-pro、UI-Vision 等关键基准上分别取得约55.0与36.2的高分;在端到端设定下获得行业最优(如 ScreenSpot-pro ≈ 43.2,UI-Vision ≈ 27.2)。

chart, bar chart
图4:Phi-Ground 模型在多个评测集上的性能表现

此外,研究员们还考察了性能与计算成本之间的折中,结果显示 Phi-Ground 达到近似 Pareto 最前沿的效率/效果权衡。该表现说明其在保证精度的同时也具备实用部署的潜力。

模型在 ScreenSpot-pro 上的错误样本类型和比例
图5:模型在 ScreenSpot-pro 上的错误样本类型和比例

除了测试结果,研究员们还进行了大量的人工样例学习。通过对 ScreenSpot-pro 数据集中错误的样本进行分类,研究员们发现:模型在纯定位任务中表现较优,而主要错误集中在知识性或者规划层面。这说明,现在的评测集可能偏向于规划层面。如果模型不熟悉某个软件(如 MATLAB)中某个按钮的含义,那么它自然无法定位。

这一现象反映了 ScreenSpot-pro 更接近智能体实际需求的特质,但同时也增加了定位模型过拟合的风险,即更高的点数代表模型在训练过程中学习过更多的目标软件知识,从而掩盖了对定位准确度的影响。

让Copilot看得懂屏幕

Phi-Ground模型的核心技术现已集成到 Windows Copilot 产品的 Vision Highlighting 功能中。如下图所示,Copilot 可以逐步引导用户完成可视化任务,比如帮助用户构建一个对话气泡图形。

Windows Copilot demo

未来,随着 GUI Grounding 等关键能力的持续突破,我们离那个能理解、能操作、能协作的智能助手,或许不再遥远。

Lire la suite

Voir tous les articles de blog

Domaines de recherche

Groupes de recherche

En relation