a tall building lit up at night

微软亚洲研究院

AI Next 播客 S1E3 | 对话杨玉庆&王韵:Agentic AI会成为智能自主体吗?

已发布

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。

《AI Next》第三期节目,我们将目光投向近年来发展迅速的 Agent(智能体)和 Agentic AI,与微软亚洲研究院首席研发工程师杨玉庆与高级研究员王韵,共同探讨 AI 如何从对话式“助手”演进为能够被人放心委托任务的智能“伙伴”。Agentic AI 与传统软件、AI 助手究竟有何本质不同?当 AI 开始理解人的思考过程,我们的工作方式、协作模式,乃至对智能的理解,又将会发生怎样的改变?


嘉宾介绍

杨玉庆博士

杨玉庆博士现任微软亚洲研究院首席研发工程师,带领系统与工程组专注于大模型系统和多模态系统的研究。他的研究兴趣包括大模型的高效计算和智能体系统的顶层设计等。相关研究成果多次发表于 OSDI、SOSP、EuroSys、ATC、CVPR、ICCV、NeurIPS 等国际顶级会议。杨玉庆分别于2006年和2011年获得复旦大学的学士学位和博士学位。

王韵博士

王韵博士是微软亚洲研究院的高级研究员。她的研究主要关注媒介如何作为一种基础结构,塑造人类的理解、表达、创造与协作方式,并进一步探索 AI 作为一种底层能力融入时,媒介与知识工作的基本形态如何发生变化。过去十余年中,王韵博士围绕数据分析、内容创作与知识工作等实践情境,持续推动不同媒介形式与表达结构的发展。她在复旦大学与香港科技大学获得了软件工程和计算机科学的学士与博士学位。她的相关研究成果曾发表于 IEEE TVCG、ACM CHI、IEEE VIS、ACM UIST 等国际顶级学术会议与期刊,同时,她也长期担任相关大会和期刊的程序委员会成员及审稿人。


也欢迎大家在小宇宙、喜马拉雅和Apple播客订阅、收听、分享!

qr code
qr code
qr code

作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。


如下是《AI Next》第二期播客内容的文字整理:

主持人:欢迎收听《AI Next》。

过去我们和 AI 的模式更多的是一问一答。但最近 Agent(智能体)和 Agentic AI 成了热词,AI 正在从一个被动响应的工具,进化为一个能被人放心委托任务的智能体。在你们看来,Agentic AI 的出现解决了哪些过去传统工具难以处理的任务?

杨玉庆:从发展脉络上看,现代 Agent 可以被理解为软件系统的一次持续进化。无论是早期的工具型软件,如 Excel,还是今天的智能 Agent,本质上都可以被视为承载并执行人类目标与意图的计算媒介。软件系统、智能体都是在帮助用户将高层次的目标和需求转化为可执行的操作流程并最终完成具体任务。今天 Agent 的关键价值更在于极大地延展和放大了人类需求的表达与执行能力。例如,一名律师查阅条款,以前靠人工翻阅,现在研究型 Agent 能高效处理跨文档的复杂需求。Agent 并没有创造新需求,而是在以更低的使用门槛和更强的执行能力,持续缩短从“人类目标”到“可执行行为”之间的距离。

王韵:的确如此。以招聘场景为例,这个过程涉及面试官、候选人和需求变动,极其琐碎。过去人们用工具辅助,现在则是用 Agent 去管理长线项目的复杂度。AI 开始涉足那些需要多方协调、动态变化的复杂任务。

Agentic AI的三阶段进化

主持人:Agentic AI 并不是一个新的概念,但在这一轮 AI 浪潮中,它的技术内涵经历了怎样的演变?

杨玉庆:我认为 Agent 的发展目前可以概括为三个阶段。第一个阶段是 agentic 工作流(workflow),它是对传统软件的拓展,虽然能处理语义,但骨架还是代码,靠显式控制流运行。第二个阶段,用户意图不再需要写代码表达,通过自然语言描述目标,即可由模型自主推理生成路径。

现在我们正迈向第三阶段,即通过交互来表达意图。比如写文章,无需给 AI 写长篇、精妙的要求指令,而是通过修改 AI 生成的内容,让它“观察”并“学习”文风和逻辑。这是一个从代码表达、到语言表达、再到交互表达的进化过程。

王韵:我再补充一点,在未来的协作中,人与 Agent 的关系将是平行的。比如写论文,你最初的想法可能很模糊,但在与 Agent 交流、修改的过程中,你在不断澄清自己的需求,并与 Agent 同步校准目标。它不再只是执行单点任务,而是在团队中扮演“批评者”或“创意伙伴”,这种互动模式与传统的计算机任务执行截然不同。

Agentic AI需要具备的关键能力

主持人:如果要让 Agent 成为一个真正自主的、能被人放心委托任务的智能体,那么 Agentic AI 需要具备哪些关键能力?

杨玉庆:我觉得,记忆力、工具使用与环境交互能力,以及持续学习能力缺一不可。Agent 需要记住交互过程、推理过程中的动态信息,而不是只靠预训练语料。同时,它要学会使用更丰富的工具接口与现实世界交互。最关键的是“熟能生巧”,智能体应该在完成第多次任务时比第一次更快、更好,并在反思中理解用户修改行为背后的真实逻辑,从而进一步提升自身能力。

王韵:从长线任务的角度看,Agent 还需要具备长期目标管理和同步能力。它要能理解人类目标是不断修正的,并结合它积累的经验和能力,在交互过程中提供长期的方向性指引,帮助人类更轻松、容易地进行相应调整、完成任务。同时,它要能在环境变动时,自动更新任务优先级并及时提醒用户。最后,稳定性与边界感也非常重要,只有明确 Agent 能做什么、不能做什么,人类才能建立深度的信任。

推进Agentic AI发展的主流研究路径

主持人:在实际推进 Agentic AI 的过程中,目前主要有哪几种技术路线?

杨玉庆:目前的核心观点是 Agent 必须从交互经验中学习。一种路线是智能体强化学习,将知识更新到模型参数里;另一种是基于记忆的持续学习,将经验以知识的形式记录到智能体的外部记忆中。我们认为这两者应该是互补的。比如事实性信息适合存入外部记忆体,而长期的理性逻辑则需要通过模型更新来习得。我们最近的研究显示,带有记忆模型的强化学习能让 Agent 在陌生任务上获得巨大的性能提升。

王韵:除了执行力,我更关注 Agent 的“自我管理”和主动性。一个好的“队友”应该知道什么时候该提问,什么时候该埋头苦干。这就要求 Agent 对协作过程有建模能力,可以感知项目的演化阶段,这种“协作契约”是目前 Agent 相对欠缺的。

Agentic AI与传统软件的本质区别是什么?

主持人:玉庆,你曾经说过 Agent 其实是大模型催生的一个全新的软件形态。那它与过去的应用程序或者 SaaS 软件相比,最本质的变化是什么?

杨玉庆:传统软件的底层是“强规范”的协议,比如 C 语言或 Python 编写的代码,其执行方式遵循语言标准和编译器的规则,这是一个可精确定义的、强约束的交互协议。但与 Agent 交互,本质上没有强约定,这反而给了它更强的创造力。所以协作模式从指令控制变成了伙伴式交互。就像与同事配合,你不是在精确控制它的每一个动作,而是在持续的交互反馈中达成共识。由此,Agent 的设计和评估方法论也发生了根本性变革,本质上,它更接近于人与人之间的合作关系。

主持人:从系统实现层面来看,要让 Agent 真正成为工作上的伙伴,底层技术面临着怎样的挑战?目前有在做哪些针对性的研究?

杨玉庆:我们主要在两个维度发力。一是提升 Agent 的能力边界,致力于在多步、复杂环境交互的任务中提高性能;二是优化 Agent 的运行效率,进行生成式 Agent 工作流研发的加速工作。

针对交互学习,我们构建了 Agent Lighting 原生学习框架。现实中的交互极为复杂、多样,用户的反馈可能是简单的评价,也可能是直接的操作演示。我们的目标就是通过这个统一的框架,整合强化学习与外部记忆等多种算法,让 Agent 能够从这些多样的交互经验中实现高效、持续的自我进化。

人机协作的方式正在发生变化

主持人:王韵,在你们的研究中,当用户和 Agent 协同工作时,是否有出现新的交互行为模式或思维方式?

王韵:我们研究发现,用户与 AI 交流互动时,开始越来越多地把元认知外化给 Agent。元认知简单来说就是“我知道我正在做什么,处在什么思考阶段”。比如,在与 Agent 一起写作时可能会说:“我现在还在发散,你先不用帮我总结,帮我把这些线索重新梳理一下。”这些以往的心理活动,现在用户会清晰地告诉 AI。这本质上是对交互行为和过程管理的新需求。要让这种协作变得自然,Agent 必须与人类对齐认知节奏。这已经超越了传统的工具使用范式,更像是人类伙伴间的双向对齐。

杨玉庆:这个观点极具启发性。这类描述心理活动的元认知语料在现有的训练数据中非常匮乏,因为人类很少会把思考的每一个微小步骤都完整记录下来。因此,如何让 Agent 通过持续学习和观察,在与人类的真实交互中挖掘并学会这种认知对齐能力,是目前非常有挑战且有趣的一个研究课题。

Agentic Media:为协作而生的新型媒介

主持人:请介绍一下你们提出的 Agentic Media(智能体式媒体)的概念以及核心理念。

王韵:我们一直以来,都非常关注媒介如何作为一种基础结构,塑造人类的理解、表达、创造与协作方式。传统的媒介如文档、视频是静态的,就像是一张张“照片”,记录的是结果,而丢失了过程。我们提出的 Agentic Media 是一种以过程为中心的媒介框架。它关注的不仅是 AI 的能力,更是一种媒介,会扮演协作角色,留下“学习、成长”的痕迹。通过动态建模用户的想法,Agent 可以作为中间人与其他人交流。这样,团队协作就不再是断断续续的文档传送,而是一个连续、跨模态的语义流动过程。这种连贯性将极大提升交流的带宽。

主持人:Agent 如何实现跨模态整合,并保证创作过程的连贯与稳定?

王韵:我们认为,未来的大模型会在底层实现“语言统一”,把视觉、语音、文本等不同模态的数据,像翻译一样整合到一起。我们提出 Agentic Media,正是为了利用这种统一能力,通过显式状态记忆来保持连贯。这意味着你不需要在发邮件、打电话和改文档之间频繁切换场景,Agent 会在背后通过 Agentic Memory 维持任务的一致性。同时,它也会设定明确的边界,确保只有相关信息进入项目,从而实现自然且稳定的主动感知与交互。

如何让多个Agent高效配合?

主持人:现在很多 Agentic AI 的应用案例都需要多个智能体一起协作。在技术上,如何保证多智能体在复杂环境中高效合作?

杨玉庆:对于多智能体系统,现在大家还在一个探索的阶段。我觉得其核心在于将任务拆解到模型的“舒适区”。设计 Agent 的过程,本质上是与模型能力边界的持续拉扯。我们会通过多智能体分工,把大任务变成模型能力内的子任务,从而顺利执行整个工作流。随着模型的发展,其能力边界也在不断变化,此前需要拆步骤执行的一些工作,现在可以直接一次完成。所以,动态探索模型能力的边界,并根据能力边界合理分配任务给多智能体,将会是一个长期且持续的研究议题,也是多智能体系统设计中的核心挑战。

王韵:确实如此。面对复杂的大型项目,核心挑战在于任务分解与结果合成。我们需要将任务拆解到恰到好处,让每个 Agent 都能在各自的效能最高点发挥作用。由于缺乏现成的协作数据,现有工作大多还在模仿人类的职业分工,未来需要通过 Agent 的自我学习来探索更科学的编排方式,以实现比单体模型更强的性能。

还有一个我觉得重要且容易被忽略的一点是协作空间的构建。现实的工作环境远比模拟空间更开放、更流动。正如人类开会时会通过一块白板来框定讨论结构、达成共同认知,多智能体系统也需要一个类似的“共享空间”。我们需要思考,什么是智能体之间共同读写的“白板”?它们如何共享文档与工具?定义好这个开放且流动的协作载体,将是实现高效多智能体协同的关键。

杨玉庆:补充一点,多智能体划分不仅是为了性能,往往也是基于性价比的考量,小而专的 Agent 在特定场景下可能比大而全的模型更具成本优势。

为什么Agent不能是黑箱?

主持人:Agent 最终是为人服务的,在交互设计中,如何让用户放心地把任务交给 Agent?有哪些需要考虑的因素? 

王韵:可见性与透明性是建立信任的基础。Agent 不能是一个黑箱,它执行复杂任务时的推理过程和关键步骤必须让人能看懂、可预测,而且可控。当用户能够直观地理解任务是如何被分解并执行的,信任感才会产生。

杨玉庆:这是一个双向奔赴的过程。一方面,Agent 的执行语言需要“翻译”成人类容易理解的步骤,而不是冷冰冰的代码。另一方面,开发者必须构建负责任的 Agent,尤其是不仅安全而且包容的 Agent。比如为视障程序员设计的 Agent,必须充分考虑屏幕阅读器的使用体验。只有将安全性与包容性根植于理念、文化之中,用户才敢放心委托。

展望未来,哪些垂直领域最具潜力?

主持人:在通用的 Agent 成熟之前,Agentic AI 最具有潜力的应用场景是什么?

王韵:信息流密集的行业机会巨大,比如招聘或项目管理。AI 在处理复杂角色、多模态信息和长程记忆方面的优势,可以显著降低人类管理这类工作的负担。未来我们应打破“工具式”的分类思维,比如这是一个内容创作工具、一个视频会议工具,转而关注连续活动的特性,比如组织一场学术讨论,Agent 将在不同类型的内容、任务,或多方协作的模式空间内发挥价值。

杨玉庆:我非常认同。短期内,信息的聚合与事实检索已经有很多落地应用了。未来,个性化的意图表达如 vibe coding (氛围编程)或 vibe writing 将是大趋势。无论是文本创作还是多媒体生成,这种基于个性化逻辑的内容生产,将是大家肉眼可见、受益最深的场景。

主持人:如果我们把目光放得更远一点,两位认为未来真正被用户需要的智能体将会是什么样子?

王韵:我觉得可能是一种长期学习和适应的能力。我们刚才聊了很多 AI 要更长程地参与到人类的工作中,并在此过程中不断学习人类偏好。其实人类、项目和环境在这个过程中,都是动态成长的,所以 Agent 也必须随之进化。此外,它还要具备个性化交流的能力,无论是与老人、小孩,还是不同专业背景的用户沟通,它都能调整交互方式。这种持续增强的学习和适应能力将极大减少人机协作中的摩擦,是 Agent 最大的长远价值所在。

杨玉庆:关于长期的未来,我认为真正的定义权在“AI 原生一代”手中。对于他们来说,AI 是生活的一部分。这种从实用性到自然共生的视角转变,可能会催生出完全超出我们目前想象的创造力。

主持人:那这个悬念就留给未来的一代吧。我们下期《AI Next》见。

相关阅读:

声明:

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。

作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。

随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。

所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站(opens in new tab)(opens in new tab) (opens in new tab)进行举报。

继续阅读

查看所有博客文章