《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。
在《AI Next》首期节目中,我们与微软亚洲研究院资深首席研究员杨凡博士,共同探讨了 AI 推理的本质:它如何在速度与正确性之间权衡,如何实现“既有直觉、又讲逻辑”,以及智能体推理(agentic reasoning)如何为未来的智能突破铺平道路。这不仅是一场关于技术发展的交流,更是一场关于思考方式的探索。当 AI 学会“推理”,人类或许也将重新理解智能的边界。
欢迎点击收听:
也欢迎大家在小宇宙、喜马拉雅和Apple播客订阅、收听、分享!



作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在生成合成AI领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。
嘉宾介绍
杨凡博士现任微软亚洲研究院资深首席研究员,系统研究组负责人。他目前负责系统方向的研究战略规划,协调、管理系统组的研究、产品转化,以及公司内外的合作项目。他个人的主要研究兴趣为计算机系统,特别是大型分布式系统。他目前主要关注新兴应用 (如人工智能模型等) 及其所产生的新型计算机系统原理、设计和实现。他的多项技术成果都已开源并在微软公司 Bing、Azure、Office 等部门落地,其中多项成果均发表在系统顶级会议(如OSDI/SOSP)上。
如下是《AI Next》第一期播客内容的文字整理:
主持人:大家好,欢迎收听《AI Next》第一季第一期。作为本季的开篇,我们聚焦于一个让 AI 真正具备深度理解与决策能力的核心要素——推理。
现在的 AI 功能强大,但有时又会在简单的逻辑问题上“犯错”。AI 究竟是如何思考的?它的推理能力是否存在根本性的局限?今天,我们邀请了微软亚洲研究院资深首席研究员杨凡博士,与我们深入探讨 AI 推理的本质、前沿进展和未来可能。
什么是AI推理?
主持人:很多听众对“推理”的理解,可能还停留在人类的逻辑推理,比如福尔摩斯那样的严密逻辑。但当我们在 AI 领域谈论推理时,它与传统逻辑推理的本质区别是什么?现在大家普遍认为大语言模型很厉害,是概率性的、基于大数据的归纳。您如何看待这个定义?
杨凡:谢谢,这个问题非常有意思。AI 推理和逻辑推理的关系,某种意义上就像人工智能与人类智能的区别。我们研究人工智能的目的,就是想达到类似于人类智能的水平,而推理能力正是智能本质的体现之一。
根据维基百科的定义,推理是从大量信息中得出结论的能力。如果结论要令人信服,就需要遵循一定的逻辑,这通常是一个严谨的过程。
很多人认为大语言模型是基于概率性的大数据归纳,这涉及到一个统计学问题:从大数据中归纳出的现象,它代表的究竟是相关性还是因果性?如果我们认为它只是相关性的话,那么 AI 的推理就不应该是有因果性的,或者说推理本身就是一种因果性。如果认为 AI 是基于大数据的归纳,它只是浮现出相关性,那么它不应该展现出这种强大的推理能力。我们现在看到一个矛盾的现象,虽然 AI 推理经常有错误,但其正确性在过去两年中越来越高,展现出的因果性是相当惊人的。至于为什么会出现这种特性,以及这种特性能走多远?学术界暂时还没有统一的答案。
我个人倾向于认为,我们可以在基于概率性的推理模型上,将推理能力做到非常高的水准,例如在初高中层面的逻辑和数学题上达到高度的可靠性,从而在实际应用中展现价值。
至于 AI 推理和传统人类推理的具体区别,目前学术界还没有明确答案。我更愿意把智能看作一个纯粹的概念——智能就是智能,你可以通过方法 A 实现,也可以通过方法 B 实现。我倾向于把大语言模型和人类实现智能看作是两种不同但可能相关的实现方式。
主持人:您提到了推理的正确性,这引出了另一个问题。大家觉得“推理就是让大模型更聪明”,但在实际应用中,计算速度也备受关注。您怎么看待推理速度和智能之间的关系?
杨凡:只有正确的推理,特别是对复杂问题的正确推理,才能被称为“聪明”。我们仍可以拿人和 AI 做对比,人也存在速度与质量的平衡。如果你想得很快,但答案经常是错的,那么快也没有太大的益处。
当然,速度在推理中也非常关键。对于需要成千上万步推理的复杂问题,如果每一步都很慢,那么最终问题也无法在有效时间内解决。人类在大多数情况下都希望答案可以尽快出来。因此,从智能的角度来讲,速度和质量之间存在着一个微妙的关系,我们需要在两者之间达成精妙的平衡,不能做极端的选择。
推理新范式:神经符号推理(Neural Symbolic Reasoning)
主持人:我知道您和团队正在探索一种新的推理方式,能否介绍一下这个研究方向,以及它与传统深度学习推理方式相比,最大的突破点和创新在哪里?
杨凡:严格来讲,我们探讨的范式称之为 Neural Symbolic Reasoning(神经符号推理)。这个范式并非全新,它融合了人工智能早期的符号主义和连接主义。大语言模型兴起后,连接主义在语音、图像识别等传统计算机难题上展现出了惊人的实力。在这样的范式下,大家都在追求模型规模、训练数据规模以及计算规模,这三个 scaling law(规模定律)方面的扩展。去年,大家发现了scaling law 的第四个维度——时间,被称之为 test-time scaling。
大约一两年前,我们提出了一个想法,认为现在的 scaling law 是符合直觉的。因为与其他动物相比,人的脑容量更大、神经元数量更多,所以智能表现更好。从算力角度,我们发现人类进一步的提高,是因为长时间的思考。基于此,我们的研究成果首次公开展示了如何通过 self-play (自我博弈)或 test-time scaling(长时间思考)来提升智能水平。
随后,我们更进一步,提出了 Neural Symbolic Reasoning(神经符号推理)。我们认为,符号主义和连接主义是互补的,当时的大语言模型可能需要一个“脚手架”,即用符号化的工具来帮助它在推理时进行验证,从而极大地提高推理的可靠性。这就像人类在推理时也会犯错,而解决办法就是仔细验算。
至于实验过程中让人出乎意料的结果,我最大的感受是,在实现智能突破时,想出来的方法不能太过精巧。如果方法过于精巧,模型就容易出现奖励欺骗(reward hacking)或过拟合。相反,它需要足够的简单、通用和泛化性。
当scaling law进入瓶颈,AI推理如何向“智能体”演化?
主持人:如果从研究角度看,目前 AI 推理的主要难点在哪?
杨凡:过去几年,智能发展主要遵循 scaling law,即依赖于算力、数据、模型规模和时间。现在,所有这些维度都已进入瓶颈期,这是由于 scaling law 是 log-scale (对数尺度)的,投入十倍的资源可能只能换来一点点智能的提高,资源的消耗是指数级的。因此,我们需要 scaling law 以外的范式来提高智能。
我们希望可以通过模仿人类提高自身智能的规律来提取新的思路。我们设想一个聪明的博士生,他已经符合 scaling law 的所有维度(大脑强大、知识渊博、擅长思考)。但他为什么还要继续跟随导师训练?导师的工作并非是传授知识,而是引导学生思考、提出问题。我们正在模仿这种模式来训练大语言模型,比如在一个复杂问题上,我们不是直接告诉它答案,而是引导它做计划、细化步骤,并验证每一个步骤。令人吃惊的是,只用一个简单的约束性引导问题,模型的数学推理能力就出现了飞跃,达到了顶级模型的能力,而且这还不需要额外的模型训练。我们认为,这能引导出模型的抽象能力和高阶规划能力。
另一个方向是长期记忆。大语言模型在处理复杂问题时,需要类似于大脑海马体的长期记忆机制。它需要对“上下文窗口”进行处理、总结和去噪,将信息存储在长线记忆中,这对于解决当前和未来的复杂问题都非常有帮助。长期记忆机制是进一步提高大语言模型推理能力的重要机遇。
我们将上面几种思路总结成为一种新范式 agentic reasoning(基于智能体的 AI 推理)。
推理是提高生产力的核心动力
主持人:从应用落地的角度来看,您怎么看待推理这个核心能力在整个 AI 系统里,以及在这些具体应用中的真正价值?
杨凡:推理是智能能力最突出的体现方向之一。最近微软公司 CEO 萨提亚·纳德拉(Satya Nadella)曾提到一句话,我非常认可,那就是“衡量 AI 的真正标准,是全球 GDP 增长10%”。也就是说,一个人的推理能力再高,最终也需要在具体的生产活动中得到体现,那才是有用的。
很明显,推理是非常核心的能力。在绝大多数生产活动中都需要推理,尤其是在处理难度较高的任务时。因此,推理这个能力在所有的应用中都具有巨大的价值。
为什么数学是“通用智能”的训练场?
主持人:我们接着聊一个在业界非常热门的话题——“通用推理能力”。这个概念听起来很宏大,它意味着 AI 模型能够在跨任务、跨领域的时候,都具备灵活、可靠的逻辑推导能力。在您看来,实现这个“通用推理”的目标,离我们现在还有多远?
杨凡:我们如果把推理能力应用在不同的场景中,天然地就需要所谓的通用推理能力。我认为通用推理能力的基础仍然是推理本身,也就是它需要正确,需要某种逻辑。这也是为什么我们相信,从本质上讲,训练一个 AI 的数学推理能力至关重要。如果它能在数学上做到非常严谨,那么我们认为它就有更高的可能去泛化到其他的领域。
主持人:听上去数学就像是一种“通用底座”。那是不是数学一强就万事大吉了?
杨凡:并不是说数学推理能力很高了,就自然而然地在所有领域具备了通用推理能力。这可能还涉及到大量的其他领域知识获取的问题,以及在不同领域中需要遵循的特定行规。
AI如何借鉴人类的思维机制?
主持人:您觉得在人类的思维机制里,比如反思、因果,或者常识,有哪些是值得 AI 去借鉴和实现的?
杨凡:在具体的实验中我们发现,如果 AI 要想拥有强大的推理能力,它需要几乎所有人类思维中的高阶思考能力。比如,反思。这是目前为止大家认为最重要的一个机制。我们还发现,创造性在推理中也非常重要。尤其是在越困难的问题中,创造性就越关键,因为它代表着常规的思路可能已经难以解决问题了,这时候一定需要一种跳出框架的创新方法。
此外,还需要有非常好的抽象能力,这样推理才能有足够的泛化能力,以及在处理特别复杂的问题时,需要有非常好的规划能力。所以,几乎所有人类思维中的核心机制,都需要在推理中得到某种程度的体现。
至于因果,这是一个非常复杂的问题。我们能不能从看起来相关的东西中推导出因果关系,实际上是有争议的。传统统计学派对此可能持有异议。大语言模型就是这种争议的一个矛盾体现。它看起来表现出一定的因果推理能力,但它是基于相关性的。这也是为什么有人认为大语言模型只是在模拟推理,而不是真的理解因果。
主持人:所以它不一定是有因果关系,只不过是这两个事物有关联?
杨凡:对,关联和因果在本质上是不同的东西。所以,如果你认为不可能仅仅通过观察相关性就理解因果关系,那么 AI 可能就永远没有理解因果关系的能力。但我的想法是,如果 AI 不能“理解”,但它却能解决非常困难的现实问题,那么从实用主义的角度来看,这有什么区别呢?我们真的需要关心它是否理解吗?如果它能够解决现实中的问题,我认为这个问题就是值得我们继续去探讨的。
展望未来:当AI推理融入生产力
主持人:假如我们把时间轴拉到三到五年以后,在您看来,AI 推理技术最有可能带来一次“质变”,会是在哪个方面?
杨凡:虽然很难给出确切的答案,但我可以做出一些猜测。目前大语言模型展现出两种矛盾的现象:一方面,它在某些专业领域已经强大到普通人难以判断其能力是否进一步提高;另一方面,它仍会在一些非常简单的地方犯错。
我猜测,未来三到五年,大语言模型很可能仍然会犯简单的错误,但概率会越来越小。它的推理能力在某些专业领域将进一步提升。最重要的是,推理技术一定会进入解决现实的生产问题,切切实实地提高生产力。我认为这是一个很高概率的事件。
主持人:感谢杨凡博士的深入分享!欢迎订阅、分享《AI Next》。我们会在接下来的节目里,继续带大家探索人工智能的前沿。下期再见!
相关阅读:
- 文章:从直觉到“深度思考”:多维进化的大模型推理能力
- 对话张丽:大道至简,rStar-Math让小语言模型具有更强的推理能力
- 文章:如何泛化AI的深度推理能力?
- 论文:rStar-Math: Small LLMs can master math reasoning with self-evolved deep (opens in new tab)
- 论文:Logic-RL: Unleashing LLM reasoning with rule-based reinforcement learning (opens in new tab)
- 论文:Proving Olympiad inequalities by synergizing LLMs and symbolic reasoning (opens in new tab)
- 论文:Autoformalizing mathematical statements by symbolic equivalence and semantic consistency (opens in new tab)