本文编译自微软研究院博客文章:What’s next in AI?
2025年的 AI 发展历程并非一个循序渐进的故事,而是规模宏大、气势磅礴的新篇章。从最初用于轻微引导并辅助用户的算法,到现在,AI 已经发展成为能够与用户协作并具备推理和适应能力的复杂系统。在微软研究院,对 AI 的探讨早已超越了“技术上是否能实现”,而聚焦于“下一步将驶向何方”。
在微软研究院遍布全球的实验室网络中,研究员们正致力于重塑计算与智能的根基。他们设计能够自我管理的系统,将自主性深植于数字世界的底层架构;他们构建能够在低资源的语言和环境中运行的 AI 工具,为实现包容性和易用性开辟道路;他们推进能够推理并理解人类意图的模型发展,并将智能带入物理世界,让机器人可以像语言一样流畅地学习和行动。
在今天的文章中,来自微软研究院的研究员们将分享他们对2026年 AI 发展趋势的展望与观点。他们的洞察展现了站在科学探索最前沿的工作者们所面临的挑战与激动人心之处,同时也代表了他们对未来一年的期望和愿景。这些理念标志着人们对智能的构想与应用方式正在发生转变。这并非是将人工智能嫁接到旧有的框架之上,而是重构驱动进步的核心原则。微软也在积极助力这一变革,为未来的发展指明方向。
AI将成为实验室助手,助力加速科学发现

AI 已经加快了科学发现的步伐。科研人员正在气候建模、分子动力学、材料设计等诸多领域使用 AI。但 AI 的能力远不止于模拟物理、化学、生物过程,也不仅仅局限于总结论文、回答问题或撰写报告。
到了2026年,AI 将能够生成新的假设,调用那些可以控制科学实验的工具与应用,并与人类及 AI 的科研同事协作。简而言之,AI 将参与到科学发现的探索过程中,创造一个全新的世界:每位科研人员都将拥有能够提出建议并执行部分实验的 AI 实验室助手。
这听起来或许超乎想象,但 AI 已经开始使用购物、日程安排、邮件处理等应用,且大多数软件开发人员也已经习惯与 AI 进行“结对编程”。这些都是迈向 AI for Science——变革科学发现方式这一愿景的必经之路。
系统智能是下一个飞跃

计算的未来不仅在于更快的速度,更在于智能。系统智能(system intelligence)让 AI 从能够生成代码,演进为可以设计、优化和管理整个系统。设想一下,未来的系统架构不再是静态的,而将成为能够根据高层目标不断适应与演化的基础设施。
为了实现这一愿景,我们必须定义并衡量系统智能的真正含义,体现 AI 如何对系统架构、系统设计的权衡取舍以及系统正确性进行推理。这标志着 AI 正从自动化迈向自主化。
这一变革也将重新定义信任与规模。在系统复杂性超越人类能力的时代,自主系统将在可靠性、安全性与性能方面取得突破性进展,把智能真正嵌入计算的本质之中。
空间智能,从感知到行动

空间智能(spatial intelligence)正步入一个变革性的新时代。在这个时代里,数字智能体不仅能够感知世界,还能够理解、预测并在其中采取行动。随着物理环境与虚拟环境的不断融合,一系列的关键技术趋势正在重塑智能系统的能力。
第一个主要趋势是可扩展的 3D 数据集。海量、多样化且标注丰富的数据,将为构建鲁棒的空间智能模型提供其所需的训练规模。第二个趋势是用于空间推理的大型基础模型。受到语言和视觉基础模型的启发,这类系统将几何、物理、语义和上下文整合在一起,形成对 3D 世界的统一理解。另一项关键趋势是具身交互,即 AI 智能体通过在环境中移动和操作来进行学习。具身性将智能与直觉相结合:智能体通过存在于一个世界中,就能自然形成可供性认知、因果关系理解与空间约束意识。
我们正在见证世界模型(world models)的兴起,这些 AI 系统能够预测环境随时间演变的方式。无论是在机器人技术、增强现实、自动导航,还是现实世界系统的数字孪生,世界模型都将可以让智能体模拟结果、提前预判变化并主动做出决策。
AI将以多种方式重塑沟通

如今,AI 系统能够以前所未有的规模生成文本、图像和视频,使信息的获取比以往任何时候都更容易获取。然而,人类解读和理解这些日益增长的信息的能力是有限的,内容生成与理解之间的鸿沟正在不断扩大。
AI 下一阶段的演进将聚焦于提升沟通本身。它不再将想法打包成静态的文档,而是通过持续的互动来保持上下文、澄清歧义并优化表达,让沟通逐渐成为一个迭代的过程,更贴近人类思维的自然发展方式。
我们将这种新范式称为 Agentic Media(智能体式媒体)。在这一框架下,媒体渠道不再只是被动的信息容器,而是可以成为传播的积极参与者。它们能追踪想法的演变,揭示背后的推理逻辑,并根据不同受众与工作阶段动态调整信息结构。
从2026年开始,AI 不仅会提高人类的生产力,还将有助于确保创造出的内容能够被真正理解。
AI将成为社会中值得信赖的伙伴

我们预计,到2026年,AI 与人类交互的方式将发生重大变化。AI 不再只是执行任务的工具,而会成为能够协作、具备推理能力,并可以与人类共同成长的可信伙伴。AI 的发展将不仅追求准确性或效率,更会呈现合作、尊重与社会直觉等人类期望的行为模式。
我们的 Value Compass(价值观罗盘) 项目展示了如何以实证的方式探索跨文化的价值观结构,并初步揭示了 AI 如何理解、处理人类偏好与社会期待的多样性。同时,我们基于心理测量学的评估研究表明,未来衡量 AI 的标准除了其知识储备,还包括互动性、适应性,以及建立长期信任的能力。
展望未来,我们预测 AI 伙伴将能够维持共享记忆并不断演化关系模式,从而在工作、创造和日常决策中为人们提供支持。它们会解释利弊权衡、预测需求,并以自然且尊重的方式帮助人们协调目标。正如我们在 Societal AI (社会责任人工智能)愿景中所强调的,实现这一未来,需要跨学科的通力合作,包括心理学(理解人类的认知与情感),社会学(探究社会群体行为),伦理学与哲学(指导价值判断),以及计算机科学(构建可靠的技术体系)等。
面向患者护理的多模态基础模型与智能体系统

医疗领域下一阶段的 AI 发展,将以多模态(multimodal)与智能体(agentic)能力为特征。多模态基础模型正逐步把文本(如临床病历)、医学影像、生理信号以及基因组学等整合到一个统一的表征空间中,来提升患者护理的整体质量。这种整合使 AI 能够从狭义的临床诊断,转向更广泛且考虑丰富上下文信息的临床推理。
临床智能体 AI 正在从被动的辅助工具,演变为能够感知工作流的助手。未来的智能体系统将不仅能撰写摘要,还能支持分诊、诊断、治疗方案制定以及协调后续随访。不过,智能体行为也可能带来新的风险,因此必须考虑通过有医护人员参与的验证机制来降低这些风险。
此外,负责任的临床转化需要将基础模型的适配、特定任务的微调,与严格的临床评估结合起来。智能体工作流程也将融入逐步推理、不确定性评估以及基于医护人员反馈的强化学习,从而确保 AI 在临床流程中的安全应用。
真正的突破需要与各方深入协作,才能解决超越基准指标的实际需求。这与我们推动 “AI for Industry(面向行业的 AI)”的理念不谋而合。我们将致力于与合作伙伴共同构建实用的解决方案和可扩展的平台,在满足各类限制条件的同时,助力医疗场景中实现意义深远的变革。
以下是更多微软研究院资深研究员们带来的前沿观察:
智能体原生经济为自主智能体重塑数字生态

随着 AI 智能体从孤立的工具演变为数字生态系统中的积极参与者,我们正站在一个全新的经济时代的门槛上。在这个时代,自主智能体将代表个人与组织进行协作、谈判和交易。这些智能体驱动的生态系统有潜力重组数字市场,减少交互摩擦,并拓宽获取机会的渠道。若要实现这一愿景,就必须以智能体原生(agent-native)的视角,重新思考支撑数字市场的系统、平台与协议架构。在接下来的一年里,我们将重点制定行为规范、构建协作模型,并建立监督机制,以确保智能体驱动的经济体系的公平性和韧性。
AI与生物学相结合,共同解码生命的语言

几十年来,计算生物学的发展局限于相对狭窄的任务中,例如预测蛋白质结构或分析基因表达,医学实践也大多将患者视为平均值。如今生成式人工智能模型的兴起带来了新的变革,这些模型把生物学视为一种语言,让系统能够设计新的蛋白质并预测细胞行为,为个性化治疗奠定了基础。在微软研究院,我们将此视为一个契机,推动从静态模型转向通过生成式推理整合跨生物模态的架构。
未来的AI基础设施将推动下一个1000倍的增长

2026年,两股力量将重新定义 AI 基础设施的格局。首先,通过自动化工具链实现模型的开发、部署和优化,并与底层硬件实现协同设计,AI 驱动的系统智能将带来效率与速度的跨越式提升。其次,硬件解耦(hardware disaggregation)将打破单体式设计,使针对不同任务的专用计算芯片与带宽优化芯片能够在工作流中协同运作。
以光速扩展AI

AI 的扩展正进入全新的篇章。当前的关键挑战是如何在不消耗过多能源的前提下,让数据在 GPU 之间以及 GPU 与内存之间高速传输。不过,新的解决方案正在涌现。在2025年,我们见证了低功耗、高带宽光学互连的进步。随着这些技术逐渐成熟,我预计2026年将是一个关键节点,届时这些技术将从研发阶段过渡到早期部署阶段,并在本世纪末实现更广泛的应用。
通过包容性创新增强人类能动性的AI

AI 的下一个前沿领域,不只有更智能的算法和模型,还将有能够在教育、农业、医疗等高影响力领域增强人类能动性的系统。其挑战在于如何设计 AI 原生的工作流程,去服务印度农村的教师或学生、肯尼亚的农民,或巴西的一线医护人员。答案就是,构建能够缩小机会差距、创造赋能之路的 AI。
从推理到模拟与心理化

每一次改变人类生活的重大科学革命,都始于提出深刻的问题。对宇宙基本组成、信息测量以及生命起源的探索,让我们发现了定义物理与数字世界的三个基本要素:原子、比特和基因。
AI 领域最引人入胜的问题之一是机器智能的起源。尽管至今仍未有公认的答案,但 AI 的最新进展为探索这一谜团提供了新的机会。AI 界的研究重点正在从仅依靠大语言模型编码世界知识,转向通过让 AI 模型与环境交互来发展推理能力。
我们正在拓展 AI 的边界,开发超越逻辑推理、涵盖模拟与社会推理的先进模型。这些模型不仅利用世界知识和试错学习,还能通过内部模型(即所谓的世界模型)模拟外部环境。此外,它们还能理解人类的心理状态,这种能力被称为心理化(mentalizing)。这将使 AI 智能体能够更有效地与人类互动、推断用户意图,并实现更高效的协作。
实时呈现由观众塑造的故事

展望未来,AI 将把娱乐体验转变为高度互动和个性化的体验。我们将超越静态内容,走进一个能够根据玩家选择、情绪状态乃至社交互动实时调整的动态世界。生成模型将赋能创作者与 AI 协同设计,将叙事、艺术与技术以一种栩栩如生的方式融合在一起。试想一下,故事会随着观众的反馈不断发展;角色会随着时间的推移而学习、成长;沉浸式环境会回应人类的创造力与好奇心。
最令我兴奋的是,AI 赋能的娱乐方式将有潜力创造全新的连接方式。这些体验不仅是玩一款游戏或观看一部电影,而将成为共享的空间,让创造力和协作得以充分释放。世界各地的朋友可以共同创作不断演进的故事,社区能够共同塑造虚拟世界,观众甚至可以实时影响剧情发展。AI 与娱乐的融合将重新定义我们连接、娱乐与创作的方式,让我们从被动的内容消费者,变为鲜活世界中的积极参与者。
AI作为合作伙伴,有助于稳定工作流程并加速创新

到2026年,AI 将不再只是一个查询工具,而将成为一个可以与你携手共进的合作伙伴。实现这一转变的关键在于记忆。智能体系统能够跨越数月保存上下文信息,追踪不断变化的目标,揭示被遗忘的假设,并帮助团队在创新过程中保持方向感。这大大降低了复杂工作所需的认知负荷,使迭代过程更加连贯。有了 AI 这个稳定的伙伴,团队将能够更快推进工作,组织机构也将可以保留那些最佳创新背后的初衷,而不仅仅是成果本身。
具备自适应与协作能力的机器人

由 Agentic AI 与物理系统结合所构成的物理人工智能(physical AI),有望像生成式人工智能改变语言与视觉方式一样,重塑机器人技术。数十年来,机器人技术主要活跃在装配线和仓库等结构化环境中,任务可预测且流程高度脚本化。如今,面向物理系统的 AI VLA 模型正在兴起,它们将很快具备在人类身边感知、推理和行动的能力。这些模型可以将自然语言指令转化为物理行为,使机器人能够在熟悉场景的细微变化中迁移经验,自适应调整行为,而不是在首次遇到新情况时束手无策。
在微软研究院,我们认为,在传统控制与强化学习的基础上,构建将动作(action)视为首要模态的多模态生成式架构,是一次根本性的跃迁。我们的研究工作也正在沿着这一方向推进,通过结合空间智能(spatial intelligence)、触觉感知与生成式推理能力,解锁机器人的操作能力,推动人与物理系统之间的协作。这一发展将意义深远:通用型机器人将能够跨任务学习、在多样环境中互操作,并作为真正的合作伙伴,加速从数据中心到湿实验室等各类操作流程。这并非遥不可及的设想,而是 AI 演进的下一步,物理智能正成为创新与影响力的前沿领域。
更好的上下文管理让AI主动行动,而不只是响应

下一波 AI 浪潮将远远超越问答和内容生成。智能体将执行越来越复杂且耗时更长的任务,这些任务依赖于外部工具和实时数据。这种转变将带来一个关键挑战:如何在长时间的行动序列中保持一致性与方向性。智能体生成和处理的信息量远超过单次提示的承载,因此上下文工程(context engineering)将变得至关重要,它需要动态地管理和构建指令、工具与记忆,以确保系统始终朝着正确的方向运行。更完善的状态管理将帮助如今前景广阔的智能体成长为未来可靠的协作伙伴。
AI赋能数十亿人,将愿景变为现实

AI 在能力和应用方面都取得了惊人的增长。但我们也必须以全球视角审视其影响,因此我们采取了三管齐下的策略。
首先,我们致力于研发技术赋能工具,以弥合 AI 能力与弱势群体需求之间的差距。其次,AI 必须以协同的方式与人类并肩工作,AI 可以帮助人类实现规模化,而人类则可以确保 AI 始终按照既定目标运行。最后,若要产生大规模的影响,就需要开辟新的途径,让研究成果真正惠及用户,而这通常需要与支持性生态系统紧密合作。
以患者的语言实现精准医疗

如今,我们每个人享受到的医疗服务都远超几百年前任何君王所能想象的水平。但这也引发了一个深刻的问题:我们能否让地球上的每个人都获得比当今最富有的人还要优质的医疗服务?随着生成式人工智能的兴起,我们正逐步敲开这扇门。
我们每天收集数十亿条数据,记录患者从诊断、治疗到最终结果的完整就医历程。通过利用生成式人工智能掌握“患者的语言”,我们希望有朝一日能够开发出用于精准医疗的“虚拟患者”,即能够模拟疾病进程和不同治疗方案反应的数字孪生体。这是令人振奋的,但 AI 并非万能的魔杖。真正的突破需要我们重新构想整个生态系统和工作流程,并拥抱一个由多模态智能推动且能够大规模改善医疗服务的未来。
将心理健康作为AI设计与治理的核心要素

随着 AI 系统渗透到日常生活的方方面面,其对心理健康的影响已不再是理论上的假设。AI 正在影响个人、工作、教育以及公共生活中的决策、关系和叙事,并塑造着人们的思维、情感、行为、社交以及自我认知方式。
2026年的一个宏伟目标是将心理健康作为 AI 设计的核心原则,而非事后附加的考量。这意味着我们需要预测并减轻 AI 可能带来的社会心理风险,例如心理健康恶化、依赖性增强、社会分裂以及人类尊严丧失,同时确保 AI 能够培养批判性思维、自我反思和健康的人机关系。
心理健康管理必须是多维度的,它既要保障个体的韧性,又要在互动中培养信任与同理心,同时还要加强社会凝聚力。要实现这一目标,不仅是技术问题,还需要工程、研究、政策和倡导等多方面的合作,共同制定标准、工具与问责框架,将研究成果直接转化为可执行的政策与实施方案。