微软亚洲研究院

刘璟：在系统建造者时代，让计算基础设施实现“自我进化”

已发布 2026年1月14日

分享这个页面

编者按：如今，大模型和生成式人工智能的爆发正把计算推向前所未有的复杂境地：硬件以惊人的速度迭代，应用负载瞬息万变，而传统系统却仍被束缚在过往的固化规则中。面对这种“上下皆动”的挑战，刘璟和同事正试图在人工智能的不可预测性与系统的刚性之间，为操作系统注入全新的自主适应能力。

在计算机科学的世界里，系统一直扮演着沉默的基石角色，它托举着上层应用的高效运行，却深埋于底层硬件的复杂逻辑之中。对微软亚洲研究院高级研究员刘璟而言，这个由0与1构筑的底层世界深深吸引着她。在她眼中，这是一片充满了独特秩序之美与创造可能性的沃土。

面对传统系统的僵化与人工智能带来的复杂环境，刘璟正试图为系统研究开辟一条全新的发展路径——构建能够自主适应、动态调整的系统栈，让系统真正适应人工智能时代的不确定性与多样性。

系统研究的初心：从“无生命的元器件”中看见秩序之美

在本科阶段，当有人觉得《计算机组成原理》枯燥繁琐时，刘璟却在这门课以及《操作系统》中找到了自己的兴趣所在。她开始意识到，这些底层的逻辑并非冰冷的教条，而是一种近乎哲学的“造物”过程。

“硬盘、CPU，这些硬件本质上只是‘无生命的元器件’，无法凭空产生价值。但当系统介入，这些沉寂的元器件被激活，变成了人类可操作、可编程的工具。”这种“点石成金”般的转变，点燃了她对系统研究的热情。

这份热爱源于刘璟对事物本质的敏锐洞察。在她看来，操作系统中的许多核心原理，其实是人类社会千百年来普遍智慧的折射。无论是数据的存储与提取，还是进程的排队与调度，其逻辑内核都体现着朴素而深刻的智慧。

她打了个比方：“现代计算机存取数据的方式，与两千年前埃及人构建图书馆的思路没有本质区别；而操作系统中复杂的队列排序，也与人们在超市排队结账的场景如出一辙——无论你多忙，都得遵循循环服务的规则。”

这种“万物大道至简”的秩序感，让她在学习过程中不仅不觉得枯燥，反而感到一种智力上的通透与愉悦，也愈发坚定了她在系统领域深耕的决心。

带着这份对底层系统原理的迷恋，刘璟前往威斯康星大学麦迪逊分校攻读博士学位。在刘璟心中，这里是系统研究的“圣地”，不仅有世界级的学术资源，更让她倍感幸运的是，凭借扎实的专业能力，她得以师从全球经典教材《操作系统导论（Operating Systems: Three Easy Pieces）》的作者 Andrea Arpaci-Dusseau 与 Remzi Arpaci-Dusseau 教授，在他们的指导下开展操作系统的学习与研究。

博士期间，刘璟还进入微软雷德蒙研究院实习，参与了 Demikernel 项目的研究。当时，数据中心硬件发展迅猛，I/O 设备的响应速度迈入了微秒级，但传统操作系统内核却成为了性能瓶颈，数百微秒的延迟导致昂贵的新硬件无法发挥全部效能。Demikernel 的目标是构建一个通用的操作系统层，将其直接集成到应用程序中，使应用能有效利用高速 I/O 设备。

这段经历让刘璟对系统研究的价值有了更深刻的认知，在人工智能飞速发展的时代，系统研究不仅是技术底座，更是释放上层创新潜能的关键引擎。

AI浪潮下，构建系统的“自主适应”能力

博士毕业后，刘璟加入了微软亚洲研究院。这份选择的背后，是她长期在OSDI等系统领域顶级会议上，对研究院高质量论文的持续关注与认同。“微软亚洲研究院的系统研究不仅产出了大量突破性成果，而且这些工作始终呈现出清晰的系统性，各项研究前后呼应、层层递进，尤其在机器学习系统方向起步早、积累深。”刘璟回忆道。

正是这种学术研究中展露的完整布局与自由的研究氛围，使微软亚洲研究院成为刘璟职业生涯的起点，也让她在这里正式开启了构建新一代计算基础设施、打造高度自主适应系统的旅程。

在全新的人工智能时代，大模型与生成式人工智能的爆发给底层系统带来了双重挑战。一方面，上层工作负载变得高度动态且难以预测，以 AI Agent（AI 智能体）为例，其行为模式与传统软件截然不同，对计算、内存和 I/O 资源的需求瞬息万变。另一方面，底层硬件迭代加速，CPU 与 GPU 算力深度融合，各类专用加速器层出不穷，而现有系统架构却因历史包袱日益臃肿，成为性能释放的瓶颈。

“如今的硬件与应用都比以往更加多样化，整个系统环境处于一种‘上下皆动’的复杂状态。”刘璟指出，“作为承上启下的统一中间层，传统操作系统正变得力不从心。”

面对这种复杂性，刘璟所在的系统团队正从两条路径推动系统创新：“AI for System” 和 “System for AI。”

在 “AI for System” 的研究方向上，刘璟指出，传统系统为了兼容成千上万种工作负载，往往包含大量冗余代码和硬编码决策。这些逻辑被“写死”在源代码中，缺乏动态调整能力。这种设计导致系统即便处理简单任务，也需调用大量资源。“例如，运行一个简单的 ‘Hello World’ 程序，在当前系统中可能仍需加载 1–2GB 的资源。”

为此，刘璟和团队正在将系统改造为动态可调的自适应架构，利用人工智能实时分析上层工作负载特征，自动合成最适合当前任务的系统栈配置。她打了个比方：“这就像用积木搭房子，原本每层都强制使用100块积木，但对某个特定任务，也许只需挪动其中几块就能完成。关键在于，系统本身必须变得可调节、可塑造，才能实现资源的最优配置。”

除了性能，系统的韧性与自主修复能力同样至关重要。作为计算栈的中间枢纽，系统需要能够在故障发生时无缝应对，确保上层应用无感知地持续运行。“例如，存储系统如何在遭遇意外崩溃后自动恢复？我们希望这类问题今后能由系统‘自主’处理。”

基于这一目标，刘璟和团队研发并推出了一种高性能文件系统微内核服务 Ananke，它能够在文件系统发生故障时进行快速且透明的恢复。相关论文在全球计算机存储领域顶会 FAST 2025 上荣获最佳论文奖。“Ananke 的优势在于，应用程序可以像什么都没发生一样继续运行，大幅降低数据丢失风险和停机时间。”刘璟表示。

在 “System for AI” 方向上，刘璟主要聚焦于存储系统，尤其是大模型长上下文推理带来的存储效率挑战。她和团队正在探索将 KV Cache 等大模型特有的特性抽象为一种向量索引，进而利用传统存储系统的优化机制进行高效管理。

此外，在更底层的系统栈中，团队也在利用新的 CPU、GPU 及异构硬件，加速存储和虚拟化进程，将各类新型硬件的能力抽象整合至系统栈中。刘璟强调，算法创新并不会自动转化成系统性能的提升，只有通过合理的抽象设计，才能让系统对算法的迭代更新实现“透明支持”，避免算法升级后系统层需重复重构的低效问题。

“系统研究者需要深入理解算法的发展趋势，”刘璟说，“通过设计合理的中间层抽象，让算法开发者无需关心底层的复杂细节，就能在不同配置上获得最佳性能表现。”这种系统与算法协同进化的研究范式，正是刘璟和微软亚洲研究院系统研究团队在人工智能时代推进系统优化的核心思路。

与AI协作，在复杂性中寻找“最优解”

系统研究处于上层应用与底层硬件之间，这种天然的“中间层”属性，决定了跨领域协作的重要性。刘璟表示，微软亚洲研究院拥有极为自由开放的研究文化，不同背景的同事之间频繁交流，常常激发出意想不到的创新火花。

以长文本推理任务为例，算法研究员会主动分享他们对未来模型架构的判断，例如，“函数调用”可能会变得更重要，或某种推理模式将逐渐成为主流。这些来自上层的“情报”，对底层系统的设计至关重要。正是通过团队间持续的提问、反馈与回溯，刘璟才能从纷繁复杂的现象中提炼出通用模式，并将其固化为系统的抽象能力。

persons posing for a camera — 刘璟（右一）与团队同事合影

除了与人类同事协作，面对日益复杂的计算环境，刘璟更将人工智能视为解决系统难题的“强大队友”。人工智能不仅是系统服务的对象，更是破解复杂性的核心助力。“现代系统需兼容成百上千种硬件规格，代码路径数以亿计，即便是经验最丰富的专家，也难以凭记忆掌握所有细节。而人工智能具备的无限‘记忆力’与强大知识关联能力，恰好能弥补这一短板。”刘璟表示。

过去，排查一个系统性能瓶颈，可能需要专家耗费大量精力反复猜想验证；现在，人工智能有潜力帮我们解决过去无法解决、甚至无法发现的系统问题。刘璟认为，未来人与人工智能的深度协作，将让那些曾被视作“玄学”的系统设计与优化工作，逐步走向科学化、透明化与可预测化。