新闻与深度文章
作者:刘树杰 编者按:文本到语音合成(Text-to-Speech,TTS)是一种将书面文字转化为自然语音的技术,在提高无障碍性、增强跨语言交流等方面发挥着重要作用。微软亚洲研究院此前推出了第一个离散编码的语音大模型 VALL-E,并在此基础上通过重复感知采样和分组编码建模技术将其升级为 VALL-E 2 版本。新版本突破了语音稳健性、自然度和说话人相似度方面的界限,让零样本 TTS 性能在 Li…
编者按:当前多模态模型大致分为两类,一类是专用多模态模型,如文本生成图像、文本生成视频等;另一类则是通用型多模态大语言模型,这类模型的目标是让人工智能具备自然语言理解和生成、图像识别,以及语音和视频的交互能力。近日,微软亚洲研究院又提供了一个新的选择——原生多模态大语言模型。它能够更深入地理解物理世界并执行多模态推理和跨模态迁移,其在不同模态的数据学习中还涌现出了新的能力。 随着人工智能技术的持续…
作者:工程与基础架构组 编者按:代码大语言模型(Code LLMs)作为大语言模型与编程领域结合的产物,可以通过自动生成和补全代码帮助开发者快速实现功能。但目前针对代码大语言模型的指令微调方法主要集中在传统的代码生成任务上,忽略了模型在处理复杂多任务场景中的表现。为此,来自微软亚洲研究院的研究员们开发了 WaveCoder 模型,其使用包含19,915个指令、涵盖4个代码任务的数据集 CodeSe…
作者:机器学习组 编者按:随着数据量和模型规模的增加,大语言模型在指令执行、知识存储、逻辑推理和编程技能等方面展现出了突破性的能力。然而,大语言模型在产业领域的潜能尚未得到充分挖掘,特别是在满足产业数据分析、推理、预测、决策等数据智能需求方面。如何有效地变革各行业的数据模型及智能的构建方法与应用范式,仍然面临诸多挑战。为应对这些挑战,微软亚洲研究院提出了构建产业基础模型的倡议,其核心理念在于通过持…
人工智能技术正在不断突破我们的想象空间,并逐渐成为推动社会变革和科技进步的核心力量。在即将到来的 Microsoft Research Forum 第四期中,来自微软研究院不同实验室的研究员们将带大家了解最新的多模态 AI 模型、先进的 AI 评估基准和模型自我改进技术,以及全新的 AI 推理和复杂优化计算机,并与大家共同探讨 AI 模型将如何助力从天气预测到材料设计等各领域的进步。 本期 Mic…
作者:DKI组 编者按:在当今数据驱动的世界,理解复杂系统中的因果关系是科学研究和实际应用中的关键挑战。在人工智能领域,因果推理能力更是成为一个热门话题。如何揭示数据背后因果机制的关键?如何利用数据实现因果发现的突破?为回答这些问题,来自微软 DKI(Data, Knowledge and Intelligence,数据、知识与智能)领域的研究员们在进行了持续而深入的探索,其相关成果发表在 AAA…
编者按:在人工智能领域,模型参数的增多往往意味着性能的提升。但随着模型规模的扩大,其对终端设备的算力与内存需求也日益增加。低比特量化技术,由于可以大幅降低存储和计算成本并提升推理效率,已成为实现大模型在资源受限设备上高效运行的关键技术之一。然而,如果硬件设备不支持低比特量化后的数据模式,那么低比特量化的优势将无法发挥。 为了解决这一问题,微软亚洲研究院推出了全新的数据编译器 Ladder 和算法…
作者:通用人工智能组 编者按:大语言模型在未使用多语言平行语料库进行预训练的情况下,依然表现出了卓越的多语言能力。但大模型如何处理多语言文本的底层机制仍是一个具有挑战性的问题。对此,微软亚洲研究院联合中国人民大学提出了语言激活概率熵,用于识别大模型中的语言特定神经元。该研究为理解和探索大模型的多语言能力提供了重要依据,并被自然语言处理领域的国际顶级学术会议 ACL 2024 收录。 全球共有超过7…
编者按:生命健康是人类永恒的探索主题,也是医疗工作者不懈追求的使命。迈入全新的人工智能时代,如何让机器学习算法和人工智能大模型助力医疗健康行业发展,是学术界和产业界共同关注的议题。然而,从计算机领域看医学行业,与从医学需求出发寻找技术突破之间必然存在着认知偏差。身为具有执业医师资格的医学博士,微软亚洲研究院(上海)高级研究员王子龙对此有哪些独到的见解?他又将如何在人工智能与医疗健康之间架起创新的桥…