LLM时代,探索式数据分析的升级之路有哪些新助攻?

在这个信息爆炸的时代,数据已经成为我们生活、工作中不可或缺的重要资源。大量的数据犹如一座座金矿,蕴藏着无尽的价值。然而,如果无法从数据中提取出知识和信息并加以有效利用,那么数据本身并不能驱动和引领技术应用取得成功。如何让数据发挥它最大的价值?是数据、知识与智能(DKI)组持续探索的方向,为了实现这一目标,研究员们在探索式数据分析(Exploratory Data Analysis,EDA)领域进行了一系列的研究工作,相关成果已发表在 SIGMOD 2017、SIGMOD 2019、SIGMOD 2021、KDD 2022 和 SIGMOD 2023 等全球顶会上。同时,该系列工作也已应用于 Microsoft Excel,Microsoft Power BI 和 Microsoft Forms 等微软产品中。

发布时间:2023-05-31 类型:深度文章

隐藏在Microsoft Designer背后的新科技,让人人都是设计师

编者按:在视觉图像设计中,用户的需求与最终的设计成品往往是“想象很美好,现实很骨感”。这通常是因为用户在与设计师沟通时,双方理解不一致,导致最终设计结果不尽如人意。但是,如果能够“自给自足”,借助人工智能技术为每个人赋予设计能力,是否会更容易让自己脑海中的画面变为现实?智能化设计工具 Microsoft Designer 就是一个能辅助用户成为设计师的好帮手。

发布时间:2023-05-31 类型:深度文章

多项创新技术加持,实现零COGS的Microsoft Editor语法检查器

编者按:Microsoft Editor 是一款人工智能写作辅助工具,其中的语法检查器(grammar checker)功能不仅可以帮助不同水平、领域的用户在写作过程中检查语法错误,还可以对错误进行解释并给出正确的修改建议。神经语法检查器模型是这款提供了强大拼写检查和语法纠正服务的 Microsoft Editor 背后的关键技术,该模型采用了微软亚洲研究院创新的 Aggressive Decoding 算法,并借助高性能 ONNX Runtime(ORT) 进行加速,使服务器端的模型推理速度提升了200%,在不损失模型预测质量的情况下,节省了三分之二的成本。神经语法检查器模型还使用了微软亚洲研究院前沿的客户端 seq2seq 建模技术 EdgeFormer,构建了性能优异的轻量级生成语言模型,结合部署中的模型和系统优化,该技术可赋能用户在设备上的部署,从而实现零销货成本(zero-COGS, zero-cost-of-goods-sold)的目标。本文编译自微软研究院博客 “Achieving Zero-COGS with Microsoft Editor Neural Grammar Checker”。

发布时间:2023-05-23 类型:深度文章

LLM Accelerator:使用参考文本无损加速大语言模型推理

编者按:如今,基础大模型正在诸多应用中发挥着日益重要的作用。大多数大语言模型的训练都是采取自回归的方式进行生成,虽然自回归模型生成的文本质量有所保证,但却导致了高昂的推理成本和长时间的延迟。由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。

发布时间:2023-05-17 类型:深度文章

语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声

编者按:如果问华语乐坛近期产量最高的歌手是谁,“AI 孙燕姿”一定有姓名。歌迷们先用歌手的音色训练 AI,再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成技术是“AI 孙燕姿”的背后支持。广义的语音合成包含文本到语音合成(Text to Speech,TTS)、声音转换等。在 TTS 领域,微软亚洲研究院机器学习组和微软 Azure 语音团队早已深耕多年,并在近期推出了语音合成模型 NaturalSpeech 2,只需几秒提示语音即可定制语音和歌声,省去了传统 TTS 前期训练过程,实现了零样本语音合成的跨越式发展。

发布时间:2023-05-10 类型:深度文章

ICSE 2023|为计算平台的高质量运行保驾护航

ICSE 是软件工程领域公认的权威国际学术顶会。自1975年创办以来,ICSE 大会持续为研究人员和相关从业者输送着软件工程领域中最新的理论创新、技术趋势与研究成果。本届 ICSE 大会接受了多篇来自微软亚洲研究院的成果,在云计算高速发展的当下,更需要研究员们不断深耕,发掘研究洞见,为云平台的高质量运行保驾护航。

发布时间:2023-05-09 类型:深度文章

ICLR 2023 | 负责任的人工智能,守护机器学习的进阶思考

编者按:国际学习表征会议 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机器学习国际学术会议之一。多个来自微软亚洲研究院的最新研究成果被 ICLR 2023 大会接受。跟随上两期文章领略过杰出论文与机器学习鲁棒性方向的技术洞见后,本期将与大家分享负责任的人工智能方向的三篇研究工作,它们分别拓展了差分隐私深度学习效率的边界、时序图的可解释性研究以及预训练语言模型在文本生成中的安全性。欢迎点击论文链接,直达对负责任的人工智能的进阶思考!

发布时间:2023-04-27 类型:深度文章

ICLR 2023 | 更适合研究员体质的机器学习鲁棒性论文合集

编者按:国际学习表征会议 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机器学习国际学术会议之一。在今年的 ICLR 2023 大会上,微软亚洲研究院发表了在机器学习鲁棒性、负责任的人工智能等领域的最新研究成果。继 ICLR 2023 杰出论文奖得主的独家分享后,本期将带来微软亚洲研究院在机器学习鲁棒性方面的四篇研究成果,其研究主题分别为领域泛化问题、分布外泛化、自适应阈值法与半监督学习中伪标签质量数量的权衡。

发布时间:2023-04-25 类型:深度文章

ICLR 2023杰出论文奖得主独家分享:适配任意密集预测任务的通用小样本学习器

编者按:国际学习表征会议 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机器学习国际学术会议之一。在今年的 ICLR 2023 大会上,微软亚洲研究院发表了在机器学习鲁棒性、负责任的人工智能等领域的最新研究成果。其中,微软亚洲研究院与韩国科学技术院(KAIST)在双方学术合作框架下的科研合作成果,因出色的清晰性、洞察力、创造力和潜在的持久影响获评 ICLR 2023 杰出论文奖。研究员们提出了首个适配所有密集预测任务的小样本学习器 VTM,以轻量化的迁移成本,赋予了计算机视觉模型预测新任务标签的能力,为计算机视觉中密集预测任务的处理以及小样本学习方法打开了全新思路。

发布时间:2023-04-19 类型:深度文章

对话Peter Lee:大模型在医疗健康领域应用的机遇与挑战

编者按:今年3月,OpenAI 推出了大语言人工智能模型 GPT-4,其在推理、解决问题和语言等方面的能力都有了显著提高,使得发展长达数十年的人工智能进入了一个新阶段。微软全球资深副总裁、微软研究院负责人 Peter Lee 是微软内部最早使用 GPT-4 进行评估和实验的成员之一。近期在微软研究院最新的 AI 前沿系列播客节目中,Peter Lee 与微软研究院副总裁、微软杰出首席科学家 Ashley Llorens 进行了一次深度对话,表达了他对于大模型在医疗健康领域应用潜力和挑战的看法,以及在大模型潮流的引领下,微软研究院对未来计算的研究规划。本文节选了对话中的部分内容,完整版请点击播客收听。

发布时间:2023-04-13 类型:深度文章