大语言模型应用如何实现端到端优化?

编者按:基于大语言模型(LLMs)开发的应用目前主要使用公共 LLMs 服务提供的 API 进行,但是这些 LLMs 服务的 API 设计以请求为中心,缺乏应用级信息,难以有效优化整个应用流程,影响任务的端到端性能。为此,微软亚洲研究院的研究员们开发了一个专注于 LLMs 应用端到端体验的服务系统 Parrot,它具有减少网络延迟、提高吞吐量、减少冗余计算等优势。Parrot 可以通过引入语义变量,向公共 LLMs 服务公开请求间关系,从而开辟了 LLMs 应用端到端性能优化的空间。相关论文已被计算机系统领域顶级学术会议 OSDI 2024 收录。

发布时间:2024-07-25 类型:深度文章

LSR-MP:突破分子模拟瓶颈,探索知识引导的AI范式

编者按:分子动力学模拟在新药开发、材料设计等领域发挥着重要作用。近年来机器学习技术的不断发展,使得其对分子间相互作用的刻画也更加精确,但却面临着随分子体系扩大,计算效率降低和长程信息丢失的难题。在此背景下,微软研究院科学智能中心同耶鲁大学、西安交通大学提出了一种名为 LSR-MP 的新型分子动力学机器学习框架。该框架结合了物理洞见和几何深度学习,通过在原子/分子片段上分别建模短程和长程效应,为大规模分子体系的高精度、高效模拟开辟了新的途径。

发布时间:2024-07-23 类型:深度文章

nnScaler:重塑深度学习并行策略,大幅提升训练效率

编者按:深度学习技术已经在图像识别、语音识别、自然语言处理、搜索推荐等多个领域不断展现出巨大的应用价值。然而,随着模型规模的不断增大,深度学习模型的训练变得耗时且昂贵,设计最优的并行策略组合以提高其在多设备上的执行性能是目前该领域的一大挑战。在此背景下,微软亚洲研究院提出 nnScaler 技术,通过一套并行化原语和策略限定搜索的方法来寻求最佳的并行策略组合。这一尝试为寻求深度学习并行策略最优化提供了方案和工具,有效应对了当前的深度学习训练效率难题。相关论文已被计算机系统领域顶级学术会议 OSDI 2024 收录。

发布时间:2024-07-22 类型:深度文章

完全激活稀疏大模型,Q-Sparse突破LLM推理效能

编者按:激活稀疏性是解决大语言模型(LLMs)在推理阶段出现的计算成本高、内存占用大等问题的有效方法,可以有效减少激活张量中激活元素的数量。然而该方法无法实现 LLMs 激活的完全稀疏性,从而限制了推理阶段的效率提升。

发布时间:2024-07-19 类型:深度文章

数据驱动模型提升电动汽车电池退化预测准确率

编者按:在全球向新能源转型的浪潮下,电动汽车的普及率正不断提升。然而,在享受电动汽车便利性的同时,你是否也在担忧电池的续航问题?电池的性能和寿命以及相应的监测、维护、回收等相关问题也同样困扰着电动汽车生产企业。而且如果废旧电池在回收、拆解和再利用的过程中处理不当,可能会对环境造成二次污染。

发布时间:2024-07-17 类型:深度文章

ProbTS:时间序列预测的统一评测框架

编者按:如今,时间序列预测在健康、能源、商业、气候等多个行业发挥着至关重要的作用。它不仅影响着相关资源的分配和调度,还影响着行业的管理和运营决策。但是现有的时间序列预测方法通常缺乏对基础预测需求的全面考虑,无论是经典的时序预测模型还是近期涌现的时序基础模型,都存在方法设计上的“偏见”。

发布时间:2024-07-12 类型:深度文章

你应该知道的10个AI术语

自2022年底生成式人工智能进入主流视野以来,大多数人都对这一技术有了一些基本的了解,并知道了它是如何利用自然语言来帮助人们更轻松地与计算机进行交互的,甚至有些人会在与朋友的闲谈中聊到“提示词”(prompts)和“机器学习”(machine learning)等热门术语。然而,随着 AI 技术的不断发展,其词汇量和术语体系也在持续演进。你知道大语言模型与小语言模型之间的区别么?是否知道 ChatGPT 中的“GPT”代表什么?又是否了解 RAG(检索增强生成模型)在清理虚假信息方面的作用?

发布时间:2024-07-10 类型:深度文章

以智能化为舵手,引领现代计算机系统架构新航向

编者按:如今计算机系统承载的服务和算法逻辑日益复杂,理解、设计并改进计算机系统已成为核心挑战。面对系统复杂度和规模的指数级增长,以及新的大模型驱动场景下的分布式系统形态的涌现,人们亟需创新方法与技术来应对。在计算机系统发展的新篇章里,现代系统应当是一个不断自我进化的结果。机器学习和大模型的崛起使得现代计算机系统迎来了新的智能化机遇,即学习增强系统(learning-augmented systems)。微软亚洲研究院创新地从两个核心方向,来思考系统应如何不断自我学习和自我进化:“模块化”机器学习模型,与“系统化”大模型的推理思维。目标在于使得模型能够对齐复杂多变的系统环境和需求,并且推理思维能够对齐计算机系统时间和空间上的行为。相关论文 Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices 获评 NSDI 2024 杰出论文奖。

发布时间:2024-06-28 类型:深度文章

构建负责任且大规模的生成式人工智能的七个启示

2023年,生成式人工智能取得了巨大的进步,人们现在用文字就能创造出逼真的画面,借助微软的 Copilot 工具就可以总结错过的会议内容、撰写商业提案,或根据冰箱里的食材来推荐晚餐菜单。尽管微软在构建人工智能应用方面早已制定了一系列原则和流程,以尽最大可能减少意外伤害并为用户提供他们所期望的体验。但是,生成式人工智能产品的大规模应用,无疑也带来了前所未有的新挑战与新机遇。

发布时间:2024-06-25 类型:深度文章