开源系列讲座 | nn-Meter:可高效、准确地预测模型推理时间的系统

2021-11-15 | 作者:微软亚洲研究院

编者按:开源成果分享持续进行中!在“微软亚洲研究院开源项目系列讲座”第一季前六期,研究员分别分享了业内首个 AI 量化投资开源平台微矿 Qlib 、自动机器学习工具 NNI、个性化新闻推荐系统 MIND、OpenNetLab 开放网络平台联盟、AI-EDU community 人工智能教育与学习第一站以及多智能体资源调度平台 MARO。

第七期讲座中,研究员将介绍荣获 MobiSys 2021 大会最佳论文奖的深度模型端侧推理时间预测系统 nn-Meter。本期也是开源系列讲座第一季的最后一期,敬请期待第二季!

第一期讲座回放视频地址:
https://www.bilibili.com/video/BV1yv411J7Cj
第二期讲座回放视频地址:
https://www.bilibili.com/video/BV19w41197Qz
第三期讲座回放视频地址:
https://www.bilibili.com/video/BV1dV411H7qF
第四期讲座回放视频地址:
https://www.bilibili.com/video/BV1YM4y1V7ta?spm_id_from=333.999.0.0
第五期讲座回放视频地址:
https://www.bilibili.com/video/BV1dT4y1R7Qm/
第六期讲座回放视频地址:
https://www.bilibili.com/video/BV13b4y1879h?spm_id_from=333.999.0.0

随着当前 AI 技术的发展,DNN 模型在移动端应用上被广泛部署使用。在实际部署中,DNN 模型在实际部署中的延迟(推理时间)是决定模型是否可用的一个重要指标。然而,模型设计过程中对数以亿计的设计选项进行实际的部署和延迟评估会造成巨大的开销。因此,如何进行高效、准确的模型运行延迟预测对模型的设计至关重要。但现有技术缺乏对部署平台优化策略的理解以及对灵活多变模型架构的泛化性,所以无法做到准确的模型推理时间预测。

针对上述问题,微软亚洲研究院异构计算组的研究员们提出并开发了 nn-Meter 模型推理时间预测系统。nn-Meter提出基于内核单元的预测方法,通过自适应数据采集算法,可高效、准确地预测DNN模型在不同端侧设备上的推理延迟。

nn-Meter 荣获了 MobiSys 2021 大会的最佳论文奖,且是本届大会上唯一一篇获得了Artifact Evaluation 全部三个最高级别徽章的论文。


nn-Meter 论文题目截图

在论文发表之后,nn-Meter 获得越来越多学术界和业界的关注。通过研究员和算法工程师的共同努力,面向用户友好的DNN推理时间预测工具 nn-Meter 终于开源啦!

目前 nn-Meter 开源了四款常见端侧设备(Mobile CPU, 2 Mobile GPUs, Intel VPU)的预测模型,且支持多种格式的模型输入文件。不仅如此,nn-Meter 还整合了微软 NNI 里的神经网络架构搜索(NAS), 用户可利用 nn-Meter 实现 hardware-aware NAS。此外,除了目前支持的四款设备,nn-Meter 正在实现开源的 builder 可用来为用户端侧设备创建自己的推理时间预测模型。

“微软亚洲研究院开源项目系列讲座”第一季第七期将简要介绍 nn-Meter 的原理、功能,并详细阐述 nn-Meter 的内核 kernel 自动检测和自适应采样算法的原理。在开源学习讲座上,研究员们还将现场演示如何使用 nn-Meter 开源工具,介绍目前 nn-Meter支持的功能,以及几种应用 nn-Meter 的场景。欢迎大家使用 nn-Meter 并在 GitHub 上同开发团队进行沟通和互动!感兴趣的同学可以加入 nn-Meter 社区, 为其他端侧硬件构建延迟预测器!记得准时来直播间参与分享哦~

第七期

直播时间:2021 年 11 月 17 日 15:00 - 16:00

直播地址:B 站账号“微软中国视频中心”直播间

扫码直达直播间

扫码加入微信交流群

报告主题:

nn-Meter: 深度模型端侧推理时间预测

nn-Meter: Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices

报告内容:

随着深度学习在移动端的兴起,推理延迟(inference latency)已经成为在各种移动和边缘设备上运行深度神经网络(DNN)模型的一个重要指标。为此,预测DNN模型推理的延迟非常必要,尤其是对于无法在真实设备上测试延迟或者代价太高的任务。然而,由于不同边缘设备上运行时(runtime)的不同优化导致了模型推理延迟的巨大差异,准确预测推理延迟仍然非常具有挑战性。目前,现有方法无法实现高精度的预测。 建立在内核检测及自适应采样上的 nn-Meter 可高效、准确地预测 DNN 模型在不同边缘设备上的推理延迟。它的关键思想是将整个模型推理划分为内核(kernel),即设备上的执行单元,然后执行内核级预测。

nn-Meter 具有以下亮点:

  • 无需实际模型部署测量,准确预测 DNN 在端侧设备的推理时间;
  • 通过内核自动检测算法和自适应数据采集算法,可为其他端侧设备创建 DNN 推理时间预测模型;
  • 提供多种应用场景,包含基于 NNI 的 hardware-aware NAS;
  • 包含 26000 个常见模型在四款端侧设备上的推理时间数据集。

直播嘉宾


张丽

微软亚洲研究院

主管研究员

主要研究方向为 DNN 算法和端侧硬件的协同优化和设计,其中包括面向硬件的神经网络自动搜索,面向硬件加速的模型压缩算法,以及 DNN 模型在端侧设备的推理行为研究等。曾在 MobiSys, MLSys, Mobicom, MM, ASE 等顶级会议上发表论文。


杨玉庆

微软亚洲研究院(上海)

高级研发经理

博士,主要研究方向为人工智能系统设计,包括AI平台的基础架构与应用,面向硬件加速的深度学习模型构建等。基于亚研院在人工智能和分布式系统的研究,带领团队参与设计开发人工智能基础设施平台,为公司内部及外部用户提供端到端的深度学习优化体验;并致力于智能边缘的研究和应用,为边缘设备提供智能计算支持。


徐佳杭

微软亚洲研究院(上海)

创新工程组研发工程师

就职期间,从事 nn-Meter 深度模型端侧推理时间预测、NNI 自动机器学习等科研项目的代码开源工作。

开源项目系列讲座

微软亚洲研究院面向科研人员、开源社区开发者和参与者精心设计推出“微软亚洲研究院开源项目系列讲座”,涉及来自不同科研团队的七个开源项目:和行业密切相关的 Qlib MIND,优秀的科研工具 OpenNetLabMAROnn-Meter,以开源方式进行人工智能教育教学的 AI-EDU community,赋能机器学习的 NNI,涵盖机器学习、自然语言、网络与系统等多个人工智能领域。

“微软亚洲研究院开源项目系列讲座”第一季将在下午 3 点每月一次的频率在 B 站账号“微软中国视频中心”直播间进行直播。直播报告的邀请讲师均为微软亚洲研究院参与一线研究项目的研究员、工程师、项目经理等,欢迎大家准时进入直播间~

时 间:

每月一次 下午 3 点

地 址:

B 站账号“微软中国视频中心”直播间

6 月 23 日

QLIB:业内首个 AI 量化投资开源平台

7 月 14 日

NNI:自动智能探索神经网络

7 月 21 日

MIND:个性化新闻推荐系统

8 月 18 日

OpenNetLab:下一代开放网络研究社区

9 月 15 日

AI-EDU community:人工智能教育与学习第一站

10 月 26 日

MARO:基于多智能体强化学习的资源调度优化

11 月 17 日

nn-Meter:深度模型端侧推理时间预测

标签