概述

为响应国家人工智能战略规划以及教育部关于人工智能相关建设与发展的号召,在教育部的指导下,从2018年起微软亚洲研究院与中国高校紧密合作,共建新一代人工智能开放科研教育平台,以助力中国新一代人工智能领域科研成果的迸发,促进高端科技人才的培养及共享科教生态的建立。

平台简介

 

新一代人工智能开放科研教育平台(以下简称“智新平台”)是在中华人民共和国教育部指导下,微软亚洲研究院联合北京大学、中国科学技术大学、西安交通大学和浙江大学率先发起建设的,服务中国人工智能领域科研与教育事业的合作平台体系。秉承着开放互通是基础、服务科研和教育是核心、共享共赢是未来的理念,智新平台面向中国高校提供计算平台、算法与工具、数据和课程这四大核心资源和服务,开展联合科研、课程共建、师资培训、实习实训和国际交流等各项合作,旨在构建开放、开源的中国人工智能科技创新与教育合作体系,助力中国新一代人工智能领域科研成果的迸发,促进高端科技人才的培养与共享科教生态的建立。

2018年5月22日,智新平台于微软亚洲研究院正式对外发布,面向中国高校开放合作。经过一年的建设,30所高校通过智新平台与微软开展了技术交流、联合科研、课程共建、师资培训等合作。2019年智新平台合作论坛于5月10日在北京举行。2019年智新平台整合了微软亚洲研究院的跟多资源与技术开放给中国高校,以支持学校/学院开展人工智能领域的科研与教育。微软将不遗余力地借助智新平台,将最新的人工智能资源分享给合作者,为中国人工智能领域的科研和教育工作添砖加瓦,推动中国科技后备力量的建设。

平台首席科学家顾问(排序按姓名首字母):

包信和  中国科学院院士、中国科学技术大学校长
高文     中国工程院院士、北京大学博雅讲席教授
潘云鹤  中国工程院院士、浙江大学教授
沈向洋  美国工程院院士、微软微软全球执行副总裁
郑南宁  中国工程院院士、西安交通大学教授

核心能力

秉承开放合作的精神,智新平台整合了微软亚洲研究院和高校的高质量资源,致力于支持中国人工智能领域教育和科研工作,其核心能力包括技术平台、算法与工具、数据和课程:

1. 技术平台

人工智能的发展离不开计算能力和资源,基于智新平台的合作框架,微软推出了国内首个针对深度学习领域的开放开源的人工智能管理和调度平台——Open Platform for AI(OpenPAI)。

加入智新平台参与合作的高校可以获取:高校、学院、实验室可借助OpenPAI构建自己的人工智能基础支撑平台,发挥其开放、开源、兼容、稳定的特性、模块化的系统架构和丰富的资源,面向校内师生提供人工智能领域的创新科研和教育服务支持工作。

2. 算法与工具

除了基础层技术平台,人工智能领域中间技术层和深入业务的人工智能上层应用也是人工智能领域技术架构图中的另外两层关键技术。微软致力于将最前沿的算法、工具和集成开发环境持续不断地开放给学术界和产业界。

加入智新平台参与合作的高校可以获取:最新的开源算法和工具,助力师生研究、开发和测试新的算法,让科研成果产生更大的价值和影响力;他们也可同时参与到微软相应算法和工具的进一步研究与开发中。

3. 数据

数据是支撑人工智能领域科教发展的重要一环,微软将开放自身人工智能领域的数据集供合作高校进行科研和教育引用,智新平台还将整合高校各自领域的数据集,如中国科学技术大学国家类脑实验室中的海量类脑数据。

加入智新平台参与合作的高校可以获取:借助微软与合作高校共享的人工智能领域数据集,合作高校的师生可围绕数据开展相关领域的研究和教学工作;针对合作高校,积极展开相关数据集的联合科研、数据集扩展、技术竞赛等多项合作。

4. 课程

人才是人工智能领域发展的重要基石,微软将整合自身人工智能的技术和专家资源,兼顾理论与实战,开发并开放一系列人工智能模块化课程,并提供来自真实场景的实践案例;平台还将集合微软与高校的专家资源,共同合作开发一系列具有推广和示范性意义的、切合新时代教学理念的人工智能课程。

加入智新平台参与合作的高校可以获取:人工智能系列课程资源和教学大纲,帮助老师制定人工智能专业培养方案和相关课程;加入教育开放社区,从不同维度帮助高校对接企业资源,更加深入地开展人工智能教育合作。

建设成果

2018年5月智新平台成立以来已产出丰硕成果,助力高校更好地开展人工智能相关的科研和教育工作,助推我国人工智能人才培养体系的建立,以下为部分重点成果:

1. Open Platform for AI予力高校建立人工智能基础支撑平台

OpenPAI已帮助多所高校与科研机构建立了自己的人工智能基础支撑平台,为高校常见的异构IT环境,以及高校教师在人工智能领域的创新和教学提供了强有力的支撑。

其中,中国科学技术大学的“类脑智能技术及应用国家工程实验室”(简称“类脑实验室”)就是基于OpenPAI搭建的一个开放、共享的科研教育平台,目前已在真实的科研、教育场景中应用。类脑实验室利用OpenPAI整合了其1040块品牌、型号各异的GPU显卡,为上层应用提供底层IaaS支撑;而后在OpenPAI上自主开发了类脑云OS作为PaaS层保障大量人工智能科教应用的开发和运行;最后,在最上层类脑实验室搭建了bitahub社区,供本校及兄弟院校的师生发布其研究成果、数据、论文等。OpenPAI提供的智能平台确保了中科大类脑实验室每月49万GPU小时数的稳定运行,保证了学校600多名师生的研究需求,让他们可以为不同研究方向定制不同范式。此外,智新平台中便利、高效的开发、调试环境和丰富的示范案例,帮助中科大在很多学术竞赛中夺冠,还协助中科类脑成功举办了多次大规模比赛。

2. 教育部-微软产学合作协同育人项目

为响应教育部关于新工科建设与发展的号召,深入推进企业与高校协同创新,微软亚洲研究院在教育部的指导下,基于智新平台的合作框架,继续参与和支持教育部产学合作协同育人项目,致力于与国内高校开展全面合作,从人才培养的新形势新任务出发,聚焦产业发展前沿,助力高等教育改革与发展。

在过去的一年中,微软亚洲研究院-教育部产学合作协同育人项目共资助教学内容和课程体系改革项目23个,数万学生获益;微软亚洲研究院联合高校在全国范围内开展了4场师资培训,惠及来自300余所高校的500余位老师。

3. 人工智能教学案例与实践

以“做中学”和“递进式学习“为核心理念,微软与合作高校推出了20余个人工智能教学案例,领域覆盖自然语言理解、智能多媒体、图形图像、机器翻译、神经网络,助力高校教师进行课程教育实践。相关案例打破了“先理论再动手”的传统学习方式,通过一系列动手课程,带领学习者一步步实践,从代码层面深度了解人工智能的概念与搭建流程。

4. 信息技术新工科产学研联盟人工智能教育工作委员会

微软亚洲研究院联合北京大学、中国科学技术大学、浙江大学、哈尔滨工业大学、复旦大学、北京航空航天大学、华南理工大学等高校发起信息技术新工科产学研联盟人工智能教育工作委员会。该委员会是信息技术新工科产学研联盟首批成立的工作委员会之一,在专业建设、师资提升、创新创业教育、资源共享平台等方面,全面推进了产学研科技创新体系,帮助建立新一代人工智能教育领域共赢生态。

2019年合作重点

基于2018年建设的成果,2019智新平台将继续加强在四大核心能力上的推进,产出切实成果,普惠中国人工智能领域的科研与教育,以下为2019年重点建设规划和合作方式,欢迎您的加入。

 

1. 技术平台

技术平台层面,微软亚洲研究院将继续基于OpenPAI与高校展开合作。微软将提升OpenPAI的用户体验、核心深度学习能力支持、调度系统的可扩展性以及系统稳定性,并与合作高校进一步以OpenPAI为基础进行深度学习算法和系统相关的研究,包括自动化机器学习算法、分布式深度学习、自动化网络压缩、自动深度神经网络搜索以及GPU调度算法等。

  • 在用户体验方面,新的WebUI和VS code插件将帮助用户更方便、直观地提交和管理深度学习任务,同时WebUI通过支持扩展插件还可以帮助不同用户扩展功能。
  • 在深度学习能力方面,OpenPAI与自动化机器学习工具NNI(Neural Network Intelligence)集成,将提供多种自动化机器学习的算法。此外,OpenPAI为大规模分布式深度学习算法提供了更好的调度和通信方法。
  • 在调度系统方面,OpenPAI将集成基于BuddyAlloc算法的新的调度算法,以便多用户之间能够更加公平和高效的分配资源。
  • 系统稳定性和企业功能也将在新的一年得到重要改进,包括完全基于Kubernetes 的简洁部署模式,OpenID、AAD为基础的用户认证系统,以及更稳定的分布式文件系统的集成

      合作方式:

 

2. 算法与工具

基于智新平台,微软将整合并开放更多高质量工具,以下为几大重点工具:

自动化机器学习工具已经成为人工智能领域的一个热门方向,NNI (Neural Network Intelligence) 是MSRA于2018年底开源的新的自动化机器学习的工具包。它包括了大量学术界最新的自动化机器学习和深度神经网络搜索算法,并支持多种工业界的主流机器学习平台,可以帮助老师和同学们加速其机器学习的速度。良好的扩展性可以利于研究人员以不同方式参与到项目中来,包括对已有算法的改进、新的算法实现以及对新的机器学习平台的支持。在最新的0.7版本中,NNI包括了14种搜索算法,支持5中不同类型的机器学习平台,并且包括图片、自然语言理解、推荐算法等领域的使用示例。将来,NNI还计划对不同类型的边缘设备提供进一步的支持,比如模型压缩,针对特定硬件的优化等。

随着深度学习技术的飞速发展,文本数据都开始从传统的符号表示转变到更具表达能力的向量表示,数据检索也从传统的符号匹配扩展到了基于向量距离的最近邻检索,基于向量的大规模检索已经成为文本检索领域的一个重要研究方向。SPTAG(Space Partition Tree And Graph)是MSRA于2019年初开源的高效大规模向量检索工具包,全库用C++编写,支持Python和Java语言扩展。它提供了基于空间划分树和近邻图的两种最近邻算法(SPTAG-KDT和SPTAG-BKT),支持在线向量的实时更新和多机分布式搜索,可以帮助老师和同学们快速部署大规模基于深度学习的新型文本检索应用。它具有良好的可扩展性和接口抽象,研究人员可以快速参与到项目中来,包括增加新的算法,改进已有算法,增加新的功能等。

高分辨率表征学习(High-Resolution Representation Learning)是计算机视觉领域里的一个热门方向。2018年,MSRA开发了基于转置卷积的从低分辨率表征恢复高分辨率表征的算法,在人体姿势估计上取得了非常好的效果。2019年,MSRA进一步提出了一个通用网络结构(High-Resolution Network, HRNet),在很多计算机视觉问题上,例如人体姿势估计,图像分割,目标检测,人脸对齐等,取得了最好的效果,HRNet有望取代分类网络(包括ResNet,VGGNet)成为计算机视觉的主流网络结构,适用于很多其他问题,包括图像变换,光流估计等。除此以外,开源的人体姿势估计,图像分割和人脸对齐的工具包,可以帮助老师和同学们加快研究、开发和测试新的算法

常用的机器学习算法,例如神经网络等算法,都可以以mini-batch的方式训练,训练数据的大小不会受到内存限制。而GBDT在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据,普通的GBDT算法是不能满足其需求的。LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题,让GBDT可以更好更快地用于工业实践。LightGBM支持高效率的并行训练,并且具有以下优点:更快的训练速度;更低的内存消耗;更好的准确率;分布式支持,可以快速处理海量数据。

对数据进行分析和挖掘所得到的信息和洞察需要通过可视化图表的方式呈现和表达出来。信息图(Infographics)是目前被广泛使用的一种现代的可视化表现形式。与普通的柱状图、饼图等相比,信息图通过有效利用图标、文字、图片等丰富的设计元素,使得信息的理解和传递变得更为简单高效。然而,对于普通用户来说,制作生成信息图是一个很困难的任务。为此,我们研发了一个易学易用、功能强大的信息图设计工具Infographic Designer,帮助用户通过简单方便的操作将数据分析的结果生成美观漂亮的、有表现力的、易读易懂的、个性化的信息图,从而更有效地进行信息的传递和交流。

      合作方式:

 

3. 数据

微软将着力推出更多核心工具集,以下为其中两大重点数据集:

微软亚洲研究院首次将其自然语言处理(NLP)领域全新的语义分析数据集MSParS (Multi-perspective Semantic ParSing Dataset)在平台开放。作为智能音箱、搜索引擎、自动问答和对话系统等人工智能产品中的核心技术,语义分析(Semantic Parsing)面临着因人工标注代价高昂而导致的数据缺乏问题,目前已有的语义分析数据集在数据规模和问题类型覆盖度上非常有限。为此,微软亚洲研究院提出并构建了 MSParS,该数据集(1.0版本)包含81,826个自然语言问题及其对应的结构化语义表示,覆盖12种不同的问题类型和2,071个知识图谱谓词,是学术界目前最全面的语义分析数据集。未来,微软将与各高校一起开放、共享更多数据,促进产教融合合作生态的建设。

TableBank是一个表格检测与识别的数据集,基于公开的、大规模的Word文档和LaTex文档,通过弱监督方法创建而来。与传统的弱监督训练集不同,TableBank不仅数据质量高,而且数据规模比之前的人工标记的表格分析数据集大几个数量级,其表格数据量达到了41.7万。致力于解决文档中的表格检测与表格信息识别,并首次在业界同时开源表格检测和表格结构识别数据集,供研究人员使用。

      合作方式:

 

4. 课程

基于智新平台的合作框架,微软将与合作高校协同,进一步推动微软人工智能教育与学习共建社区微软人工智能教育与学习共建社区(下文简称“社区”)建设, 旨在打造聚合高质量资源、全生态教学、开放式学习为一体的人工智能学习、实践、共享平台。社区将继续聚焦五大领域:教学改进、学科建设、课程改革、创新创业、资源共享,持续推出具有推广和示范性意义的、符合高校教学理念的人工智能专业和实践课程,不断探索人工智能时代的教育新模式,与中国高校共同构建人工智能人才培养的健康生态体系。

微软也将继续参与和支持教育部-微软产学合作协同育人项目,通过教学内容和课程体系改革、师资培训(2019年师资培训第一场)等方面,助力高等教育改革与发展,助推大国工匠的培养和中国人工智能领域的进步。

合作方式:

  • 下载并填写完成智新平台合作建议书四
  • 将建议书发给联系微软负责人蒋运韫 yunj@microsoft.com
  • 根据建议书内容进行合作沟通,确定合适的合作框架和方案。
  • 开展合作
  • 成果展示