强化学习算法研究实习生

招聘人数： 2-4

组别简介：

我们关注深度强化学习在算法，应用，以及理论中的研究。在算法研究方面，我们的研究兴趣包括但不限于distributional RL，offline RL， causal RL，imitation learning，non-stationary RL, Bayesian RL, generalization in deep RL等研究方向。在应用研究方面，我们关注与微软的产品业务相关的各种实际应用问题，包括但不限于RL for game playing & testing，RL for logistics, RL for congestion control。在理论研究方面，我们关注deployment efficient RL和tiered RL等研究问题。在过去的几年里，我们在顶级国际会议和期刊上发表了多篇论文，与微软的产品部门保持着密切的合作并且转化了核心技术。我们的研发的麻将 AI 系统 Suphx 成为首个在国际知名专业麻将平台 “天凤”上荣升十段的 AI 系统，其实力超越该平台公开房间顶级人类选手的平均水平。我们既关注如何把deep RL的能力发挥到极致，并且在实际的应用中取得巨大的成功，比如Suphx以及各种RL应用研究；也关注如何从实际应用场景中抽取新的抽象研究问题，在顶级国际会议和期刊上发表高质量的研究工作。

工作职责：

参与强化学习算法在game testing，logistics，congestion control等领域的落地。在这里，你有机会接触工业级的数据，接触并研发实际业务中的核心技术，并且让强化学习在实际问题中发挥巨大的影响力。
从上述应用中抽象研究问题，进行算法研究。在这里，你有机会接受科研方面的指导和训练，接触研究院提供的各种学术交流机会，在顶级国际会议和期刊上发表高质量的研究工作。

任职要求：

计算机或相关专业博士，有志于科研的本科生或硕士也欢迎申请；
具有较强的编程实现能力，良好的沟通能力和团队协作精神；
具备一定的强化学习基础，能够读懂顶级国际会议强化学习方面的论文；
加分项：有数学/物理/信息学竞赛方面的成绩；有强化学习算法的开发和研究经历；在顶级国际会议和期刊上发表过强化学习方面的工作。

工作时间要求

能获得导师许可并保证至少三个月的实习。

请务必下载并填写申请表（申请表链接：https://www.msra.cn/wp-content/uploads/2017/07/internship_application_form.xlsx）并将其与完整的中英文简历（PDF/Word/Txt/Html形式）一同发送至：MSRAih@microsoft.com 和 lizo@microsoft.com，邮件标题中注明：深度强化学习组_强化学习算法实习生。

要了解更多“明日之星实习生计划”，请访问：https://www.msra.cn/zh-cn/connections/academic-programs/tomorrowstars

人物特写

刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

执业医师转型人工智能研究员，王子龙说“跨”才是关键

程鹏：“研究员+工程师”模式的探路者，推动人工智能与系统协同进化

实习派

马睿淳：耶鲁博士生的实习故事，与学术偶像一起踏浪前行

易婧玮：从“零经验”到论文竞赛获奖，她在负责任 AI 的道路上砥砺前行

刘泽：马尔奖得主成长之路，定位真正重要的问题

强化学习算法研究实习生

关注微软亚洲研究院