自动数据清洗与数据质量研发实习生

 

自动数据清洗与数据质量研发实习生

  • 招聘人数: 2-3

组别简介:

微软亚洲研究院DKI (Data, Knowledge & Intelligence) Area 致力于人工智能、数据分析、数据交互。数据可视化的研究。探索全新的数据分析,展示,交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。数据智能是一个典型的交叉领域,综合了自然语言处理、多维数据分析、机器学习、数据可视化、人机交互、计算机视觉等多个领域。 https://www.microsoft.com/en-us/research/group/data-knowledge-intelligence/

微软美国雷德蒙德研究院 DMX (Data Management, Mining and Exploration) 组致力于数据管理和数据挖掘的研究。主要项目研究方向包括大规模云数据系统,数据查询与优化,数据挖掘和数据质量管理。 https://www.microsoft.com/en-us/research/group/data-management-exploration-and-mining-dmx/

项目简介:

表格数据(比如Excel 表格或是数据库)广泛存在于各个领域,在分析和决策过程中扮演着重要的角色。但是伴随着的数据质量问题始终是一个巨大的隐患,并且往往需要用户人工逐行检查,手动纠错。在这个项目中,我们希望能深入探索和设计智能算法来解决这个隐患,通过大数据和机器学习的方法来自动发现数据质量问题,进而自动修复错误数据,以解决数据质量这个长期困扰用户(上至数据分析师,下至普通人)的痛点。

这个项目是一个微软内部跨国家和跨部门(DKI@MSRA + DMX@MSR-Redmond+微软产品部门)的合作项目。项目中有多个不同类型的职位,包含研究型的职位来探索新型算法,出色的成果有机会发表于顶部会议。同时项目也会包含开发型的职位来将技术产品化。可以根据你的兴趣和擅长参与不同的环节(相对应的职责和要求技能也不同)。

工作职责:

  1. 阅读文献,调研自动数据清洗和数据质量相关技术
  2. 数据收集处理,模型设计,实验迭代,结果分析,算法改进
  3. 快速原型开发,代码改进,性能优化
  4. 与导师团队合作,整理研究结果,发表顶部会议

任职要求:

  1. 计算机、电子或相关专业(本科/硕士/博士)
  2. 扎实的数据结构/算法基础
  3. 最好对NLP,Database,或者 Programming Language 的技术有一定背景
  4. 熟悉常见的机器学习,数据挖掘工具框架
  5. 良好的沟通与合作能力
  6. 熟练的编程能力,熟悉python,c#

工作时间要求

能获得导师许可并保证至少五个月的实习。

请务必下载并填写申请表(申请表链接:https://www.msra.cn/wp-content/uploads/2017/07/internship_application_form.xlsx)并将其与完整的中英文简历(PDF/Word/Txt/Html形式)一同发送至: MSRAih@microsoft.com,邮件标题中注明:数据、知识、智能组_数据质量研发实习生

要了解更多“明日之星实习生计划”,请访问:https://www.msra.cn/zh-cn/connections/academic-programs/tomorrowstars