新闻中心 - 微软亚洲研究院

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

编者按：随着人工智能技术的快速发展，数据可视化日渐高效、智能。但自动化生成的图表是否可靠，成为了亟待解决的问题。微软亚洲研究院提出了 VisEval 评估框架，为这一挑战提供了解决方案，并因此荣获全球可视化领域顶尖的学术会议 IEEE VIS 2024 的最佳论文奖。通过高质量的数据集和可靠的自动化评估方法，VisEval 为数据可视化的未来发展提供了坚实的基础，助力数据可视化技术向更智能、更便捷的方向发展。

发布时间：2024-10-15 类型：深度文章

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

编者按：人工智能基础模型正在加速科学发现的进程，尤其，经过多领域数据训练的基础模型，更能在跨领域的任务中展现出色的性能。微软研究院科学智能中心已利用基础模型打造了一系列强大的科学发现模型，包括：革新天气与污染预测的 Aurora 模型、专注于新材料发现与设计的 MatterGen、可预测新材料行为和属性的 MatterSim，以及可自动设计候选药物的 TamGen 模型等。基础模型的应用不仅提高了科学发现的效率，降低了成本，还极大地促进了科学研究的普及，让其触手可及。

发布时间：2024-10-11 类型：深度文章

ECCV上新 | 精选计算机视觉领域6篇前沿论文

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

发布时间：2024-10-09 类型：深度文章

Data Formulator：使用prompt就能轻松完成数据可视化

编者按：在使用 AI 驱动的数据可视化工具时，你是否遇到过这些难题？比如，当你想要设计图表时，需要一次性描述你的可视化需求，既冗杂又繁琐；再比如，当你想要更改图表设计时，又需要从头重新输入一遍你的文本提示，AI 可能还会出错。现在，微软雷德蒙研究院深度学习组推出了 Data Formulator 工具。结合图形化用户界面和自然语言输入，该工具可以更加智能地完成你的数据可视化需求，它不仅支持通过简便地拖拽来生成图表，还能自发生成原来没有的数据概念，而且，可以通过 prompt 轻松完成各阶段的图表迭代。

发布时间：2024-09-26 类型：深度文章

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

编者按：大语言模型在教育、医疗、金融等多领域的应用已展现出其不可忽视的价值。如何更好地结合外部数据，如何提升模型处理专业领域问题的可靠性，是大语言模型应用开发中值得不断思考的问题。针对此，微软亚洲研究院的研究员们提出了一种基于查询需求分层的 RAG 任务分类法，从显式事实、隐式事实、可解释的推理、隐式推理4个层级出发，直指大模型应用在不同认知处理阶段所面临的难点和定制化的解决手段。该研究可以使大模型更好地整合专有领域知识，保证其在特定领域中发挥最前沿的能力，在微软亚洲研究院与上海市精神卫生中心针对个性化认知训练展开的联合研究中发挥了关键作用。

发布时间：2024-09-24 类型：深度文章

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

编者按：每年的9月21日是“世界阿尔茨海默病日”，阿尔茨海默病作为最常见的认知障碍，一直以来都备受关注。研究证明，科学的认知训练可以起到对该疾病的预防和延缓。为此，微软亚洲研究院与上海市精神卫生中心携手展开联合研究，基于微软 Azure OpenAI 服务中的多模态大模型，开发了利用多种模态数据（如语音、文字、图片、音乐等信息）的个性化认知训练框架，为认知障碍患者的认知训练带来了新的可能。

发布时间：2024-09-21 类型：深度文章

金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

发布时间：2024-09-19 类型：深度文章

开源工具RD-Agent：让研究与开发过程更智能

编者按：研究与开发（R&D）是推动社会进步、经济增长和技术创新的核心动力。在人工智能时代，如何充分激发大语言模型的潜力，通过自动化手段提升研究与开发效率，实现跨领域知识迁移与创新，已成为 R&D 智能化转型的关键。为应对这一挑战，微软亚洲研究院推出了自动化研究与开发工具 RD-Agent，依托大语言模型的强大能力，开创了以人工智能驱动 R&D 流程自动化的新模式。RD-Agent 不仅提高了研发效率，还利用智能化的决策和反馈机制，为未来的跨领域创新与知识迁移提供了无限可能，赋能 R&D 迈向全新高度。

发布时间：2024-09-12 类型：深度文章

VALL-E 2，大幅提升语音大模型的稳健性与自然度

编者按：文本到语音合成（Text-to-Speech，TTS）是一种将书面文字转化为自然语音的技术，在提高无障碍性、增强跨语言交流等方面发挥着重要作用。微软亚洲研究院此前推出了第一个离散编码的语音大模型 VALL-E，并在此基础上通过重复感知采样和分组编码建模技术将其升级为 VALL-E 2 版本。新版本突破了语音稳健性、自然度和说话人相似度方面的界限，让零样本 TTS 性能在 LibriSpeech 和 VCTK 数据集上与人类水平相近。

发布时间：2024-09-10 类型：深度文章

跨越模态边界，探索原生多模态大语言模型

编者按：当前多模态模型大致分为两类，一类是专用多模态模型，如文本生成图像、文本生成视频等；另一类则是通用型多模态大语言模型，这类模型的目标是让人工智能具备自然语言理解和生成、图像识别，以及语音和视频的交互能力。近日，微软亚洲研究院又提供了一个新的选择——原生多模态大语言模型。它能够更深入地理解物理世界并执行多模态推理和跨模态迁移，其在不同模态的数据学习中还涌现出了新的能力。

发布时间：2024-09-03 类型：深度文章

关注微软亚洲研究院