守护人类健康：人工智能赋能医疗领域创新应用

2024-04-07 | 作者：微软亚洲研究院

编者按：每年的4月7日是世界卫生日，又称世界健康日，旨在引起世界各国人民对卫生、健康工作的关注，提高人们对卫生领域的素质和认识，强调健康对于劳动创造和幸福生活的重要性。那么，如果医疗技术能够更加智能，我们是否能够更早地发现健康隐患，更精准地进行疾病治疗？在世界卫生日到来之际，让我们一起通过微软亚洲研究院（上海）的几个合作研究项目，看看人工智能如何助力我们打造一个更加健康的未来。

常言道，“如果说人生是一场漫长的马拉松，那么健康将是决定跑道长度的关键因素。”健康是幸福生活和社会发展的基石。随着智能化时代的到来，人工智能技术在医疗健康领域的应用也日益广泛，成为了维护和促进人类健康的新工具。无论是辅助疾病的早期检测发现、病情发展预测，还是在个性化的精准医疗，以及推进医学研究和新药研发，人工智能都展现出了其独特的价值和潜力。

在过去的几年中，微软亚洲研究院持续与医疗机构和高校的专家密切合作，并且引进医疗健康领域的专业人才，希望推动人工智能技术在医疗健康领域的深入应用，促进构建健康的全球社会。

早发现、早治疗：人工智能辅助疾病检测与康复训练

疾病的早期诊断对于提高治疗效果和患者的生活质量至关重要，而康复训练则是许多疾病治疗过程中不可或缺的一环，对于恢复患者的各项功能具有重要作用。传统的诊断和康复方法往往受限于资源分配、地理位置和专业医护人员的稀缺性，在一定程度上限制了医疗服务的普及和效率。人工智能技术则能通过自动化和智能化的方法，辅助医护人员更早地识别疾病迹象，从而及时进行干预和治疗。

语音识别辅助腭裂患儿的语音恢复

腭裂和唇裂是口腔和颌面区最常见的先天性畸形，患者通常由于软腭（即腭咽功能不全）未能完全闭合，无法发出正常的声音，从而产生高鼻音。在与相关医疗机构的合作中，微软亚洲研究院的研究员们了解到，高鼻音的检测是腭裂患者治疗的关键因素。

（图片来源：Operation Smile）

在临床检查中，高鼻音通常由言语-语言病理学家做出评估，但是专业的病理学家数量有限，且只分布在个别医院中，这就需要患者进行长期的跨地区诊疗。漫长的诊疗周期和高昂的成本，让患者及家属苦不堪言。因此，一种自动化的高鼻音评估方法将不仅有助于病理学家做出精确判断，也能帮助患者实现远程诊疗，减少花销。

微软亚洲研究院利用迁移学习技术，开发了一种基于自动语音识别（ASR）模型来改进高鼻音评估的新方法。该模型能够有效提取声学特征，并且具有良好的泛化能力。在两个腭裂数据集上的实验结果表明，相比已有方法，这一模型取得了更优的性能，有助于提升病理学家诊断的准确率。

基于高鼻音评估的结果，医生将为患者定制个性化的语音训练方案。在这一环节，微软亚洲研究院进一步开发了一个掩码预训练发音评估（MPA）模型，该模型支持端到端的训练，适用于无监督和有监督的学习环境，便于用户远程部署。通过利用参考文本并结合掩码和预测策略进行预测，MPA 模型可以有效避免发音评估中的错位或误识别问题，为腭裂患者提供更精确的语音校正支持。

目前，微软亚洲研究院正与医疗机构合作，共同评估这一创新语音评估技术的应用可行性，希望这项技术能够帮助医生提高诊疗效率，降低患者的治疗成本，并让广大偏远地区的腭裂患者受益。

相关论文：

高鼻音检测：Improving Hypernasality Estimation with Automatic Speech Recognition in Cleft Palate Speech. INTERSPEECH 2022.

https://arxiv.org/pdf/2208.05122.pdf

语音评估：End-to-End Word-Level Pronunciation Assessment with MASK Pre-training. INTERSPEECH 2023.

https://arxiv.org/pdf/2306.02682.pdf

语音分析模型助力阿尔茨海默症筛查

阿尔茨海默症是一种普遍的神经退行性疾病，多见于老年人群，患者会逐渐出现包括记忆减退、语言障碍、认知功能退化、计算力损害等不可逆的认知损伤。尽管目前阿尔茨海默症尚无有效的治疗方法，但及早发现并及时干预对延缓病程发展十分关键。

（图片来源：pexels.com）

传统的诊断方法如脑部成像、血液检测和面对面的神经心理评估，周期长、成本高。有研究表明，阿尔茨海默症的早期阶段其实可以通过分析患者的口语来进行识别，如流利性失语，以及在词汇寻找和检索方面的困难。

正是基于这一发现，微软亚洲研究院开发了几种语音和语言分析技术，旨在从高级声学和语言特征中提取与阿尔茨海默症相关的线索，同时根据这些特征还推出了一种新的任务导向方法，将参与者的语言描述内容与认知任务之间的关系进行建模。

在自发语言识别（ADReSS）数据集的一个子任务中（“厨房偷吃饼干 Cookie Theft”的图片描述和转录文本实验，如图1所示），这些方法实现了91.4%的准确性。与传统只专注于语音或语义分析的模型不同，微软亚洲研究院创新地将语音与语义结合，极大地提升了病症检测的准确率。在未见过的测试集上，该模型也取得了较高的效率与性能，为阿尔茨海默症的广泛筛查提供了新的可行性。

图1：用于检测阿尔茨海默症描述性任务的 Cookie Theft 图像，由 DementiaBank Pitt Corpus, Becker 等人提出，1994年

相关论文：

Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection. ICASSP 2023.

https://arxiv.org/pdf/2303.08019.pdf

利用无监督方法检测自闭症谱系障碍患者的刻板行为

自闭症谱系障碍（ASD）大多起病于婴幼儿时期，其特征往往表现为社交和交流障碍以及刻板和重复性行为。其中刻板和重复性行为，如不断拍打地面、反复撞击头部或不断拍手等，是自闭症谱系障碍检测的重要线索。自闭症患者的康复机率与发现和干预的及时性密切相关，但单纯依靠专业医护人员长时间跟踪观察儿童行为的效率较低。因此，一种快速且自动化的刻板行为检测方法将具有重要价值。

（图片来源：unsplash.com）

现有方法大多利用计算机视觉技术，基于自闭症谱系障碍患者的视频录像数据，通过监督分类和活动识别技术来检测刻板行为。然而，刻板行为种类繁多，且视频录像数据因涉及隐私问题收集困难，限制了现有监督检测方法的可行性。

微软亚洲研究院与专业医疗机构合作，从新的方向入手解决挑战——利用无监督视频异常识别来检测刻板行为，并推出了一个基于人体姿势的时间轨迹和动作重复模式的双流深度模型 DS-SBD。该模型不仅可以在只包含正常行为的未标记视频中进行训练，而且还可以在推理过程中检测到未知类型的异常行为，比如识别出训练数据中未曾出现的转圈行为等。

图2：当出现刻板行为时（不正常的拍手），算法的预测概率显著升高

广泛的实验表明，DS-SBD 模型的无监督刻板行为检测方法，将分类准确性指标的微平均（micro-average）AUROC 从60.43%提高到了71.04%，宏平均（macro-average）AUROC 从56.45%提高到了73.39%，这不仅提升了对刻板行为检测的准确性，还进一步扩展了对更多种类刻板行为的识别能力。该方法超越了现有的 SOTA 方法，有望成为未来研究的潜在基准。不过，刻板行为检测只是自闭症诊断中的一环，自闭症谱系障碍的早期识别和干预，还需要更多跨领域合作和社会各界的共同努力。

相关论文：

Unsupervised Video Anomaly Detection for Stereotypical Behaviors in Autism. ICASSP 2023.

https://arxiv.org/pdf/2302.13748.pdf

基于脑电信号提升新生儿癫痫检测准确率

儿童癫痫是儿童（0～18岁）时期常见的一种病因复杂且反复发作的神经系统综合征。为了避免影响孩子们的成长发育，新生儿癫痫的早期检测十分重要。

（图片来源：unsplash.com）

癫痫发作是由脑部神经元“异常放电”所引起，所以脑电波检查对于诊断癫痫病有着决定性的作用。但由于新生儿大脑发育不完全、脑电数据噪声大且患儿个体差异明显，使得基于脑电波的新生儿癫痫检测成为世界级医学难题。

微软亚洲研究院与多家合作伙伴基于人工智能和脑电信号（EEG），提出了一个深度学习框架——时空 EEG 网络（STATENet）。该框架可以对脑信号进行精细化处理，灵活适应新生儿 EEG 通道数量的变化，以应对上述挑战。此外，研究员们还提出了一个模型级别的集成方法，通过动态聚合不同时空深度模型的结果，提高了 STATENet 模型在不同新生儿之间的泛化能力。

研究员们在包含了大规模真实世界新生儿 EEG 的数据集上进行了实验，结果表明，STATENet 模型显著提高了检测的准确性，AUPRC（精确率-召回率曲线下的面积）比现有的最先进的方法提升了超过30%，为医生诊断小儿癫痫提供了新的工具。

不仅如此，微软亚洲研究院还训练了首个跨数据集的脑电基础模型，可以对任何脑电数据进行分析，实现了“一对多”的脑电理解。基于该模型，研究员们还开发了 AI Neurologist 系统，可辅助临床和科研场景下的脑电信号分析工作，将医生的判断准确率由原来的75%提高至90%。目前，相关模型已在 GitHub 上开源，微软亚洲研究院欢迎全球的研究者共同参与，让相关技术在更广泛的医学领域发挥作用，为临床诊断与治疗带来新的突破。

图3：AI Neurologist 系统

相关论文：

新生儿癫痫检测论文：Protecting the Future: Neonatal Seizure Detection with Spatial-Temporal Modeling. IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2023.

https://arxiv.org/abs/2307.05382

脑电预训练模型论文：Learning Topology-Agnostic EEG Representations with Geometry-Aware Modeling

https://openreview.net/attachment?id=hiOUySN0ub&name=pdf

病程预测与个性化治疗：人工智能助力精准医疗有的放矢

精准医疗是未来医疗发展的重要方向，它以个体化差异为基础，为患者提供个性化的治疗方案。然而，由于疾病的复杂性与个体差异性，精准医疗的实现仍面临着诸多挑战。人工智能在数据处理、模式识别和预测分析方面的独特能力，让其在预测疾病风险和病程进展方面展现出了巨大的潜力。这种预测能力对于慢性病的管理尤为重要，可以帮助医生和患者更好地管理疾病，减少并发症的发生。

将图神经网络用于帕金森病程发展预测

帕金森病是一种常见于中老年人的神经系统退行性疾病，其病程进展通常不快，有些患者一年也不会有明显变化，甚至会出现好转，在合理的药物和理疗帮助下，可以保持良好的生理机能。但帕金森病的症状复杂多样，包括睡眠障碍、呼吸困难、面部肌肉失调以及步态不稳和震颤等，病程发展预测是帕金森病治疗中的一大难题。

（图片来源：pixabay.com）

对此，微软亚洲研究院的研究员们认为，有必要分析患者的多模态数据来提取相似特征，以提高病症发展预测的准确性。图神经网络（GNNs）就非常适合连接个体之间的关系——构建一个以患者为节点的图，并连接相似的患者，其中的相似性由患者的边缘特征决定。然而，选择这些边缘特征来定义患者相似性也具有一定的挑战，因为其非常依赖于人类专家和先验知识。

针对这些问题，微软亚洲研究院与医疗机构合作，在数据预处理、算法构建、模型设计和可解释性等方面进行了密切交流，并基于专业医护人员的建议，提出了一种新算法——AdaMedGraph。该算法可以自动选择重要特征来构建多个患者的相似性图，并与先验知识兼容，将人类专家构建的图纳入最终的集成模型。因为能够将个体间的信息与个体内的特征统一在一个模型中，AdaMedGraph 最大限度地减轻了图构建方面的负担。

在帕金森病进展标志物倡议（PPMI）（Marek等，2018年）和帕金森病生物标志物计划（PDBP）两个公开数据集上，AdaMedGraph 在预测24个月帕金森病病情发展方面，与其他基准模型相比，在所有指标上都获得了更高的准确性，为后续的个性化精准治疗提供了切入点。

此外，AdaMedGraph 模型还具有较强的泛化能力，在预测代谢综合征的发生上也表现出色。在测试数据集上的 AUROC 达到了0.675，进一步证明了将患者内部数据和患者之间的数据都纳入个体疾病发展预测的有效性，为未来的医学研究提供了新的思路和方法。

相关论文：

AdaMedGraph: Adaboosting Graph Neural Networks for Personalized Medicine

https://arxiv.org/abs/2311.14304

加强跨领域合作，释放人工智能价值

微软亚洲研究院的探索不仅限于疾病检测和病程预测。通过与医学界的广泛合作，微软亚洲研究院也在深入挖掘人工智能在药物研发和医学研究领域的巨大潜力，比如将前沿技术应用于人工视网膜构建、药物成瘾分析、癌症治疗、人体代谢探究，等等。

人工智能技术的成熟和进步使其在实际应用中的潜力逐渐显现，但要充分释放人工智能在各行各业的价值，跨学科与跨领域的合作变得至关重要。“得益于与医疗机构和医学研究机构的医学专家的跨界合作，微软亚洲研究院才能顺利开展诸多涉及医疗健康领域的研究项目，持续探索将人工智能技术应用于疾病检测、康复训练和病程预测等医疗领域的关键环节，这是团队共同努力的成果。我们也欢迎更多对跨领域研究感兴趣的优秀人才的加入，共同为守护人类健康和推动医学进步贡献力量。”微软亚洲研究院副院长邱锂力表示。

欢迎加入微软亚洲研究院：https://www.msra.cn/zh-cn/jobs

注：本文所述的微软亚洲研究院在医疗健康领域的研究均为科研探索性质，且均在专业医疗和医学研究机构的合作指导下进行，旨在推动科学进步并为人类未来的医疗健康应用提供理论和技术支持。所有研究均严格遵守微软负责任的 AI 流程的指导，并遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则。文中所提及的技术和方法目前均处于研究和开发阶段，尚未形成商业产品或服务，也不构成任何医疗建议或治疗方案。我们鼓励读者在面对健康问题时咨询合格的医疗专业人士。