防护传染病,人工智能在路上

2020-07-17 | 作者:微软亚洲研究院

编者按:在2020世界人工智能大会“人工智能予力永续未来”微软论坛上,国内外专家、学者和业界精英激荡思想,共同探讨了人工智能在可持续发展上的可能性。其中,医疗领域的可持续发展备受关注。医渡云合伙人、首席执行官张实在与微软亚洲研究院副院长潘天佑博士的讨论中分享了医渡云在 AI+医疗方面的观察以及对抗新冠疫情方面的努力。同时,微软医疗部门高级总监 Ethan Jackson 博士、微软亚洲研究院资深项目经理戴蓓洁和微软亚洲研究院副院长张益肇博士也分享了微软利用人工智能在传染病防护中所做的研究。


专题讨论:新冠疫情世界里的人工智能

潘天佑:医渡云是一家医疗领域的新创企业,请您谈一谈医渡云设立的理念?以及在这些人工智能公司里面,医渡云的特色和理想是什么?

张实:我加入医渡云团队是在2017年,这个团队那时候已经成立了将近5年时间。我第一次见到公司创始人宫如璟女士的时候,就问她为什么要建立这么一家公司。她当时跟我说,到2035年中国的老年人口会到达4个亿,那时候的医疗资源会非常紧张,包括医疗技术和未来人们的生活质量都会受到巨大的挑战。医渡云最大的特色就是跨界,我们把人工智能、大数据和医疗的本质真正地结合起来。目前,我们差不多建立了3000多个疾病模型,有1万多个数据质控的医疗逻辑标准,还有将近100多万个知识库,我们沉淀了很多知识给到计算机。

潘天佑:医渡云本身是跨领域的,所以请您就自身的经验分享一下,医疗和计算机跨领域为什么这么重要,又为什么这么困难?医渡云是怎么做的?

张实:先说一下困难,医渡云创立至今其实就是在不断地克服困难,比如数据的“脏乱差”。一家医院可能信息系统有200多个,数据是存在不同的系统里的,怎么能打破数据孤岛,把数据整合在一起,这首先是信息化需要面对的。第二,这些数据整合在一起以后,我们还要面对信息错误的问题。人在录入数据的时候会犯错误,但这些错误靠人是检查不过来的。所以我们会去建立一些医疗逻辑去检查这些数据。第三,会更加专业,比如二型糖尿病,这个疾病可能会有300多种表述方法,比如2型糖尿病、乙型糖尿病等。我们怎么把不同的说法全部归结于一个标准的字段,这也是机器要做的事情。

把这些所有的坑坑坎坎都填平了之后,我们再回归到真实世界的研究,看一下数据到底能帮医学做什么,比如,可以更快地入组患者,能够更大幅度降低药物临床实验的时间和降低成本。现在癌症成为了人类第二大杀手,肿瘤之所以可怕是因为它给人类的时间很短,去治愈一个肺癌晚期病人现在基本上是不可能的,在这么短的时间之内,我们是不是有大量的新药可以给到病患,给他们继续生存的希望,这都是我们人类面对的共同挑战。

医渡云合伙人、首席执行官张实

潘天佑:您一定跟医院打了非常多的交道,医生或者医疗专家对人工智能或IT的理解有限,您有没有觉得跟他们合作的时候会有一些困难?有什么方法能够让他们从 IT 的角度了解到我们这样做更适合?

张实:我觉得医生的领域就是对医疗本身,对整个疾病和治疗方法的认知,其实只需要专注在他的领域里。他们一开始对人工智能的认知只是好奇,但是当你在方法上真正能帮到他们的时候,他们就会相信你。我一直都在讲,我们不能替代医生,但是我们可以提供更好的方法和手段去帮助他们更好地理解病人,理解疾病和理解治病的标准。

潘天佑:这次在新冠肺炎疫情中,尤其是在中国,你看到人工智能发挥了哪些效果?另外就是在这次新冠肺炎疫情里面,我们学到了什么?下一次如果不幸又有了类似疫情的时候,我们能够怎么样让人工智能为人类做更好的防护?

张实:我觉得这次大数据、人工智能都帮到了新冠疫情的控制和治疗。首先医渡云做了几件事情,我们通过真实世界的数据帮助了很多城市的政府理解疫情将来会怎么样影响生活、经济,做了一些预测模型和一些现状的分析,也给政府提供了一些有效的手段去预测和预判它。第一,我们在帮国家疾控中心做全球疫情的分析;第二,我们也帮助武汉做了整个大数据的整合,包括密切接触者的追踪,帮助政府更好地去控制疫情;第三,我们也做了一个新冠肺炎的疾病专病库,帮助医生去更好地认知这个疾病,去了解疾病的指征,制定更有效的治疗方法。这三块都是医渡云致力于在做的。

如果再有疫情我们能学到什么?我觉得我们应该学到怎么样从信息化变到人工智能。信息化是机器在跑,人做决策,怎么样在人累了的时候,可以让机器来学习和分析。举个例子,这次有信息化系统、直报系统、大疫情网,但是这些所面对的是过往的疾病,面对未知的疾病,我们要怎么样去预防它?比如小两口住在汉口老两口住在宜昌,小两口去老两口家里面吃饭,老两口把小两口传染上了,结果他们去不同的医院就诊,在数据上其实是看不到他们之间的关系,所以也没有办法很快速地判定到底是不是人传人。因此,这次我们要学到的是如何让数据说话?如何变主动上报为主动抽取、主动分析。原来都是依靠医生作为吹哨人,今天能不能让系统变成吹哨人?这是我们现在所面临的最大的困扰。

医渡云致力秒级发现、分钟预警、小时阻断,这是我们的理想。我们要靠系统、靠机器、靠人工智能,而靠人有时候其实是很难的。

潘天佑:数据的采集、交流对未来防疫会有非常重大的影响。但这是一个很难的问题。请分享一下,在您的经验里,数据分享为什么这么重要?为什么这么难?而我们又能够怎么样去改善这个问题呢?

张实:我们做数据的希望数据可以说话,但是我们遇到的最大困难就是数据安全。因为在整个医疗领域里,数据安全其实比什么都重要,因为它太隐私了。我们呼吁国家可以尽快建立数据安全法,这对整个医疗领域是从量变到质变的。现在我们所面对的很多数据其实都是杂乱无章、散布在各个地方。我们知道很多技术是可以帮到杂乱无章的数据的,现在国家也已经意识到这个问题了,也在努力地快速出台一些相关法律法规。这对整个行业来说都是非常好的。我觉得作为企业,我们有这个责任,我们也承担着任务来建议和帮助国家能够快速地把这些条例、法规制定出来。

潘天佑:有很多人担心信息安全,都认为维护信息安全的方法就是把信息藏起来,不要让它流通,但这是一个很大的谬误,我们把信息藏起来不让它流通,这个信息是没有用的,我觉得更重要的是把信息安全做好,然后让信息能够流通起来,能够使用起来,但是被使用的非常安全。

专题演讲:人工智能在传染病防护中的作用

微软 Premonition 项目

Ethan Jackson 博士:地球的生物群落影响着每个人、整个社会和经济的健康发展,无脊椎动物、微生物和病毒占据了地球生物的大部分。如果可以像监测天气一样监测地球上的生物群落,也许就能够在疾病大流行之前发现新的病原体并找到应对方法,也将能够在入侵物种危害农业和生态系统之前识别并控制它们。目前人类仍然无法像监测天气一样监测生物群落,因为对现代传感器网络来说,绝大部分生物是不可见的——以细菌和病毒为代表的就有数千万乃至数十亿个物种,它们的尺寸在几纳米至几微米之间。识别和监测这些物种,是通过其遗传密码来实现的。

微软医疗部门高级总监 Ethan Jackson

微软 Premonition 项目是以可扩展的方式对生物群落进行追踪,提供有关小型和微观生物的分布和演进的实时信息。为了达成目标,微软开发了两项核心技术。一个是节肢动物智能陷阱,它们组成了传感器网络的节点;另一个是云规模宏基因组学,对物种样本(例如节肢动物)和其他环境样本进行计算扫描,从而发现已知及新生的微生物和动物。

在智能陷阱技术里,机器人平台网络不断监测陆地节肢动物,并产生实时物联网数据。高优先级的样本会被送回到网络的躯干中,在这里对它们进行测序,然后进行宏基因组分析,以确定已知和新生的威胁。由于系统可以将生物特征数据与单个样本进行配对,所以就能够快速建立精确的分类器。在2016年德克萨斯州休斯敦的实验中,那时也是寨卡病毒最高风险期间,这些设备从数百个带有标签的样本中区分出了传播寨卡病毒的品种与传播西尼罗河病毒的品种,准确度达到90%。

第一代智能陷阱设备原理

在宏基因组分析中,系统将捕获到的 DNA 进行测序,之后通过贝叶斯混合模型找出统计学上最有可能的解释。最终结果是一个概率模型,它将数千亿个 DNA 片段组织成一个统计模型,可以由人和机器进行验证。

云规模宏基因组分析技术

截至目前微软 Premonition 项目已经分析了80万亿个环境核酸碱基对。它们不仅局限于蚊子,还包括虱子等节肢动物,以及其他人类疾病宿主,如啮齿类动物和非人灵长类动物等。该项目的核心参考数据库里包含着3万亿个碱基对,需要云规模的 AI 才能正确加以利用,让人们能够海底捞针。

COVID Insights 新冠数据分析网站

微软亚洲研究院资深项目经理戴蓓洁

戴蓓洁:突如其来的新冠疫情给我们的生活和工作都带来了极为严峻的考验。每天大家都能从各种渠道接收到大量的资讯。我们希望能基于计算机技术,帮助大家透过数字的表面,得到更深层、更精炼的信息作为参考。

今年4月,微软亚洲研究院上线了基于公开数据的新冠数据分析网站 COVID Insights。我们基于在计算生物学、机器学习、数据分析等领域的专业知识和研究经验,利用先进的技术挖掘疫情数据背后隐藏的规律和洞察。网站主要从流行病学、病毒学和研究趋势三大方面,以可视化和互动的方式展现关键传播参数对病毒传播的影响、疫情在不同国家和地区的传播特性、病毒学分析结果,以及全球最新的研究热点。

COVID Insights新冠数据分析网站

为了帮助大家对新型冠状病毒有更多了解,基于我们开发的蛋白质结构预测算法,我们将其三维结构可视化。同时,我们还对已知的病毒基因组序列进行了突变分析和可视化。

为了让大家了解疫情在全球各地目前发展到什么阶段,我们提供了一个目前国际比较关注的,用来衡量感染率的关键指标,叫做有效再生数值。我们对不同区域的有效再生数值进行可视化。通过热力图,大家可以了解疫情在不同区域的严重程度和变化趋势。

同时,我们基于深度学习的时间序列预测算法,自动发现具有类似疫情发展趋势的区域。例如,通过分析我们发现巴西从5月22日到6月6日的数据趋势曲线与西班牙从4月10日到4月17日的数据趋势曲线很相近。因此西班牙开展的各项疾控措施对6月的巴西来说就可能具有更为精准的借鉴作用。

感染趋势分析

作为决策者,你可能也想知道,不同级别的防控措施,对控制疫情发展又会有多大的作用呢?我们开发了一个沙箱模拟器来为大家模拟不同干预措施的结果。在现有流行病学模型的基础上,通过设置不同的环境和模型参数,以及干预强度,我们可以在一个虚拟区域内看到模拟感染数据的变化趋势。这对决策者在现实世界中如何采取行动应对疫情可能有所帮助。

传播与干预模型

我们还总结了感染背后的高危行为,包括与患者接触、人群聚集、出行等,并对其在不同区域的分布进行了可视化。对于高风险活动的归因分析,尤其是不同地区的归因差异,可以为我们预防感染提供个性化的参考。

高危行为分析

COVID Insights 网站还对新冠相关的研究进展进行了可视化。我们使用 LightLDA 主题模型来挖掘研究趋势,并在每个主题下展示引用次数最多的论文,以帮助大家了解该领域的最新科学进展。网站还能够结合关注度,权威性及热点话题等因素,为大家推荐优质论文。希望这些跨学科研究趋势的呈现可以为大家带来更多启示。

人工智能辅助疟疾和真菌感染诊断

微软亚洲研究院副院长张益肇

张益肇:尽管医学在进步,全球每年仍有超过60万人死于疟疾。为了减轻疟疾对人类的影响,微软与盖茨基金会以及 Intellectual Ventures 合作设计了 Autoscope 设备。只需在一个玻璃膜片滴上血液,做成膜片之后送进这个设备,它会就自动地针对每个红血球来聚焦、拍摄进入电脑,让电脑来帮助判断病人的情况。

Autoscope 设备

疟疾的诊疗过程十分繁琐。首先,在诊断的时候需要透过判断红血球来知道这个病人是否患有疟疾。在治疗过程当中,通常一个疗程需要几个星期,在这段时间内还需要持续观察病人的血液里红血球被疟疾侵入的密度是否下降,这是一个非常繁琐的工作。微软和盖茨基金会以及 Intellectual Ventures 合作,用深度学习训练出人工智能的模型,通过 Autoscope 设备分别自动判断红血球有没有被疟疾侵入。目前该技术已经可以达到和人类一样的水平,这个系统也开始在一些国家试用,来帮助疟疾的诊疗。

人工智能自动判断红血球是否被疟疾侵入

真菌感染是医疗领域另一个值得关注的问题,每年有超过150万人在全球死于真菌感染。微软亚洲研究院联手协和医院及辉瑞,用人工智能来帮助更好地辨别不同真菌感染的项目。

这个项目希望通过人工智能和深度学习的方法,可以训练出根据图片分类出不同真菌的分类器。我们也在做一个云上的系统,可以通过手机将真菌图片传上云端,在云上面用人工智能来做判断,找出真菌种类,找到相关真菌的图片和档案,同时又找到相关例子的治疗疗程。借助这个方法,检验科的医生能够更好地做出诊断和治疗的决策。

人工智能自动识别真菌感染的云端系统