对话Peter Lee:大模型在医疗健康领域应用的机遇与挑战

2023-04-13 | 作者:微软亚洲研究院

编者按:今年3月,OpenAI 推出了大语言人工智能模型 GPT-4,其在推理、解决问题和语言等方面的能力都有了显著提高,使得发展长达数十年的人工智能进入了一个新阶段。微软全球资深副总裁、微软研究院负责人 Peter Lee 是微软内部最早使用 GPT-4 进行评估和实验的成员之一。近期在微软研究院最新的 AI 前沿系列播客节目中,Peter Lee 与微软研究院副总裁、微软杰出首席科学家 Ashley Llorens 进行了一次深度对话,表达了他对于大模型在医疗健康领域应用潜力和挑战的看法,以及在大模型潮流的引领下,微软研究院对未来计算的研究规划。本文节选了对话中的部分内容,完整版请点击播客收听。


点击收听对话播客

Ashley Llorens:通过科学研究为社会创造更多机遇和价值,带给整个社会更有意义的影响是我们共同的目标。你一直关注情境研究(research in context),在 GPT-4 等大模型引领人工智能潮流的当下,你有何新的看法?

Peter Lee:情境研究是一个非常重要的课题。试想一下,你知道未来某个时刻世界的样子,然后再倒推回今天的工作会是怎样的?举个例子,科学家们相信10年之后我们将在很大程度上解决癌症问题,但随着人口老龄化加剧,未来与年龄相关的神经系统疾病将大大增加。如果我们现在就可以意识到神经系统疾病在未来的重要性,并增加投入,那么这将使未来的世界与我们今天的处境截然不同。然而如今的医学研究更聚焦于癌症研究,而非神经系统疾病。

这种变化意味着什么,是否在指导我们的科研方向?当然科学研究仍是未来导向的,但它既要展望未来十年,也要着眼现实世界,也就是情境研究。现在看来,通用人工智能超越人类智能可能是不可避免的,甚至在未来5-10年就会发生。那这对科研会有什么影响?它可能比癌症和神经系统疾病更具颠覆性和挑战性,影响也更深远。

之前我已经经历过五次类似的技术变革。第一次是上世纪80年代后期,我在卡内基梅隆大学担任助理教授,当时许多顶尖大学计算机科学系都在 3D 计算机图形学领域做出了优秀的研究成果,像光线追踪(ray tracing)、辐射度(radiosity)、硅结构(silicon architectures)这些想法都是在那时提出的。还有 SIGGRAPH 大会,当时每年都会吸引全球数百名科研人员展示各自的成果。到了90年代初,有些初创公司开始采用这些创新想法,试图将 3D 计算机图形变为现实,这其中的一家就是英伟达(NVIDIA)。最终, 3D 计算机图形学成为了人们生活的基础设施,这是基础计算机科学研究取得的一次巨大成功,以至于今天你的口袋中如果没带“GPU”,没带手机,整个人都会感到不舒服。这种变革,对研究产生积极影响的同时,也具有颠覆性。

当某些领域扩展为人类社会的基础设施时,就脱离了基础研究的范畴,同样的情况还包括编译器设计(这是我自己的研究领域)、无线网络、超文本和超链接文档、以及操作系统等研究。现在它们已经成为我们生活中不可或缺的东西,都代表着计算机科学的伟大成就。而今天,我们正处于向大语言模型的过渡阶段中。

Ashley Llorens:你认为这次技术过渡是否在本质上与其他后台(background)技术有所不同?你提到我们每天出门时口袋里都装着“GPU”,但我不是这样想的,或许我对我的手机有某种拟人化的想法。但可以肯定的是,语言模型是一种具有前台效应(foreground effect)的技术,我想知道,你在其中是否看到了不同之处?

Peter Lee:我认为,对研究机构、学术界、领域内的研究人员来说没有什么不同,但对于技术的消费者和使用者,感受却有很大不同。相比同样从学术研究走入现实的触控可扩缩放的用户体验,大语言模型的影响可能会更深远。

这又带来一个大问题,当我们与大语言模型交互时,即使知道它不是有感情、有情绪、有知觉的生物,但又不由自主地这么想,这是进化中的固有思想。就像我们产生视觉幻像时,理智上深知这是幻觉,但大脑却无法克服,这种硬性连接引导我们将系统拟人化,也因此让它们走到了前台。

Ashley Llorens:接下来我们把话题转向目前你正在努力的医疗健康领域以及在微软的历程。你曾说过把前沿的人工智能技术引入医疗健康系统面临诸多挑战,在 GPT-4 和大规模人工智能模型发展的背景下,人工智能与医疗健康结合时是否会有不同?

Peter Lee:GPT-4 是否真的会给医疗健康领域带来新的不同还需要检验。因为我们曾经也对计算机技术帮助医疗健康领域或促进医学进步持乐观态度,但却一次次失望。这些挑战可能源于过度乐观。

作为计算机科研人员,我们看到了医疗领域的一些问题,例如对读取放射图像和测量肿瘤生长的研究,或对鉴别诊断选项或治疗选项排序问题的研究,我们认为自己知道如何用计算机科学解决这些问题。而医学界也在关注着计算机科学研究和技术的发展,他们对人工智能、机器学习和云计算印象深刻。因此,来自两个领域的这种难以置信的乐观情绪,最终变成了过度乐观。因为将计算机技术整合到医疗健康和医学工作流程中的实际挑战,是要确保它的安全性,并且真正发挥计算机技术的最大能力,但这是非常困难的。

另外,在医学实际应用中,诊断和治疗过程都发生在不稳定的环境中,这就导致在机器学习的环境中涉及很多混杂因素。由于医学是建立在对因果关系的精确理解和推理之上的,所以这些混杂因素至关重要,但现在机器学习里最好的工具本质上是相关性的机器(correlation machines)。相关性和因果关系是不同的,例如,吸烟是否会致癌,考虑到混杂因素的影响并了解其中存在的因果关系是非常重要的。

谈到 GPT-4 ,我第一次见到它时,是 OpenAI 的人员演示代号为 Davinci 3 的 GPT-4 早期版本,并让它回答 AP Biology(大学进阶生物学)的问题。在这次考试中,我认为它得了最高分5分。AP Biology 的试题通常是选择题,但该系统却能够使用自然语言对其选择的答案做出解释,让我吃惊的是,它在解释中使用了“因为”这个词。

例如,它会说“我认为答案是 C。因为当你从这个角度看问题时,会引发其他生物学问题,因此我们可以排除答案 A、B 和 E,然后又因为其他因素,排除答案 D,所有的原因和结果都是一致的。”我们都不清楚为什么一个大语言模型会具有因果分析能力。

这只是 GPT-4 百分之一的能力,它似乎克服了一些阻碍机器智能融入医疗健康和医学中的因素,例如推理、解释能力。再加上 GPT-4 的泛化能力,这似乎让我们对其在医学领域的作用更乐观,认为它有可能带来不同的未来。

另一方面,我们不必完全专注于临床应用。GPT-4 很擅长填写表格,减轻文本工作的负担,它知道如何申请医保报销的事先授权,这是医生目前主要的行政和文本负担。相关工作并没有真正影响到攸关生死的诊断或治疗的决定,但这些后台功能同样也是微软的重要业务。有很多理由可以让我们相信,与 OpenAI 的合作能够带来颠覆性的改变。

Ashley Llorens:每一项新技术的出现都会伴随着相关的机遇和风险。这种新型的人工智能模型和系统有着根本的不同,因为它们不是学习特定功能的映射。但在各种各样的应用中,即使是这样的机器学习也有很多悬而未决的问题。你如何看待这种通用技术在医疗健康等领域所带来的机遇和风险?

Peter Lee:我认为有一件事引起了大量社交媒体和公共媒体不必要的关注,那就是系统出现幻觉(hallucination)或者脱轨的时候。这是 GPT-4 和其他类似系统有时会遇到的问题,比如它们会编造一些信息。过去几个月,随着 GPT-4 的稳步发展,它产生的幻觉越来越少。我们也了解到,这种倾向似乎与 GPT-4 的创造力有关,它能做出明智的、有根据的猜测,能进行智能的推测。

这是第一个你可以问它没有任何已知答案的问题的人工智能系统。而问题是,我们能完全相信它所给出的答案吗?GPT-4 具有局限性,尤其在数学问题中。它很擅长解基本的微分方程和微积分,但在统计中却会犯基础性错误。我在哈佛医学院的同事就遇到过一个问题,在一个标准皮尔逊相关的数学问题上,它似乎总忘记对一个数据项进行平方。有趣的是,当你向 GPT-4 指出错误时,它的第一回答是,“不,我没犯错,是你错了。”随着系统的改进,现在这种指责用户犯错误的行为不会再发生了。

另外一个更大的问题与“负责任的人工智能”有关,这一直是整个计算机科学领域的重要研究课题,但我想这个词现在有可能不再合适了,我们可以称之为“社会性的人工智能(societal AI)”或其他的术语。它不是正确与错误的问题,也不仅仅是它会被误用而产生有害的信息,而是在监管层面的更大的问题,还有在社会层面的工作流失,新的数字鸿沟,以及富人和穷人获得这些工具的权利。这些亟待解决的问题也会直接影响着它在医疗健康领域的应用。

Ashley Llorens:信任问题是多方面的,既包括在机构层面,也包括做出决策的个人。他们需要作出艰难的抉择,比如,在工作流程中,何时何地以及是否使用人工智能技术。你如何看待医疗健康专业人员做出此类决定?在将这些决策付诸应用时,存在哪些障碍?努力的方向又是什么?

Peter Lee:关于 GPT-4 及同类技术应该在多大程度上应用,以及如何监管,有着很多讨论。美国有一个监管机构是食品和药物管理局(FDA),他们有权监管医疗设备。有一类医疗设备叫做软件即医疗设备(software as a medical device,SaMD),在过去四五年中大家讨论最多的是如何监管基于机器学习或人工智能的 SaMD。渐渐地,FDA 越来越多地批准使用机器学习的医疗设备。在我看来,FDA 和美国已经趋近于拥有真正公平的基础框架,来验证基于机器学习的医疗设备在临床的用途。但这些新兴框架不适用于 GPT-4,也就意味着用这些方法对 GPT-4 进行临床验证没有意义。

你的第一个问题是,这件事应该被监管吗?如果要监管,应该怎么做?这相当于把医生的大脑放在一个盒子里。假设,有一位伟大的脊柱外科医生,如果把他的大脑放在一个盒子里,请你验证这个东西,你会怎么想?什么样的框架适用于它?监管机构可能会做出反应并实施一些规则,但我认为这将是错误的,至少在目前,实施的规则应该是针对人的,而不是机器。

现在的问题是医生和护士、接待员和保险理赔员,以及所有相关人员,他们的指导方针是什么。这些决定不是监管机构的事情,而是医学界本身应该对这些指导方针和规则的制定负责,甚至通过医疗许可和其他认证来强制执行。这就是我们今天所处的位置,人类要自我负责,自我监管和规范自己的行为。

Ashley Llorens:围绕测试和评估,以及相关的许可问题进行研究,也和创建模型本身一样有意思。

Peter Lee:在这里,我想借机赞扬一下 OpenAI 团队的成员。我们在微软研究院的同事非常幸运,可以提前了解新技术对人类发展关键领域的影响,如健康和医学、教育等。OpenAI 团队看到了这样做的必要性,他们与微软研究院进行了深入地探讨,给了我们很大的自由度,让我们尽可能诚实且不加修饰地深入探索 GPT-4。这很重要,当我们与世界分享这些探索时,就能对它更加了解,能辩证地讨论。我们需要研究、考虑,以辩证的思想去看待它,而不是过度反应。

Ashley Llorens:就你的观点而言,所有围绕各种社会重要性框架的思考都在试图追赶上一代技术,还没有完全瞄准这些新技术。在这种情况下,你认为计算机研究的下一步是什么?

Peter Lee:我们是让技术从研究到成为生活中真正的基础设施这之间的纽带。微软研究院处于一个非常有趣的位置,既是研究的贡献者,让 OpenAI 正在做的事情成为可能,也是微软公司的一部分,希望与 OpenAI 一起让技术成为每一个人生活中的基础设施。作为变革的一部分,微软研究院已经确定了五个人工智能方向。

第一个是我们讨论的人工智能在社会中的作用和影响,包括负责任的人工智能等。其次,微软研究院的同事一直在推动 AGI(通用人工智能)运作的理论基础。计算机科学理论一直是机器学习中重要的主线。这种研究风格越来越适用于理解大语言模型的基本功能、边界和趋势。即便你不再需要获得那些理解困难的数学定理,但它仍然是数学导向的,就像宇宙和大爆炸的物理学原理一样,AGI 的原理也是如此。

第三方面是应用层面的。在微软研究院内部,我们称它为副驾驶(copilot)。我们期望让它成为你的伙伴,辅助你高效、高质地完成任务。

再有就是 AI4Science,我们在这方面做了很多工作,同时越来越多的证据表明,大型人工智能系统可以提供更新的方法,促进物理学、天文学、化学、生物学等方面的科学发现。

最后是核心的基础,我们称之为模型创新。不久之前我们发布了新的模型架构 KOSMOS,用于进行多模态机器学习以及分类和识别交互。我们还创新提出了 VALL-E,基于三秒钟的语音样本就能够确定你的语音模型并复刻语音。未来,这些模型创新还将继续发生。

从长远来看,如果微软、OpenAI 等公司获得成功,那么大模型将会真正成为生活基础设施工业化的一部分。我预计,大语言模型的研究将在未来十年开始消退,但是,全新的视野将会开启,这是在我们在网络安全、隐私和安全、物理科学等方面所做的所有其他事情之上的。可以肯定的是,现在人工智能正处于一个特殊时期,尤其是在以上这五个维度上。

标签