大模型时代，如何评估人工智能与人类智能？

2023-09-11 | 作者：微软亚洲研究院

编者按：大模型时代的到来，使得人工智能成为了真正影响人类社会的重要技术之一，如何打造“负责任的人工智能”的问题正变得愈发迫切和关键。一直以来，微软始终致力于依照以人为本的伦理原则推进人工智能的发展，微软亚洲研究院也将“社会责任人工智能（Societal AI）”作为一个重要的研究方向。

2023年，微软亚洲研究院特别组织了“社会责任人工智能（Societal AI）”系列研讨会，为计算机领域的科研人员与社会科学领域的专家学者提供了一个深入探讨跨学科前沿问题的平台，助力塑造人工智能与人类社会和谐共处的未来。系列研讨会包括法律与伦理、心理学和社会学三大主题讨论。今天是社会责任人工智能（Societal AI）系列研讨会内容梳理的第二期，为大家带来的是各界学者对人工智能与心理学及教育学相关的思考和讨论。

随着人工智能（AI）应用的不断落地，AI 之于人类的角色也在悄然改变。人们对于人工智能的期待和看法，从完成特定任务的机器转向了真正的智能伙伴。然而，这些新伙伴所具有的复杂性和未知性却是人们前所未见的，因此大模型的测评工作成为了当下亟待解决的关键问题。人类若要深入地理解这些复杂且高度智能的模型，就需要心理学及教育学等涉及认知能力内在的研究领域与计算机科学合力探索。

在心理测量领域，研究者们已将对人类能力的深刻理解和洞察进行了汇集，并提供了丰富的理论模型以及对其进行有效测评的方法，这些都能够为人工智能的评估和进一步发展提供启示。近期，在北京师范大学心理学部骆方教授的大力支持与协助下，微软亚洲研究院举办了“社会责任人工智能（Societal AI）”系列研讨会的心理与教育专题讨论。研讨会上，来自心理测量领域、教育领域以及计算机领域的顶尖专家们共同探讨了心理测量技术应用与人工智能测评的可行性、大模型如何赋能心理测评，并展望了人工智能辅助下的未来教育。

微软亚洲研究院“社会责任人工智能”系列研讨会心理与教育专题讨论参会嘉宾

人类及大模型的能力评估：汇聚与整合

目前，人工智能领域的传统评估对象是为特定任务设计和构建的 AI 模型，如机器翻译模型等，模型评估即评估这些 AI 模型在这一特定任务上的表现。然而，新一代的人工智能并不是为了执行某一个特定任务而设计的，它们能够广泛地模拟人类智慧，胜任多样化的任务，比如 ChatGPT。因此，基于单一任务表现的传统评估方式不再适用于新一代人工智能模型。

面对这样的现状，来自瓦伦西亚理工大学的 José Hernández-Orallo 教授判断，已有的评估方法“任务导向的评估”（task-oriented evaluation），现在需要转向“能力导向的评估”（capability-oriented evaluation），把评估的重点从衡量某项特定任务的表现，转向这些表现背后的思维能力。

尽管对于大模型而言，能力测评是一个全新的议题，但对于人类的能力测评却有着悠久的历史。心理测量学认为人类所具有的某种潜在特质会导致一系列典型行为，测量这些典型行为的目的便是获取对能力的估计，而能力又可以进一步预测在更多相关行为上的表现。因此，心理测量领域的研究者们多年来以人类为研究对象，研究如何量化人类的不可见心理特质，如思维能力，并将它们与可观察的行为表现进行关联。José Hernández-Orallo 教授认为，为了实现对大模型能力的准确评估，人工智能领域的科研人员需要做好进行“范式转变”的准备，把心理测量方法融入到 AI 评估中。

然而，在将基于人类智能所构建的心理测评方法应用于大模型的能力时，必须要十分审慎。José Hernández-Orallo 教授指出，“心理测量学的方法和技术需要根据 AI 的特点进行有针对性的调整，相关结果的意义和解读可能也需要重新思考”。来自卑尔根大学的 Marija Slavkovik 教授也认为，人工智能并不是完全模仿人类智能，所以计算机完成任务所采用的是与人类不同的方式。

奥本大学的范津砚教授提到，相比于能否将心理测验应用于测评大模型这一问题本身，观念和思维方式的转变更为重要，通过心理测评的视角去探索全新的人工智能测评道路是十分有意义的。而这要求计算机科学和心理学的科研人员要共同探索适用于 AI 能力测评的新范式，不断地去发现和解决那些前所未有的新问题。

此外，圣加仑大学的 Clemens Stachl 教授还指出，之前已有的测验很可能已经出现在了大模型的训练数据中，因此研究者应该关注大模型在那些全新测验上的表现，即考察大模型是否具备应对和解决新问题的能力。

大模型辅助下的未来教育及测评

在心理测量领域既有的知识经验不断为人工智能领域带来深远影响的同时，新兴的人工智能技术也给测量领域带来了新的思路和启示。

传统心理测量学更多采用的是自上而下的思路——基于理论构建某种比较简单的统计模型，然后获取结构化的数据，以验证模型的有效性。而在人工智能技术充分发展的当下，各种在线学习平台提供了丰富的学习资料、学习场景以及交互形式。牛津大学的 Alina A von Davier 教授提出，未来的学习和测评系统将会具有数字化、自适应、个性化以及沉浸感等特点，且人们可获取的学习及测验数据也愈发丰富，包含了语音、视频等，因此研究者需要思考如何建模这些多模态数据。在这一背景下，测量领域也需要转变范式，探索人工智能辅助下的测评模式。

Alina A von Davier 教授提到，人工智能在测验的编制、施测、评分以及结果报告整个过程中的每一个环节都能够发挥重要作用，但各个环节中仍需要人类专家进行监控和决策，每个环节都应该是人工智能和人类智能协作的结果。针对编制环节，来自剑桥大学的 David Stillwell 教授分享了尝试采用大模型自动编制测验题目的经验，他认为大模型能够帮助研究者想出更多元、更丰富的题目情境，从而提高测验的编制效率。然而目前大模型生成的题目质量还够不理想，需要人类专家进行细致的筛查。Clemens Stachl 教授则表示，大模型在实现自动化测量上具有情境，但其可信度和有效性以及透明度等问题则会构成挑战。

Alina A von Davier 教授的团队目前已经尝试将 AI 技术融入心理测量中，并提出了 Digital-First Assessment 这一新型的测验方法。Digital-First Assessment 基于数字化环境设计，可提供交互式的操作和功能，利用人工智能算法辅助进行测验的生成和分发，在自动采集被试多模态的过程性数据后，再结合心理测量理论进行分析和解读，从而保证了测评结果的有效性和可靠性。Alina A von Davier 教授认为这种融合有望成为人工智能时代下，心理及教育测评的主要形式。

当大模型应用进入教育领域，学校、家长以及社会都在担忧由其引发的一些有损教育初衷和公平性的情况，如学生使用大模型完成作业和考试等。来自中国科学技术大学的研究员朱孟潇认为科研人员需要思考如何识别和避免这些情况的发生，包括对异常作答的检测，但更为重要的是思考如何重新设计作业和评估的形式。对此，范津砚教授提供了一个思路——过程性评估，即不像以往那样完全关注结果，而是更关注产出结果的过程，根据过程来反映被试的能力。

大模型的出现和应用直接推动了教育观念的改变，促使人们重新思考未来教学和评估的焦点。Marija Slavkovik 教授认为大模型的出现让大家开始反思如今的教育是否在培养和评估学生的能力而非特定知识，但这实际上是教育本就需要思考的问题，是大模型的出现增加了这个问题的紧迫性。来自北京师范大学的卢宇教授强调，如今我们比以往更需要强调高阶思维能力的培养和测评。José Hernández-Orallo 教授则指出了一个更具有前瞻性的方向：评估人类与人工智能的共同体（the hybrid of human and AI system），即评估个体能否利用人工智能工具来更好地解决问题。孟菲斯大学的胡祥恩教授认为，新一代 AI 代表了数字化的文明，人们需要具备与它们合作的能力。面对一个 AI 无处不在的未来世界，社会各界必须帮助下一代在这个世界的生存和发展做好准备。

欲了解本次研讨会的更多详细信息，请点击链接：

The Workshop on Understanding and Evaluating Big Models for Human Intelligence and Learning

大模型与心理测量的结合预示着一场划时代的变革。心理测量学可以帮助人们深刻、透彻地理解和挖掘大模型的真实能力。与此同时，大模型也将成为心理及教育测评研究者深度合作的伙伴，通过将 AI 技术融入心理及教育测量的全过程之中，心理及教育测评领域将能够实现个性化、自动化且沉浸式的评估。可以预见的是，一旦大型语言模型与心理测量技术结合的巨大潜力被激发，一个更为智能、开放和人性化的教育新纪元将会成为现实！