知识产权、隐私和技术滥用：如何面对大模型时代的法律与伦理挑战？

2023-08-17 | 作者：微软亚洲研究院

编者按：大模型时代的到来，使得人工智能成为了真正影响人类社会的重要技术之一，如何打造“负责任的人工智能”的问题正变得愈发迫切和关键。一直以来，微软始终致力于依照以人为本的伦理原则推进人工智能的发展，微软亚洲研究院也将“社会责任人工智能（Societal AI）”作为一个重要的研究方向。

2023年，微软亚洲研究院特别组织了“社会责任人工智能（Societal AI）”系列研讨会，为计算机领域的科研人员与社会科学领域的专家学者提供了一个深入探讨跨学科前沿问题的平台，助力塑造人工智能与人类社会和谐共处的未来。系列研讨会包括法律与伦理、心理学和社会学三大主题讨论。今天为大家带来的是人工智能和法律与伦理相关讨论的内容梳理，让我们共同了解大模型时代人工智能在法律与伦理方面所面临的的责任与挑战。

如今，随着 GPT 技术的发展和创新，信息化世界的每一个角落都在以自身高速的变化印证着大模型时代的到来。想象中未来人工智能（AI）改变世界的场景，正逐渐从缥缈的远方走近我们身边。然而，迈入现实的人工智能也同时落入了纷繁复杂的人类社会，它不仅是技术工具，也将作为一个社会对象影响着你我。如何与这一当今世界最具革命性但也蕴含着最多挑战的工具相处，怎样科学地看待、解决人工智能在社会维度上的挑战，是摆在全人类面前的重要课题。

为了洞悉人工智能发展所带来的新问题、新挑战，更好地为世界打造负责任的人工智能，微软亚洲研究院在2023年特别组织了“社会责任人工智能（Societal AI）”系列研讨会，让计算机领域的科研人员与国内外高校及研究机构的社会科学领域的专家学者，共同深入探讨人工智能在开发、部署和应用中产生的，包括法学、心理学、社会学在内的跨学科前沿问题。

法律，既与传统社会伦理有着密切渊源，也体现了政策制定者对新兴技术发展持有的态度。在中国人民大学法学院副教授郭锐的大力支持与协助下，微软亚洲研究院举办了“社会责任人工智能”系列研讨会的法律与伦理专题讨论。研讨会上，来自法律和计算机领域的顶尖专家们聚焦探讨了大模型与知识产权、大模型与隐私、大模型的技术滥用问题等人工智能发展所带来的与法律规范和社会伦理相关的问题，以期在这个最为紧迫且关键的话题上引发更多深入思考与探索。

微软亚洲研究院“社会责任人工智能”系列研讨会法律与伦理专题讨论参会嘉宾

大模型与知识产权：生成内容的保护

从2023年年初开始，大模型的重大技术突破吸引了全世界的目光；但与此同时，与大模型有关的知识产权纠纷也开始走进公众的视线。大模型对于现有知识产权法律的挑战，是技术快速发展和应用所带来的最直接的影响之一。

在微软亚洲研究院“社会责任人工智能”系列研讨会的法律与伦理专题讨论上，来自日内瓦大学数字法学中心的 Jacques de Werra 教授指出，目前透明度在版权生态系统中正变得愈发重要。由于目前的知识产权只保护人类作者创作的作品，披露创作中非人类作者来源的部分是必要的。为了应对这一问题，法律和技术两方面的解决方案都应被考虑在内。香港大学的孙皓琛教授认为确定 AI 生成内容的独创性门槛对于讨论 AI 生成内容是否需要被版权法保护是至关重要的。

这也就要求人们进一步区分辨识 AI 生成的内容和 AI 辅助产生的内容，尤其是在二者之间的界限日益模糊的今天。而白盒方法是针对这一问题一个具有潜力的解决方案。因此，接下来应当予以关注的关键问题便是：有哪些白盒方法能够用可解释的方式实现内容生成过程的全透明和披露？

显然，大模型在知识产权上陷入的纠纷已经提示人们考虑如何保障用于大模型开发的作品的人类创作者的权利。清华大学人工智能研究院常务副院长孙茂松教授和莱斯大学的胡侠副教授认为，大家需要通过全球对话与合作的方式来找到更有效的解决方案，来自动识别和解释内容中是否包含有人类创造力。若要达成大模型相关的知识产权问题的共识，有必要制定国际公认的规则，力求在尊重知识产权持有者的权利、公共利益和合理使用例外情况之间达到平衡。

大模型和隐私：尊重隐私，保障安全，促进开放

让一个大模型运行起来，需要使用海量的文本语料进行学习，而在这个过程中大模型使用的是无监督学习方式对大量的文本数据进行预训练。仅 GPT-3 的参数量就达到了1750亿，其训练语料达到了45 TB（文本）。用于大模型训练的这些文本数据来自于互联网的各个角落，包括但不限于书籍、文章、百科、新闻网站、论坛、博客等等，凡是互联网上可以找到的信息，几乎都在其学习之列。即便科研人员会对语料进行数据清洗，但其中仍有可能包含个人的隐私信息。

不论是大型语言模型（Large language models, LLMs）还是图像生成模型，大模型都会记住训练所使用的样本，可能会在无意中泄露敏感信息。因此，苏黎世联邦理工学院的 Florian Tramèr 教授认为，当前的隐私保护技术方法，如数据去重和差分隐私，可能与人们对隐私的普遍理解并不完全一致。所以，应该在微调阶段纳入更严格的保障措施，以加强对于数据隐私的保护。

研讨会上，各位专家明确了大模型存在隐私风险的三个方面：互联网数据训练、用户数据收集和生成内容中的无意泄露。这其中首先需要确保公共数据是不具有个人可识别性的，并与私人或敏感数据明确区分开来。未来应重点关注算法的透明度和对个人信息主体的潜在伤害问题。

其实，对于隐私的保护和大模型的效率之间存在着一个两难的矛盾——既要最大限度地保护数据隐私，又要最大限度地发挥模型的功效。微众银行人工智能首席科学家范力欣博士和微软亚洲研究院高级研究员张辉帅一致认为，人们需要通过协作开发一个统一、可信的框架，从而在隐私保护、模型效用和训练效率之间取得一种平衡。

美国科文顿•柏灵律师事务所（Covington & Burling LLP）的罗嫣和微软公司法律顾问丁倩强调，在大模型开发过程中面临的数据隐私问题上，要确保遵守现行法律法规的规定，并充分评估隐私数据的使用对个人信息主体的影响，采取有效措施防止可能带来负面影响。另外，在确保透明性的基础上，鼓励个人信息主体同意分享隐私数据，以解决我们共同面对全球重大问题。这样才可以确保负责任地开发和安全地利用人工智能，进而带来更加广泛的社会效益。

大模型和技术滥用问题：边缘群体的数字平等

当大模型在技术和社会中扮演起越来越关键的角色时，它能否承担起相应的责任？如何促进负责任的人工智能进步并确保其在价值观上与人类价值观相一致？这些宏观的问题十分棘手，但也十分迫切，因为大模型一旦遭到滥用，其强大的效用和能力有可能反过来损害社会的利益。

微软亚洲研究院资深首席研究员谢幸认为，负责任的人工智能需要技术和社会学两方面的策略双管齐下，而且有必要将大模型与多样化、个性化以及特定文化的人类价值观结合起来，达到一致。

这其中对于边缘群体（尤其是残障人士）的数字平等问题需要更加关切。AI 技术可能产生错误陈述和歧视，使得对残障人士的歧视被制度化。因此，AI 开发者必须注意不要让残障人士与 AI 产生角色和利益上的冲突，开发者有责任去主动对抗那些有偏见的态度，倡导平等参与，提高平等意识。

哈佛大学的崔凤鸣博士和一加一残障公益集团的蔡聪在研讨会上强调了数字平等问题所包含的两个关键维度：其一是“赋能”，要让 AI 设备的价格可以被边缘群体所承受，并为他们提供适当的培训；其二是“包容”，要将对于边缘群体的关注整合到人工智能从模型设计到数据创建的整个开发过程中，这样才能打破壁垒，消除歧视。

欲了解本次法律与伦理专题研讨会的更多详细信息，请点击链接：

The Workshop on Legal and Ethical Governance Challenges Faced by Big Models

从大模型对知识产权和隐私保护产生的冲击，到可能的技术滥用风险，伴随技术快速发展所带来的诸多挑战，一种更负责任、更为健全的人工智能治理规范也在成长之中。人工智能的法律问题本身并不是孤立存在的，它涉及到复杂的传统社会伦理观念，也涉及到政策可能给与人工智能技术的发展空间。为了让讨论和思考真正有益于 AI 与社会的和谐相处，在此次针对法律和伦理的充分交流之后，微软亚洲研究院还将深入法律、伦理和政策制定的更深层次，并拓展心理学和社会学等领域的探索。