随着人工智能技术的快速发展与广泛应用,其引发的法律风险也正逐步暴露在大众视野中。其中,AI 开发者未经版权人同意而擅自使用其作品用于训练模型行为的法律性质,已经成为目前颇受关注的核心焦点之一。
以去年年初美国3名艺术家与全球知名图片运营商盖蒂图片分别对Stability AI公司提起诉讼为开端,到年末的美国《纽约时报》起诉微软和Open AI公司,以及近日3位作家集体起诉知名芯片制造商英伟达擅自使用其拥有版权的书籍来训练人工智能……与之相关大小诉讼已多达数起,由此引发的法律争议正愈演愈烈。
未经许可使用受版权保护作品训练AI模型具有较高侵权风险
从技术角度而言,AI模型的开发一般要经历数据输入与数据输出两大阶段。数据依据应用目的的不同可以包括多种模态,如文本、图片与音频等,其中不乏受版权保护的文字作品、美术作品、摄影作品与音乐作品等。相较于输出端的AI生成物的可版权性问题,输入端的未经许可使用他人作品用于数据训练行为的法律性质讨论更具紧迫性,因为后者是关系AI产业能否正常发展的前提性问题,对技术的进一步研发存在直接影响。
通常情况下,训练数据的获取方式包括通过爬虫协议抓取、通过破译等技术手段直接复制、将非电子出版物进行数字化再现以及在用户服务协议中设置强制许可条款四种。为了构建数据集,通过上述手段获取的数据必将以一定的形式储存并固定在服务器中,形成某种形态的副本,以供后续模型学习分析。此种通过大量复制、存储并形成复制件的行为,符合《著作权法》中对于复制的内容和方式的规定,存在复制权侵权的风险。国外的Stability AI、Open AI和Meta(均为业内头部AI公司),以及国内的行吟信息科技(上海)有限公司(社交平台“小红书”的主体公司)均因此被告上法庭。以后者为例,小红书旗下的AI绘画产品Trik未经授权使用了画师的原创作品作为训练数据,并生成了与原作高度相似的图片,因而被画师们以著作权侵权为由告上法庭。
此外,在AI模型数据集的构建及后续的模型训练中,可能还会对数据予以翻译、标记、汇总与分析——应当如何评价这些行为的法律性质,目前尚存在较大争议。
有观点认为,这些行为存在翻译权、改编权、汇编权侵权风险;也有观点认为,其可能落入“应当由著作权人享有的其他权利”,即兜底权利的范畴;还有观点认为,这些行为都是模型的内部活动,并不受《著作权法》控制。
擅自使用作品训练AI模型较难纳入合理使用的范畴
2023年5月,美国国会就“人工智能和知识产权”召开听证会,讨论了版权保护作品在生成式人工智能模型训练中的使用等话题。
其中,就输入端数据训练行为引发的侵权风险,以Stability AI为代表的人工智能公司主张其行为构成合理使用,声称“培训这些模型是对现有内容的一种可接受的、变革性的和有益于社会的使用,受合理使用原则的保护”。
2023年12月27日,《纽约时报》宣布在纽约州曼哈顿联邦法院向Open AI及微软提起诉讼,指控这两家公司非法使用《纽约时报》的数百万篇文章以训练他们的聊天机器人。而后在Open AI发布的官方回应中,其亦将“训练行为构成合理使用”作为关键性的反驳理由之一。
所谓合理使用,是指在符合法定情形的条件下,可以不经著作权人许可并不向其支付报酬而使用其作品。在美国,在认定是否构成合理使用时一般采取“四要素判断法”,其中“使用行为会对作品潜在市场或价值的影响”是关键考虑要素之一。以美国作家协会与Open AI公司之间的集体诉讼为例,被告利用网站爬取等方式复制了大量原告作家们的畅销小说用于训练ChatGPT模型,用户可以通过ChatGPT获取小说的内容,这将导致原作的市场价值受到极大减损。就这一点而言,AI公司的合理使用抗辩难以成立。
我国《著作权法》第24条规定了13种合理使用的情形。就AI模型的数据训练行为而言,与之相关的情形包括“为个人学习研究目的使用”与“为科学研究目的的使用”两种。然而,一方面,人工智能产品的开发一般是由大型科技公司组织,主体为公司而非自然人,不符合出于“个人学习研究”情形下的主体条件。另一方面,为了使模型生成的结果更加接近人类创作,其需要通过分析大量数据以不断调整更新模型参数,此亦不符合“为科学研究目的”情形下对于“少量”使用作品的要求。
与此同时,大多数模型的训练目的在于通过最终AI产品的推广与应用实现商业盈利而非学习或科研,很难将其纳入合理使用的范畴中。
传统授权许可模式难以适应人工智能产业特点
在“未经许可使用他人作品训练AI模型”的行为难以纳入著作权合理使用的范畴之内的前提下,传统的“授权许可”模式在适用上也存在一定的困境。
由上可知,目前对于AI大模型的训练行为是否侵犯著作权、侵犯何种著作权尚未形成统一的认知,即所谓的“授权的基础”仍处于一个模糊且不稳定的状态。更重要的是,用于AI模型训练的数据集内往往包含了成千上亿份数据,即包括公有领域的资源与尚在著作权保护期内的作品。面对如此庞大的数据量,若要求人工智能开发者联系每部作品的著作权人并与其一一签订授权许可协议,则会严重滞缓训练数据集的搭建,从而导致整个人工智能产业直接夭折。
对此,有观点提出可以利用著作权集体管理组织解决授权难题。著作权集体管理是指依据著作权人的授权,由特定的组织对著作权进行的集中管理。该组织是为著作权人的利益依法设立,根据其许可对著作权及其邻接权予以统一管理的特定组织机构,我国目前已有音乐、音像、文字、摄影和电影5个著作权集体管理组织。
为了解决上述授权难的问题,人工智能开发者可以通过著作权集体管理组织获得某一领域的作品授权,以此降低训练前的搜索与沟通成本,同时也能降低数据来源的合法性风险。
此外,亦有学者创新提出借鉴计算机领域的开源许可模式以建立开放授权机制,即著作权人通过声明作品使用者的权利和义务的方式,事前将授权予以任何满足条件的主体,以此打破一对一的低效授权困境。
但是,上述观点目前均处于理论论证阶段,是否能够解决AI训练数据来源的合法性问题仍有待立法与实践的进一步探索。
实现技术与艺术、法律良性互动与协同发展
目前,如何以法律手段维持人工智能产业发展与人类艺术创新之间的平衡,已成为世界各国未来立法与监管的重点方向之一。
就未经许可擅自使用他人作品训练AI模型的行为定性,在日前欧盟公布的最终版《人工智能法案》中,对类似ChatGPT的生成式AI研发者给予了“发布用于训练数据的受版权保护的数据摘要”的说明义务。
同样,英国在今年2月初发布的《大型语言模型和生成式AI》报告中指出,科技公司未经许可或补偿就将权利人的数据用于商业目的,并在此过程中获得巨额经济回报是不公平的;开发者应明确说明其网络爬虫是用于获取数据进行人工智能生成训练还是用于其他目的。此外,意大利政府也表示其正在制定一项人工智能监管法律,旨在确定一些原则与规则作为对《人工智能法案》的补充。其总理梅洛尼强调,人工智能技术只有在以“人类的权利和需求”为中心的道德规则范围内发展,才能释放出它所有的积极潜力。
今年两会期间,人工智能是与会代表委员们热议的一个重要话题。我国去年7月发布的《生成式人工智能服务管理暂行办法》从价值规范、行为规制和过程监管等方面对生成式人工智能加强了治理,尤其是规定用于AI训练的数据须具有合法来源,不得侵犯他人依法享有的知识产权。然而,随着技术的广泛应用和不断演进,人工智能服务的开发者、提供者、使用者、监管者在未来实践中都还将面临不少的法律挑战,上述指导性规范并不足以解决现实中的争议与难题。因此,有两会代表提出要加强人工智能领域的著作权保护,明确人工智能领域版权保护的原则性问题;也有代表建议应推动建立人工智能大数据开放创新平台,支持开展专门的数据标注、清洗等预处理工作,为训练大模型提供优质数据来源。
对此,我国应秉持《著作权法》鼓励创新的立法宗旨,坚持“以人为本”理念,在确保作者的权利得到充分保障的前提下,促进人工智能产业发展。一方面,人工智能技术开发者应当推动建立“选择退出”或“选择加入”机制,给予著作权人充分的选择决定是否将其作品用于人工智能训练。这既能转变人工智能开发者因权利人“不知情同意”授权而一劳永逸的行为,也可以从源头上保证数据获取的合法性,有利于人工智能后续的开发与应用。另一方面,政府部门也可以推动建立人工智能开发者与著作权人的良性对话机制,鼓励企业、研究机构与著作权集体管理组织共同探索建设符合法律法规要求的正版高质量数据库,以此实现著作权人的利益保障与人工智能企业的合规发展。
在全球竞相发展人工智能技术的时代背景下,我国首次将“人工智能+”写入2024年政府工作报告中,这标志着我国将进一步加强人工智能领域的顶层设计,并加快其与其他行业领域的多维度深度融合。
但是,人工智能发展的前提离不开法律与政策的规范与指引,坚持“以人为本”的治理原则,实现技术与艺术、法律良性互动与协同发展,是加快打造人工智能治理的中国模式和国际样板的关键。
(作者于波系华东政法大学知识产权学院副院长;应雨晴系华东政法大学知识产权学院2022级硕士研究生;程得琳系北京师范大学法学院研究生)
兼容并蓄,反哺AI产业新发展
作者:张延来
日前,为促进生成式人工智能技术健康发展和规范应用,浙江省文化艺术作品权益保护协会组织编制的团体标准《AIGC登记服务规范》形成征求意见稿(以下简称标准征求意见稿),向社会公开征求意见。
在笔者看来,人工智能已经在不经意间悄然进化,大模型的突破意味着人工智能从之前的专用人工智能迈向通用人工智能,这项技术的意义堪比工业革命时期的蒸汽机。大模型成熟之后,基于大模型的各个领域的应用也将如火如荼地展开,其中必然包括文化艺术创作领域,人机协作替代单纯的人工创作的时代也即将到来。
追上最新技术发展步伐
笔者此前曾专门撰文指出,人类之后的创作模式将会发生颠覆性的变化,AI使得以往被我们看重的“表达”(例如写作、绘画、作曲等)能力不再稀缺,真正稀缺的是人的审美、创意和想象。人机协作的情况下,机器负责给出无数可能的表达供人类选择,人类则基于独有的美感来从中筛选,这是我们接下来必须面对的客观事实,而且在法律认知层面也要把“思想”提升到更高权重,降低甚至放弃对“表达”的过度保护。
在这个大背景下,不难预见,接下来大模型技术必将大大降低“创作”门槛,此前必须要经过专业训练掌握专业技能的人才能从事的创作,现在几乎所有人都可以借助AI来完成。人只要有思想、有创意即可,这对于人类整体的文化和艺术繁荣是有空前推动作用的。
生产力决定生产关系,技术影响法律的完善。当AI的应用带来内容领域的革命性变化的时候,法律应该大刀阔斧地升级,跟上技术的步伐,为生产力提升扫清障碍。
AIGC是人使用AI生成内容的统称,目前对于这种内容是否可以作为作品获得《著作权法》的保护是存在争议的。尽管法院已有个案对个别场景下的AIGC内容进行了著作权的认可,但产业界更急迫地希望在普适层面得到规则的回应。本标准征求意见稿对AIGC内容(数据集、作品)从宏观上明确表达了规则层面对AIGC内容的认可,并且可以进行登记确认,便于有权机构在此事实基础上确认相关法律权益和权属,这一做法对于激励用户使用AI进行创作,从而反哺AI产业快速发展具有重要意义。
展现面向未来发展兼容度
经济学上著名的科斯定理指出,交易的前提是确权,因此,AIGC内容权利人通过初步的事实登记,为接下来的法律确权以及后续交易和使用奠定基础是必然的趋势。该标准征求意见稿为业内接下来的AIGC登记制定了初步的框架,其中的主要亮点包括:
将两类核心的AIGC对象纳入登记范围。一类是AIGC数据集合,这里指的并非是AI的训练数据集,而是生成的数据集,考虑到AI在未来生产数据资源的应用前景,将AIGC数据集作为登记对象之一;第二类就是我们熟知的AIGC内容,对这部分对象,标准征求意见稿认为,人使用AI生成的草稿或者半成品再进行的独创性创作,即可符合登记条件。这一规定,即承认了AI在“表达”上起到的作用,又肯定了人在创作上的独立和创造性,符合“人机协作”时代的创作特点。
考虑到AIGC内容的宽泛性,法律对基于该等内容赋予的权利类型尚不明确,因此现阶段标准征求意见稿没有贸然进行权利登记,而是对AIGC内容对应的法律权利问题暂时搁置,先对人机协作后生成内容的事实进行固定和确认,至于生成内容未来在法律层面对应何种权利,应该由相关部门根据登记确认的事实进行判断。
这种做法,最大限度地保障了登记在效力上的稳定性和登记对象上的包容度,同时不影响法律层面未来可能的权利定性,具有面向未来的兼容度。
对于登记机构而言,事实登记是未来AIGC内容确权的基础。AI的生成能力是近乎无限的,并且可能涉及到违法违规或者侵权问题。标准征求意见稿结合现有的关于AIGC的法律及行政监管要求,提出对登记合法性的初始审查和专家复查制度,可以最大限度保障登记质量,使之不会完全流于形式,进一步提升登记内容的质量,具有很好的价值导向效果。
事实登记是为了符合当前市场需求和法律要求的阶段性选择,是AIGC内容获得法律认可的第一步,随着法律和司法实践的不断推进,一旦法律层面能够确定AIGC内容的权利性质,AIGC的登记应该会向权利登记进行升级,届时才是登记的最终形态。
事实上,在互联网突飞猛进的今天,技术进步要求规则层面不能再像以前一样缓慢微调。当立法的滞后性越来越明显的时候,标准可以作为“先锋队”,通过创新和一定程度的试错为立法提供蓝本。在法律和司法实践对新技术尚缺少完备规范的情况下,该标准征求意见稿作为团体标准,具有良好的示范效果,期待该项标准能够不断优化完善,为立法和司法提供有利借鉴。
(作者系浙江垦丁律师事务所主任)
本文内容仅针对《AIGC登记服务规范》(征求意见稿),为作者个人观点。