2026年初,一则消息在科技与法律界掀起了不小的波澜——拥有250多年历史的大英百科全书,联合旗下的韦氏词典,在美国曼哈顿联邦法院对OpenAI提起了诉讼。这起案件的核心指控,直指当前人工智能浪潮中最敏感的那根神经:AI巨头们在训练和运行模型时,大规模、系统性地使用了受版权保护的内容,却未向权利人支付任何费用。这已经不是ChatGPT第一次成为被告,据统计,这已经是针对OpenAI的第63起版权诉讼。但这一次,原告是知识权威的象征,而诉由,则试图将整个生成式AI的技术链条“一锅端”。
这场诉讼,远不止是简单的版权纠纷,更像是一场关于AI时代“知识秩序”与“商业模式”的边界之战。
---
大英百科的诉状,可以说是有备而来。它没有局限于传统的“训练数据侵权”争论,而是将矛头指向了从模型构建到实时生成的全过程。我们来拆解一下这场官司的几个关键战场。
首先,是最基础的“训练数据侵权”指控。诉状称,OpenAI未经许可,抓取并使用了其近10万篇在线文章、百科条目和词典释义来训练ChatGPT等模型。这些内容可不是普通的网络信息,而是经过数十年积累、由专业编辑和学科专家编撰的高质量结构化知识体系。OpenAI对此的回应,是行业常见的“合理使用”抗辩,认为这种使用具有“转换性”,是为了创新而非直接复制。但问题在于,当被使用的对象本身就是具有高度原创性和稳定商业价值的版权产品时,“转换性使用”的边界是否还那么清晰?这成了法庭需要裁量的第一个难题。
其次,是更具争议的“输出端侵权”。大英百科提供了证据,指出在某些特定提示下,GPT-4能够输出与其版权内容“逐字相同或高度近似”的文本。这就触及了一个核心的技术与法律交汇点:大语言模型究竟是在“学习”知识,还是在特定条件下“记忆并复现”原文?有研究显示,模型能从其“记忆”(即模型权重)中提取出训练数据中的原文,提取率甚至能达到惊人的高度。如果模型输出构成了对原作的实质性复制,那么这就跳出了“合理使用”的辩论场,直接踏入了版权侵权的传统禁区。
第三层指控,则更具前瞻性和颠覆性——针对“实时检索与生成”(RAG)的侵权。这是本次诉讼的一大亮点。大英百科认为,即便其内容没有进入最初的训练集,但只要在ChatGPT运行过程中,通过RAG技术被实时检索并用于生成答案,这也构成侵权。这个逻辑如果被法院认可,影响将是深远的。它意味着,未来所有依赖联网搜索和外部数据库来增强回答能力的AI产品,其每一次信息调用都可能需要事先获得授权。这几乎是对当前AI产品主流演进方向的一次“釜底抽薪”。
最后,还追加了《兰纳姆法》下的商标侵权指控。诉状指出,ChatGPT有时会产生“幻觉”(即编造错误信息),却将这些不实内容归因于大英百科全书。这不仅侵犯了版权,更损害了这家老牌机构花了两个多世纪建立起来的“知识权威”信誉。品牌,尤其是知识品牌的公信力,是其最核心的资产。AI的“张冠李戴”,让品牌方在毫不知情的情况下,为AI的错误“背了黑锅”。
我们可以用下面的表格来梳理这场诉讼的多维度战场:
| 指控层面 | 具体内容 | 潜在影响 | OpenAI可能的抗辩 |
|---|---|---|---|
| :--- | :--- | :--- | :--- |
| 训练数据输入 | 未经授权使用近10万篇版权内容训练模型。 | 挑战AI行业“合理使用”数据训练的普遍做法。 | 属于“转换性使用”,旨在创新,符合合理使用原则。 |
| 模型输出复制 | 模型能逐字或高度近似地输出版权原文。 | 将模型“记忆化”复现行为定性为直接侵权。 | 输出是模型基于学习的生成,并非有意的系统复制。 |
| 实时检索(RAG) | 在生成回答时实时检索并使用版权内容。 | 可能要求AI产品的实时信息调用也需授权。 | RAG是提供最新信息的技术手段,不同于训练阶段的复制。 |
| 商标与署名权 | 在AI“幻觉”输出中不当引用并损害品牌信誉。 | 追究AI生成内容对来源方声誉的连带损害。 | 这是模型不可控的缺陷,并非故意冒用或诋毁。 |
---
那么,法律到底会站在哪一边呢?有趣的是,放眼全球,法官们似乎也在这个问题上产生了分歧。这恰恰说明了,现有的法律框架在应对日新月异的AI技术时,面临着巨大的挑战。
在德国,慕尼黑法院在另一起类似案件(GEMA诉OpenAI)中的态度就相当强硬。法院认为,如果受版权保护的作品(比如歌词)能够从模型的权重参数中被还原出来,那么这种“嵌入”本身就构成了版权法意义上的“复制”。这个判决思路对大英百科这类原告非常有利,因为它承认了技术过程(将作品转化为模型参数)的法律责任。
然而,隔海相望的英国,高等法院在Getty Images诉Stability AI案中却得出了几乎相反的结论。法院认为,AI模型的权重并不包含也不复制版权作品本身,它存储的只是一种从数据中学到的“规律性模式”。因此,训练行为本身不构成侵权。你看,同样是欧洲,法律解释的差异就已经如此明显。
而作为本案主战场的美国,情况则更加复杂和模糊。美国版权法中的“合理使用”原则是一个灵活的、需要个案分析的四要素测试(包括使用的目的和性质、版权作品的性质、使用的数量和实质性、对市场的影响)。此前,Anthropic公司在另一起诉讼中,曾成功说服法官,主张将受版权保护的书籍内容用于训练具有“转化性”,可适用合理使用。但法官同时也认定,其通过非法下载而非购买获取书籍的行为本身是违法的。
所以,大英百科诉OpenAI案最终会走向何方?很大程度上,取决于审理法官如何权衡“技术创新带来的社会效益”与“保护创作者权益的原始初衷”。是更倾向于保护投资巨大的AI产业,还是更倾向于捍卫内容创作者的劳动成果?这个天平如何倾斜,将直接决定行业的游戏规则。
更值得玩味的是,大英百科在起诉OpenAI之前,已经在2025年9月对另一家以RAG技术为核心的AI搜索公司Perplexity提起了诉讼。业内普遍认为,这像是一次“法律预演”。先拿规模较小的初创公司“练手”,摸清诉讼策略和法院的态度,再将成熟的战法用在OpenAI这样的行业巨头身上。这种步步为营的策略,显示出传统知识机构反击的决心和章法。
---
如果我们把视线拉得更远一些,这场诉讼的背后,其实是一场延续了二十年的生存之战。大英百科全书的焦虑,并非始于今日。
回想一下互联网普及的早期,维基百科的崛起,就曾给这部纸质时代的权威百科全书带来过致命冲击。维基百科凭借其免费、开放、人人可编辑的模式,迅速在信息检索领域取代了需要付费订阅的大英百科。那是大英百科经历的第一次“降维打击”——被一种全新的、基于社区协作的知识生产模式所颠覆。
痛定思痛,大英百科艰难转型,从厚重的纸质书转向数字订阅服务,试图依靠其内容的严谨性、权威性和深度,在信息爆炸的时代重新找到付费用户。然而,就在它刚刚在数字世界站稳脚跟时,生成式AI的浪潮又扑面而来。
这一次的挑战更加彻底。ChatGPT这类模型,不仅吸收了大英百科耗费巨资生产的内容来“喂养”自己,还能以对话的形式,直接生成答案来满足用户查询。这导致了一个残酷的结果:用户不再需要点击大英百科的网站去查看原文,流量和潜在订阅用户被直接截流。诉状里那句“ChatGPT通过生成替代出版商内容的回复,抢走了出版商的流量”,一针见血地指出了商业模式的正面冲突。
打个比方,这就像你辛辛苦苦种了一片果园(生产高质量内容),结果有人不仅偷偷摘了你的果子去酿醋(训练模型),还直接在果园门口开了一家果汁店(提供问答服务),让原本想来买水果的顾客,直接喝一杯果汁就走了。更让人难以接受的是,这家果汁店偶尔还会用烂果子榨汁,却对外宣称用的是你园子里最好的水果,坏了你的招牌。
所以,大英百科的诉讼,既是在追讨过去的“果子钱”(训练数据补偿),也是在捍卫未来的“果园入口”(商业流量和品牌权威)。它是在用法律武器,试图在AI重构的信息生态中,重新划定自己的领地,告诉科技巨头:“知识是有成本的,权威是需要被尊重的。”
---
这场诉讼无论结果如何,都已经将一系列无法回避的问题抛到了整个AI行业乃至全社会面前:
1.数据的价值如何衡量与补偿?高质量的数据是AI的“燃料”,但“燃料”的生产者理应获得报酬。怎样的授权机制和付费标准才是公平合理的?
2.“合理使用”的边界在哪里?在鼓励创新和保护产权之间,那条法律的红线究竟应该划在“训练时”还是“输出时”,或是两者兼顾?
3.AI时代的“来源秩序”如何建立?当AI融合了无数来源的信息并重新生成时,如何确保信息的可追溯性?如何防止品牌被冒用和滥用?
4.技术中立性能成为免责金牌吗?公司能否以“技术不可控”为由,规避对输出内容造成的侵权或损害责任?
可以预见的是,2026年,随着本案以及《纽约时报》诉OpenAI等一系列重要案件的审理推进,AI版权领域的法律迷雾将逐渐被拨开。法院的判决,很可能会为全球AI行业的数据使用确立关键的先例和规则。
一个基本的共识正在形成:AI的狂奔不能以彻底消解现有的“来源秩序”和创作生态为代价。技术的进步需要法律的同步演进,最终的目的,是在创新激励与权益保护之间,找到一个可持续的、动态的平衡点。对于ChatGPT和它的创造者们来说,这场诉讼是一个深刻的警示——在通往通用人工智能的道路上,不仅需要突破技术的天花板,更需要构建一个合法、合规、尊重各方利益的地基。否则,法律的达摩克利斯之剑,可能比任何技术瓶颈都更具威力。
