速递｜O'Reilly指控OpenAI"窃书" 训练 GPT-4o，AI数据黑箱再陷版权风暴_模型_论文_书籍

图片来源：Unsplash

多家机构指控OpenAI 可能利用付费墙后的 O'Reilly 书籍训练 AI 模型，未经许可使用受版权保护的内容训练其人工智能。

如今，一家 AI 监督组织发布的新论文提出了严厉指控，称该公司日益依赖未公开且未获授权的书籍来训练更复杂的 AI 模型。

人工智能模型本质上是复杂的预测引擎。通过大量数据（如书籍、电影、电视剧等）的训练，它们学习模式及从简单提示中推断的新方法。当模型“撰写”关于希腊悲剧的论文或“绘制”吉卜力风格图像时，它只是在利用其庞大知识库进行近似模拟，并未创造出任何新内容。

尽管包括OpenAI 在内的多家 AI 实验室，在耗尽现实世界数据源（主要是公共网络）后，已开始采用 AI 生成的数据来训练 AI，但完全摒弃现实世界数据的实验室寥寥无几。这很可能是因为纯合成数据训练存在风险，例如可能导致模型性能下降。

这份由AI 披露项目（2024 年由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 联合创立的非营利组织）发布的新论文得出结论，OpenAI 很可能使用 O'Reilly Media 付费墙后的书籍训练了其 GPT-4o 模型。（O'Reilly 是 O'Reilly Media 的 CEO。）

在ChatGPT 中，GPT-4o 是默认模型。论文指出，O'Reilly 与 OpenAI 之间并未签署许可协议。

该论文采用了名为DE-COP 的方法（2024 年首次在学术论文中提出），旨在检测语言模型训练数据中的受版权保护内容。这种方法也被称为"成员推理攻击"，通过测试模型是否能可靠区分人类撰写文本与相同文本的 AI 生成改写版本来判断。若模型具备这种能力，则暗示其训练数据中可能预先包含了该文本。

论文合著者——奥莱利、施特劳斯与 AI 研究员斯鲁利·罗森布拉特指出，他们测试了 GPT-4o、GPT-3.5 Turbo 及其他 OpenAI 模型对奥莱利媒体书籍在训练截止日期前后出版内容的掌握情况。通过分析 34 本奥莱利书籍中的 13,962 个段落摘录，他们评估了特定摘录被纳入模型训练数据集的概率。

研究者谨慎强调，这并非确凿证据。他们承认实验方法存在漏洞，OpenAI 可能通过用户复制粘贴到 ChatGPT 的方式获取了付费书籍摘录。

更令人困惑的是，合著者们并未评估OpenAI 最新发布的模型系列，其中包括 GPT-4.5 及“推理”类模型如 o3-mini 和 o1。这些模型可能未基于付费墙后的 O'Reilly 书籍数据进行训练，或训练数据量少于 GPT-4o。

尽管如此，众所周知，OpenAI 长期倡导放宽使用受版权保护数据开发模型的限制，并一直在寻求更高质量的训练数据。

该公司甚至聘请记者协助微调模型输出。这反映了整个行业的趋势：AI 公司招募科学、物理等领域的专家，实质上是让这些专家将知识输入 AI 系统。

尽管如此，随着OpenAI 在美国法院就其训练数据实践和版权法处理面临多起诉讼，O’Reilly 的论文并非最光彩的一面。

参考资料

本文翻译自：https://techcrunch.com/2025/04/01/researchers-suggest-openai-trained-ai-models-on-paywalled-oreilly-books/

编译：ChatGPT返回搜狐，查看更多

ZPotentials

速递｜O'Reilly指控OpenAI"窃书" 训练 GPT-4o，AI数据黑箱再陷版权风暴

福建长汀“网红洋媳妇”杨奇娜因低血糖突发去世，当地...

校园生活，从狐友开始！

家长称高中双休影响孩子考好大学，当地回应

活人被“云祭奠”六年访问超4万次！网络祭祀成侵权“法...