速递|O'Reilly指控OpenAI"窃书" 训练 GPT-4o,AI数据黑箱再陷版权风暴

图片来源:Unsplash

多家机构指控OpenAI 可能利用付费墙后的 O'Reilly 书籍训练 AI 模型,未经许可使用受版权保护的内容训练其人工智能。

如今,一家 AI 监督组织发布的新论文提出了严厉指控,称该公司日益依赖未公开且未获授权的书籍来训练更复杂的 AI 模型。

人工智能模型本质上是复杂的预测引擎。通过大量数据(如书籍、电影、电视剧等)的训练,它们学习模式及从简单提示中推断的新方法。当模型“撰写”关于希腊悲剧的论文或“绘制”吉卜力风格图像时, 它只是在利用其庞大知识库进行近似模拟,并未创造出任何新内容。

尽管包括OpenAI 在内的多家 AI 实验室,在耗尽现实世界数据源(主要是公共网络)后,已开始采用 AI 生成的数据来训练 AI,但完全摒弃现实世界数据的实验室寥寥无几。 这很可能是因为纯合成数据训练存在风险,例如可能导致模型性能下降。

这份由AI 披露项目(2024 年由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 联合创立的非营利组织)发布的新论文得出结论,OpenAI 很可能使用 O'Reilly Media 付费墙后的书籍训练了其 GPT-4o 模型。(O'Reilly O'Reilly Media CEO。)

ChatGPT 中,GPT-4o 是默认模型。论文指出,O'Reilly OpenAI 之间并未签署许可协议。

该论文采用了名为DE-COP 的方法(2024 年首次在学术论文中提出),旨在检测语言模型训练数据中的受版权保护内容。这种方法也被称为"成员推理攻击",通过测试模型是否能可靠区分人类撰写文本与相同文本的 AI 生成改写版本来判断。若模型具备这种能力,则暗示其训练数据中可能预先包含了该文本。

论文合著者——奥莱利、施特劳斯与 AI 研究员斯鲁利·罗森布拉特指出,他们测试了 GPT-4oGPT-3.5 Turbo 及其他 OpenAI 模型对奥莱利媒体书籍在训练截止日期前后出版内容的掌握情况。通过分析 34 本奥莱利书籍中的 13,962 个段落摘录,他们评估了特定摘录被纳入模型训练数据集的概率。

研究者谨慎强调,这并非确凿证据。他们承认实验方法存在漏洞,OpenAI 可能通过用户复制粘贴到 ChatGPT 的方式获取了付费书籍摘录。

更令人困惑的是,合著者们并未评估OpenAI 最新发布的模型系列,其中包括 GPT-4.5 及“推理”类模型如 o3-mini o1。这些模型可能未基于付费墙后的 O'Reilly 书籍数据进行训练,或训练数据量少于 GPT-4o

尽管如此,众所周知,OpenAI 长期倡导放宽使用受版权保护数据开发模型的限制,并一直在寻求更高质量的训练数据。

该公司甚至聘请记者协助微调模型输出。这反映了整个行业的趋势:AI 公司招募科学、物理等领域的专家,实质上是让这些专家将知识输入 AI 系统。

需指出的是,OpenAI 至少为部分训练数据支付了费用。该公司与新闻出版商、社交网络、素材库等机构签订了授权协议。OpenAI 还提供了退出机制(尽管不完善),允许版权所有者标记不希望用于训练的内容。

尽管如此,随着OpenAI 在美国法院就其训练数据实践和版权法处理面临多起诉讼,OReilly 的论文并非最光彩的一面。

参考资料

本文翻译自:https://techcrunch.com/2025/04/01/researchers-suggest-openai-trained-ai-models-on-paywalled-oreilly-books/

编译:ChatGPT返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 (0)
我来说两句
0人参与, 0条评论
登录抢首评