LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

推荐平台	链接	平台介绍
币安网	注册链接	币安是全球领先的区块链生态系统，推出了一系列产品，其中包括最大的加密货币交易平台。我们的使命是在未来成为全球性加密货币基础架构供应商。
欧易OKX	注册链接	欧易是全球著名的数字资产交易平台之一，主要面向全球用户提供比特币、莱特币、以太币等数字资产的币币和衍生品交易服务。
HTX火币	注册链接	火币全球专业站，是火币集团旗下服务于全球专业交易用户的创新数字资产国际站，致力于发现优质的创新数字资产投资机会。

原文来源：量子位

图片来源：由无界 AI‌ 生成

开源数据集因侵权问题，惨遭下架。

如LLaMA、GPT-J等，都用它训练过。

如今，托管了它3年的网站，一夜之间删除了所有相关内容。

这就是Books3 ，一个由将近20万本图书组成的数据集，大小将近37GB。

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

丹麦一家反盗版组织表示，在该数据集中发现了150本其成员的书籍，构成侵权，所以要求平台下架。

现在该平台上的Books3网页链接已经“404”。

数据集的最初开发者无奈表示，Books3的下架是开源圈的一场悲剧。

Books3是什么？

Books3在2020年发布，由AI开发者Shawn Presser上传，被收录在Eleuther AI的开源数据集Pile中。

它总计包含197000本书，包含来自盗版网站Bibliotik的所有书籍，意在对标OpenAI的数据集，但主打开源 。

这也是Books3 名字的来源之处——

GPT-3发布后，官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库，不过具体内容一直没有被透露。

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等，都用上了Books3.

要知道，图书数据一直是大模型预训练中核心的语料素材，它能为模型输出高质量长文本提供参考。

很多AI巨头使用的图书数据集都是不开源，甚至是非常神秘的。比如Books1/2，关于其来源、规模的了解，更多都是各界猜测。

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

由此，开源数据集对于AI圈内相当重要。

为了更方便获取，Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架，说的也是这一平台。

丹麦反盗版组织权利联盟向The Eye提出了下架请求，并且通过了。

不过好消息是，Books3并没有完全消失 ，还是有其他办法获取的。

Wayback Machine上还有备份，或者可以从Torrent客户端下载。

作者老哥在推特上给出了多个方法。

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

“没有Books3就没法做自己的ChatGPT”

实际上，对于这次下架风波，数据集作者老哥有很多话想说。

他谈到，想要做出像ChatGPT一样的模型，唯一的方法就是创建像Books3这样的数据集。

每一个盈利性质的公司都在秘密做数据集，如果没有Books3，就意味着只有OpenAI等科技巨头才能访问这些图书数据，由此你将无法做出自己的ChatGPT。

在作者看来，ChatGPT就像是90年代的个人网站一样，任何人都能做是很关键的。

不过由于Books3很大一部分数据来自于盗版网站，所以作者也表示，希望之后能有人做出来比Books3更好的数据集，不仅提升数据质量，而且尊重书籍版权。

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

这种类似的情况在OpenAI也有发生。

一个多月以前，两位全职作者以未经允许擅自将作品用来训练ChatGPT，起诉了OpenAI。

而之所以会发生这种情况，很有可能是OpenAI的数据集Books2从影子图书馆（盗版网站）中获取了大量数据。

所以也有声音调侃说，AI不仅带来了新的技术突破，也给反盗版组织带来了新任务。

参考链接：
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

推荐平台	链接	平台介绍
Gate芝麻开门	平台介绍	Gate.io芝麻开门创立于2013年，是全球真实交易量TOP10的加密货币交易平台，向全球数千万用户提供安全可靠、真实透明的数字资产交易服务。
Bitget	注册链接	Bitget的背后是一群区块链技术的早期接受者，也是区块链未来发展的信仰者，一直致力于提供安全、一站式的交易解决方案，帮助用户更聪明地交易。
Bybit	注册链接	Bybit通过数字资产与传统金融的结合，引领数字资产的生态发展。提供一流的流动性，致力于打造业内最安全、公平、高效及人性化的交易服务平台。
派网	注册链接	派网提供多样化的量化交易机器人，用户可依照自身交易需求和策略选择最适合的机器人。同时派网也提供合约交易与合约网格机器人，给予更方便的合约交易体验。