影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书


IT之家 11 月 5 日消息,影子图书馆“安娜的档案”官方博客当地时间 10 月 4 日宣布,该网站现已经收购一批“独特的”750 余万份、共计 359TB 的电子图书,并表示愿意为一系列大语言模型公司提供独家早期访问权限,以获得高质量的图书 OCR(IT之家注:Optical Character Recognition,光学字符识别)和文本提取。

“安娜的档案”在博客中介绍,读秀是由超星数字图书馆创建的大量扫描图书的数据库,大多数是学术图书,通过扫描可以使它们以数字化的形式提供给大学和图书馆。“安娜的档案”表示曾希望批量获取它,并为此分配了多个月的全职工作。

最终,一位“不可思议、了不起、才华横溢”的志愿者宣布已经完成上述所有工作,并为之“付出巨大代价”,并无偿分享了所有藏品。

从总数来看,这个收藏品共有 7543702 个文件,多过另一家“影子图书馆”Library Genesis 的 530 万本非虚构图书。

不过,图书的原作者通常不会喜欢利用“影子图书馆”来训练 AI 大模型的行为。据IT之家此前报道,上个月美国就有多名作家向纽约联邦法院提起诉讼,指控 Meta、微软等科技巨头未经许可使用他们的作品来训练 AI 模型。

这一作家团体此前已经提交了拟议集体版权诉讼,文件称 Meta 和微软采用了具有争议的“Books3”数据集来训练他们的大模型,告诉大模型如何回应人类的提示和指令。