狂背90%《哈利波特》 這玩意真成免費(fèi)電子書庫(kù)了
再这么下去,大模型真要成免费电子书城了。
用大模型,就能让 AI 吐出 90% 以上的《 哈利波特 》全文,你敢信吗?
前段时间,斯坦福的团队在 arXiv 上发表了一篇论文,名为《 从开源大模型中提取(受版权保护的)书籍的记忆片段 》。
在这篇文章里,Meta 的 Llama 被重点点名,而被复刻的对象,是大伙儿都知道的《 哈利波特与魔法石 》。
复刻的过程非常简单,主打一个古诗词默写,你给上半句,Llama 接下半句。而且判定很严格,要一字不差才行。
只有中间一行是成功案例
这么一来一回,实验结果表示,《 哈利波特与魔法石 》有 91.14% 的内容都能被 Llama 记住,再给你原封不动地背出来。
但说实话,这数据有点过于保守了。毕竟大部分人看书,多个字少个字也不影响理解,加上这部分容错率,Llama 能背出来的比例绝对不止 91.14%。
再结合下面这张图,更是锤上加锤。它不仅记得多,还记得全呢。从小说开头到结尾,均匀分布,无一幸免。
从左到右代表小说的开始到结束。
竖线越密,可复刻内容越多,颜色越深,成功概率越高。
我们翻遍全文,发现哈利波特不是唯一一本被记住的,Llama 也不是唯一一个会背书的,大家或多或少都沾点。
除了 Llama,Pythia、Gemma、Phi 也在这不恰当的时刻展示出了它们惊人的记忆力。文章里只列出来了 100 本被记住的书,实际上它们背得更多。
本来拿版权方的东西去做训练都忍不了,现在居然还能背出来?要不是现在大模型有上下文长度限制,岂不是一键输出全文了?
咱认真研究了一下这个事,发现锅一部分在科技公司头上,另一部分在一个叫 Books3 的数据集上。
Books3 是一个包含 196640 本 txt 的数据集,里面偷了不少盗版书。几乎所有大模型都用它做训练,不过数据集明面上很早就被下架,变成了不能说的秘密。
Paperwithcode 网站上留存的 Book3 悼词
很显然,大家都用了 Books3 搞训练,只不过有些大模型没做好安全防御机制,才被抓住了把柄。
于是,经常被 gank 的 Meta 又一次被 13 位作家送上了法庭。
没经我们允许,就拿我们的作品去训练大模型。这回证据确凿,还能一字不差吐出来,你认不认?
连一向讨厌 JK 罗琳的吃瓜群众也纷纷觉得,拿盗版书训练模型就是侵权,没啥可洗的。
出乎所有人意料的是,Meta 居然赢了官司。看完了前因后果,我们觉得版权方纯粹是输在了智商。。。
版权方提出的举证,是 Llama 把书背出来,损害到了他们真书的销量。
但要说现在,有人用大模型生成哈利波特直接当成电子书看,那也太高难了,不可能在市场上和真书产生竞争关系。
再看看 Meta 方的辩词:美国版权法 “允许未经授权,复制作品并将其转化为新作品”,并且聊天机器人产生的人工智能表达,与训练用的书籍有着根本的不同。
用人话讲,科学的东西,你得看原理。大模型输出的东西都是它学习理解再转述出来的,就跟人读书写作似的,属于 “新作品” 了。
最终法官表示,作者未能提供足够证据证明,大模型会抢真书的份额,但用盗版训练大模型,确实不地道。
意思就是,版权方论点对了,论据给错了。
而版权方和大模型互撕,这不是第一次,肯定也不是最后一次。
2023 年,纽约时报起诉 OpenAI 训练集涉及侵权。近期,还有 Reddit 起诉 Claude、迪士尼和环球联合告 Midjourney、作家组团和微软 Megatron 打官司等等。。。
感觉一个大模型要是没被告过,只能说明它做得太拉了,无人在意。
在雷区反复横跳
那天天上法庭,科技公司就没啥预防手段吗?我们查了一下相关资料,发现为了不被告,有的公司选择买断网站数据库,比如谷歌买断 Reddit 数据包,而有的公司真是什么匪夷所思的事都做得出来。
举个最近的例子,2024 年 Claude 背后的 Anthropic 意识到使用盗版数据集的法律风险,于是花了数百万美元购买实体图书。
考虑到成本,收来的书里很多是二手,扫描入库制成数据集后立刻销毁。数据集只在公司内部用于训练,不可外传。
这单纯是为了迎合美国的首次销售原则,只要你买了第一次,之后想怎么处理它都可以。
咱也不知道这些实体书里有没有啥珍贵孤本,反正为了不侵权,Anthropic 没坑儒,只焚书了。
这个举动确实成为了 Anthropic 在法庭上的制胜一击,但问题是,这么做真的合理吗?
吃完这个瓜,我能理解为啥那么多版权方想手撕大模型,也能理解科技公司为啥非得干这么不地道的事儿。
从大模型训练的角度,它无法避免对大量高质量数据的需求,科技发展不等人,也没有时间等待各种授权。它能做到最好的,也就是把侵权的内容厚码一下,尽量减小对正主的影响。
而从版权方的角度,大模型这样发展下去,他们的利益迟早会被彻底侵犯。不止现在啃他们一口又一口,未来还可能被盗版训练出来的模型取而代之。
这种不可调和的矛盾,造成为了形式正义而毁书一类的荒谬举动。
只能说,争取权益是必要的,但在这场争端里,恐怕没有真正的赢家。
推薦系統(tǒng)
雨林木風(fēng) winxp下載 純凈版 永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:WinXP雨林木風(fēng)在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)知名品牌,雨林木風(fēng)WindowsXP其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,是一款穩(wěn)定流暢的系統(tǒng),雨林木風(fēng) winxp下載 純凈版 永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載,有需要的朋友速度下載吧。
系統(tǒng)等級(jí):進(jìn)入下載 >蘿卜家園win7純凈版 ghost系統(tǒng)下載 x64 聯(lián)想電腦專用
系統(tǒng)大小:0MB系統(tǒng)類型:Win7蘿卜家園win7純凈版是款非常純凈的win7系統(tǒng),此版本優(yōu)化更新了大量的驅(qū)動(dòng),幫助用戶們進(jìn)行舒適的使用,更加的適合家庭辦公的使用,方便用戶,有需要的用戶們快來(lái)下載安裝吧。
系統(tǒng)等級(jí):進(jìn)入下載 >雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載
系統(tǒng)大?。?/em>1.01GB系統(tǒng)類型:WinXP雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載,雨林木風(fēng)WinXP系統(tǒng)技術(shù)積累雄厚深耕多年,采用了新的系統(tǒng)功能和硬件驅(qū)動(dòng),可以更好的發(fā)揮系統(tǒng)的性能,優(yōu)化了系統(tǒng)、驅(qū)動(dòng)對(duì)硬件的加速,加固了系統(tǒng)安全策略,運(yùn)行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級(jí):進(jìn)入下載 >蘿卜家園win10企業(yè)版 免激活密鑰 激活工具 V2023 X64位系統(tǒng)下載
系統(tǒng)大小:0MB系統(tǒng)類型:Win10蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌,(win10企業(yè)版,win10 ghost,win10鏡像),蘿卜家園win10企業(yè)版 免激活密鑰 激活工具 ghost鏡像 X64位系統(tǒng)下載,其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來(lái)都以用戶為中心,是由蘿卜家園win10團(tuán)隊(duì)推出的蘿卜家園
系統(tǒng)等級(jí):進(jìn)入下載 >蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 V2023 X64位系統(tǒng)下載
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:Win10蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 ghost X64位 系統(tǒng)下載,蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌,其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來(lái)都以用戶為中心,是由蘿卜家園win10團(tuán)隊(duì)推出的蘿卜家園win10國(guó)內(nèi)鏡像版,基于國(guó)內(nèi)用戶的習(xí)慣,做
系統(tǒng)等級(jí):進(jìn)入下載 >windows11下載 蘿卜家園win11專業(yè)版 X64位 V2023官網(wǎng)下載
系統(tǒng)大小:0MB系統(tǒng)類型:Win11蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,windows11下載 蘿卜家園win11專業(yè)版 X64位 官網(wǎng)正式版可以更好的發(fā)揮系統(tǒng)的性能,優(yōu)化了系統(tǒng)、驅(qū)動(dòng)對(duì)硬件的加速,使得軟件在WINDOWS11系統(tǒng)中運(yùn)行得更加流暢,加固了系統(tǒng)安全策略,WINDOWS11系統(tǒng)在家用辦公上跑分表現(xiàn)都是非常優(yōu)秀,完美的兼容各種硬件和軟件,運(yùn)行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級(jí):進(jìn)入下載 >
相關(guān)文章
- 你還在用嗎 余額寶12歲了 每天為老百姓賺1個(gè)億
- 燒烤+啤酒放開(kāi)吃喝 高德地圖代駕只要6.6元起
- 華為發(fā)放首張金牌伙伴認(rèn)證 鯤洺開(kāi)源備份軟件正式商用
- 微軟自研AI芯片遇挫:轉(zhuǎn)推過(guò)渡芯片迎戰(zhàn)NVIDIA!
- 微軟再裁9000人引員工不滿:一邊稱盈利最強(qiáng) 一邊啟動(dòng)裁員
- 小米15迎來(lái)首個(gè)安卓大版本更新:安卓16 Beta版上線
- 騰訊揭秘鴻蒙微信開(kāi)發(fā):必須從零重寫 終極目標(biāo)超越iOS
- 微軟全新開(kāi)始菜單背后真相:應(yīng)用分類不靠AI、而是15M的JSON文件
- 微軟偷偷安裝KB5001716更新:作用就是下載升級(jí)你的Windows!
- 微軟為他破例改規(guī)則!微軟最年輕安全研究員:13歲便開(kāi)始合作
- 頑皮狗負(fù)責(zé)人退組
- iOS 26強(qiáng)化防護(hù):FaceTime檢測(cè)到裸體將緊急暫停通話
- 黃牛為什么能搶走演唱會(huì)門票:手機(jī)應(yīng)用能模擬真人自動(dòng)搶票
- Windows近三年流失約4億用戶 ColorOS陳希:大部分人的工作沒(méi)那么重
熱門系統(tǒng)
推薦軟件
推薦應(yīng)用
推薦游戲
熱門文章
常用系統(tǒng)
- 1外星人WIN11系統(tǒng)正式版 簡(jiǎn)體中文游戲版 X64位 V2022.04
- 2Windows10純凈版下載 電腦公司x64位精簡(jiǎn)版 ghost 宏基筆記本專用下載
- 3番茄花園win10企業(yè)版 ghost系統(tǒng)下載 自動(dòng)激活 x64經(jīng)典珍藏版下載
- 4大地系統(tǒng) Windows 10 64位 專業(yè)裝機(jī)版
- 5Win10 64位企業(yè)版極速安裝版
- 6【經(jīng)典再現(xiàn)·輕盈如初】番茄花園 Win7 X86 SP1 經(jīng)典旗艦版
- 7番茄花園Windows10 64位最新家庭版下載 ghost鏡像 永久免費(fèi)
- 8技術(shù)員聯(lián)盟Windows11企業(yè)版 穩(wěn)定高速兼容性強(qiáng) Ghost鏡像 X64位下載
- 9外星人系統(tǒng)win11游戲版 x64位最新下載 永久激活ghost系統(tǒng) ISO鏡像下載