大模型“研究源”告急:研究預(yù)測(cè),2026年高質(zhì)量語(yǔ)言數(shù)據(jù)將耗盡
大數(shù)據(jù)文摘轉(zhuǎn)載自AI科技評(píng)論
作者:李梅
編輯:陳彩嫻
語(yǔ)言模型的縮放定律(Scaling law)表明,其規(guī)模大小取決于可用數(shù)據(jù)的數(shù)量,所以在過(guò)去幾年,大約有一半的語(yǔ)言模型是通過(guò)擴(kuò)大數(shù)據(jù)量來(lái)改進(jìn)性能的。
當(dāng)前,在參數(shù)量上的角逐似乎已進(jìn)入冷靜期,然而,當(dāng)許多人還在討論模型要不要繼續(xù)做大的時(shí)候,模型能不能做大的問(wèn)題已經(jīng)出現(xiàn)了。
最近,一項(xiàng)來(lái)自 Epoch AI Research 團(tuán)隊(duì)的研究向我們拋出了一個(gè)殘酷的事實(shí):模型還要繼續(xù)做大,數(shù)據(jù)卻不夠用了。
論文地址:https://arxiv.org/pdf/2211.04325.pdf
研究人員預(yù)測(cè)了 2022 年至 2100 年間可用的圖像和語(yǔ)言數(shù)據(jù)總量,并據(jù)此估計(jì)了未來(lái)大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增長(zhǎng)趨勢(shì)。
結(jié)果表明:高質(zhì)量的語(yǔ)言數(shù)據(jù)存量將在 2026 年耗盡,低質(zhì)量的語(yǔ)言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。
這意味著,如果數(shù)據(jù)效率沒(méi)有顯著提高或有新的數(shù)據(jù)源可用,那么到 2040 年,模型的規(guī)模增長(zhǎng)將放緩。
對(duì)數(shù)據(jù)端的建設(shè)該重視起來(lái)了。
數(shù)據(jù)存量是大模型數(shù)據(jù)集的規(guī)模上限
1、數(shù)據(jù)存量預(yù)測(cè)
數(shù)據(jù)量的多少會(huì)限制大模型訓(xùn)練數(shù)據(jù)集的規(guī)模大小,所以要先對(duì)數(shù)據(jù)存量的增長(zhǎng)趨勢(shì)進(jìn)行預(yù)測(cè)。
在預(yù)測(cè)未來(lái)語(yǔ)言和圖像數(shù)據(jù)存量方面,研究團(tuán)隊(duì)開(kāi)發(fā)了概率模型來(lái)預(yù)測(cè)數(shù)據(jù)累積率。
近年來(lái)無(wú)監(jiān)督學(xué)習(xí)在基礎(chǔ)模型領(lǐng)域大為成功,它允許我們使用少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)、針對(duì)多項(xiàng)任務(wù)進(jìn)行微調(diào),無(wú)監(jiān)督模型也被證明能夠?yàn)槲礃?biāo)注數(shù)據(jù)生成有價(jià)值的偽標(biāo)簽。所以,這里主要關(guān)注未標(biāo)注數(shù)據(jù)的存量和累計(jì)率。
另外,要預(yù)測(cè)數(shù)據(jù)累積率,得先確定哪些因素會(huì)導(dǎo)致數(shù)據(jù)的增長(zhǎng)。絕大多數(shù)數(shù)據(jù)是用戶生成的,存儲(chǔ)于社交媒體平臺(tái)、博客、論壇中。所以決定某一時(shí)期產(chǎn)生多少數(shù)據(jù)的因素有三個(gè):人口數(shù)量、互聯(lián)網(wǎng)普及率和每個(gè)互聯(lián)網(wǎng)用戶產(chǎn)生的平均數(shù)據(jù)量。
研究團(tuán)隊(duì)據(jù)此開(kāi)發(fā)了一個(gè)用戶生成內(nèi)容累積率的模型。
2、訓(xùn)練數(shù)據(jù)集規(guī)模增長(zhǎng)預(yù)測(cè)
在數(shù)據(jù)存量的預(yù)測(cè)基礎(chǔ)上,研究人員進(jìn)一步估測(cè)了未來(lái)大模型的訓(xùn)練數(shù)據(jù)集規(guī)模的增長(zhǎng)趨勢(shì)。
數(shù)據(jù)集規(guī)模(dataset size)在這里被定義為訓(xùn)練模型所依據(jù)的獨(dú)特?cái)?shù)據(jù)點(diǎn)(datapoint)的數(shù)量。不同領(lǐng)域?qū)?shù)據(jù)點(diǎn)的定義不同,對(duì)于語(yǔ)言數(shù)據(jù)而言,數(shù)據(jù)點(diǎn)即一個(gè)詞,圖像數(shù)據(jù)則定義為一張圖像。
如果根據(jù)數(shù)據(jù)集規(guī)模的歷史變化來(lái)預(yù)測(cè)未來(lái)的趨勢(shì),那結(jié)果會(huì)是“未來(lái)會(huì)繼續(xù)延續(xù)歷史”,這當(dāng)然不夠準(zhǔn)確,因?yàn)閷?shí)際上可訓(xùn)練模型的數(shù)據(jù)量是有限制的,最大的限制之一就是計(jì)算可用性(compute availability)。要對(duì)已有模型增加訓(xùn)練數(shù)據(jù)量,當(dāng)然需要更多額外的計(jì)算,而計(jì)算會(huì)受到硬件供應(yīng)以及購(gòu)買、租用硬件的成本的制約。
所以,預(yù)測(cè)數(shù)據(jù)集規(guī)模時(shí)要將計(jì)算可用性的限制考慮進(jìn)去,為此作者團(tuán)隊(duì)也根據(jù)計(jì)算可用性和計(jì)算優(yōu)化(compute-optimal)的數(shù)據(jù)集規(guī)模做了預(yù)測(cè)。
關(guān)于模型的規(guī)模增長(zhǎng),有一個(gè)重要概念是 Scaling law(縮放定律),Scaling law 可用來(lái)預(yù)測(cè)給定計(jì)算預(yù)算(以 FLOP 衡量)下的模型規(guī)模和數(shù)據(jù)集規(guī)模之間的最優(yōu)平衡。具體來(lái)說(shuō),最優(yōu)的數(shù)據(jù)集規(guī)模與計(jì)算預(yù)算的平方根成正比。這項(xiàng)工作便預(yù)測(cè)了未來(lái)每年將會(huì)達(dá)到的最優(yōu)訓(xùn)練數(shù)據(jù)集規(guī)模。
語(yǔ)言數(shù)據(jù)將耗盡于 2026年
先來(lái)看語(yǔ)言模型。
語(yǔ)言數(shù)據(jù)的質(zhì)量有好壞,互聯(lián)網(wǎng)用戶生成的語(yǔ)言數(shù)據(jù)質(zhì)量往往低于書籍、科學(xué)論文等更專業(yè)的語(yǔ)言數(shù)據(jù),在后一種數(shù)據(jù)上訓(xùn)練的模型性能也更好。所以,有必要區(qū)分開(kāi)來(lái),為了獲得更全面的結(jié)果,作者分別對(duì)低質(zhì)量語(yǔ)言數(shù)據(jù)和高質(zhì)量語(yǔ)言和數(shù)據(jù)的存量進(jìn)行了估測(cè),我們來(lái)看看結(jié)果。
對(duì)低質(zhì)量語(yǔ)言數(shù)據(jù)的當(dāng)前總存量進(jìn)行估測(cè),得到存量為 6.85e13 到 7.13e16 個(gè)單詞。如下圖。
其中,區(qū)間上的1e14 很可能是代表對(duì)于資金雄厚的大公司如谷歌可用的語(yǔ)言數(shù)據(jù)存量;1e15 是對(duì)于所有科技公司可用的量;1e16 則是全球人類多年間集體產(chǎn)生的量。當(dāng)前每年語(yǔ)言數(shù)據(jù)增長(zhǎng)率在 6.41% 到 17.49% 之間。
圖注:低質(zhì)量語(yǔ)言數(shù)據(jù)存量
接著,以這里的低質(zhì)量語(yǔ)言數(shù)據(jù)存量作為數(shù)據(jù)集的規(guī)模上限來(lái)進(jìn)行預(yù)測(cè),結(jié)果發(fā)現(xiàn),語(yǔ)言數(shù)據(jù)集規(guī)模會(huì)先經(jīng)歷快速增長(zhǎng)直到數(shù)據(jù)存量耗盡,之后增長(zhǎng)速度會(huì)大幅放緩。如下圖,數(shù)據(jù)存量耗盡的時(shí)間節(jié)點(diǎn)在 2030 年之后。
圖注:低質(zhì)量語(yǔ)言數(shù)據(jù)集規(guī)模增長(zhǎng)趨勢(shì)
在高質(zhì)量語(yǔ)言數(shù)據(jù)方面,作者估測(cè)了數(shù)字化書籍、公共 GitHub 存儲(chǔ)庫(kù)和科學(xué)論文中可用文本的全部數(shù)量,并假設(shè)其占高質(zhì)量數(shù)據(jù)集的 30 %-50%,從而預(yù)測(cè)出當(dāng)前高質(zhì)量語(yǔ)言數(shù)據(jù)的總存量為 9e12 [4.6e12; 1.7e13] 個(gè)單詞,每年增長(zhǎng)率為 4% 到 5%。如下圖。
圖注:高質(zhì)量語(yǔ)言數(shù)據(jù)存量
這時(shí),以高質(zhì)量語(yǔ)言數(shù)據(jù)存量作為數(shù)據(jù)集規(guī)模上限,發(fā)現(xiàn)了相同的數(shù)據(jù)集規(guī)模放緩模式,但放緩會(huì)發(fā)生得更早,在 2026 年之前。如下圖。
圖注:高質(zhì)量語(yǔ)言數(shù)據(jù)集規(guī)模增長(zhǎng)趨勢(shì)
再來(lái)看視覺(jué)模型。
對(duì)于視覺(jué)模型來(lái)說(shuō),什么樣的圖像數(shù)據(jù)算是高質(zhì)量數(shù)據(jù),這方面我們目前還了解不多,所以作者這里未區(qū)分高低質(zhì)量。
經(jīng)估測(cè),作者發(fā)現(xiàn),當(dāng)今互聯(lián)網(wǎng)上的圖像總存量在 8.11e12 和 2.3e13 之間,年增長(zhǎng)率約為 8 %。如下圖。
圖注:圖像數(shù)據(jù)存量
以這一存量作為圖像數(shù)據(jù)集規(guī)模的上限,根據(jù)歷史趨勢(shì)和計(jì)算最優(yōu)來(lái)預(yù)測(cè)訓(xùn)練數(shù)據(jù)集規(guī)模的增長(zhǎng),發(fā)現(xiàn)與語(yǔ)言模型類似,圖像數(shù)據(jù)集的規(guī)模會(huì)呈指數(shù)增長(zhǎng),直到圖像數(shù)據(jù)存量耗盡,之后增長(zhǎng)率會(huì)下降。如下圖。
圖注:圖像數(shù)據(jù)集規(guī)模增長(zhǎng)趨勢(shì)
作者進(jìn)一步計(jì)算了每種數(shù)據(jù)集規(guī)模每年會(huì)遭遇數(shù)據(jù)存量耗盡的概率,包括兩種預(yù)測(cè),一是根據(jù)歷史趨勢(shì)的預(yù)測(cè),二是根據(jù)計(jì)算可用性的預(yù)測(cè)。結(jié)果如下圖。
圖注:低質(zhì)量語(yǔ)言數(shù)據(jù)存量、高質(zhì)量語(yǔ)言數(shù)據(jù)存量和視覺(jué)數(shù)據(jù)存量每年發(fā)生耗盡的概率
對(duì)于語(yǔ)言模型而言,數(shù)據(jù)的枯竭將會(huì)在 2030 年到 2040 年之間到來(lái);對(duì)視覺(jué)模型而言,則是 2030 年到 2060 年之間。
具體來(lái)說(shuō),低質(zhì)量語(yǔ)言數(shù)據(jù)和視覺(jué)數(shù)據(jù)枯竭的日期存在較大的不確定性,但基本上不太可能發(fā)生在 2030 年之前或 2060 年之后。但高質(zhì)量的語(yǔ)言數(shù)據(jù)幾乎肯定會(huì)在 2027 年之前耗盡。
大模型的數(shù)據(jù)瓶頸如何破除?
上述研究結(jié)果表明,數(shù)據(jù)存量的增長(zhǎng)速度遠(yuǎn)低于訓(xùn)練數(shù)據(jù)集規(guī)模的增長(zhǎng)速度,所以如果當(dāng)下的趨勢(shì)繼續(xù)下去,我們的數(shù)據(jù)庫(kù)存一定會(huì)耗盡。而且,高質(zhì)量的數(shù)據(jù)會(huì)更少。
或許更大的數(shù)據(jù)集能夠替代較低質(zhì)量的數(shù)據(jù)集,但即使如此,數(shù)據(jù)集規(guī)模增長(zhǎng)的放緩是不可避免的,因?yàn)閿U(kuò)大數(shù)據(jù)集同時(shí)也會(huì)受到計(jì)算可用性的制約。
如果這項(xiàng)工作的預(yù)測(cè)是正確的,那么毫無(wú)疑問(wèn)數(shù)據(jù)將成為做模型繼續(xù)做大的主要制約因素,AI 的進(jìn)展也會(huì)隨著數(shù)據(jù)量的耗盡而放緩。
但大模型畢竟是數(shù)據(jù)驅(qū)動(dòng)的。阿里巴巴達(dá)摩院基礎(chǔ)視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人趙德麗博士曾告訴 AI 科技評(píng)論,數(shù)據(jù)側(cè)的建設(shè)將會(huì)成為每一個(gè)做大模型工作的機(jī)構(gòu)必須要考慮的問(wèn)題,大模型有多少能力,往往取決于你有什么樣的數(shù)據(jù)。
舉個(gè)例子,趙德麗博士在從事生成模型的研究中發(fā)現(xiàn),與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數(shù)據(jù)的數(shù)量遠(yuǎn)比不上文本和圖像,更不要談數(shù)據(jù)的質(zhì)量了。相應(yīng)地,目前已有的文生視頻模型的效果都不盡如人意。
不過(guò),事情或許還沒(méi)那么糟。
這項(xiàng)工作的作者承認(rèn),當(dāng)前的預(yù)測(cè)結(jié)果更多是基于理想條件下的假設(shè),即目前的數(shù)據(jù)使用和生產(chǎn)的趨勢(shì)將保持不變,且數(shù)據(jù)效率不會(huì)有大的改進(jìn)。
但是,如果未來(lái)數(shù)據(jù)效率得到提高,大模型有可能并不需要更多數(shù)據(jù)就能實(shí)現(xiàn)同等的性能;
如果目前看來(lái)正確的 Scaling law 被證明為錯(cuò)誤,那也就是說(shuō)在數(shù)據(jù)很少的情況下,即使數(shù)據(jù)效率沒(méi)有提高,也會(huì)有其他更好的擴(kuò)大模型規(guī)模的辦法;
如果通過(guò)遷移學(xué)習(xí),多模態(tài)模型被證明比單模型模型性能更好,那么也可以增加數(shù)據(jù)存量從而擴(kuò)大各種數(shù)據(jù)模態(tài)存量的組合;
就數(shù)據(jù)存量本身,如果對(duì)數(shù)據(jù)進(jìn)行組合使用,甚至可以無(wú)限增加數(shù)據(jù)存量;如果社會(huì)經(jīng)濟(jì)方面發(fā)生重大轉(zhuǎn)變,也可能會(huì)產(chǎn)生更多新的數(shù)據(jù)種類,例如等到自動(dòng)駕駛汽車大規(guī)模普及,那么道路視頻的記錄數(shù)據(jù)將會(huì)大大增加。
以上這些“如果”或許正是大模型的未來(lái)所在。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么