世界的參數(shù)倒影:為何GPT通過Next Token Prediction可以產(chǎn)生智能(2)
從上述講解可看出,如果 GPT 模型生成 Ground Truth 的生成概率越高,則其在算術(shù)編碼分割區(qū)間中占據(jù)的長度就越長,就越容易找到更短的算術(shù)編碼,這意味著模型壓縮率越高。也就是說,如果 GPT 模型智能程度越高,NTP 預(yù)測得越準(zhǔn)確,則其壓縮效率就越高。所以,我們可以根據(jù)模型的壓縮效率來評估模型的智能程度,模型壓縮效率越高,則模型智能程度越高,這是目前 OpenAI 照此思路推進(jìn)大模型研發(fā)方向的一個核心理念。
我們可以考慮兩種極端情況:一種情況是模型具備超強(qiáng)智能,對于 Next Token Prediction 要預(yù)測的每一個 Ground Truth ,生成概率總是為 1。我們假設(shè)當(dāng)小帥傳輸給小美一部分?jǐn)?shù)據(jù) 后,模型的智能程度不斷積累并達(dá)到這個程度,這意味著對于沒有傳送的剩余數(shù)據(jù) 來說,小帥后面無需傳輸任何信息。因?yàn)樾∶赖?GPT 已經(jīng)能夠完全靠自己正確預(yù)測后續(xù)的每一個 Token,此時 GPT 模型由于具備超強(qiáng)智能而擁有了極限數(shù)據(jù)壓縮能力,也就是根據(jù)輸入上文,未來發(fā)生什么它都知道;另外一種極端情況,是 GPT 在訓(xùn)練過程中未學(xué)到任何智能,則其在做 Next Token Prediction 時,純靠猜。假設(shè)詞表 大小為,則每一個 Ground Truth 的生成概率永為 ,此時 GPT 不具備任何數(shù)據(jù)壓縮能力,需要傳輸?shù)臄?shù)據(jù)量和原始數(shù)據(jù) 信息量相等。
這是兩種極端情況。大多數(shù)情況下,LLM 模型的智能,或者說壓縮能力,應(yīng)該介于兩者之間,而我們可以根據(jù)模型壓縮能力,來評估模型的智能程度。如果做些數(shù)學(xué)推導(dǎo),可知這種情形下,對于數(shù)據(jù) 對應(yīng)的 ,算術(shù)編碼所需編碼的 bit 數(shù),也即碼長,應(yīng)為:,您看到這個公式可以思考下,有沒有覺得它和誰長得比較像呢?其實(shí),這就是 GPT 在訓(xùn)練的時候, 這個 Token 對應(yīng)的交叉熵?fù)p失。也就是說,如果從數(shù)據(jù)壓縮的角度,每個 Token 的編碼長度,其實(shí)就是 LLM 預(yù)訓(xùn)練時,這個 Token 對應(yīng)的交叉熵?fù)p失,兩者是等價的。是不是很有意思?所以,數(shù)據(jù)無損壓縮是看待 LLM 模型訓(xùn)練的另外一個比較新穎的視角。
我們可以進(jìn)一步推導(dǎo)一下,對于數(shù)據(jù)集合 ,經(jīng)過 LLM 模型壓縮傳輸,小帥傳給小美的總數(shù)據(jù)量是多少?具體計算公式可參考上圖。由圖可看出,傳輸信息總量由兩部分構(gòu)成:一部分是 LLM 模型代碼描述,包括代碼本身、初始化方法以及隨機(jī)種子等信息;另外一部分的求和公式如果展開,如上所述,每個 對應(yīng)的壓縮編碼 bit 數(shù),就是這個 Token 對應(yīng)的交叉熵?fù)p失,所以,這部分其實(shí)就是 GPT 利用數(shù)據(jù) 進(jìn)行預(yù)訓(xùn)練的時候,所有 Token 的損失之和。兩個部分相加就是數(shù)據(jù)傳輸總量。
那么,不同的 LLM 模型,是否具備不同的數(shù)據(jù)壓縮能力呢?答案是顯然的。上圖展示了不同大小 LLaMA 模型(從最小的 7B 到最大的 65B)對應(yīng)的數(shù)據(jù)壓縮能力:對于相同的訓(xùn)練數(shù)據(jù)總量(比如橫坐標(biāo)的 1000B Tokens 節(jié)點(diǎn)),每個模型 Loss 曲線覆蓋的面積總數(shù),就是這個模型對應(yīng)的數(shù)據(jù)壓縮能力,Loss 曲線覆蓋的面積越小,說明模型壓縮能力越強(qiáng)。有了前面的講解鋪墊,我相信這很好理解,我們可以極端地假設(shè)模型訓(xùn)練時每個 Batch 只包含一個 Token,那么其所需的編碼 bit 數(shù),就是這個 Token 對應(yīng)的 loss 數(shù)值,我們對模型 Loss 面積進(jìn)行積分,就能得到所有 Token 的總 Loss,而這等價于壓縮這些 Token 所需要的總的壓縮后編碼長度。
從上圖可以看出,規(guī)模越大的 LLaMA 模型,其對應(yīng)的 Loss 面積越小,意味著這個模型壓縮率越高,壓縮能力越強(qiáng),而這進(jìn)一步代表模型的智能程度越高。如果粗估的話,可以得出目前 LLaMA 模型的數(shù)據(jù)壓縮率在 14 倍左右,而這是超出專門的數(shù)據(jù)壓縮競賽 Hutter Prize 目前最佳的壓縮率的,目前這個最佳壓縮率是 8.7 倍。這說明什么呢?如果我們假設(shè)當(dāng)前主流的文本壓縮算法,其壓縮依據(jù)主要來自于詞頻以及重復(fù)出現(xiàn)模式這種表面因素的話,那這多出的壓縮率,很可能代表了 LLM 語言模型對于文本深層理解,來自于對 AGI 的智能編碼。
進(jìn)一步的思考
上述內(nèi)容,即 Jack Rae 報告中體現(xiàn)出的 「壓縮即智能」的論證思路。三月份左右我看完分享后大受啟發(fā),覺得 OpenAI 開的腦洞很大,因?yàn)樽约捍_實(shí)從來沒有從數(shù)據(jù)壓縮的角度看待過 LLM 模型,我相信這對絕大多數(shù)人來說都是一個很新穎的觀察角度。不過,后來查閱相關(guān)文獻(xiàn)后,發(fā)現(xiàn)這種 “壓縮即智能” 的思路并非 OpenAI 首創(chuàng),其實(shí)已有較長歷史。比如上文提到的旨在鼓勵研究更好數(shù)據(jù)壓縮算法的 Hutter Prize,創(chuàng)立于 2006 年,獎項設(shè)立人 Marcus Hutter 即相信數(shù)據(jù)壓縮能力和 AI 智能是一個等價的問題,這也是他自己出資設(shè)立這個獎項的初衷,而且目前使用 AI 模型做數(shù)據(jù)壓縮已然是個小的研究方向,有不少相關(guān)論文。
我們可以就這個思路深入思考兩個相關(guān)問題。第一個問題是:上面講述內(nèi)容是以數(shù)據(jù)壓縮的視角來看待 LLM 的智能水準(zhǔn),問題是為何模型壓縮能力越強(qiáng),就代表了它具備更高的智能呢?
最小描述長度原理(Minimum Description Length,MDL)可以解釋這個問題,這是機(jī)器學(xué)習(xí)中的一個重要概念,是奧卡姆剃刀原則(「如無必要,勿增實(shí)」體)的形式化表述。MDL 的核心思想是說:假設(shè)我們有很多模型可以對手上的數(shù)據(jù)作出解釋,那么其中最佳解釋應(yīng)該是對該數(shù)據(jù)進(jìn)行盡可能短而準(zhǔn)確描述的模型,模型描述長度越短,則其泛化性就會越好,也就是我們說的越智能。為啥描述越短越智能?因?yàn)檫@個短描述是從數(shù)據(jù)里抽象出來的內(nèi)在規(guī)律,相對大量數(shù)據(jù),數(shù)據(jù)內(nèi)在規(guī)律的描述,自然就短得多,而模型若能給出越短的描述,說明這個模型學(xué)到了更多的內(nèi)在規(guī)律,所以就越聰明。是這個邏輯,我們來舉個例子。假設(shè)要傳輸?shù)男蛄惺且蝗f個連續(xù)質(zhì)數(shù)數(shù)字序列:
質(zhì)數(shù)數(shù)字之間的出現(xiàn)間隔是沒有規(guī)律的,所以小帥只能老老實(shí)實(shí)把這一萬個數(shù)字編碼傳給小美,但是其實(shí)小帥可以用一句話,比如「輸出從 2 開始的 1 萬個連續(xù)質(zhì)數(shù)」 ,來描述這些數(shù)字,把這句話壓縮后傳給小美,小美的 LLM 模型看到這句話后,如果足夠聰明的話,就能恢復(fù)出 1 萬個質(zhì)數(shù)序列,到這里我相信您應(yīng)該能理解 MDL 的含義了。
當(dāng)然,能這么做的前提是:LLM 得理解質(zhì)數(shù)這種很抽象的概念才行。那么,大模型真的能理解這種抽象概念嗎?是否真的只有大模型才能理解類似 「質(zhì)數(shù)」 這種抽象概念,而小模型就不行呢?我做了個驗(yàn)證,對大模型和小模型的能力做了個對比,為了防止模型單純靠對訓(xùn)練數(shù)據(jù)中出現(xiàn)的質(zhì)數(shù)序列進(jìn)行記憶來完成這個任務(wù),我把描述進(jìn)行了一些轉(zhuǎn)換,保證大語言模型在訓(xùn)練中是看不到這種說法的,測試對應(yīng)的 Prompt 及大小兩個模型的輸出結(jié)果可參考下圖所示。
可以看出,GPT 3.5 是學(xué)會了質(zhì)數(shù)這種抽象概念的,否則這道題很難回答好,如果不理解這個概念,就會出現(xiàn)圖右小模型這種不知所云的回答。這一方面說明大模型確實(shí)可以學(xué)習(xí)一些抽象概念,另一方面說明大模型在這方面表現(xiàn)確實(shí)比小模型要好。
另外一個問題,jack Rae 在報告中強(qiáng)調(diào) LLM 的這種數(shù)據(jù)壓縮能力是無損的,并反駁了著名科幻小說作家特德姜在年初時候提出的影響很大的「ChatGPT 是對互聯(lián)網(wǎng)數(shù)據(jù)的有損壓縮」 觀點(diǎn)。其實(shí)吧,你要仔細(xì)思考一下,會發(fā)現(xiàn)這種 LLM 是對數(shù)據(jù)的「無損壓縮」的觀點(diǎn)是有點(diǎn)水分的。如果我們更嚴(yán)謹(jǐn)?shù)貋砜?,會發(fā)現(xiàn)盡管 LLM 訓(xùn)練過程可以看成是對數(shù)據(jù)的無損壓縮,但是能夠達(dá)成「無損」 的效果,并不單單靠 LLM,其實(shí)是「LLM + 算術(shù)編碼」一起完成的。
如果 LLM 通過學(xué)習(xí)達(dá)到足夠強(qiáng)的智能程度,能夠保證 NTP 預(yù)測后續(xù)文字序列的 loss 是 0,也就是說可以根據(jù)上文 Context,完全精準(zhǔn)預(yù)測后續(xù) Next Token,此時算術(shù)編碼就不需要了,僅靠 LLM 就能完整地對數(shù)據(jù)進(jìn)行壓縮和解碼。如果是這種情況,我們說 LLM 的訓(xùn)練過程或者說 LLM 在經(jīng)過訓(xùn)練后,能對數(shù)據(jù)進(jìn)行 「無損壓縮」,并沒有任何問題。但是,這是理想情況,目前 LLM 能做到這點(diǎn)嗎?肯定是做不到的,所以 LLM 給出的后續(xù) Next Token 預(yù)測肯定會有錯誤,這些被預(yù)測錯誤的 Token,其實(shí)就代表了 LLM 壓縮數(shù)據(jù)的信息損失,這種損失是靠算術(shù)編碼額外對信息進(jìn)行編碼來進(jìn)行補(bǔ)償,才達(dá)成數(shù)據(jù)的「無損壓縮」效果。所以,更精確的說法,看似應(yīng)該是這樣:
數(shù)據(jù)無損壓縮 = LLM 模型的有損數(shù)據(jù)壓縮能力 + 算術(shù)編碼的編碼補(bǔ)償能力
也就是說,起碼目前的 LLM 對數(shù)據(jù)編碼還是有損的,并不能單靠自己的能力達(dá)到數(shù)據(jù)無損壓縮的目的。至于將來 LLM 是否能夠強(qiáng)大到靠自己就能達(dá)成數(shù)據(jù)無損壓縮,目前仍是未知數(shù)。
數(shù)據(jù)壓縮只是手段,通過這種手段使得 GPT 獲得智能才是目標(biāo),現(xiàn)在的問題是:OpenAI 從基礎(chǔ)理論上指出了手段及目的,但是并未說明一個更基礎(chǔ)的問題:Next Token Prediction 通過數(shù)據(jù)壓縮來讓 GPT 模型學(xué)到了什么樣的 AGI 智能呢?本文后續(xù)內(nèi)容試圖回答這個問題。
拼圖游戲:目前已知的一些事實(shí)碎片
若把 LLM 習(xí)得 AGI 智能比做一個拼圖游戲的話,只能說目前我們手上只有一些有關(guān)它的支離破碎的拼圖碎片,還未能一睹這種機(jī)器智能的全貌。本部分從幾個不同的角度,收集并介紹現(xiàn)有相關(guān)研究的研究結(jié)論。
GPT 模型對知識的提取過程
我們先來看一下,假設(shè) LLM 模型訓(xùn)練好了,在使用時輸入 Prompt,GPT 模型是如何把知識提取出來的?!窪issecting Recall of Factual Associations in Auto-Regressive Language Models」這篇文章對此做了細(xì)致的研究。如圖所示,假設(shè)輸入的 Prompt 是:「Beat music is owned by」,GPT 可以通過 NTP 返回正確答案:Apple。這個例子里,「Beat music」 是個實(shí)體,「owned by Apple」 是這個實(shí)體對應(yīng)的某個屬性。
經(jīng)過研究,發(fā)現(xiàn) GPT 在提取這條知識的時候,經(jīng)歷了明顯的三階段過程:首先,單詞 「music」是描述這個實(shí)體最后的、也是最關(guān)鍵的詞匯,它的信息在順著 Transformer block 往上走的過程中,先通過 Attention 把之前的修飾語「beats」 相關(guān)信息集成到「music」 對應(yīng)位置。之后,隨著 Transformer 層數(shù)越來越高,通過每個 Transformer Block 的 FFN 層,不斷往「music」對應(yīng)的 Embedding 里增加信息,所以隨著信息往上層流動,「music」這個單詞對應(yīng)層數(shù)的 Embedding,能夠觸發(fā)越來越多的與「Beat music」 相關(guān) 「屬性」 詞匯。這是第一個步驟,整個過程總體發(fā)生在 Transformer 的低層。
第二步,GPT 模型在 「by」單詞這個位置,也就是 NTP 要產(chǎn)生輸出 token 的最后一個位置,通過 Attention 把單詞「own」 的信息集成到最后位置。這里需要注意一下,最后一個單詞對應(yīng)的 Transformer 位置是比較關(guān)鍵的,因?yàn)樵谒淖钌蠈訒o出 Next Token 輸出。在推理過程中,GPT 會把輸入上文中的重要信息通過 Attention 逐步集成到這個位置上來。這個操作也發(fā)生在 Transformer 的低層。
第三步,在「by」 單詞位置,也就是最后一個位置的 Transformer 高層,它在低層已經(jīng)集成了單詞「own」 的信息,這個信息在高層,通過 Attention 把「Beat music」 對應(yīng)的屬性「apple」提取出來。具體提取動作是通過某個 Attention Head 來做到的,而且這篇文章證明了 Attention Head 里會編碼 < 實(shí)體 - 屬性 > 信息,具體例子可以參照下圖,這點(diǎn)對我們來說應(yīng)該是個新知識(過去一般認(rèn)為 Attention 主要是用來進(jìn)行信息比較和搬運(yùn)的,它證明了 Attention 也會存儲某種知識)。
通過以上三步,GPT 完成了對某條知識的提取過程。
另外一個工作「Understanding Transformer Memorization Recall Through Idioms」 探討了 LLM 是如何提取記憶信息的,包括完全靠記憶需要精準(zhǔn)復(fù)現(xiàn)的成語/諺語(Idioms),以及事實(shí)類知識。研究結(jié)論是 LLM 對記憶信息提取可以分為兩個階段:第一階段是低層的 Transformer Block 把正確答案單詞的排名逐漸提高,直到中間層排名到了第一名;第二階段高層的 Transformer 把正確答案的置信度提高,也就是不斷提高這個正確答案的分布概率得分。
除了以上兩個工作,還有一些其它類似的研究知識提取的工作。如果綜合下現(xiàn)有的研究結(jié)論,我覺得可以大致得出這么一個 GPT 知識提取的輪廓:當(dāng)訓(xùn)練好 GPT 模型后輸入 Prompt,對于 Transformer 某個位置對應(yīng)的輸入單詞,隨著 Transformer 不斷往上走,GPT 通過 Attention,把這個單詞上文中與自己有關(guān)的信息集成到自己的 Embedding 里,而每層的 FFN 對當(dāng)前單詞 Embedding 做變換增加信息,以此方式來不斷觸發(fā) FFN 里存儲的知識并逐層 Refine 單詞對應(yīng)的 Embedding(類似上面例子里單詞 「music」的過程)。
Transformer 的 last token 位置也是如此,它的特殊之處在于,從底層到上層,首先會把整個輸入上文中最關(guān)鍵的信息,通過 Attention 拷貝到自己的位置,之后通過這個關(guān)鍵信息來逐步過濾出上文中比較重要的信息。在這個位置的 Transformer 底層,應(yīng)該有很多候選答案可供輸出,正確答案排名并不靠前,隨著 Transformer 往上走,正確答案排名越來越靠前,而且可以和正確答案競爭的候選答案越來越少,體現(xiàn)為分配給正確答案的概率分布得分越來越高,直到 last token 的最高層,GPT 可以輸出正確答案(類似上面例子中單詞「by」的過程)。
知識點(diǎn)在 Transformer 中的分布
這部分介紹知識點(diǎn)在 Transformer 結(jié)構(gòu)中的分布情況,意思是不同類型或特定的知識點(diǎn),在 Transformer 高中低不同層級的分布情況。了解這方面的知識,對于理解 GPT 的內(nèi)在運(yùn)行機(jī)制是非常有幫助的。
在介紹研究結(jié)論前,為了便于理解,我們先說明三個基礎(chǔ)概念 (可參考 Toy Models of Superposition):單語義(Monosemantic)神經(jīng)元、多語義(Polysemantic)神經(jīng)元及 superposition。
目前發(fā)現(xiàn) LLM 中存在很多單個的神經(jīng)元,它們各自只對輸入里某個特殊的知識點(diǎn)產(chǎn)生響應(yīng),也就是說只會被特定輸入模式激活,對其它無關(guān)輸入保持沉默,一個神經(jīng)元編碼一個知識,完美一一對應(yīng),這類 Transformer 中的神經(jīng)元被稱為 「單語義神經(jīng)元」(這和人類大腦中的神經(jīng)元作用機(jī)制就比較像了)。與此相反,也有大量神經(jīng)元是多語義編碼的,就是說很多不同語言含義的知識點(diǎn)都會激活某個神經(jīng)元,這類神經(jīng)元被稱為「多語義神經(jīng)元」。上圖給了例子,比如有的神經(jīng)元只有當(dāng)輸入的 Prompt 內(nèi)容是法語寫的,它才有響應(yīng),這是典型的 「單語義神經(jīng)元」;而有的神經(jīng)元會對多個語義差異很大的 2-gram 語言片段都會有響應(yīng),這是典型的「多語義神經(jīng)元」。
Superposition 概念的含義是:假設(shè)要編碼的特征的數(shù)量 n 遠(yuǎn)遠(yuǎn)多于網(wǎng)絡(luò)參數(shù) d,我們可找到辦法,來用 d 維神經(jīng)元編碼比 d 數(shù)量大得多的 n 個特征,這種編碼機(jī)制被稱為 superposition,所以它是被發(fā)現(xiàn)存在 Transformer 結(jié)構(gòu)里的一種信息壓縮編碼機(jī)制。
Superposition 和「多語義神經(jīng)元」 關(guān)系密切,目前發(fā)現(xiàn) LLM 內(nèi)部是這樣做的(參考 Finding Neurons in a Haystack: Case Studies with Sparse Probing):如上圖所示,LLM 的 Superposition 機(jī)制是由多個「多語義神經(jīng)元」 聯(lián)合構(gòu)成的,每個神經(jīng)元會對輸入中的多個不同知識點(diǎn)都有響應(yīng),所以僅僅通過一個 「多語義神經(jīng)元」 是無法探測當(dāng)前是對誰在做出響應(yīng),但是如果有多個對某個知識點(diǎn)都有響應(yīng)的「多語義神經(jīng)元」,在它們的響應(yīng)之上做個線性組合,就能探測到輸入中我們想識別的那個知識點(diǎn)(上圖中藍(lán)色部分)。也就是說,LLM 通過組合多個「多語義神經(jīng)元」來對某個具體特征或知識點(diǎn)進(jìn)行編碼。所以,「多語義神經(jīng)元」和知識點(diǎn)之間的關(guān)系是多對多的映射,一個知識點(diǎn)會激發(fā)很多對它進(jìn)行編碼的「多語義神經(jīng)元」,而一個 「多語義神經(jīng)元」也會對多個輸入知識點(diǎn)產(chǎn)生響應(yīng)。
了解了上述三個基礎(chǔ)概念,我們介紹下目前的研究結(jié)論:在訓(xùn)練好的 GPT 模型中,Transformer 底層編碼了大量的具體特征或知識點(diǎn),比如 n-gram 特征、句法特征等,編碼方式采用上述的由多個 “多語義神經(jīng)元” 組成的 superposition 模式;而隨著 Transformer 層數(shù)加深,具體知識點(diǎn)逐漸減少,抽象知識點(diǎn)(比如 「法語」/「質(zhì)數(shù)」等)逐漸增加,且抽象知識點(diǎn)一般由「單語義神經(jīng)元」 獨(dú)立編碼,且隨著 Transformer 層數(shù)越高,編碼的特征越抽象。換句話說,Transformer 對特征或知識點(diǎn)的編碼,存在由低到高越來越抽象的一個知識抽象過程,這一現(xiàn)象在 OpenAI 最新發(fā)布的文章「Language models can explain neurons in language models」 也有提及。
另外,「Polysemanticity and Capacity in Neural Networks」這個文章指出了:在模型學(xué)習(xí)過程中,為了增加模型參數(shù)的利用效率,「單語義神經(jīng)元」 會被分配給重要特征,「多語義神經(jīng)元」會分配給不太重要的特征,而對更加不重要的特征,則模型完全不進(jìn)行編碼。而所謂的「重要性」,指的是對訓(xùn)練 loss 的影響來說的,也就是說:「單語義神經(jīng)元」 對 NTP 訓(xùn)練時降低 loss 影響比較大。這說明對特征或知識點(diǎn)進(jìn)行抽象,是 NTP 本身為了快速降低 Loss 的一種內(nèi)在驅(qū)動力,而這很可能是 GPT 模型通過 Next Token Prediction 任務(wù)產(chǎn)生智能的關(guān)鍵之一。
GPT 中知識回路存在的證據(jù)
這里介紹 LLM 模型中,完成某個特定任務(wù)存在對應(yīng)知識回路(Circuit)的相關(guān)工作。所謂「回路」,指的是某個任務(wù)的 Prompt 輸入 Transformer 后,信息從底向上傳播,直到 last token 最高層 Next Token 輸出答案,在網(wǎng)絡(luò)中存在一些完成這個任務(wù)的關(guān)鍵路徑,信息主要沿著這條路徑向上傳播,在傳播過程中不斷進(jìn)行信息傳遞或知識加工,以此方式來通過 NTP 完成某項任務(wù)。如果看過后面介紹內(nèi)容,你會發(fā)現(xiàn) LLM 知識回路的工作過程,其實(shí)和人類大腦中的某些信息處理回路是很相似的。而大量在 GPT 的 NTP 預(yù)訓(xùn)練過程中形成的各種知識回路,很可能是揭開 AGI 之謎的另外一把鑰匙。
「How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model」 這個工作主要探討:為何 GPT 模型能夠通過預(yù)訓(xùn)練獲得數(shù)學(xué)能力。具體而言,用的是類似「The war lasted from the year 17YY to the year 17」的 Prompt,GPT 模型可以做到輸出的 Next Token 的年份數(shù)字 XX 大于 YY,這說明它在預(yù)訓(xùn)練中學(xué)會了數(shù)字間的比較關(guān)系。通過探究,發(fā)現(xiàn)模型在預(yù)訓(xùn)練過程中形成了解決這個問題的知識回路,如上圖圖右所示:有兩個關(guān)鍵部分,第一個是中間層的某些 Attention Head,比如圖中 a5.h5 代表 Transformer 第 5 層的第 5 個 Attention Head,這些 Attention Head 主要作用是聚焦到 YY 年份并向高層傳播;另外一個關(guān)鍵是第 8 到 11 層的 MLP 層,這些層的 MLP 完成 「大于」運(yùn)算,所以最后 GPT 能夠正確輸出結(jié)果。而且,中間層的 Attention Head 和上層 MLP 也有相對應(yīng)的傳遞關(guān)系,比如第 9 層 MLP 主要接收信息來源于 a9.h1,而第 8 層 MLP 的信息來源則比較多??梢钥闯觯畔南碌缴闲纬闪艘粋€特定的傳播路徑。
如果再深入探究,會發(fā)現(xiàn)是 MLP 中的一些關(guān)鍵神經(jīng)元完成數(shù)學(xué)運(yùn)算的,如上圖圖右所示,可以探測出第 10 層 MLP 中影響最大的 10 個神經(jīng)元,這層只用這 10 個神經(jīng)元就能大致完成 “大于” 運(yùn)算,而左圖則展示了 a7.h10 這個 Attention Head 主要聚焦于關(guān)鍵信息 “YY” 上。另外,該項研究還發(fā)現(xiàn)不僅僅上述 Prompt,如果變換 Prompt 形式,但是體現(xiàn)數(shù)字比較關(guān)系,發(fā)現(xiàn)被激活的也是這條回路,這說明這條回路可能專門用于對數(shù)字進(jìn)行關(guān)系比較。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。