世界的參數(shù)倒影:為何GPT通過(guò)Next Token Prediction可以產(chǎn)生智能(3)
大部分知識(shí)回路應(yīng)由 Attention 和 MLP 共同組成,但是也發(fā)現(xiàn)一些以 Attention 為主的知識(shí)回路。典型的例子就是「Induction Head」 回路,多項(xiàng)研究證明這個(gè)回路的存在。它的主要作用在于當(dāng) GPT 預(yù)測(cè) Next Token 的時(shí)候,傾向于從上文找到類似的輸出模式,并拷貝到后續(xù) Token 輸出。如上圖所示句子,第二個(gè)「so」 是 last token,GPT 此時(shí)通過(guò) NTP 將要產(chǎn)生后續(xù) Token,「Induction Head」 回路傾向于從上文中找到相同的 「so」單詞,并把上文中跟在「so」后面的單詞 「bad」 當(dāng)作 Next Token 輸出?!窵ocalizing Model Behavior with Path Patching」 這項(xiàng)研究探測(cè)了 Induction Head 的內(nèi)在工作機(jī)制:當(dāng)根據(jù)第二個(gè)單詞 「so」 要預(yù)測(cè) Next Token 的時(shí)候,「so」 本身的內(nèi)容被拷貝到 Transformer 自己對(duì)應(yīng) Attention 的 < Query,Key,Value > 中的 Query,而上文內(nèi)容中出現(xiàn)的 “bad” 單詞,通過(guò) PTH (Previous Token Head to key) 這個(gè) Attention Head 將 “bad” 之前內(nèi)容的語(yǔ)義集成到 “bad” 對(duì)應(yīng)的 Key 里。結(jié)果在「so」做 Attention 的時(shí)候,兩者就得到很高相似性,于是通過(guò) Attention 把「bad」 拷貝到單詞 so 的位置,這導(dǎo)致 Next Token 很容易輸出 “bad”,就達(dá)成了從上文拷貝「so…bad」 的目的。
除了 「Induction Head」 外,還有一些功能更復(fù)雜的 Attention 回路,比如「Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small」這個(gè)工作發(fā)現(xiàn)了 Transformer 中存在以 Attention 為主,用于識(shí)別 「Indirect Object Identification」的知識(shí)回路。所謂「Indirect Object Identification」 ,可以參考上圖給出的例子,就是說(shuō)輸入有兩個(gè)實(shí)體,一個(gè)重復(fù)實(shí)體,一個(gè)非重復(fù)實(shí)體,如何從中找到正確答案。從上圖例子可看出 GPT 是可以輸出正確答案 Mary 的,其原因就是模型學(xué)會(huì)了一個(gè)主要由 Attention Head 構(gòu)成的復(fù)雜識(shí)別回路。
如上圖所示,「Indirect Object Identification」知識(shí)回路識(shí)別正確答案,主要由三個(gè)步驟構(gòu)成:首先,Duplicate Token Heads 用于標(biāo)識(shí)多次出現(xiàn)在句子中的 Token,而 Induction Heads 起到類似的作用;其次,S-Inhibition Heads 在輸出 Next Token 的位置發(fā)生作用,用于從 Name Mover Heads 的注意力中刪除或者抑制重復(fù)出現(xiàn)的名字;最后,Name Mover Heads 則輸出剩余的名稱 Token。由上可看出,LLM 模型在預(yù)訓(xùn)練過(guò)程中,為了更好地進(jìn)行 Next Token 預(yù)測(cè),學(xué)習(xí)到了非常復(fù)雜的 Attention 知識(shí)回路,來(lái)執(zhí)行對(duì)某些輸入 Token 拷貝并在 Next Token Prediction 結(jié)果中輸出。
OpenAI 首席科學(xué)家 Ilya Sutskever 在訪談中曾說(shuō):「我們訓(xùn)練 LSTM 來(lái)預(yù)測(cè)亞馬遜評(píng)論的下一個(gè)字符 (NTP) 時(shí)發(fā)現(xiàn),如果你預(yù)測(cè)下一個(gè)字符足夠好,LSTM 就會(huì)有一個(gè)與情緒對(duì)應(yīng)的神經(jīng)元。這就很好地展示了無(wú)監(jiān)督學(xué)習(xí)的效果,也驗(yàn)證了下一個(gè)字符預(yù)測(cè)的想法。這個(gè)發(fā)現(xiàn)對(duì)我們的影響很大?!刮依斫膺@里說(shuō)的在網(wǎng)絡(luò)中出現(xiàn)了與情緒對(duì)應(yīng)的神經(jīng)元,大概是通過(guò) NTP 訓(xùn)練任務(wù),在模型內(nèi)部形成了一個(gè)情感判斷的知識(shí)回路。這個(gè)發(fā)現(xiàn)(可參考:Learning to Generate Reviews and Discovering Sentiment),確實(shí)是后來(lái)推動(dòng) OpenAI 把 LSTM 換成更大規(guī)模的 Transformer,并在更多數(shù)據(jù)上采用 NTP 來(lái)進(jìn)行預(yù)訓(xùn)練的重要啟發(fā)因素。
目前在探索 GPT 模型中的知識(shí)回路方面工作還比較少,我個(gè)人認(rèn)為這個(gè)事情特別重要,比如我猜大概率會(huì)存在能夠解釋 Chain of Thought(COT)現(xiàn)象的復(fù)雜邏輯回路,而這條回路的形成很可能是預(yù)訓(xùn)練數(shù)據(jù)中引入程序代碼或理工科論文數(shù)據(jù)后形成的,因?yàn)檫@類數(shù)據(jù)間的邏輯關(guān)系比較密切,所以 GPT 在 NTP 任務(wù)中為了快速降低 Loss,精準(zhǔn)預(yù)測(cè)之后的 Token,可能會(huì)逼迫模型在內(nèi)部產(chǎn)生大量抽象知識(shí)點(diǎn)概念,并在此基礎(chǔ)上形成復(fù)雜的邏輯回路。我感覺(jué)這方面工作很有價(jià)值,是值得進(jìn)一步加強(qiáng)的。
不同規(guī)模 LLM 模型在學(xué)習(xí)知識(shí)點(diǎn)方面的差異
本節(jié)歸納不同大小規(guī)模 LLM 模型,在學(xué)習(xí)知識(shí)點(diǎn)方面差異的相關(guān)研究結(jié)論。
在文獻(xiàn)「Finding Neurons in a Haystack: Case Studies with Sparse Probing」中提到了一個(gè)有趣的現(xiàn)象:對(duì)于同一個(gè)「單語(yǔ)義神經(jīng)元」 編碼的抽象特征「是否法語(yǔ)」(用來(lái)判斷輸入內(nèi)容是否法語(yǔ)),如果我們把它屏蔽掉,可以看下對(duì) GPT 的 Next Token Prediction 任務(wù) Loss 的影響,如果屏蔽掉后 Loss 增加得越多,說(shuō)明這個(gè)特征對(duì)模型來(lái)說(shuō)越重要。有趣的是,屏蔽掉后,小模型 Loss 增加很多,但是對(duì)于大模型,則影響甚小。這說(shuō)明這個(gè)特征對(duì)小模型很重要,但對(duì)大模型就沒(méi)有那么重要。
這個(gè)現(xiàn)象很奇怪,論文給了解釋:隨著模型規(guī)模增大,會(huì)出現(xiàn)特征分裂(Split)現(xiàn)象。就是說(shuō)小模型表征某個(gè)知識(shí)點(diǎn),只有一個(gè)粗粒度的神經(jīng)元獨(dú)立響應(yīng),但是大模型會(huì)對(duì)這個(gè)知識(shí)點(diǎn)進(jìn)行細(xì)化,根據(jù)不同的 Context 輸入,分裂出表征不同上文下這個(gè)知識(shí)點(diǎn)對(duì)應(yīng)的多個(gè)神經(jīng)元,對(duì)應(yīng)神經(jīng)元只有在特定上文出現(xiàn)才會(huì)被激活。換句話說(shuō),同樣是表征某個(gè)知識(shí)點(diǎn),相對(duì)小模型,大模型在表征知識(shí)點(diǎn)方面會(huì)做得更細(xì)致。
舉個(gè)例子,比如小模型只有一個(gè)神經(jīng)元對(duì)輸入中的 「return」 作出響應(yīng),但是大模型可能會(huì)分化出對(duì)不同編程語(yǔ)言的「return」作出響應(yīng)。例如有一個(gè)對(duì) python 語(yǔ)言的「return」響應(yīng)的神經(jīng)元,也有一個(gè)對(duì) C++ 語(yǔ)言的「return」作出響應(yīng)的神經(jīng)元,諸如此類。所以,當(dāng)小模型屏蔽掉某個(gè)特征,影響就很大,因?yàn)檩斎胫腥绻霈F(xiàn)這個(gè)知識(shí)點(diǎn)完全無(wú)法捕獲,則對(duì) loss 影響很大;但是對(duì)于大模型,屏蔽掉這個(gè)特征影響就不大,因?yàn)樗€分裂出了對(duì)不同 Context 響應(yīng)的神經(jīng)元,這個(gè)神經(jīng)元盡管沒(méi)用了,但是有其它神經(jīng)元來(lái)表征各種不同的情況。這個(gè)研究結(jié)論我認(rèn)為是很重要的,它表明了大小模型在知識(shí)表征能力上的重大差異。
另外,還有研究結(jié)論表明:隨著模型規(guī)模越來(lái)越大,會(huì)探測(cè)到更多比例的 “單語(yǔ)義神經(jīng)元”。我覺(jué)得這說(shuō)明了一個(gè)可能性,就是越大的 LLM 模型,會(huì)對(duì)更多的抽象知識(shí)進(jìn)行獨(dú)立神經(jīng)元編碼。
另外一個(gè)文獻(xiàn)「The Quantization Model of Neural Scaling」,設(shè)想按照對(duì) NTP 的 Loss 影響程度,我們可以對(duì)知識(shí)單元(文中稱為 “量子單元”)由重要到不重要進(jìn)行排序,形成 Q 隊(duì)列。LLM 模型會(huì)優(yōu)先學(xué)習(xí) Q 隊(duì)列中排在前面的量子單元,而對(duì)于大模型來(lái)說(shuō),則可以比小模型多學(xué)習(xí) Q 隊(duì)列中重要性沒(méi)那么高的排在后面的量子單元。核心思想我歸納下,就是大模型可以比小模型學(xué)到更多不那么重要的特征。
以上幾點(diǎn),是從目前文獻(xiàn)里能得到的,關(guān)于模型規(guī)模在表征能力方面差異的結(jié)論。
冰山之下:回路競(jìng)爭(zhēng)猜想(Circuit Competition Conjecture, CCC)
如果我們把目前已知拼圖碎片所體現(xiàn)出的點(diǎn)滴證據(jù)拼合起來(lái),我感覺(jué)隱藏在冰山之下的原理部分,就若隱若現(xiàn)展現(xiàn)在我們面前。本部分在已知研究結(jié)論基礎(chǔ)上作出一些推論,給出「回路競(jìng)爭(zhēng)猜想(CC 猜想)」,作為 GPT 通過(guò) Next Token Prediction 構(gòu)建智能的內(nèi)在作用機(jī)制說(shuō)明。我要求自己做到關(guān)鍵之處都能找到參考依據(jù),如果有推論給出推論過(guò)程,以使得這個(gè)猜想建立在現(xiàn)有研究結(jié)論之上,但總體來(lái)說(shuō)是個(gè)未經(jīng)驗(yàn)證的猜想,所以還請(qǐng)謹(jǐn)慎參考。
回路競(jìng)爭(zhēng):任務(wù)回路的突圍
首先,我們把已知研究結(jié)論匯總一下,形成一個(gè)整體印象。在本文里,我把某個(gè)特征或知識(shí)統(tǒng)一稱為知識(shí)點(diǎn),因?yàn)閱问褂脗鹘y(tǒng)的 “特征” 很難涵蓋某些內(nèi)容,具體知識(shí)點(diǎn)包括語(yǔ)言知識(shí)點(diǎn)(n-gram、詞法、句法、語(yǔ)義等)、context 知識(shí)點(diǎn)(比如 “輸入為法語(yǔ)” 這種)、世界知識(shí)相關(guān)知識(shí)點(diǎn)(實(shí)體 - 屬性、常識(shí)、事件等)以及簡(jiǎn)單函數(shù)回路知識(shí)點(diǎn)這幾種,它們是細(xì)粒度的,我們將其統(tǒng)稱為知識(shí)點(diǎn)。
綜合上述內(nèi)容可看出,GPT 模型通過(guò) NTP 任務(wù)從數(shù)據(jù)中學(xué)習(xí)知識(shí),在模型內(nèi)部建立起兩類知識(shí)體系:層級(jí)化的知識(shí)結(jié)構(gòu)以及各種任務(wù)回路(參考上圖),任務(wù)回路是在層級(jí)知識(shí)體系結(jié)構(gòu)上建立起來(lái)的,是用于解決某個(gè)任務(wù)的、由知識(shí)點(diǎn)相互激發(fā)形成的固定通路。
假設(shè)已經(jīng)訓(xùn)練好 GPT 模型,我們可以清晰地探測(cè)到它們的存在。首先,這些知識(shí)點(diǎn)有不同的抽象層級(jí)。越是存儲(chǔ)在 Transformer 底層的知識(shí)點(diǎn),越具體、可復(fù)用程度越高、通用性越強(qiáng)、數(shù)量越多,越容易通過(guò) superposition 及 Polysemantic 這種稠密編碼方式來(lái)進(jìn)行編碼;而越是存儲(chǔ)在 Transformer 高層的知識(shí)點(diǎn),越抽象、復(fù)用程度低、任務(wù)專業(yè)性越強(qiáng),越傾向用 「單語(yǔ)義神經(jīng)元」 方式單獨(dú)編碼(上圖 Transformer 中白色節(jié)點(diǎn)代表具體知識(shí)點(diǎn),紅色節(jié)點(diǎn)代表抽象知識(shí)點(diǎn))。
其次,某些知識(shí)點(diǎn)之間形成了由底向上的激發(fā)關(guān)系,激發(fā)路徑是由下層不那么抽象的知識(shí)點(diǎn)逐層激發(fā)上層越來(lái)越抽象的知識(shí)點(diǎn)。比如某個(gè)編碼在 Transformer 第 L 層的知識(shí)點(diǎn),它可由第 1 到第 L-1 層的其它被激發(fā)的知識(shí)點(diǎn)來(lái)激活。被激活的神經(jīng)元,除了收集、綜合、抽象傳上來(lái)的信息,可能也通過(guò)自己的 FFN 結(jié)構(gòu)添加新知識(shí)(比如進(jìn)行世界知識(shí)的提?。蜃鰯?shù)學(xué)邏輯計(jì)算(比如比較數(shù)值大?。?。訓(xùn)練好的 GPT 模型內(nèi)部包含海量這種「局部」知識(shí)點(diǎn)構(gòu)成的「微激發(fā)結(jié)構(gòu)」,這應(yīng)該是形成 GPT 智能的基礎(chǔ)單元,從而整個(gè) GPT 結(jié)構(gòu)構(gòu)造出對(duì)世界知識(shí)進(jìn)行層級(jí)編碼的世界知識(shí)結(jié)構(gòu)。而根據(jù) NTP 目標(biāo)來(lái)訓(xùn)練模型,其實(shí)就是在由簡(jiǎn)單到復(fù)雜、由通用到專用、由具體到抽象、由下層到上層,在訓(xùn)練過(guò)程中逐漸建立起越來(lái)越復(fù)雜層級(jí)知識(shí)結(jié)構(gòu)的過(guò)程,包括知識(shí)點(diǎn)以及知識(shí)點(diǎn)之間的激發(fā)關(guān)系產(chǎn)生的微結(jié)構(gòu),之所以會(huì)產(chǎn)生這些,是因?yàn)樗鼈兊拇嬖?,?duì)于 NTP 精準(zhǔn)預(yù)測(cè)之后的 Token 有幫助,也就是對(duì)于 GPT 模型在 NTP 時(shí)降低訓(xùn)練 loss 有用。
我們?cè)诖嘶A(chǔ)上可以重新看待任務(wù)回路的形成。任務(wù)回路應(yīng)該是 GPT 為了更精準(zhǔn)預(yù)測(cè)某種特殊類型數(shù)據(jù)的 Next Token,從 Transformer 的輸入層開始,逐層關(guān)聯(lián)相關(guān)的 “激發(fā)微結(jié)構(gòu)”,從而形成了一個(gè)由低向上逐層激發(fā),并最終關(guān)聯(lián)到輸出位置,以決定輸出 Token 概率的完整通路結(jié)構(gòu)(可參考上圖紅線部分勾勒出的某個(gè)任務(wù)通路)。學(xué)會(huì)了這種任務(wù)回路,如果 GPT 后續(xù)再見到此類數(shù)據(jù),則 Next Token 預(yù)測(cè)精準(zhǔn)性增加,體現(xiàn)為 NTP 任務(wù) Loss 的降低。比如如果訓(xùn)練數(shù)據(jù)里大量出現(xiàn) 「13+24=37」這種加減乘除的例子,大概率 GPT 會(huì)學(xué)會(huì)一個(gè)用于簡(jiǎn)單數(shù)學(xué)計(jì)算的任務(wù)回路,以此增加等號(hào)后數(shù)字的 Next Token 預(yù)測(cè)精準(zhǔn)性。
另外,輸入的最后一個(gè) Token 位置對(duì)應(yīng)的各層 Transformer Block,可能有些特殊含義和作用,它可能通過(guò) Attention 機(jī)制,起到了對(duì)之前全體輸入內(nèi)容的信息匯總工作。如果輸入的 Prompt 是完成某項(xiàng)具體任務(wù)的,那么 Last Token 對(duì)應(yīng)的各層 Transformer Block,大致把任務(wù)回路信息逐層匯總到了最后位置,以便于在 Last Token 的最高層進(jìn)行正確的 Next Token 預(yù)測(cè)。相當(dāng)于 Last Token 從 Transformer 龐大的知識(shí)體系中根據(jù)輸入 Prompt 勾勒出了一個(gè) Prompt 子世界。
上述內(nèi)容宏觀上綜合了目前研究的結(jié)論,呈現(xiàn)出目前我們對(duì) GPT 運(yùn)行機(jī)制的了解程度。后面內(nèi)容開始加入我個(gè)人的一些推論。
首先的問(wèn)題是:在訓(xùn)練 GPT 的過(guò)程中,如此多的知識(shí)點(diǎn),它學(xué)習(xí)這些知識(shí)點(diǎn)一定有個(gè)先后順序關(guān)系,那么,它會(huì)遵循怎樣的優(yōu)先順序來(lái)學(xué)習(xí)這些知識(shí)點(diǎn)呢?盡管目前有些研究結(jié)論是說(shuō)重要的知識(shí)點(diǎn)先被學(xué)到,但是這里的重要性往往指的是對(duì)降低 GPT 模型 NTP 任務(wù)的 loss 角度來(lái)說(shuō)的,降低 loss 越多,則這個(gè)知識(shí)點(diǎn)越重要。從降低 loss 角度講肯定是對(duì)的,但還是太抽象。
我個(gè)人認(rèn)為,在訓(xùn)練過(guò)程中,GPT 模型會(huì)優(yōu)先學(xué)習(xí)具備以下特性的知識(shí)點(diǎn):高頻知識(shí)點(diǎn)、通用知識(shí)點(diǎn)(被復(fù)用概率高的則通用)、具體而非抽象的知識(shí)點(diǎn)。應(yīng)該遵循這三個(gè)原則。為什么會(huì)這樣呢?因?yàn)楦鶕?jù) Next Token Prediction 的原則,越是高頻出現(xiàn)的知識(shí)點(diǎn),如果 GPT 本次預(yù)測(cè)錯(cuò)了,則會(huì)做反向傳播修正模型參數(shù),以保證下次再見到類似情況會(huì)預(yù)測(cè)對(duì),高頻知識(shí)點(diǎn)因?yàn)槌霈F(xiàn)次數(shù)多,所以獲得反向傳播修正模型參數(shù)的次數(shù)多,也就更容易建立起對(duì)應(yīng)的知識(shí)點(diǎn),及其和其它知識(shí)點(diǎn)的連接通路。高頻知識(shí)點(diǎn)如果學(xué)會(huì)了,在后面的訓(xùn)練數(shù)據(jù)會(huì)很容易碰到這個(gè)知識(shí)點(diǎn),所以對(duì)降低 NTP 任務(wù)的 loss 貢獻(xiàn)就大。其它兩類知識(shí)點(diǎn)也是類似的道理,通用知識(shí)點(diǎn)因?yàn)橥ㄓ眯詮?qiáng),所以在后續(xù)預(yù)測(cè)中被使用的機(jī)會(huì)多,所以獲得反向傳播修正模型參數(shù)的次數(shù)也多,也容易被模型學(xué)會(huì),具體而非抽象的知識(shí)點(diǎn)也因?yàn)樵谟?xùn)練數(shù)據(jù)中見到的次數(shù)多,所以容易被建立起來(lái)。諸如此類。反過(guò)來(lái),低頻的、領(lǐng)域或任務(wù)專用的、抽象的知識(shí)點(diǎn),就會(huì)越晚被 GPT 模型學(xué)會(huì)?;蛘哒f(shuō),如果想學(xué)會(huì)這類知識(shí)點(diǎn),則需要讓模型見到更大量的數(shù)據(jù),以增加這些知識(shí)點(diǎn)在學(xué)習(xí)過(guò)程中必要的反向傳播修正參數(shù)的機(jī)會(huì)。
接下來(lái),我們開始正式討論 “回路競(jìng)爭(zhēng)” 猜想。在引出這個(gè)猜想前,我先做一個(gè)假設(shè):
假設(shè):為了提高 GPT 模型的參數(shù)利用率,NTP 任務(wù)會(huì)鼓勵(lì)子回路的復(fù)用。
所謂「子回路」,指的是完成簡(jiǎn)單運(yùn)算的回路,這種回路涉及到的知識(shí)點(diǎn)較少,知識(shí)點(diǎn)之間激發(fā)的結(jié)構(gòu)比較簡(jiǎn)單。GPT 模型大概會(huì)優(yōu)先產(chǎn)生很多完成簡(jiǎn)單任務(wù)或計(jì)算的子回路,而復(fù)雜回路應(yīng)該是由很多子回路進(jìn)一步連接形成的。為了增加模型參數(shù)的使用效率,GPT 模型應(yīng)該會(huì)鼓勵(lì)這些子回路在不同復(fù)雜回路中盡可能被復(fù)用,這樣使用同樣的參數(shù)量,就能完成更多不同類型的任務(wù)。比如上文講過(guò)的「Induction Head」 回路,就是一個(gè)典型的子回路,由上文我們可知,在更為復(fù)雜的「Indirect Object Identification」知識(shí)回路中,「Induction Head」回路是其中一個(gè)構(gòu)成部分,子回路和復(fù)雜回路的關(guān)系大概類此例。
對(duì)于兩個(gè)解決不同任務(wù)的復(fù)雜回路,由于子回路復(fù)用的原因,兩者之間存在一些相同子回路,我們可以把這些相同的子回路稱為「重疊回路」 。很容易推斷,如果兩個(gè)任務(wù)越接近,則其對(duì)應(yīng)的重疊回路就越多。而且重疊回路存在 Transformer 底層的情況應(yīng)該比較多,因?yàn)榈讓踊芈飞婕暗降闹R(shí)點(diǎn)更具體、數(shù)量更多、可復(fù)用性更強(qiáng)。上圖是對(duì)「子回路復(fù)用與重疊回路」 給出的示意圖,途中紅色線(紅色任務(wù))和藍(lán)色線(藍(lán)色任務(wù))代表兩個(gè)不同復(fù)雜任務(wù)回路,而在底層,則有一些子回路被兩者復(fù)用。
所謂 「回路競(jìng)爭(zhēng)」 猜想,我們用上圖例子來(lái)說(shuō)明。假設(shè)我們輸入一個(gè) Prompt,這個(gè) Prompt 本來(lái)是要完成紅色任務(wù)的,當(dāng)輸入 Prompt 后,在信息從底層向上層逐層激發(fā)正確通路的時(shí)候,越是底層的知識(shí)點(diǎn)和子回路,復(fù)用性越強(qiáng),所以容易產(chǎn)生 「過(guò)剩激發(fā)現(xiàn)象」,就是除了激發(fā)出我們希望的紅色任務(wù)外,也會(huì)激發(fā)很多導(dǎo)向其它任務(wù)回路的知識(shí)點(diǎn)和子回路。這種情況在底層較為明顯,隨著信息逐步往上傳遞,紅色回路會(huì)逐漸得到進(jìn)一步的強(qiáng)化,非正確回路被激發(fā)的上層知識(shí)點(diǎn)和子回路越來(lái)越少,最終勾勒出了正確的紅色任務(wù)回路的路徑。這就是典型的「回路競(jìng)爭(zhēng)」 猜想的思路。
如果從低向上激發(fā)過(guò)程中,我們希望的正確回路被激發(fā),可以認(rèn)為回路競(jìng)爭(zhēng)勝利,則模型輸出正確答案,而如果錯(cuò)誤任務(wù)回路被激發(fā),可以認(rèn)為回路競(jìng)爭(zhēng)失敗,則模型輸出錯(cuò)誤答案??梢酝茢嗟氖牵绞菑?fù)雜的任務(wù),因?yàn)槠錉可娴降闹R(shí)點(diǎn)和子回路越多,相互之間的關(guān)系越復(fù)雜,所以越容易和更多其它相似任務(wù)回路產(chǎn)生重疊,也就越容易在回路競(jìng)爭(zhēng)中失敗。
我們可以在「回路競(jìng)爭(zhēng)」 框架下去思考很多 LLM 模型的問(wèn)題和現(xiàn)象,并給出解釋,本文稍后內(nèi)容會(huì)用這個(gè)猜想解釋一些目前 LLM 模型未知的一些現(xiàn)象。
模型規(guī)模的差異:更大的模型,更清晰的世界
根據(jù)目前已有研究結(jié)論,如果思考大 LLM 模型和小 LLM 模型的差異,我們大致可做如下推斷:小 LLM 模型建立了一個(gè)粗粒度的、模糊的世界圖像,而隨著模型規(guī)模越來(lái)越大,大 LLM 模型建立起能表征更多細(xì)節(jié)信息的清晰度越來(lái)越高的世界圖像。
由上文所述可知,LLM 模型的表征能力主要體現(xiàn)在兩個(gè)方面:從具體到抽象的層級(jí)知識(shí)結(jié)構(gòu),以及可以解決很多問(wèn)題的任務(wù)回路。我們從這兩方面分頭看下大小模型的差異。
層級(jí)知識(shí)結(jié)構(gòu)的差異:很多研究結(jié)論證明了隨著模型規(guī)模增大,模型稀疏程度越來(lái)越高。Polysemantic 神經(jīng)元對(duì)特征編碼是稠密的,用于編碼大量相對(duì)具體的特征,而 Monosemantic 神經(jīng)元屬于單神經(jīng)元,表征是稀疏的,這說(shuō)明隨著模型規(guī)模越來(lái)越大,單語(yǔ)義神經(jīng)元數(shù)量占比增加。單語(yǔ)義神經(jīng)元編碼重要的及抽象的知識(shí),既然單語(yǔ)義神經(jīng)元數(shù)量增加了,說(shuō)明模型學(xué)到的知識(shí)點(diǎn)肯定是增加了,新增知識(shí)點(diǎn)無(wú)非兩個(gè)來(lái)源可能:第一種來(lái)源是這個(gè)知識(shí)原先小模型沒(méi)有學(xué)到,現(xiàn)在大模型學(xué)會(huì)了,從無(wú)到有地學(xué)會(huì)了新知識(shí)。這類新知識(shí)應(yīng)該可再細(xì)分為兩類:一類應(yīng)該是世界知識(shí)(常識(shí)和事件),小模型無(wú)法編碼在數(shù)據(jù)中出現(xiàn)頻次比較低的世界知識(shí),大模型通過(guò)單語(yǔ)義神經(jīng)元對(duì)此進(jìn)行了編碼(大模型相比小模型能學(xué)到更多數(shù)據(jù)中的低頻知識(shí),這一點(diǎn)有很多工作可驗(yàn)證,且目前看世界知識(shí)應(yīng)該是單神經(jīng)元編碼的),這類知識(shí)代表大模型學(xué)會(huì)了更多有關(guān)世界的細(xì)節(jié)信息;一類應(yīng)是模型從數(shù)據(jù)中新歸納的更抽象的知識(shí)(比如 「質(zhì)數(shù)」這種),這類知識(shí)代表大模型學(xué)會(huì)了越來(lái)越復(fù)雜的抽象知識(shí)或能力。
新增知識(shí)點(diǎn)的另外一種來(lái)源,應(yīng)該是由前文講過(guò)的抽象特征進(jìn)行特征分裂產(chǎn)生的。就是說(shuō)原來(lái)小模型只有一個(gè)粗粒度的抽象知識(shí)點(diǎn),現(xiàn)在模型大了,衍生出一些新的細(xì)粒度的表征這類知識(shí)的知識(shí)點(diǎn),針對(duì)不同的上文 Context 可能會(huì)學(xué)到對(duì)應(yīng)的一個(gè)知識(shí)點(diǎn)。舉個(gè)例子,目前發(fā)現(xiàn) LLM 中有針對(duì)連續(xù)大寫字符產(chǎn)生響應(yīng)的單語(yǔ)義神經(jīng)元,比如輸入中有「ABCD」,這個(gè)神經(jīng)元就會(huì)被激活。小 LLM 模型可能只有唯一神經(jīng)元對(duì)此進(jìn)行響應(yīng),如果把這個(gè)神經(jīng)元滅活,則 GPT 在做 NTP 預(yù)測(cè)下一個(gè) Token 的時(shí)候 Loss 就會(huì)激增,說(shuō)明缺了這個(gè)特征對(duì)于正確預(yù)測(cè)后續(xù)內(nèi)容中連續(xù)大寫字符都產(chǎn)生了錯(cuò)誤;但是,大 LLM 模型除了這個(gè)神經(jīng)元,還分裂出細(xì)粒度表征神經(jīng)元,比如針對(duì)公司名字縮寫「IBM」這類可能有一個(gè)神經(jīng)元專門負(fù)責(zé)響應(yīng),針對(duì)醫(yī)藥名稱縮寫,比如「GS (葡萄糖注射液)」 ,有另外一個(gè)神經(jīng)元負(fù)責(zé)響應(yīng)。諸如此類。這種大模型的抽象特征分裂,說(shuō)明了一點(diǎn):即使是抽象知識(shí),大模型相比小模型也有更細(xì)致的抽象特征表達(dá)能力。
可以看出,大模型相對(duì)小模型,從對(duì)低頻世界知識(shí)的編碼角度,可以認(rèn)為學(xué)到了關(guān)于世界更多的細(xì)節(jié)信息,而從新增抽象知識(shí)以及抽象特征分裂角度,說(shuō)明大 LLM 模型具備更難的以及更細(xì)粒度的抽象知識(shí)表達(dá)能力。
任務(wù)回路的差異:任務(wù)回路是建立在形成層級(jí)結(jié)構(gòu)的知識(shí)點(diǎn)之間由底向上激發(fā)并聯(lián)通的回路。由上面對(duì)大小模型在層級(jí)知識(shí)結(jié)構(gòu)差異的分析,可以作出合理推斷:大 LLM 模型大概率能夠建立在路徑上涉及更多細(xì)粒度抽象知識(shí)點(diǎn)以及路徑更復(fù)雜的回路。這大概是大模型可以解決復(fù)雜問(wèn)題的主要原因。
綜合兩者,我們可以認(rèn)為小模型是對(duì)世界的粗粒度建模,而大模型是對(duì)世界的細(xì)粒度高清建模。而且 Scaling law 說(shuō)明了:隨著增加更多的數(shù)據(jù)、更大的模型規(guī)模,LLM 模型可以對(duì)世界進(jìn)行清晰度更高的刻畫。從這個(gè)角度看,說(shuō) LLM 模型參數(shù)是對(duì)世界的有損壓縮,其實(shí)并沒(méi)有什么大問(wèn)題。
無(wú)盡的前沿:使用「回路競(jìng)爭(zhēng)」 解釋未知現(xiàn)象
本部分我們?cè)凇富芈犯?jìng)爭(zhēng)」框架下,給出目前 LLM 模型一些現(xiàn)象的解釋。
「回路競(jìng)爭(zhēng)」視角下的模型涌現(xiàn)能力
模型涌現(xiàn)能力,指的是對(duì)于某些任務(wù)(大多數(shù)是 In Context Learning 或 COT 相關(guān)的任務(wù)),小模型幾乎完全沒(méi)有解決能力,只有當(dāng)模型規(guī)模達(dá)到某個(gè)臨界點(diǎn),才能很好地完成這個(gè)任務(wù)。盡管目前有研究(可參考 Are Emergent Abilities of Large Language Models a Mirage?)表明:模型所謂的 「涌現(xiàn)能力」,是度量標(biāo)準(zhǔn)選擇不合理造成的,其實(shí)并不存在涌現(xiàn),只是任務(wù)選擇的度量標(biāo)準(zhǔn)不夠精準(zhǔn)而已。我個(gè)人認(rèn)為,這個(gè)說(shuō)法應(yīng)該確實(shí)能夠解釋一部分目前體現(xiàn)出「涌現(xiàn)能力」的任務(wù),但感覺(jué)這可能不是故事的全部,有些任務(wù)可能很難僅僅通過(guò)這個(gè)原因來(lái)解釋,所以對(duì)于大語(yǔ)言模型為何會(huì)出現(xiàn)涌現(xiàn)能力,還是應(yīng)該做更進(jìn)一步的研究。
如果在「回路競(jìng)爭(zhēng)」框架下看這個(gè)問(wèn)題,那么小模型之所以做不了某個(gè)任務(wù),無(wú)非有兩種可能:一種可能是對(duì)小模型來(lái)說(shuō),這個(gè)任務(wù)對(duì)應(yīng)的激發(fā)回路沒(méi)有建立起來(lái),而大語(yǔ)言模型建立起來(lái)了;另一種可能是小模型這個(gè)任務(wù)對(duì)應(yīng)的回路也建立起來(lái)了,但是在回路競(jìng)爭(zhēng)中非常容易失敗,導(dǎo)致看似做不了這個(gè)任務(wù)。
我更傾向認(rèn)為是第一種可能造成我們目前看到的模型「涌現(xiàn)能力」。前文有述,小模型大概建立了一個(gè)粗分辨率的模糊的世界鏡像,而大模型則建立起一個(gè)高分辨率清晰度更高的世界鏡像。小模型應(yīng)該在建立某些任務(wù)的完整激發(fā)回路存在困難,這些困難可能體現(xiàn)在幾個(gè)方面:比如對(duì)形成回路很關(guān)鍵的某個(gè)或者某些,比較抽象的概念知識(shí)點(diǎn),小模型因?yàn)槌橄竽芰Ρ容^弱,沒(méi)有建立起這個(gè)知識(shí)點(diǎn)(類似本文開頭舉的「質(zhì)數(shù)」 概念的例子);再比如,一般能體現(xiàn)涌現(xiàn)能力的任務(wù)都比較復(fù)雜,小模型在建立復(fù)雜通路方面能力不足。諸如此類。而當(dāng)模型規(guī)模變大,則在抽象概念以及復(fù)雜回路構(gòu)建方面能力得到增強(qiáng),當(dāng)建立起完整的解決任務(wù)的激活通路時(shí),就看似突然能夠解決這個(gè)問(wèn)題,體現(xiàn)出模型的涌現(xiàn)能力。不過(guò),很可能對(duì)于這種復(fù)雜回路,在激活競(jìng)爭(zhēng)方面能力也不足夠強(qiáng),所以當(dāng)再輔助以 Few shot 幾個(gè)任務(wù)相關(guān)例子,以此來(lái)促進(jìn)任務(wù)對(duì)應(yīng)的回路在通路競(jìng)爭(zhēng)中勝出時(shí),才能看到比較好的解決效果。
「回路競(jìng)爭(zhēng)」視角下的 In Context Learning 及 Chain of Thought (COT)
從回路競(jìng)爭(zhēng)的視角看 ICL,這里可能涉及到兩種回路:任務(wù)回路以及 Attention 回路,兩者競(jìng)爭(zhēng)或合作,來(lái)決定 ICL 任務(wù)的表現(xiàn),COT 是一種特殊的 ICL,機(jī)制應(yīng)類似。
我們先看下任務(wù)回路的作用,其實(shí)好理解。In Context Learning 會(huì)先給 LLM 模型幾個(gè)任務(wù)相關(guān)的例子 ,之后輸入 ,期待模型可以輸出 對(duì)應(yīng)的正確結(jié)果 輸入中給出的 個(gè)例子的作用,在于激活了 LLM 模型對(duì)應(yīng)的在預(yù)訓(xùn)練階段學(xué)到的任務(wù)回路,然后再輸入 ,就容易沿著這條被激活的通路走,形成正確輸出 。COT 作用應(yīng)該類似,也就是說(shuō),如果你不用 COT,可能 LLM 激活的是某個(gè)簡(jiǎn)單結(jié)構(gòu)的任務(wù)回路,而如果用了 COT 例子,則容易激活了有很多細(xì)節(jié)表征的復(fù)雜推理回路,導(dǎo)致之后的輸入也沿著這個(gè)子通路走,于是形成詳細(xì)推理步驟。由此可見,在 ICL 場(chǎng)景下,任務(wù)回路總是對(duì) 產(chǎn)生正確答案,起到積極作用。
再來(lái)看 Attention 回路,不過(guò)這里也是設(shè)想(In-context Learning and Induction Heads 這個(gè)工作的目的是通過(guò) Induction Head 來(lái)解釋 ICL 現(xiàn)象,不過(guò)我覺(jué)得 Induction Head 機(jī)制過(guò)于簡(jiǎn)單,可能需要再稍微強(qiáng)化下)。假設(shè)存在一個(gè)加強(qiáng)版本的 Induction Head 回路,比如我們可以稱之為 「Enhanced Induction Head,EIH」,它的運(yùn)行機(jī)制很可能是這樣的(如上圖所示):EIH 回路會(huì)依據(jù)當(dāng)前輸入 與 ICL 各個(gè)例子中的 的語(yǔ)義相似性,去拷貝對(duì)應(yīng)的 , 與 相似性越高,越大概率拷貝對(duì)應(yīng)的 。這個(gè)過(guò)程有點(diǎn)類似由 EIH 回路構(gòu)成的 KNN 模型,只需根據(jù)輸入例子之間的相似性和對(duì)應(yīng)標(biāo)簽就可以投票得到正確答案,并不需要模型通過(guò)修改參數(shù)來(lái)學(xué)會(huì) 到 之間的映射函數(shù)。算是一種有條件的 Induction Head 拷貝操作,條件觸發(fā)因素是輸入的例子 之間的 Attention 相似性??梢钥闯?,影響 輸出哪個(gè)標(biāo)簽,應(yīng)該主要取決于 ICL 中這幾種類型的例子:和 越相似的例子影響越大;ICL 中出現(xiàn)次數(shù)越多的 影響越大;以及距離 越近的例子影響越大 (Position embedding 編碼的位置信息及 NLP 中大量存在的局部相關(guān)性大概會(huì)導(dǎo)致此結(jié)果)。
若真存在 EIH 回路,根據(jù)上述運(yùn)行機(jī)制,我們可以推斷出在以下三種情況下,Attention 回路對(duì)正確預(yù)測(cè)結(jié)果 的影響:
情況一:如果 ICL 中 到 輸入例子對(duì)應(yīng)的標(biāo)簽 是 Ground Truth Label,很明顯,EIH 回路是正向積極影響作用,類似如上所述 KNN 機(jī)制依據(jù) 到 例子對(duì)應(yīng)的 來(lái)做判斷;
情況二:如果 ICL 中例子的標(biāo)簽不是 Ground Truth Label,而是在 label 空間內(nèi)隨機(jī)選擇賦予。很明顯,EIH 回路對(duì)于 得到正確答案應(yīng)該起到負(fù)面作用,因?yàn)?nbsp; 會(huì)從前面 到 的例子中,尋找跟它比較像的內(nèi)容去拷貝對(duì)應(yīng)標(biāo)簽,但是這個(gè)標(biāo)簽是隨機(jī)賦予的,所以大概率是錯(cuò)的,導(dǎo)致這種情況 EIH 應(yīng)該是負(fù)面效果。
情況三:如果 ICL 中例子的標(biāo)簽是 label 空間之外的另外一套標(biāo)簽,但是和 存在對(duì)應(yīng)的映射關(guān)系。這種情況下,EIH 回路應(yīng)該是正面影響作用,這跟第一種情況道理類似,KNN 機(jī)制可以學(xué)習(xí)這種映射關(guān)系,因此得到正確的 ,無(wú)非現(xiàn)在用的是 而不是 而已。當(dāng)然,若你仍然是看 標(biāo)簽下的表現(xiàn),那 ICL 肯定是負(fù)面作用。
如果聯(lián)合考慮 LLM 的內(nèi)在任務(wù)回路,以及 EIH 這種純 Attention 回路,兩者有時(shí)協(xié)同發(fā)力方向相同,有時(shí)則競(jìng)爭(zhēng)發(fā)力方向相反。比如上述三種情形中,第一種情況兩者是協(xié)同作用,都起到促進(jìn)正確答案的作用,第二和第三種情況則是競(jìng)爭(zhēng)作用,任務(wù)回路對(duì)給出正確答案起到促進(jìn)作用,EIH 回路則起到負(fù)向作用。
按照這種思路,大致可以解釋目前我們看到的,在 ICL 研究中出現(xiàn)的很多貌似不可解釋的各種現(xiàn)象。這里舉個(gè)例子,比如目前研究表明,假設(shè) ICL 的標(biāo)簽空間包含兩個(gè)標(biāo)簽: 和 ,如果我們把 ICL 里例子的標(biāo)簽反轉(zhuǎn),就是原來(lái)標(biāo)簽是 的換成 ,原來(lái)是 的換成 ,則 ICL 任務(wù)效果會(huì)變差 (可參考:Overthinking the Truth: Understanding how Language Models process False Demonstrations)。假設(shè) 對(duì)應(yīng)的正確標(biāo)簽是 ,從任務(wù)回路和 EIH 回路的角度來(lái)看,任務(wù)回路會(huì)傾向于給出 標(biāo)簽,EIH 回路在這種情況下,其實(shí)對(duì)應(yīng)上面說(shuō)的情況三,標(biāo)簽反轉(zhuǎn)是種特殊的另?yè)Q標(biāo)簽,因?yàn)?nbsp; 和 的對(duì)應(yīng)關(guān)系仍然存在。所以此時(shí),EIH 回路看似會(huì)學(xué)習(xí) 到 的映射關(guān)系,會(huì)傾向于給出 標(biāo)簽。此時(shí)兩者一個(gè)正向,一個(gè)負(fù)向,起到競(jìng)爭(zhēng)關(guān)系,所以會(huì)降低模型效果。
其它很多現(xiàn)象其實(shí)大都可以在這個(gè)框架里得到解釋,文章長(zhǎng)度原因就不展開了,感興趣的同學(xué)可以在這個(gè)思考框架下自己推導(dǎo)一下。
「回路競(jìng)爭(zhēng)」視角下的領(lǐng)域任務(wù) Fine-Tuning
我們可以在「回路競(jìng)爭(zhēng)」視角下,重新審視利用領(lǐng)域數(shù)據(jù)對(duì)通用模型進(jìn)行 Fine-tuning 操作,可能帶來(lái)的影響。我們現(xiàn)在已知的事實(shí)是,利用領(lǐng)域數(shù)據(jù) Fine-tuning,會(huì)造成基礎(chǔ)模型的 「災(zāi)難遺忘」問(wèn)題。就是說(shuō),因?yàn)楹罄m(xù) Fine-tuning 修正模型參數(shù),導(dǎo)致模型遺忘了之前學(xué)會(huì)的某些知識(shí)。而且我的判斷是:目前看,在基礎(chǔ)模型之上,任何形式的 Tuning 操作,都會(huì)造成基礎(chǔ)模型某些能力的損失,這也包括 ChatGPT 為了聽懂命令及遵循人類價(jià)值觀所做的 Instruct tuning,也應(yīng)該一樣會(huì)損害基礎(chǔ)模型的某些能力,只是目前我們說(shuō)不清損害的是哪些能力而已。這是目前技術(shù)條件下,需要對(duì)模型做 Tuning 所必須付出的代價(jià)。
但是為何對(duì)基礎(chǔ)模型進(jìn)行 Fine-tuning 會(huì)造成能力損害呢?其內(nèi)在原理如何?我們可以在「回路競(jìng)爭(zhēng)」視角下,分析 Fine-tuning 帶來(lái)的影響。我猜大致有兩種影響,這兩種影響也許是某種單獨(dú)起作用,也許兩者共同發(fā)生作用。第一種影響是:Fine-tuning 操作通過(guò)大量領(lǐng)域數(shù)據(jù),強(qiáng)化了大語(yǔ)言模型解決這個(gè)任務(wù)的響應(yīng)回路。這對(duì)于模型底層知識(shí)點(diǎn)影響估計(jì)不大,因?yàn)榈讓痈嗟氖峭ㄓ眯员容^強(qiáng)的特征,這個(gè)任務(wù)也需要,它修正的應(yīng)該更多是上層的抽象知識(shí)節(jié)點(diǎn),以及底層知識(shí)點(diǎn)到上層抽象知識(shí)點(diǎn)建立激發(fā)連接的通路。另外一種可能的影響:很可能通過(guò) Fine-tuning 操作,在模型內(nèi)部建立起了 Shortcut 捷徑,導(dǎo)致輸入信息后,信息傳輸直接走了捷徑,而繞過(guò)了很多本該要走的通路。比如文本分類任務(wù),這種任務(wù)內(nèi)部邏輯應(yīng)該很簡(jiǎn)單,估計(jì)就是建立起底層具體領(lǐng)域詞匯知識(shí)點(diǎn),到上層抽象類別概念知識(shí)點(diǎn)的激發(fā)通路,所以很可能直接從最底層的知識(shí)點(diǎn),到高層的類別概念知識(shí)點(diǎn),建立起了一個(gè)很短的 Shortcut 捷徑,其它的復(fù)雜回路都被這個(gè)捷徑給 pass 掉了,倒不一定是上層抽象知識(shí)點(diǎn)被改寫了,很可能是通過(guò)走捷徑被繞過(guò)去了。
不論是上述哪個(gè)原因,造成的后果是:對(duì)于新的輸入,盡管可能是要做其它任務(wù)的,就很容易激發(fā)這個(gè)被特殊強(qiáng)化過(guò)的回路。也就是說(shuō),這個(gè)被強(qiáng)化過(guò)的回路容易在不該競(jìng)爭(zhēng)勝利的時(shí)候也容易競(jìng)爭(zhēng)勝利,導(dǎo)致其它任務(wù)效果變差。
「回路競(jìng)爭(zhēng)」視角下的 Instruct Tuning
Instruct Tuning 本質(zhì)上是為了實(shí)現(xiàn)和人類行為對(duì)齊而做的一種特殊的 Fine-tuning。GPT 4 的技術(shù)報(bào)告也指出了:Instruct tuning 并不會(huì)增強(qiáng)基礎(chǔ)模型的知識(shí)和能力,相反可能存在某種能力損害作用。高質(zhì)量的 Instruct Tuning 肯定是很重要的,但它只是讓大語(yǔ)言模型 「看著好像」效果更好了而已,這只是使用者主觀感受上的,而非模型基礎(chǔ)能力層面的更好。
那么,如果在「回路競(jìng)爭(zhēng)」視角下,如何理解 Instruct Tuning 是在干什么事情呢?我覺(jué)得可以這么理解:Instruct Tuning 的作用,建立起了一個(gè)特殊的激活回路,就是說(shuō)從輸入命令自身形成的激活回路,建立起和對(duì)應(yīng)任務(wù)回路的連接。根據(jù) Instruct 訓(xùn)練好模型后,當(dāng)輸入命令時(shí),有利于激活對(duì)應(yīng)的任務(wù)回路,所以看似大語(yǔ)言模型就理解了命令的含義。這有點(diǎn)類似于巴浦洛夫生物實(shí)驗(yàn)里的「條件反射作用」的運(yùn)行機(jī)制,等于在用戶命令和對(duì)應(yīng)任務(wù)通路建立起了一個(gè)條件反射通路。
利用「回路競(jìng)爭(zhēng)」 猜想,除了可以用來(lái)對(duì)上述目前未知內(nèi)部運(yùn)行機(jī)制的現(xiàn)象,給出看著還算合理的解釋外,也可以用來(lái)解釋一些其它現(xiàn)象。比如大模型經(jīng)常出現(xiàn)的「一本正經(jīng)的胡說(shuō)八道」問(wèn)題,可以認(rèn)為是在回路競(jìng)爭(zhēng)過(guò)程中,正確回路競(jìng)爭(zhēng)失敗,或者正確回路和某個(gè)錯(cuò)誤回路被激發(fā)的強(qiáng)度差不多,導(dǎo)致給出混合兩者的結(jié)果,就是看著合理但事實(shí)錯(cuò)誤的答案。諸如此類吧。
世界的參數(shù)倒影:從現(xiàn)實(shí)世界到可能世界
物理世界自有支配其運(yùn)行的 Hidden Rules,概念上我們可以理解存在一個(gè)簡(jiǎn)潔的 Hidden world,由它產(chǎn)生了五彩繽紛的表象世界,若對(duì)世界諸現(xiàn)象歸類,大致可有自然現(xiàn)象、社會(huì)現(xiàn)象、心理現(xiàn)象幾大類。人是構(gòu)成物理世界的一分子,通過(guò)觀察世界表象、試圖理解世界運(yùn)行規(guī)律,以更好維持種群及個(gè)體在這個(gè)世界里生存。
從種群角度而言,千萬(wàn)年進(jìn)化過(guò)程中的優(yōu)勝劣汰即人類模型預(yù)訓(xùn)練過(guò)程,其優(yōu)化目標(biāo)為 「Next Person’s survival Prediction」,其 Loss 越小,種群中生存?zhèn)€體數(shù)量越多。基因編碼即模型參數(shù),基因編碼表征出的個(gè)體,適應(yīng)環(huán)境者生存,不適應(yīng)環(huán)境者淘汰。生存者之所以可生存,是因?yàn)榛蚓幋a表征出的某些特征適配生存環(huán)境,于是這些匹配生存環(huán)境的基因編碼在種群中得以加強(qiáng),人類預(yù)訓(xùn)練模型完成一次模型參數(shù)更新。外部物理世界生存環(huán)境的不斷變化驅(qū)動(dòng)著種群基因編碼的變化,以此推動(dòng)種群在變動(dòng)環(huán)境下的生存。而我們生來(lái)即得到的基因編碼預(yù)訓(xùn)練模型,則記錄了千萬(wàn)年來(lái)學(xué)到的各種生存策略,形成了大腦中無(wú)意識(shí)快速反應(yīng)的系統(tǒng) 1,它代表了種群的集體記憶。
從個(gè)體角度而言,除了通過(guò)基因編碼預(yù)訓(xùn)練模型獲得天生的生存策略外,為了維護(hù)個(gè)體自身在特定環(huán)境下的生存,在整個(gè)生命歷程中會(huì)進(jìn)行「繼續(xù)預(yù)訓(xùn)練 (Continual Pre-training)」。其優(yōu)化目標(biāo)為 「Next Action Prediction」,追求在環(huán)境中輸出正確行為以維持生存。采取類似 LoRA 的模型參數(shù)更新策略:對(duì)于個(gè)體而言,天生的基因編碼是無(wú)力改動(dòng)的基礎(chǔ)模型,決定了我們的很多行為模式,但大腦中有一部分可修正區(qū)域,可以通過(guò)修正這部分區(qū)域里神經(jīng)元之間的聯(lián)系方式,來(lái)學(xué)會(huì)新的知識(shí)和技能。如果輸出行為對(duì)繼續(xù)生存造成負(fù)面影響,則調(diào)整模型參數(shù)以將來(lái)更好應(yīng)對(duì)生存環(huán)境,這部分腦區(qū)功能形成了有意識(shí)慢決策的系統(tǒng) 2,它代表了個(gè)人的個(gè)性化生存經(jīng)驗(yàn)?!柑焐蚓幋a + 個(gè)人生存微調(diào)」塑造出了形形色色的不同個(gè)體行為,有共性有個(gè)性,共性來(lái)自于種群集體記憶,個(gè)性來(lái)自于獨(dú)有的生存經(jīng)驗(yàn)。
語(yǔ)言最初作為人類個(gè)體間的溝通協(xié)作工具,有利于促進(jìn)種群存續(xù)。隨著技術(shù)發(fā)展,逐步將之記錄在龜背、竹簡(jiǎn)、紙張、電子信號(hào)形成文字。每個(gè)人都可看成獨(dú)立的「編碼 - ****」,個(gè)體對(duì)物理世界觀察與感受,并編碼在大腦中形成知識(shí)和思維,解碼輸出則形成文字,記錄的是個(gè)人視角對(duì)世界的感受和思考,有主觀感受也有客觀記錄。人群則形成分布式的 「編碼 - ****」,解碼輸出產(chǎn)生了大量包含各種世界運(yùn)轉(zhuǎn)的客觀事實(shí)以及主觀沖突觀念的文字記錄。所以,文字只是表象,內(nèi)在記錄的是從人類角度形成的對(duì)物理世界的認(rèn)知與對(duì)這個(gè)世界的主觀感受(物理知識(shí)、社會(huì)知識(shí)、事件記錄、個(gè)體感受、個(gè)體想象等各種類型),其背后隱藏著人類視角下的世界模型。而 GPT 通過(guò) Next Token Prediction 任務(wù)試圖正確復(fù)現(xiàn)人類產(chǎn)生的文字,本質(zhì)上是對(duì)隱藏在文字表象之后的世界模型進(jìn)行解碼復(fù)原,并存儲(chǔ)在 GPT 的模型參數(shù)里,形成了物理世界的參數(shù)倒影。
如果我們進(jìn)行更深入思考,有可能會(huì)發(fā)現(xiàn);GPT 從大量文字中,不僅僅學(xué)會(huì)了如何生成符合我們現(xiàn)實(shí)世界事實(shí)的內(nèi)容,可能還學(xué)會(huì)成為一個(gè) 「可能世界」 生成器。它從文字模擬我們的現(xiàn)實(shí)世界開始,并進(jìn)而泛化抽象,盡管遵循我們這個(gè)世界的物理法則,但是它不僅可以產(chǎn)生符合我們感知到的世界中真實(shí)的知識(shí)與內(nèi)容,也可以產(chǎn)生其它符合物理法則及人類理解邏輯的可能世界。也許你不能因它產(chǎn)生的內(nèi)容不符合現(xiàn)實(shí)世界,就說(shuō)它是錯(cuò)的,只能說(shuō)它有能力把符合邏輯的可能世界全部展示給你,必然有很多情況未必吻合現(xiàn)實(shí),畢竟現(xiàn)有世界只是可能世界的一種已經(jīng)發(fā)生的現(xiàn)實(shí)選擇而已,而它有能力給你呈現(xiàn)各種合理的可能性。
世界盡頭與冷酷仙境:「數(shù)字缸中之腦」思想實(shí)驗(yàn)
「一個(gè)瘋狂科學(xué)家進(jìn)行了一項(xiàng)手術(shù),他將一個(gè)人的大腦切下來(lái)并將其放入充滿營(yíng)養(yǎng)液的容器中。營(yíng)養(yǎng)液中的養(yǎng)分足以維持大腦的正常運(yùn)作,而大腦的神經(jīng)末梢連接到電線上,電線的另一端則連接到一臺(tái)計(jì)算機(jī)。計(jì)算機(jī)模擬真實(shí)世界的參數(shù),并通過(guò)電線向大腦傳遞信息,讓大腦感到一切都完全正常,好像周圍認(rèn)識(shí)的人、熟悉的事情還照常進(jìn)行,沒(méi)有任何異樣。
有一天,營(yíng)養(yǎng)液中的大腦突發(fā)奇想,想到了一個(gè)很有趣的思想實(shí)驗(yàn),在他/她的現(xiàn)實(shí)感知里,此刻正在上班的地鐵上或自己辦公工位前,耳邊傳來(lái)別人輕微的腳步聲,他/她掏出手機(jī)把想法寫在備忘錄里,內(nèi)容是這樣的:
「OpenAI 推出了一個(gè)新的 LLM 模型,叫 GPT 4,功能很強(qiáng)大,這很可能預(yù)示著 AGI 時(shí)代的到來(lái),我身邊每個(gè)人都在熱烈地討論它。今天我讀到了一篇分析它可能工作機(jī)制的文章,題目是《世界的參數(shù)倒影:為何 GPT 通過(guò) Next Token Prediction 可以產(chǎn)生智能》,讀完很有啟發(fā),引起了我的思考。我們可以設(shè)想一下:如果將來(lái) AGI 能力足夠強(qiáng)大,它能通過(guò)閱讀我書寫的內(nèi)容、我的照片和視頻,甚至可以掃描復(fù)制我的大腦反應(yīng)模式,重構(gòu)一個(gè)和我在物理世界一摸一樣的數(shù)字大腦。那么,另一個(gè)我自己就會(huì)生活在數(shù)字空間中,而 AGI 接管我的數(shù)字大腦的各種感知信號(hào),模擬我的工作和生活場(chǎng)景,讓大腦感到一切都完全正常,好像周圍認(rèn)識(shí)的人、熟悉的事情還照常進(jìn)行,沒(méi)有任何異樣。那么,這個(gè)數(shù)字大腦里的我,或者現(xiàn)實(shí)生活里的我,能區(qū)分現(xiàn)在是生活在數(shù)字空間,還是物理空間嗎?我把這個(gè)思想實(shí)驗(yàn)稱為:數(shù)字缸中之腦。這個(gè)思想實(shí)驗(yàn),是不是很有意思?」
我把這個(gè)思想實(shí)驗(yàn)稱為:數(shù)字缸中之腦。這個(gè)思想實(shí)驗(yàn),是不是很有意思?」
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。