世界的參數(shù)倒影：為何GPT通過(guò)Next Token Prediction可以產(chǎn)生智能（3）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-06-10 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大部分知識(shí)回路應(yīng)由 Attention 和 MLP 共同組成，但是也發(fā)現(xiàn)一些以 Attention 為主的知識(shí)回路。典型的例子就是「Induction Head」回路，多項(xiàng)研究證明這個(gè)回路的存在。它的主要作用在于當(dāng) GPT 預(yù)測(cè) Next Token 的時(shí)候，傾向于從上文找到類似的輸出模式，并拷貝到后續(xù) Token 輸出。如上圖所示句子，第二個(gè)「so」是 last token，GPT 此時(shí)通過(guò) NTP 將要產(chǎn)生后續(xù) Token，「Induction Head」回路傾向于從上文中找到相同的「so」單詞，并把上文中跟在「so」后面的單詞「bad」當(dāng)作 Next Token 輸出?！窵ocalizing Model Behavior with Path Patching」這項(xiàng)研究探測(cè)了 Induction Head 的內(nèi)在工作機(jī)制：當(dāng)根據(jù)第二個(gè)單詞「so」要預(yù)測(cè) Next Token 的時(shí)候，「so」本身的內(nèi)容被拷貝到 Transformer 自己對(duì)應(yīng) Attention 的 < Query,Key,Value > 中的 Query，而上文內(nèi)容中出現(xiàn)的 “bad” 單詞，通過(guò) PTH (Previous Token Head to key) 這個(gè) Attention Head 將 “bad” 之前內(nèi)容的語(yǔ)義集成到 “bad” 對(duì)應(yīng)的 Key 里。結(jié)果在「so」做 Attention 的時(shí)候，兩者就得到很高相似性，于是通過(guò) Attention 把「bad」拷貝到單詞 so 的位置，這導(dǎo)致 Next Token 很容易輸出 “bad”，就達(dá)成了從上文拷貝「so…bad」的目的。

除了「Induction Head」外，還有一些功能更復(fù)雜的 Attention 回路，比如「Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small」這個(gè)工作發(fā)現(xiàn)了 Transformer 中存在以 Attention 為主，用于識(shí)別「Indirect Object Identification」的知識(shí)回路。所謂「Indirect Object Identification」，可以參考上圖給出的例子，就是說(shuō)輸入有兩個(gè)實(shí)體，一個(gè)重復(fù)實(shí)體，一個(gè)非重復(fù)實(shí)體，如何從中找到正確答案。從上圖例子可看出 GPT 是可以輸出正確答案 Mary 的，其原因就是模型學(xué)會(huì)了一個(gè)主要由 Attention Head 構(gòu)成的復(fù)雜識(shí)別回路。

如上圖所示，「Indirect Object Identification」知識(shí)回路識(shí)別正確答案，主要由三個(gè)步驟構(gòu)成：首先，Duplicate Token Heads 用于標(biāo)識(shí)多次出現(xiàn)在句子中的 Token，而 Induction Heads 起到類似的作用；其次，S-Inhibition Heads 在輸出 Next Token 的位置發(fā)生作用，用于從 Name Mover Heads 的注意力中刪除或者抑制重復(fù)出現(xiàn)的名字；最后，Name Mover Heads 則輸出剩余的名稱 Token。由上可看出，LLM 模型在預(yù)訓(xùn)練過(guò)程中，為了更好地進(jìn)行 Next Token 預(yù)測(cè)，學(xué)習(xí)到了非常復(fù)雜的 Attention 知識(shí)回路，來(lái)執(zhí)行對(duì)某些輸入 Token 拷貝并在 Next Token Prediction 結(jié)果中輸出。
OpenAI 首席科學(xué)家 Ilya Sutskever 在訪談中曾說(shuō)：「我們訓(xùn)練 LSTM 來(lái)預(yù)測(cè)亞馬遜評(píng)論的下一個(gè)字符 (NTP) 時(shí)發(fā)現(xiàn)，如果你預(yù)測(cè)下一個(gè)字符足夠好，LSTM 就會(huì)有一個(gè)與情緒對(duì)應(yīng)的神經(jīng)元。這就很好地展示了無(wú)監(jiān)督學(xué)習(xí)的效果，也驗(yàn)證了下一個(gè)字符預(yù)測(cè)的想法。這個(gè)發(fā)現(xiàn)對(duì)我們的影響很大?！刮依斫膺@里說(shuō)的在網(wǎng)絡(luò)中出現(xiàn)了與情緒對(duì)應(yīng)的神經(jīng)元，大概是通過(guò) NTP 訓(xùn)練任務(wù)，在模型內(nèi)部形成了一個(gè)情感判斷的知識(shí)回路。這個(gè)發(fā)現(xiàn)（可參考：Learning to Generate Reviews and Discovering Sentiment），確實(shí)是后來(lái)推動(dòng) OpenAI 把 LSTM 換成更大規(guī)模的 Transformer，并在更多數(shù)據(jù)上采用 NTP 來(lái)進(jìn)行預(yù)訓(xùn)練的重要啟發(fā)因素。
目前在探索 GPT 模型中的知識(shí)回路方面工作還比較少，我個(gè)人認(rèn)為這個(gè)事情特別重要，比如我猜大概率會(huì)存在能夠解釋 Chain of Thought（COT）現(xiàn)象的復(fù)雜邏輯回路，而這條回路的形成很可能是預(yù)訓(xùn)練數(shù)據(jù)中引入程序代碼或理工科論文數(shù)據(jù)后形成的，因?yàn)檫@類數(shù)據(jù)間的邏輯關(guān)系比較密切，所以 GPT 在 NTP 任務(wù)中為了快速降低 Loss，精準(zhǔn)預(yù)測(cè)之后的 Token，可能會(huì)逼迫模型在內(nèi)部產(chǎn)生大量抽象知識(shí)點(diǎn)概念，并在此基礎(chǔ)上形成復(fù)雜的邏輯回路。我感覺(jué)這方面工作很有價(jià)值，是值得進(jìn)一步加強(qiáng)的。
不同規(guī)模 LLM 模型在學(xué)習(xí)知識(shí)點(diǎn)方面的差異
本節(jié)歸納不同大小規(guī)模 LLM 模型，在學(xué)習(xí)知識(shí)點(diǎn)方面差異的相關(guān)研究結(jié)論。
在文獻(xiàn)「Finding Neurons in a Haystack: Case Studies with Sparse Probing」中提到了一個(gè)有趣的現(xiàn)象：對(duì)于同一個(gè)「單語(yǔ)義神經(jīng)元」編碼的抽象特征「是否法語(yǔ)」（用來(lái)判斷輸入內(nèi)容是否法語(yǔ)），如果我們把它屏蔽掉，可以看下對(duì) GPT 的 Next Token Prediction 任務(wù) Loss 的影響，如果屏蔽掉后 Loss 增加得越多，說(shuō)明這個(gè)特征對(duì)模型來(lái)說(shuō)越重要。有趣的是，屏蔽掉后，小模型 Loss 增加很多，但是對(duì)于大模型，則影響甚小。這說(shuō)明這個(gè)特征對(duì)小模型很重要，但對(duì)大模型就沒(méi)有那么重要。
這個(gè)現(xiàn)象很奇怪，論文給了解釋：隨著模型規(guī)模增大，會(huì)出現(xiàn)特征分裂（Split）現(xiàn)象。就是說(shuō)小模型表征某個(gè)知識(shí)點(diǎn)，只有一個(gè)粗粒度的神經(jīng)元獨(dú)立響應(yīng)，但是大模型會(huì)對(duì)這個(gè)知識(shí)點(diǎn)進(jìn)行細(xì)化，根據(jù)不同的 Context 輸入，分裂出表征不同上文下這個(gè)知識(shí)點(diǎn)對(duì)應(yīng)的多個(gè)神經(jīng)元，對(duì)應(yīng)神經(jīng)元只有在特定上文出現(xiàn)才會(huì)被激活。換句話說(shuō)，同樣是表征某個(gè)知識(shí)點(diǎn)，相對(duì)小模型，大模型在表征知識(shí)點(diǎn)方面會(huì)做得更細(xì)致。
舉個(gè)例子，比如小模型只有一個(gè)神經(jīng)元對(duì)輸入中的「return」作出響應(yīng)，但是大模型可能會(huì)分化出對(duì)不同編程語(yǔ)言的「return」作出響應(yīng)。例如有一個(gè)對(duì) python 語(yǔ)言的「return」響應(yīng)的神經(jīng)元，也有一個(gè)對(duì) C++ 語(yǔ)言的「return」作出響應(yīng)的神經(jīng)元，諸如此類。所以，當(dāng)小模型屏蔽掉某個(gè)特征，影響就很大，因?yàn)檩斎胫腥绻霈F(xiàn)這個(gè)知識(shí)點(diǎn)完全無(wú)法捕獲，則對(duì) loss 影響很大；但是對(duì)于大模型，屏蔽掉這個(gè)特征影響就不大，因?yàn)樗€分裂出了對(duì)不同 Context 響應(yīng)的神經(jīng)元，這個(gè)神經(jīng)元盡管沒(méi)用了，但是有其它神經(jīng)元來(lái)表征各種不同的情況。這個(gè)研究結(jié)論我認(rèn)為是很重要的，它表明了大小模型在知識(shí)表征能力上的重大差異。
另外，還有研究結(jié)論表明：隨著模型規(guī)模越來(lái)越大，會(huì)探測(cè)到更多比例的 “單語(yǔ)義神經(jīng)元”。我覺(jué)得這說(shuō)明了一個(gè)可能性，就是越大的 LLM 模型，會(huì)對(duì)更多的抽象知識(shí)進(jìn)行獨(dú)立神經(jīng)元編碼。
另外一個(gè)文獻(xiàn)「The Quantization Model of Neural Scaling」，設(shè)想按照對(duì) NTP 的 Loss 影響程度，我們可以對(duì)知識(shí)單元（文中稱為 “量子單元”）由重要到不重要進(jìn)行排序，形成 Q 隊(duì)列。LLM 模型會(huì)優(yōu)先學(xué)習(xí) Q 隊(duì)列中排在前面的量子單元，而對(duì)于大模型來(lái)說(shuō)，則可以比小模型多學(xué)習(xí) Q 隊(duì)列中重要性沒(méi)那么高的排在后面的量子單元。核心思想我歸納下，就是大模型可以比小模型學(xué)到更多不那么重要的特征。
以上幾點(diǎn)，是從目前文獻(xiàn)里能得到的，關(guān)于模型規(guī)模在表征能力方面差異的結(jié)論。
冰山之下：回路競(jìng)爭(zhēng)猜想（Circuit Competition Conjecture, CCC）
如果我們把目前已知拼圖碎片所體現(xiàn)出的點(diǎn)滴證據(jù)拼合起來(lái)，我感覺(jué)隱藏在冰山之下的原理部分，就若隱若現(xiàn)展現(xiàn)在我們面前。本部分在已知研究結(jié)論基礎(chǔ)上作出一些推論，給出「回路競(jìng)爭(zhēng)猜想（CC 猜想）」，作為 GPT 通過(guò) Next Token Prediction 構(gòu)建智能的內(nèi)在作用機(jī)制說(shuō)明。我要求自己做到關(guān)鍵之處都能找到參考依據(jù)，如果有推論給出推論過(guò)程，以使得這個(gè)猜想建立在現(xiàn)有研究結(jié)論之上，但總體來(lái)說(shuō)是個(gè)未經(jīng)驗(yàn)證的猜想，所以還請(qǐng)謹(jǐn)慎參考。
回路競(jìng)爭(zhēng)：任務(wù)回路的突圍
首先，我們把已知研究結(jié)論匯總一下，形成一個(gè)整體印象。在本文里，我把某個(gè)特征或知識(shí)統(tǒng)一稱為知識(shí)點(diǎn)，因?yàn)閱问褂脗鹘y(tǒng)的 “特征” 很難涵蓋某些內(nèi)容，具體知識(shí)點(diǎn)包括語(yǔ)言知識(shí)點(diǎn)（n-gram、詞法、句法、語(yǔ)義等）、context 知識(shí)點(diǎn)（比如 “輸入為法語(yǔ)” 這種）、世界知識(shí)相關(guān)知識(shí)點(diǎn)（實(shí)體 - 屬性、常識(shí)、事件等）以及簡(jiǎn)單函數(shù)回路知識(shí)點(diǎn)這幾種，它們是細(xì)粒度的，我們將其統(tǒng)稱為知識(shí)點(diǎn)。

綜合上述內(nèi)容可看出，GPT 模型通過(guò) NTP 任務(wù)從數(shù)據(jù)中學(xué)習(xí)知識(shí)，在模型內(nèi)部建立起兩類知識(shí)體系：層級(jí)化的知識(shí)結(jié)構(gòu)以及各種任務(wù)回路（參考上圖），任務(wù)回路是在層級(jí)知識(shí)體系結(jié)構(gòu)上建立起來(lái)的，是用于解決某個(gè)任務(wù)的、由知識(shí)點(diǎn)相互激發(fā)形成的固定通路。
假設(shè)已經(jīng)訓(xùn)練好 GPT 模型，我們可以清晰地探測(cè)到它們的存在。首先，這些知識(shí)點(diǎn)有不同的抽象層級(jí)。越是存儲(chǔ)在 Transformer 底層的知識(shí)點(diǎn)，越具體、可復(fù)用程度越高、通用性越強(qiáng)、數(shù)量越多，越容易通過(guò) superposition 及 Polysemantic 這種稠密編碼方式來(lái)進(jìn)行編碼；而越是存儲(chǔ)在 Transformer 高層的知識(shí)點(diǎn)，越抽象、復(fù)用程度低、任務(wù)專業(yè)性越強(qiáng)，越傾向用「單語(yǔ)義神經(jīng)元」方式單獨(dú)編碼（上圖 Transformer 中白色節(jié)點(diǎn)代表具體知識(shí)點(diǎn)，紅色節(jié)點(diǎn)代表抽象知識(shí)點(diǎn)）。
其次，某些知識(shí)點(diǎn)之間形成了由底向上的激發(fā)關(guān)系，激發(fā)路徑是由下層不那么抽象的知識(shí)點(diǎn)逐層激發(fā)上層越來(lái)越抽象的知識(shí)點(diǎn)。比如某個(gè)編碼在 Transformer 第 L 層的知識(shí)點(diǎn)，它可由第 1 到第 L-1 層的其它被激發(fā)的知識(shí)點(diǎn)來(lái)激活。被激活的神經(jīng)元，除了收集、綜合、抽象傳上來(lái)的信息，可能也通過(guò)自己的 FFN 結(jié)構(gòu)添加新知識(shí)（比如進(jìn)行世界知識(shí)的提?。蜃鰯?shù)學(xué)邏輯計(jì)算（比如比較數(shù)值大?。?。訓(xùn)練好的 GPT 模型內(nèi)部包含海量這種「局部」知識(shí)點(diǎn)構(gòu)成的「微激發(fā)結(jié)構(gòu)」，這應(yīng)該是形成 GPT 智能的基礎(chǔ)單元，從而整個(gè) GPT 結(jié)構(gòu)構(gòu)造出對(duì)世界知識(shí)進(jìn)行層級(jí)編碼的世界知識(shí)結(jié)構(gòu)。而根據(jù) NTP 目標(biāo)來(lái)訓(xùn)練模型，其實(shí)就是在由簡(jiǎn)單到復(fù)雜、由通用到專用、由具體到抽象、由下層到上層，在訓(xùn)練過(guò)程中逐漸建立起越來(lái)越復(fù)雜層級(jí)知識(shí)結(jié)構(gòu)的過(guò)程，包括知識(shí)點(diǎn)以及知識(shí)點(diǎn)之間的激發(fā)關(guān)系產(chǎn)生的微結(jié)構(gòu)，之所以會(huì)產(chǎn)生這些，是因?yàn)樗鼈兊拇嬖?，?duì)于 NTP 精準(zhǔn)預(yù)測(cè)之后的 Token 有幫助，也就是對(duì)于 GPT 模型在 NTP 時(shí)降低訓(xùn)練 loss 有用。
我們?cè)诖嘶A(chǔ)上可以重新看待任務(wù)回路的形成。任務(wù)回路應(yīng)該是 GPT 為了更精準(zhǔn)預(yù)測(cè)某種特殊類型數(shù)據(jù)的 Next Token，從 Transformer 的輸入層開始，逐層關(guān)聯(lián)相關(guān)的 “激發(fā)微結(jié)構(gòu)”，從而形成了一個(gè)由低向上逐層激發(fā)，并最終關(guān)聯(lián)到輸出位置，以決定輸出 Token 概率的完整通路結(jié)構(gòu)（可參考上圖紅線部分勾勒出的某個(gè)任務(wù)通路）。學(xué)會(huì)了這種任務(wù)回路，如果 GPT 后續(xù)再見到此類數(shù)據(jù)，則 Next Token 預(yù)測(cè)精準(zhǔn)性增加，體現(xiàn)為 NTP 任務(wù) Loss 的降低。比如如果訓(xùn)練數(shù)據(jù)里大量出現(xiàn) 「13+24=37」這種加減乘除的例子，大概率 GPT 會(huì)學(xué)會(huì)一個(gè)用于簡(jiǎn)單數(shù)學(xué)計(jì)算的任務(wù)回路，以此增加等號(hào)后數(shù)字的 Next Token 預(yù)測(cè)精準(zhǔn)性。

另外，輸入的最后一個(gè) Token 位置對(duì)應(yīng)的各層 Transformer Block，可能有些特殊含義和作用，它可能通過(guò) Attention 機(jī)制，起到了對(duì)之前全體輸入內(nèi)容的信息匯總工作。如果輸入的 Prompt 是完成某項(xiàng)具體任務(wù)的，那么 Last Token 對(duì)應(yīng)的各層 Transformer Block，大致把任務(wù)回路信息逐層匯總到了最后位置，以便于在 Last Token 的最高層進(jìn)行正確的 Next Token 預(yù)測(cè)。相當(dāng)于 Last Token 從 Transformer 龐大的知識(shí)體系中根據(jù)輸入 Prompt 勾勒出了一個(gè) Prompt 子世界。
上述內(nèi)容宏觀上綜合了目前研究的結(jié)論，呈現(xiàn)出目前我們對(duì) GPT 運(yùn)行機(jī)制的了解程度。后面內(nèi)容開始加入我個(gè)人的一些推論。
首先的問(wèn)題是：在訓(xùn)練 GPT 的過(guò)程中，如此多的知識(shí)點(diǎn)，它學(xué)習(xí)這些知識(shí)點(diǎn)一定有個(gè)先后順序關(guān)系，那么，它會(huì)遵循怎樣的優(yōu)先順序來(lái)學(xué)習(xí)這些知識(shí)點(diǎn)呢？盡管目前有些研究結(jié)論是說(shuō)重要的知識(shí)點(diǎn)先被學(xué)到，但是這里的重要性往往指的是對(duì)降低 GPT 模型 NTP 任務(wù)的 loss 角度來(lái)說(shuō)的，降低 loss 越多，則這個(gè)知識(shí)點(diǎn)越重要。從降低 loss 角度講肯定是對(duì)的，但還是太抽象。
我個(gè)人認(rèn)為，在訓(xùn)練過(guò)程中，GPT 模型會(huì)優(yōu)先學(xué)習(xí)具備以下特性的知識(shí)點(diǎn)：高頻知識(shí)點(diǎn)、通用知識(shí)點(diǎn)（被復(fù)用概率高的則通用）、具體而非抽象的知識(shí)點(diǎn)。應(yīng)該遵循這三個(gè)原則。為什么會(huì)這樣呢？因?yàn)楦鶕?jù) Next Token Prediction 的原則，越是高頻出現(xiàn)的知識(shí)點(diǎn)，如果 GPT 本次預(yù)測(cè)錯(cuò)了，則會(huì)做反向傳播修正模型參數(shù)，以保證下次再見到類似情況會(huì)預(yù)測(cè)對(duì)，高頻知識(shí)點(diǎn)因?yàn)槌霈F(xiàn)次數(shù)多，所以獲得反向傳播修正模型參數(shù)的次數(shù)多，也就更容易建立起對(duì)應(yīng)的知識(shí)點(diǎn)，及其和其它知識(shí)點(diǎn)的連接通路。高頻知識(shí)點(diǎn)如果學(xué)會(huì)了，在后面的訓(xùn)練數(shù)據(jù)會(huì)很容易碰到這個(gè)知識(shí)點(diǎn)，所以對(duì)降低 NTP 任務(wù)的 loss 貢獻(xiàn)就大。其它兩類知識(shí)點(diǎn)也是類似的道理，通用知識(shí)點(diǎn)因?yàn)橥ㄓ眯詮?qiáng)，所以在后續(xù)預(yù)測(cè)中被使用的機(jī)會(huì)多，所以獲得反向傳播修正模型參數(shù)的次數(shù)也多，也容易被模型學(xué)會(huì)，具體而非抽象的知識(shí)點(diǎn)也因?yàn)樵谟?xùn)練數(shù)據(jù)中見到的次數(shù)多，所以容易被建立起來(lái)。諸如此類。反過(guò)來(lái)，低頻的、領(lǐng)域或任務(wù)專用的、抽象的知識(shí)點(diǎn)，就會(huì)越晚被 GPT 模型學(xué)會(huì)?；蛘哒f(shuō)，如果想學(xué)會(huì)這類知識(shí)點(diǎn)，則需要讓模型見到更大量的數(shù)據(jù)，以增加這些知識(shí)點(diǎn)在學(xué)習(xí)過(guò)程中必要的反向傳播修正參數(shù)的機(jī)會(huì)。

接下來(lái)，我們開始正式討論 “回路競(jìng)爭(zhēng)” 猜想。在引出這個(gè)猜想前，我先做一個(gè)假設(shè)：
假設(shè)：為了提高 GPT 模型的參數(shù)利用率，NTP 任務(wù)會(huì)鼓勵(lì)子回路的復(fù)用。

所謂「子回路」，指的是完成簡(jiǎn)單運(yùn)算的回路，這種回路涉及到的知識(shí)點(diǎn)較少，知識(shí)點(diǎn)之間激發(fā)的結(jié)構(gòu)比較簡(jiǎn)單。GPT 模型大概會(huì)優(yōu)先產(chǎn)生很多完成簡(jiǎn)單任務(wù)或計(jì)算的子回路，而復(fù)雜回路應(yīng)該是由很多子回路進(jìn)一步連接形成的。為了增加模型參數(shù)的使用效率，GPT 模型應(yīng)該會(huì)鼓勵(lì)這些子回路在不同復(fù)雜回路中盡可能被復(fù)用，這樣使用同樣的參數(shù)量，就能完成更多不同類型的任務(wù)。比如上文講過(guò)的「Induction Head」回路，就是一個(gè)典型的子回路，由上文我們可知，在更為復(fù)雜的「Indirect Object Identification」知識(shí)回路中，「Induction Head」回路是其中一個(gè)構(gòu)成部分，子回路和復(fù)雜回路的關(guān)系大概類此例。
對(duì)于兩個(gè)解決不同任務(wù)的復(fù)雜回路，由于子回路復(fù)用的原因，兩者之間存在一些相同子回路，我們可以把這些相同的子回路稱為「重疊回路」。很容易推斷，如果兩個(gè)任務(wù)越接近，則其對(duì)應(yīng)的重疊回路就越多。而且重疊回路存在 Transformer 底層的情況應(yīng)該比較多，因?yàn)榈讓踊芈飞婕暗降闹R(shí)點(diǎn)更具體、數(shù)量更多、可復(fù)用性更強(qiáng)。上圖是對(duì)「子回路復(fù)用與重疊回路」給出的示意圖，途中紅色線（紅色任務(wù)）和藍(lán)色線（藍(lán)色任務(wù)）代表兩個(gè)不同復(fù)雜任務(wù)回路，而在底層，則有一些子回路被兩者復(fù)用。
所謂「回路競(jìng)爭(zhēng)」猜想，我們用上圖例子來(lái)說(shuō)明。假設(shè)我們輸入一個(gè) Prompt，這個(gè) Prompt 本來(lái)是要完成紅色任務(wù)的，當(dāng)輸入 Prompt 后，在信息從底層向上層逐層激發(fā)正確通路的時(shí)候，越是底層的知識(shí)點(diǎn)和子回路，復(fù)用性越強(qiáng)，所以容易產(chǎn)生「過(guò)剩激發(fā)現(xiàn)象」，就是除了激發(fā)出我們希望的紅色任務(wù)外，也會(huì)激發(fā)很多導(dǎo)向其它任務(wù)回路的知識(shí)點(diǎn)和子回路。這種情況在底層較為明顯，隨著信息逐步往上傳遞，紅色回路會(huì)逐漸得到進(jìn)一步的強(qiáng)化，非正確回路被激發(fā)的上層知識(shí)點(diǎn)和子回路越來(lái)越少，最終勾勒出了正確的紅色任務(wù)回路的路徑。這就是典型的「回路競(jìng)爭(zhēng)」猜想的思路。
如果從低向上激發(fā)過(guò)程中，我們希望的正確回路被激發(fā)，可以認(rèn)為回路競(jìng)爭(zhēng)勝利，則模型輸出正確答案，而如果錯(cuò)誤任務(wù)回路被激發(fā)，可以認(rèn)為回路競(jìng)爭(zhēng)失敗，則模型輸出錯(cuò)誤答案?？梢酝茢嗟氖牵绞菑?fù)雜的任務(wù)，因?yàn)槠錉可娴降闹R(shí)點(diǎn)和子回路越多，相互之間的關(guān)系越復(fù)雜，所以越容易和更多其它相似任務(wù)回路產(chǎn)生重疊，也就越容易在回路競(jìng)爭(zhēng)中失敗。
我們可以在「回路競(jìng)爭(zhēng)」框架下去思考很多 LLM 模型的問(wèn)題和現(xiàn)象，并給出解釋，本文稍后內(nèi)容會(huì)用這個(gè)猜想解釋一些目前 LLM 模型未知的一些現(xiàn)象。
模型規(guī)模的差異：更大的模型，更清晰的世界

根據(jù)目前已有研究結(jié)論，如果思考大 LLM 模型和小 LLM 模型的差異，我們大致可做如下推斷：小 LLM 模型建立了一個(gè)粗粒度的、模糊的世界圖像，而隨著模型規(guī)模越來(lái)越大，大 LLM 模型建立起能表征更多細(xì)節(jié)信息的清晰度越來(lái)越高的世界圖像。
由上文所述可知，LLM 模型的表征能力主要體現(xiàn)在兩個(gè)方面：從具體到抽象的層級(jí)知識(shí)結(jié)構(gòu)，以及可以解決很多問(wèn)題的任務(wù)回路。我們從這兩方面分頭看下大小模型的差異。
層級(jí)知識(shí)結(jié)構(gòu)的差異：很多研究結(jié)論證明了隨著模型規(guī)模增大，模型稀疏程度越來(lái)越高。Polysemantic 神經(jīng)元對(duì)特征編碼是稠密的，用于編碼大量相對(duì)具體的特征，而 Monosemantic 神經(jīng)元屬于單神經(jīng)元，表征是稀疏的，這說(shuō)明隨著模型規(guī)模越來(lái)越大，單語(yǔ)義神經(jīng)元數(shù)量占比增加。單語(yǔ)義神經(jīng)元編碼重要的及抽象的知識(shí)，既然單語(yǔ)義神經(jīng)元數(shù)量增加了，說(shuō)明模型學(xué)到的知識(shí)點(diǎn)肯定是增加了，新增知識(shí)點(diǎn)無(wú)非兩個(gè)來(lái)源可能：第一種來(lái)源是這個(gè)知識(shí)原先小模型沒(méi)有學(xué)到，現(xiàn)在大模型學(xué)會(huì)了，從無(wú)到有地學(xué)會(huì)了新知識(shí)。這類新知識(shí)應(yīng)該可再細(xì)分為兩類：一類應(yīng)該是世界知識(shí)（常識(shí)和事件），小模型無(wú)法編碼在數(shù)據(jù)中出現(xiàn)頻次比較低的世界知識(shí)，大模型通過(guò)單語(yǔ)義神經(jīng)元對(duì)此進(jìn)行了編碼（大模型相比小模型能學(xué)到更多數(shù)據(jù)中的低頻知識(shí)，這一點(diǎn)有很多工作可驗(yàn)證，且目前看世界知識(shí)應(yīng)該是單神經(jīng)元編碼的），這類知識(shí)代表大模型學(xué)會(huì)了更多有關(guān)世界的細(xì)節(jié)信息；一類應(yīng)是模型從數(shù)據(jù)中新歸納的更抽象的知識(shí)（比如「質(zhì)數(shù)」這種），這類知識(shí)代表大模型學(xué)會(huì)了越來(lái)越復(fù)雜的抽象知識(shí)或能力。
新增知識(shí)點(diǎn)的另外一種來(lái)源，應(yīng)該是由前文講過(guò)的抽象特征進(jìn)行特征分裂產(chǎn)生的。就是說(shuō)原來(lái)小模型只有一個(gè)粗粒度的抽象知識(shí)點(diǎn)，現(xiàn)在模型大了，衍生出一些新的細(xì)粒度的表征這類知識(shí)的知識(shí)點(diǎn)，針對(duì)不同的上文 Context 可能會(huì)學(xué)到對(duì)應(yīng)的一個(gè)知識(shí)點(diǎn)。舉個(gè)例子，目前發(fā)現(xiàn) LLM 中有針對(duì)連續(xù)大寫字符產(chǎn)生響應(yīng)的單語(yǔ)義神經(jīng)元，比如輸入中有「ABCD」，這個(gè)神經(jīng)元就會(huì)被激活。小 LLM 模型可能只有唯一神經(jīng)元對(duì)此進(jìn)行響應(yīng)，如果把這個(gè)神經(jīng)元滅活，則 GPT 在做 NTP 預(yù)測(cè)下一個(gè) Token 的時(shí)候 Loss 就會(huì)激增，說(shuō)明缺了這個(gè)特征對(duì)于正確預(yù)測(cè)后續(xù)內(nèi)容中連續(xù)大寫字符都產(chǎn)生了錯(cuò)誤；但是，大 LLM 模型除了這個(gè)神經(jīng)元，還分裂出細(xì)粒度表征神經(jīng)元，比如針對(duì)公司名字縮寫「IBM」這類可能有一個(gè)神經(jīng)元專門負(fù)責(zé)響應(yīng)，針對(duì)醫(yī)藥名稱縮寫，比如「GS (葡萄糖注射液)」，有另外一個(gè)神經(jīng)元負(fù)責(zé)響應(yīng)。諸如此類。這種大模型的抽象特征分裂，說(shuō)明了一點(diǎn)：即使是抽象知識(shí)，大模型相比小模型也有更細(xì)致的抽象特征表達(dá)能力。
可以看出，大模型相對(duì)小模型，從對(duì)低頻世界知識(shí)的編碼角度，可以認(rèn)為學(xué)到了關(guān)于世界更多的細(xì)節(jié)信息，而從新增抽象知識(shí)以及抽象特征分裂角度，說(shuō)明大 LLM 模型具備更難的以及更細(xì)粒度的抽象知識(shí)表達(dá)能力。
任務(wù)回路的差異：任務(wù)回路是建立在形成層級(jí)結(jié)構(gòu)的知識(shí)點(diǎn)之間由底向上激發(fā)并聯(lián)通的回路。由上面對(duì)大小模型在層級(jí)知識(shí)結(jié)構(gòu)差異的分析，可以作出合理推斷：大 LLM 模型大概率能夠建立在路徑上涉及更多細(xì)粒度抽象知識(shí)點(diǎn)以及路徑更復(fù)雜的回路。這大概是大模型可以解決復(fù)雜問(wèn)題的主要原因。
綜合兩者，我們可以認(rèn)為小模型是對(duì)世界的粗粒度建模，而大模型是對(duì)世界的細(xì)粒度高清建模。而且 Scaling law 說(shuō)明了：隨著增加更多的數(shù)據(jù)、更大的模型規(guī)模，LLM 模型可以對(duì)世界進(jìn)行清晰度更高的刻畫。從這個(gè)角度看，說(shuō) LLM 模型參數(shù)是對(duì)世界的有損壓縮，其實(shí)并沒(méi)有什么大問(wèn)題。
無(wú)盡的前沿：使用「回路競(jìng)爭(zhēng)」解釋未知現(xiàn)象
本部分我們?cè)凇富芈犯?jìng)爭(zhēng)」框架下，給出目前 LLM 模型一些現(xiàn)象的解釋。
「回路競(jìng)爭(zhēng)」視角下的模型涌現(xiàn)能力
模型涌現(xiàn)能力，指的是對(duì)于某些任務(wù)（大多數(shù)是 In Context Learning 或 COT 相關(guān)的任務(wù)），小模型幾乎完全沒(méi)有解決能力，只有當(dāng)模型規(guī)模達(dá)到某個(gè)臨界點(diǎn)，才能很好地完成這個(gè)任務(wù)。盡管目前有研究（可參考 Are Emergent Abilities of Large Language Models a Mirage?）表明：模型所謂的「涌現(xiàn)能力」，是度量標(biāo)準(zhǔn)選擇不合理造成的，其實(shí)并不存在涌現(xiàn)，只是任務(wù)選擇的度量標(biāo)準(zhǔn)不夠精準(zhǔn)而已。我個(gè)人認(rèn)為，這個(gè)說(shuō)法應(yīng)該確實(shí)能夠解釋一部分目前體現(xiàn)出「涌現(xiàn)能力」的任務(wù)，但感覺(jué)這可能不是故事的全部，有些任務(wù)可能很難僅僅通過(guò)這個(gè)原因來(lái)解釋，所以對(duì)于大語(yǔ)言模型為何會(huì)出現(xiàn)涌現(xiàn)能力，還是應(yīng)該做更進(jìn)一步的研究。
如果在「回路競(jìng)爭(zhēng)」框架下看這個(gè)問(wèn)題，那么小模型之所以做不了某個(gè)任務(wù)，無(wú)非有兩種可能：一種可能是對(duì)小模型來(lái)說(shuō)，這個(gè)任務(wù)對(duì)應(yīng)的激發(fā)回路沒(méi)有建立起來(lái)，而大語(yǔ)言模型建立起來(lái)了；另一種可能是小模型這個(gè)任務(wù)對(duì)應(yīng)的回路也建立起來(lái)了，但是在回路競(jìng)爭(zhēng)中非常容易失敗，導(dǎo)致看似做不了這個(gè)任務(wù)。
我更傾向認(rèn)為是第一種可能造成我們目前看到的模型「涌現(xiàn)能力」。前文有述，小模型大概建立了一個(gè)粗分辨率的模糊的世界鏡像，而大模型則建立起一個(gè)高分辨率清晰度更高的世界鏡像。小模型應(yīng)該在建立某些任務(wù)的完整激發(fā)回路存在困難，這些困難可能體現(xiàn)在幾個(gè)方面：比如對(duì)形成回路很關(guān)鍵的某個(gè)或者某些，比較抽象的概念知識(shí)點(diǎn)，小模型因?yàn)槌橄竽芰Ρ容^弱，沒(méi)有建立起這個(gè)知識(shí)點(diǎn)（類似本文開頭舉的「質(zhì)數(shù)」概念的例子）；再比如，一般能體現(xiàn)涌現(xiàn)能力的任務(wù)都比較復(fù)雜，小模型在建立復(fù)雜通路方面能力不足。諸如此類。而當(dāng)模型規(guī)模變大，則在抽象概念以及復(fù)雜回路構(gòu)建方面能力得到增強(qiáng)，當(dāng)建立起完整的解決任務(wù)的激活通路時(shí)，就看似突然能夠解決這個(gè)問(wèn)題，體現(xiàn)出模型的涌現(xiàn)能力。不過(guò)，很可能對(duì)于這種復(fù)雜回路，在激活競(jìng)爭(zhēng)方面能力也不足夠強(qiáng)，所以當(dāng)再輔助以 Few shot 幾個(gè)任務(wù)相關(guān)例子，以此來(lái)促進(jìn)任務(wù)對(duì)應(yīng)的回路在通路競(jìng)爭(zhēng)中勝出時(shí)，才能看到比較好的解決效果。
「回路競(jìng)爭(zhēng)」視角下的 In Context Learning 及 Chain of Thought (COT)
從回路競(jìng)爭(zhēng)的視角看 ICL，這里可能涉及到兩種回路：任務(wù)回路以及 Attention 回路，兩者競(jìng)爭(zhēng)或合作，來(lái)決定 ICL 任務(wù)的表現(xiàn)，COT 是一種特殊的 ICL，機(jī)制應(yīng)類似。
我們先看下任務(wù)回路的作用，其實(shí)好理解。In Context Learning 會(huì)先給 LLM 模型幾個(gè)任務(wù)相關(guān)的例子，之后輸入，期待模型可以輸出  對(duì)應(yīng)的正確結(jié)果輸入中給出的個(gè)例子的作用，在于激活了 LLM 模型對(duì)應(yīng)的在預(yù)訓(xùn)練階段學(xué)到的任務(wù)回路，然后再輸入  ，就容易沿著這條被激活的通路走，形成正確輸出  。COT 作用應(yīng)該類似，也就是說(shuō)，如果你不用 COT，可能 LLM 激活的是某個(gè)簡(jiǎn)單結(jié)構(gòu)的任務(wù)回路，而如果用了 COT 例子，則容易激活了有很多細(xì)節(jié)表征的復(fù)雜推理回路，導(dǎo)致之后的輸入也沿著這個(gè)子通路走，于是形成詳細(xì)推理步驟。由此可見，在 ICL 場(chǎng)景下，任務(wù)回路總是對(duì)  產(chǎn)生正確答案，起到積極作用。

再來(lái)看 Attention 回路，不過(guò)這里也是設(shè)想（In-context Learning and Induction Heads 這個(gè)工作的目的是通過(guò) Induction Head 來(lái)解釋 ICL 現(xiàn)象，不過(guò)我覺(jué)得 Induction Head 機(jī)制過(guò)于簡(jiǎn)單，可能需要再稍微強(qiáng)化下）。假設(shè)存在一個(gè)加強(qiáng)版本的 Induction Head 回路，比如我們可以稱之為「Enhanced Induction Head，EIH」，它的運(yùn)行機(jī)制很可能是這樣的（如上圖所示）：EIH 回路會(huì)依據(jù)當(dāng)前輸入  與 ICL 各個(gè)例子中的的語(yǔ)義相似性，去拷貝對(duì)應(yīng)的，與  相似性越高，越大概率拷貝對(duì)應(yīng)的  。這個(gè)過(guò)程有點(diǎn)類似由 EIH 回路構(gòu)成的 KNN 模型，只需根據(jù)輸入例子之間的相似性和對(duì)應(yīng)標(biāo)簽就可以投票得到正確答案，并不需要模型通過(guò)修改參數(shù)來(lái)學(xué)會(huì) 到之間的映射函數(shù)。算是一種有條件的 Induction Head 拷貝操作，條件觸發(fā)因素是輸入的例子之間的 Attention 相似性?？梢钥闯?，影響  輸出哪個(gè)標(biāo)簽，應(yīng)該主要取決于 ICL 中這幾種類型的例子：和  越相似的例子影響越大；ICL 中出現(xiàn)次數(shù)越多的  影響越大；以及距離  越近的例子影響越大 (Position embedding 編碼的位置信息及 NLP 中大量存在的局部相關(guān)性大概會(huì)導(dǎo)致此結(jié)果)。
若真存在 EIH 回路，根據(jù)上述運(yùn)行機(jī)制，我們可以推斷出在以下三種情況下，Attention 回路對(duì)正確預(yù)測(cè)結(jié)果的影響：
情況一：如果 ICL 中到輸入例子對(duì)應(yīng)的標(biāo)簽  是 Ground Truth Label，很明顯，EIH 回路是正向積極影響作用，類似如上所述 KNN 機(jī)制依據(jù)  到  例子對(duì)應(yīng)的來(lái)做判斷；
情況二：如果 ICL 中例子的標(biāo)簽不是 Ground Truth Label，而是在 label 空間內(nèi)隨機(jī)選擇賦予。很明顯，EIH 回路對(duì)于  得到正確答案應(yīng)該起到負(fù)面作用，因?yàn)?nbsp; 會(huì)從前面到  的例子中，尋找跟它比較像的內(nèi)容去拷貝對(duì)應(yīng)標(biāo)簽，但是這個(gè)標(biāo)簽是隨機(jī)賦予的，所以大概率是錯(cuò)的，導(dǎo)致這種情況 EIH 應(yīng)該是負(fù)面效果。
情況三：如果 ICL 中例子的標(biāo)簽是 label 空間之外的另外一套標(biāo)簽，但是和  存在對(duì)應(yīng)的映射關(guān)系。這種情況下，EIH 回路應(yīng)該是正面影響作用，這跟第一種情況道理類似，KNN 機(jī)制可以學(xué)習(xí)這種映射關(guān)系，因此得到正確的，無(wú)非現(xiàn)在用的是而不是  而已。當(dāng)然，若你仍然是看  標(biāo)簽下的表現(xiàn)，那 ICL 肯定是負(fù)面作用。
如果聯(lián)合考慮 LLM 的內(nèi)在任務(wù)回路，以及 EIH 這種純 Attention 回路，兩者有時(shí)協(xié)同發(fā)力方向相同，有時(shí)則競(jìng)爭(zhēng)發(fā)力方向相反。比如上述三種情形中，第一種情況兩者是協(xié)同作用，都起到促進(jìn)正確答案的作用，第二和第三種情況則是競(jìng)爭(zhēng)作用，任務(wù)回路對(duì)給出正確答案起到促進(jìn)作用，EIH 回路則起到負(fù)向作用。
按照這種思路，大致可以解釋目前我們看到的，在 ICL 研究中出現(xiàn)的很多貌似不可解釋的各種現(xiàn)象。這里舉個(gè)例子，比如目前研究表明，假設(shè) ICL 的標(biāo)簽空間包含兩個(gè)標(biāo)簽：和，如果我們把 ICL 里例子的標(biāo)簽反轉(zhuǎn)，就是原來(lái)標(biāo)簽是  的換成  ，原來(lái)是  的換成  ，則 ICL 任務(wù)效果會(huì)變差 (可參考：Overthinking the Truth: Understanding how Language Models process False Demonstrations)。假設(shè)  對(duì)應(yīng)的正確標(biāo)簽是  ，從任務(wù)回路和 EIH 回路的角度來(lái)看，任務(wù)回路會(huì)傾向于給出  標(biāo)簽，EIH 回路在這種情況下，其實(shí)對(duì)應(yīng)上面說(shuō)的情況三，標(biāo)簽反轉(zhuǎn)是種特殊的另?yè)Q標(biāo)簽，因?yàn)?nbsp; 和  的對(duì)應(yīng)關(guān)系仍然存在。所以此時(shí)，EIH 回路看似會(huì)學(xué)習(xí)  到  的映射關(guān)系，會(huì)傾向于給出  標(biāo)簽。此時(shí)兩者一個(gè)正向，一個(gè)負(fù)向，起到競(jìng)爭(zhēng)關(guān)系，所以會(huì)降低模型效果。
其它很多現(xiàn)象其實(shí)大都可以在這個(gè)框架里得到解釋，文章長(zhǎng)度原因就不展開了，感興趣的同學(xué)可以在這個(gè)思考框架下自己推導(dǎo)一下。
「回路競(jìng)爭(zhēng)」視角下的領(lǐng)域任務(wù) Fine-Tuning
我們可以在「回路競(jìng)爭(zhēng)」視角下，重新審視利用領(lǐng)域數(shù)據(jù)對(duì)通用模型進(jìn)行 Fine-tuning 操作，可能帶來(lái)的影響。我們現(xiàn)在已知的事實(shí)是，利用領(lǐng)域數(shù)據(jù) Fine-tuning，會(huì)造成基礎(chǔ)模型的「災(zāi)難遺忘」問(wèn)題。就是說(shuō)，因?yàn)楹罄m(xù) Fine-tuning 修正模型參數(shù)，導(dǎo)致模型遺忘了之前學(xué)會(huì)的某些知識(shí)。而且我的判斷是：目前看，在基礎(chǔ)模型之上，任何形式的 Tuning 操作，都會(huì)造成基礎(chǔ)模型某些能力的損失，這也包括 ChatGPT 為了聽懂命令及遵循人類價(jià)值觀所做的 Instruct tuning，也應(yīng)該一樣會(huì)損害基礎(chǔ)模型的某些能力，只是目前我們說(shuō)不清損害的是哪些能力而已。這是目前技術(shù)條件下，需要對(duì)模型做 Tuning 所必須付出的代價(jià)。
但是為何對(duì)基礎(chǔ)模型進(jìn)行 Fine-tuning 會(huì)造成能力損害呢？其內(nèi)在原理如何？我們可以在「回路競(jìng)爭(zhēng)」視角下，分析 Fine-tuning 帶來(lái)的影響。我猜大致有兩種影響，這兩種影響也許是某種單獨(dú)起作用，也許兩者共同發(fā)生作用。第一種影響是：Fine-tuning 操作通過(guò)大量領(lǐng)域數(shù)據(jù)，強(qiáng)化了大語(yǔ)言模型解決這個(gè)任務(wù)的響應(yīng)回路。這對(duì)于模型底層知識(shí)點(diǎn)影響估計(jì)不大，因?yàn)榈讓痈嗟氖峭ㄓ眯员容^強(qiáng)的特征，這個(gè)任務(wù)也需要，它修正的應(yīng)該更多是上層的抽象知識(shí)節(jié)點(diǎn)，以及底層知識(shí)點(diǎn)到上層抽象知識(shí)點(diǎn)建立激發(fā)連接的通路。另外一種可能的影響：很可能通過(guò) Fine-tuning 操作，在模型內(nèi)部建立起了 Shortcut 捷徑，導(dǎo)致輸入信息后，信息傳輸直接走了捷徑，而繞過(guò)了很多本該要走的通路。比如文本分類任務(wù)，這種任務(wù)內(nèi)部邏輯應(yīng)該很簡(jiǎn)單，估計(jì)就是建立起底層具體領(lǐng)域詞匯知識(shí)點(diǎn)，到上層抽象類別概念知識(shí)點(diǎn)的激發(fā)通路，所以很可能直接從最底層的知識(shí)點(diǎn)，到高層的類別概念知識(shí)點(diǎn)，建立起了一個(gè)很短的 Shortcut 捷徑，其它的復(fù)雜回路都被這個(gè)捷徑給 pass 掉了，倒不一定是上層抽象知識(shí)點(diǎn)被改寫了，很可能是通過(guò)走捷徑被繞過(guò)去了。
不論是上述哪個(gè)原因，造成的后果是：對(duì)于新的輸入，盡管可能是要做其它任務(wù)的，就很容易激發(fā)這個(gè)被特殊強(qiáng)化過(guò)的回路。也就是說(shuō)，這個(gè)被強(qiáng)化過(guò)的回路容易在不該競(jìng)爭(zhēng)勝利的時(shí)候也容易競(jìng)爭(zhēng)勝利，導(dǎo)致其它任務(wù)效果變差。
「回路競(jìng)爭(zhēng)」視角下的 Instruct Tuning
Instruct Tuning 本質(zhì)上是為了實(shí)現(xiàn)和人類行為對(duì)齊而做的一種特殊的 Fine-tuning。GPT 4 的技術(shù)報(bào)告也指出了：Instruct tuning 并不會(huì)增強(qiáng)基礎(chǔ)模型的知識(shí)和能力，相反可能存在某種能力損害作用。高質(zhì)量的 Instruct Tuning 肯定是很重要的，但它只是讓大語(yǔ)言模型「看著好像」效果更好了而已，這只是使用者主觀感受上的，而非模型基礎(chǔ)能力層面的更好。
那么，如果在「回路競(jìng)爭(zhēng)」視角下，如何理解 Instruct Tuning 是在干什么事情呢？我覺(jué)得可以這么理解：Instruct Tuning 的作用，建立起了一個(gè)特殊的激活回路，就是說(shuō)從輸入命令自身形成的激活回路，建立起和對(duì)應(yīng)任務(wù)回路的連接。根據(jù) Instruct 訓(xùn)練好模型后，當(dāng)輸入命令時(shí)，有利于激活對(duì)應(yīng)的任務(wù)回路，所以看似大語(yǔ)言模型就理解了命令的含義。這有點(diǎn)類似于巴浦洛夫生物實(shí)驗(yàn)里的「條件反射作用」的運(yùn)行機(jī)制，等于在用戶命令和對(duì)應(yīng)任務(wù)通路建立起了一個(gè)條件反射通路。
利用「回路競(jìng)爭(zhēng)」猜想，除了可以用來(lái)對(duì)上述目前未知內(nèi)部運(yùn)行機(jī)制的現(xiàn)象，給出看著還算合理的解釋外，也可以用來(lái)解釋一些其它現(xiàn)象。比如大模型經(jīng)常出現(xiàn)的「一本正經(jīng)的胡說(shuō)八道」問(wèn)題，可以認(rèn)為是在回路競(jìng)爭(zhēng)過(guò)程中，正確回路競(jìng)爭(zhēng)失敗，或者正確回路和某個(gè)錯(cuò)誤回路被激發(fā)的強(qiáng)度差不多，導(dǎo)致給出混合兩者的結(jié)果，就是看著合理但事實(shí)錯(cuò)誤的答案。諸如此類吧。
世界的參數(shù)倒影：從現(xiàn)實(shí)世界到可能世界

物理世界自有支配其運(yùn)行的 Hidden Rules，概念上我們可以理解存在一個(gè)簡(jiǎn)潔的 Hidden world，由它產(chǎn)生了五彩繽紛的表象世界，若對(duì)世界諸現(xiàn)象歸類，大致可有自然現(xiàn)象、社會(huì)現(xiàn)象、心理現(xiàn)象幾大類。人是構(gòu)成物理世界的一分子，通過(guò)觀察世界表象、試圖理解世界運(yùn)行規(guī)律，以更好維持種群及個(gè)體在這個(gè)世界里生存。
從種群角度而言，千萬(wàn)年進(jìn)化過(guò)程中的優(yōu)勝劣汰即人類模型預(yù)訓(xùn)練過(guò)程，其優(yōu)化目標(biāo)為「Next Person’s survival Prediction」，其 Loss 越小，種群中生存?zhèn)€體數(shù)量越多。基因編碼即模型參數(shù)，基因編碼表征出的個(gè)體，適應(yīng)環(huán)境者生存，不適應(yīng)環(huán)境者淘汰。生存者之所以可生存，是因?yàn)榛蚓幋a表征出的某些特征適配生存環(huán)境，于是這些匹配生存環(huán)境的基因編碼在種群中得以加強(qiáng)，人類預(yù)訓(xùn)練模型完成一次模型參數(shù)更新。外部物理世界生存環(huán)境的不斷變化驅(qū)動(dòng)著種群基因編碼的變化，以此推動(dòng)種群在變動(dòng)環(huán)境下的生存。而我們生來(lái)即得到的基因編碼預(yù)訓(xùn)練模型，則記錄了千萬(wàn)年來(lái)學(xué)到的各種生存策略，形成了大腦中無(wú)意識(shí)快速反應(yīng)的系統(tǒng) 1，它代表了種群的集體記憶。
從個(gè)體角度而言，除了通過(guò)基因編碼預(yù)訓(xùn)練模型獲得天生的生存策略外，為了維護(hù)個(gè)體自身在特定環(huán)境下的生存，在整個(gè)生命歷程中會(huì)進(jìn)行「繼續(xù)預(yù)訓(xùn)練 (Continual Pre-training)」。其優(yōu)化目標(biāo)為「Next Action Prediction」，追求在環(huán)境中輸出正確行為以維持生存。采取類似 LoRA 的模型參數(shù)更新策略：對(duì)于個(gè)體而言，天生的基因編碼是無(wú)力改動(dòng)的基礎(chǔ)模型，決定了我們的很多行為模式，但大腦中有一部分可修正區(qū)域，可以通過(guò)修正這部分區(qū)域里神經(jīng)元之間的聯(lián)系方式，來(lái)學(xué)會(huì)新的知識(shí)和技能。如果輸出行為對(duì)繼續(xù)生存造成負(fù)面影響，則調(diào)整模型參數(shù)以將來(lái)更好應(yīng)對(duì)生存環(huán)境，這部分腦區(qū)功能形成了有意識(shí)慢決策的系統(tǒng) 2，它代表了個(gè)人的個(gè)性化生存經(jīng)驗(yàn)?！柑焐蚓幋a + 個(gè)人生存微調(diào)」塑造出了形形色色的不同個(gè)體行為，有共性有個(gè)性，共性來(lái)自于種群集體記憶，個(gè)性來(lái)自于獨(dú)有的生存經(jīng)驗(yàn)。
語(yǔ)言最初作為人類個(gè)體間的溝通協(xié)作工具，有利于促進(jìn)種群存續(xù)。隨著技術(shù)發(fā)展，逐步將之記錄在龜背、竹簡(jiǎn)、紙張、電子信號(hào)形成文字。每個(gè)人都可看成獨(dú)立的「編碼 - ****」，個(gè)體對(duì)物理世界觀察與感受，并編碼在大腦中形成知識(shí)和思維，解碼輸出則形成文字，記錄的是個(gè)人視角對(duì)世界的感受和思考，有主觀感受也有客觀記錄。人群則形成分布式的「編碼 - ****」，解碼輸出產(chǎn)生了大量包含各種世界運(yùn)轉(zhuǎn)的客觀事實(shí)以及主觀沖突觀念的文字記錄。所以，文字只是表象，內(nèi)在記錄的是從人類角度形成的對(duì)物理世界的認(rèn)知與對(duì)這個(gè)世界的主觀感受（物理知識(shí)、社會(huì)知識(shí)、事件記錄、個(gè)體感受、個(gè)體想象等各種類型），其背后隱藏著人類視角下的世界模型。而 GPT 通過(guò) Next Token Prediction 任務(wù)試圖正確復(fù)現(xiàn)人類產(chǎn)生的文字，本質(zhì)上是對(duì)隱藏在文字表象之后的世界模型進(jìn)行解碼復(fù)原，并存儲(chǔ)在 GPT 的模型參數(shù)里，形成了物理世界的參數(shù)倒影。
如果我們進(jìn)行更深入思考，有可能會(huì)發(fā)現(xiàn)；GPT 從大量文字中，不僅僅學(xué)會(huì)了如何生成符合我們現(xiàn)實(shí)世界事實(shí)的內(nèi)容，可能還學(xué)會(huì)成為一個(gè) 「可能世界」生成器。它從文字模擬我們的現(xiàn)實(shí)世界開始，并進(jìn)而泛化抽象，盡管遵循我們這個(gè)世界的物理法則，但是它不僅可以產(chǎn)生符合我們感知到的世界中真實(shí)的知識(shí)與內(nèi)容，也可以產(chǎn)生其它符合物理法則及人類理解邏輯的可能世界。也許你不能因它產(chǎn)生的內(nèi)容不符合現(xiàn)實(shí)世界，就說(shuō)它是錯(cuò)的，只能說(shuō)它有能力把符合邏輯的可能世界全部展示給你，必然有很多情況未必吻合現(xiàn)實(shí)，畢竟現(xiàn)有世界只是可能世界的一種已經(jīng)發(fā)生的現(xiàn)實(shí)選擇而已，而它有能力給你呈現(xiàn)各種合理的可能性。
世界盡頭與冷酷仙境：「數(shù)字缸中之腦」思想實(shí)驗(yàn)
「一個(gè)瘋狂科學(xué)家進(jìn)行了一項(xiàng)手術(shù)，他將一個(gè)人的大腦切下來(lái)并將其放入充滿營(yíng)養(yǎng)液的容器中。營(yíng)養(yǎng)液中的養(yǎng)分足以維持大腦的正常運(yùn)作，而大腦的神經(jīng)末梢連接到電線上，電線的另一端則連接到一臺(tái)計(jì)算機(jī)。計(jì)算機(jī)模擬真實(shí)世界的參數(shù)，并通過(guò)電線向大腦傳遞信息，讓大腦感到一切都完全正常，好像周圍認(rèn)識(shí)的人、熟悉的事情還照常進(jìn)行，沒(méi)有任何異樣。
有一天，營(yíng)養(yǎng)液中的大腦突發(fā)奇想，想到了一個(gè)很有趣的思想實(shí)驗(yàn)，在他／她的現(xiàn)實(shí)感知里，此刻正在上班的地鐵上或自己辦公工位前，耳邊傳來(lái)別人輕微的腳步聲，他／她掏出手機(jī)把想法寫在備忘錄里，內(nèi)容是這樣的：
「OpenAI 推出了一個(gè)新的 LLM 模型，叫 GPT 4，功能很強(qiáng)大，這很可能預(yù)示著 AGI 時(shí)代的到來(lái)，我身邊每個(gè)人都在熱烈地討論它。今天我讀到了一篇分析它可能工作機(jī)制的文章，題目是《世界的參數(shù)倒影：為何 GPT 通過(guò) Next Token Prediction 可以產(chǎn)生智能》，讀完很有啟發(fā)，引起了我的思考。我們可以設(shè)想一下：如果將來(lái) AGI 能力足夠強(qiáng)大，它能通過(guò)閱讀我書寫的內(nèi)容、我的照片和視頻，甚至可以掃描復(fù)制我的大腦反應(yīng)模式，重構(gòu)一個(gè)和我在物理世界一摸一樣的數(shù)字大腦。那么，另一個(gè)我自己就會(huì)生活在數(shù)字空間中，而 AGI 接管我的數(shù)字大腦的各種感知信號(hào)，模擬我的工作和生活場(chǎng)景，讓大腦感到一切都完全正常，好像周圍認(rèn)識(shí)的人、熟悉的事情還照常進(jìn)行，沒(méi)有任何異樣。那么，這個(gè)數(shù)字大腦里的我，或者現(xiàn)實(shí)生活里的我，能區(qū)分現(xiàn)在是生活在數(shù)字空間，還是物理空間嗎？我把這個(gè)思想實(shí)驗(yàn)稱為：數(shù)字缸中之腦。這個(gè)思想實(shí)驗(yàn)，是不是很有意思？」
我把這個(gè)思想實(shí)驗(yàn)稱為：數(shù)字缸中之腦。這個(gè)思想實(shí)驗(yàn)，是不是很有意思？」