語(yǔ)言大模型的進(jìn)化軌跡

作者：時(shí)間：2024-02-29 來(lái)源：BM小偉

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

本文引用地址：http://m.butianyuan.cn/article/202402/455818.htm

ChatGPT 的發(fā)布是語(yǔ)言大模型（LLM）發(fā)展史的轉(zhuǎn)折點(diǎn)，它讓人們意識(shí)到 LLM 的潛力，并引發(fā)了 “AI 競(jìng)賽”，世界上主要人工智能實(shí)驗(yàn)室和初創(chuàng)公司都參與其中。在這之后，基于 LLM 的聊天機(jī)器人層出不窮。

1語(yǔ)言模型

簡(jiǎn)單來(lái)說(shuō)，語(yǔ)言模型能夠以某種方式生成文本。它的應(yīng)用十分廣泛，例如，可以用語(yǔ)言模型進(jìn)行情感分析、標(biāo)記有害內(nèi)容、回答問(wèn)題、概述文檔等等。但理論上，語(yǔ)言模型的潛力遠(yuǎn)超以上常見(jiàn)任務(wù)。

想象你有一個(gè)完備的語(yǔ)言模型，可生成任意類(lèi)型的文本，并且人們還無(wú)法辨別這些內(nèi)容是否由計(jì)算機(jī)生成，那么我們就可以使其完成很多事，例如生成具有代表性的內(nèi)容，如電子郵件、新聞稿、書(shū)籍和電影劇本等。再進(jìn)一步來(lái)看，還可以用其生成計(jì)算機(jī)程序，甚至構(gòu)建整個(gè)軟件。只要愿意，我們還可以讓它生成科學(xué)論文。如果語(yǔ)言模型真正 “完備”，那么它們生成的論文將能夠以假亂真，與真實(shí)論文沒(méi)有區(qū)別，這意味著必須對(duì)語(yǔ)言模型展開(kāi)實(shí)質(zhì)性研究！

當(dāng)然，就目前而言，完備的語(yǔ)言模型還無(wú)法實(shí)現(xiàn)，不過(guò)也展示出了這些系統(tǒng)的潛力。語(yǔ)言模型不僅僅能 “預(yù)測(cè)文本”，它們的潛力可能遠(yuǎn)超想象。

現(xiàn)在我們回顧一下語(yǔ)言模型的發(fā)展歷程，從最初的樸素語(yǔ)言模型到目前基于 Transformer 的 LLM（語(yǔ)言大模型）。

樸素語(yǔ)言模型

語(yǔ)言模型是機(jī)器學(xué)習(xí)模型，因此它們會(huì)學(xué)習(xí)如何生成文本。教授它們的方法（即訓(xùn)練階段）是提供一個(gè)大規(guī)模文本語(yǔ)料庫(kù)，它們將從中學(xué)習(xí)如何模仿生成這些文本的過(guò)程。

也許這聽(tīng)起來(lái)有些抽象，但創(chuàng)建一個(gè)樸素語(yǔ)言模型實(shí)際上非常簡(jiǎn)單。你可以將文本語(yǔ)料庫(kù)分成一定大小的字符串塊，并測(cè)量它們的頻率。下面是我使用大小為 2 的字符串得到的結(jié)果：

圖源：《機(jī)器學(xué)習(xí)導(dǎo)論》

這些字符串塊被稱(chēng)為 n-gram（其中 n 表示字符串的大小，因此此處 n=2）。通過(guò)這些 n-gram，你可以像玩多米諾骨牌一樣生成文本。從一個(gè)初始的 n-gram 開(kāi)始，例如 “th”，然后根據(jù)測(cè)量的頻率隨機(jī)選擇一個(gè)以初始 n-gram 結(jié)尾的 n-gram 。在這個(gè)例子中，如果選擇 “hi”，就會(huì)形成 “th” + “hi” = “thi”。然后再繼續(xù)添加以 “i” 開(kāi)頭的 n-gram，以此類(lèi)推，生成整段文本。不過(guò)正如你所想，這些 n-gram 模型并不能生成足夠連貫的文本。以下是我繼續(xù)執(zhí)行這一過(guò)程時(shí)得到的結(jié)果：

說(shuō)實(shí)話(huà)，這一結(jié)果并不太理想！但也說(shuō)得通，因?yàn)樵撃Ｐ偷挠洃浤芰苡邢?，只通過(guò)前一個(gè)字符來(lái)預(yù)測(cè)下一個(gè)字符。如果我們使用 n=4 的字符串，結(jié)果會(huì)稍微好一些：

“complaine building thing Lakers inter blous of try sure camp Fican chips always and to New Semested and the to have being severy undiscussion to can you better is early shoot on”

現(xiàn)在出現(xiàn)了一些拼寫(xiě)正確的單詞，但結(jié)果仍不夠理想！理論上，進(jìn)一步增加 n 的值，輸出結(jié)果會(huì)得到改善，但在實(shí)踐中，我們無(wú)法顯著增加 n 值，因?yàn)檫@需要一個(gè)龐大的數(shù)據(jù)集來(lái)訓(xùn)練模型。最后，我們可以嘗試將單詞而不是字符作為基本單位（在自然語(yǔ)言處理術(shù)語(yǔ)中稱(chēng)為 “詞元（token）”）。這會(huì)改善輸出結(jié)果，但因?yàn)?n<6，生成的文本仍然缺乏連貫性。

這些樸素語(yǔ)言模型的記憶能力始終有限，因此無(wú)法生成超過(guò)一定長(zhǎng)度的連貫文本。盡管如此，它們?nèi)跃邆湟欢ㄓ猛?。幾年前，樸素語(yǔ)言模型被廣泛用于文本分類(lèi)和語(yǔ)音識(shí)別，且如今仍被用于語(yǔ)言識(shí)別等任務(wù)。然而，對(duì)于更高級(jí)的文本理解和文本生成任務(wù)來(lái)說(shuō)，樸素語(yǔ)言模型就捉襟見(jiàn)肘了。因此需要神經(jīng)網(wǎng)絡(luò)。

基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型

現(xiàn)代語(yǔ)言模型基于（人工）神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是受人腦啟發(fā)開(kāi)發(fā)出的計(jì)算機(jī)，能夠通過(guò)任務(wù)示例學(xué)習(xí)如何執(zhí)行任務(wù)。這種機(jī)器學(xué)習(xí)形式也被稱(chēng)為深度學(xué)習(xí)，因?yàn)槠渲械木W(wǎng)絡(luò)由多個(gè)計(jì)算層組成（因此被稱(chēng)為 “深度” 網(wǎng)絡(luò)）。在神經(jīng)網(wǎng)絡(luò)中，通過(guò)遍歷任務(wù)示例并迭代修改網(wǎng)絡(luò)參數(shù)以?xún)?yōu)化任務(wù)目標(biāo)，從而實(shí)現(xiàn)學(xué)習(xí)。你可以將這些參數(shù)想象成一組旋鈕（knob），通過(guò)左右旋動(dòng)以改進(jìn)目標(biāo)，但區(qū)別是計(jì)算機(jī)為你進(jìn)行改進(jìn)，并且知道如何同時(shí)正確地朝著改進(jìn)方向進(jìn)行調(diào)整（得益于著名的反向傳播算法）。因此，網(wǎng)絡(luò)會(huì)遍歷任務(wù)示例（通常以幾百個(gè)示例為一批），并在這一過(guò)程中優(yōu)化目標(biāo)。以下是一個(gè)正在被優(yōu)化的目標(biāo)示例（稱(chēng)為成本函數(shù)，數(shù)值越小越好）：

成本函數(shù)隨訓(xùn)練迭代次數(shù)的變化。圖源：《機(jī)器學(xué)習(xí)導(dǎo)論》

隨著模型的訓(xùn)練，成本函數(shù)值會(huì)逐漸下降，意味著模型在任務(wù)處理上變得更加優(yōu)秀。

在該案例中，我們想要生成文本。目前，標(biāo)準(zhǔn)的方法是訓(xùn)練一個(gè)模型，通過(guò)前面的單詞預(yù)測(cè)后面的單詞。由于下一個(gè)單詞有多種可能性，模型會(huì)學(xué)習(xí)為每個(gè)可能的單詞關(guān)聯(lián)一個(gè)概率。以下是對(duì) “the cat sat on the” 之后可能出現(xiàn)單詞的概率分布可視化圖像：

改編自《機(jī)器學(xué)習(xí)導(dǎo)論》

一旦擁有這樣的預(yù)測(cè)模型，就可以從預(yù)測(cè)概率中抽樣來(lái)生成下一個(gè)單詞，然后將該單詞重新輸入到網(wǎng)絡(luò)，再抽樣一個(gè)新的單詞，以此類(lèi)推，從而生成文本。這一生成過(guò)程被稱(chēng)為自回歸，因?yàn)榫W(wǎng)絡(luò)利用自己的預(yù)測(cè)結(jié)果來(lái)生成新的預(yù)測(cè)。雖然有人對(duì)此提出了異議，認(rèn)為這并非最佳方法，但目前而言，這就是最實(shí)際的操作方式，且效果也出奇地好！

曾經(jīng)用于建模語(yǔ)言的第一類(lèi)神經(jīng)網(wǎng)絡(luò)是 RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)），尤其是 LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）架構(gòu)。RNN 就像一個(gè)逐個(gè)閱讀單詞的小型機(jī)器，在這一過(guò)程中，它會(huì)更新思維狀態(tài)（mental state）。這種思維狀態(tài)如同記憶，使它們?cè)谏晌谋緯r(shí)能大概記住一段時(shí)間的信息。相比 n-gram 模型，RNN 模型能夠獲得更為優(yōu)越的性能。

RNN 創(chuàng)建之初，神經(jīng)對(duì)話(huà)模型（Neural Conversational Model）給我留下了深刻印象。該模型是 Google 于 2015 年基于電影字幕訓(xùn)練的一個(gè)特殊 LSTM 模型，當(dāng)時(shí)這個(gè)模型已經(jīng)算得上是 LLM 了（也可能是首個(gè) LLM）：擁有 3 億參數(shù)，并在約 10 億詞的數(shù)據(jù)上進(jìn)行訓(xùn)練。由于電影字幕是對(duì)話(huà)形式，因此可直接將該模型用作聊天機(jī)器人。以下是不同人類(lèi)輸入對(duì)應(yīng)的回答示例：

人類(lèi)：你叫什么名字？

機(jī)器：我叫朱莉婭。

人類(lèi)：你是什么時(shí)候出生的？

機(jī)器：7 月 20 日。

人類(lèi)：我的名字是大衛(wèi)。我的名字是什么？

機(jī)器：大衛(wèi)。

人類(lèi)：天行者是誰(shuí)？

機(jī)器：他是一個(gè)英雄。

人類(lèi)：天空是什么顏色？

機(jī)器：藍(lán)色。

人類(lèi)：血液是什么顏色？

機(jī)器：和黑眼圈的顏色相同。

如你所見(jiàn)，該模型能夠閑聊，同時(shí)也對(duì)世界有一定了解，這些知識(shí)完全是通過(guò)學(xué)習(xí)如何預(yù)測(cè)文本獲得的！我記得自己曾對(duì)這一事實(shí)很感興趣：學(xué)習(xí)預(yù)測(cè)文本迫使你理解世界（但并不意味著這個(gè)過(guò)程很容易）。然而，該模型也有一些明顯的短板：它經(jīng)常出錯(cuò)，并且與類(lèi)似基于 LSTM 的模型一樣，無(wú)法生成長(zhǎng)篇連貫的文本。理論上，循環(huán)神經(jīng)網(wǎng)絡(luò)可以長(zhǎng)時(shí)間記憶事物，但在實(shí)踐中，它們卻往往很快就忘記了：經(jīng)過(guò)幾十到一百個(gè)詞之后，它們就會(huì)開(kāi)始偏離主題，不再連貫。

2017 年，人們針對(duì)短期記憶問(wèn)題提出一種解決方案 ——Transformer。Transformer 是一種基于注意力機(jī)制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)（本質(zhì)上是一種選擇操作），下圖來(lái)自介紹 Transformer 的論文，用以說(shuō)明其在翻譯任務(wù)中的工作原理：

Transformer 架構(gòu)。來(lái)源：https://arxiv.org/abs/1706.03762

Transformer 在各個(gè)方面都可圈可點(diǎn)，但最值得一提的是，該架構(gòu)在文本建模方面表現(xiàn)非常出色，并且很適合在 GPU 上運(yùn)行，從而處理（和學(xué)習(xí)）大量數(shù)據(jù)。正是有了 Transformer 這種架構(gòu)，才使得現(xiàn)代 LLM 得以興起（或至少起到了很強(qiáng)的促進(jìn)作用）。

現(xiàn)代語(yǔ)言大模型

Transformer 的發(fā)明標(biāo)志著現(xiàn)代 LLM 時(shí)代的開(kāi)始。自 2018 年以來(lái)，AI 實(shí)驗(yàn)室開(kāi)始訓(xùn)練規(guī)模越來(lái)越大的模型。令眾人驚訝的是，這些模型的質(zhì)量也在不斷提高！下圖對(duì)這些模型進(jìn)行了可視化，我們將重點(diǎn)介紹其中值得關(guān)注的模型：

LLM 進(jìn)化樹(shù)。來(lái)源：https://github.com/Mooler0410/LLMsPracticalGuide

這些語(yǔ)言模型主要分為三類(lèi)。一是 “僅編碼器（encoder-only）” 組（上圖中的粉色部分），該類(lèi)語(yǔ)言模型擅長(zhǎng)文本理解，因?yàn)樗鼈冊(cè)试S信息在文本的兩個(gè)方向上流動(dòng)。二是 “僅解碼器（decoder-only）” 組（上圖中的藍(lán)色部分），該類(lèi)語(yǔ)言模型擅長(zhǎng)文本生成，因?yàn)樾畔⒅荒軓奈谋镜淖髠?cè)向右側(cè)流動(dòng)，以自回歸方式有效生成新詞匯。三是 “編碼器 - 解碼器（encoder-decoder）” 組（上圖中的綠色部分），該類(lèi)語(yǔ)言模型對(duì)上述兩種模型進(jìn)行了結(jié)合，用于完成需要理解輸入并生成輸出的任務(wù)，例如翻譯。

這一切都主要始于文本理解類(lèi)模型。最初是使用 RNN 的 ELMo，之后是谷歌著名的 BERT 模型及其派生模型（如 RoBERTa），它們都基于 Transformer。這些模型通常具有幾億個(gè)參數(shù)（相當(dāng)于約 1GB 的計(jì)算機(jī)內(nèi)存），在大約 10GB 到 100GB 的文本上進(jìn)行訓(xùn)練（通常為幾十億個(gè)單詞），并且可以在現(xiàn)代筆記本電腦上以約 0.1 秒的速度處理一段文本。這些模型極大地提升了文本理解任務(wù)的性能，如文本分類(lèi)、實(shí)體檢測(cè)和問(wèn)題回答等。這已然是 NLP（自然語(yǔ)言處理）領(lǐng)域的一場(chǎng)革命，不過(guò)才剛剛拉開(kāi)序幕……

在文本理解類(lèi)語(yǔ)言模型發(fā)展的同時(shí)，OpenAI 開(kāi)始基于 Transformer 創(chuàng)建文本生成類(lèi)語(yǔ)言模型。首先是 2018 年的 GPT-1，有 1 億個(gè)參數(shù)；然后是 2019 年的 GPT-2，擁有高達(dá) 15 億個(gè)參數(shù)，并在 40GB 的文本上進(jìn)行了訓(xùn)練。至少對(duì)我來(lái)說(shuō)，GPT-2 的創(chuàng)建是一個(gè)至關(guān)重要的時(shí)刻。以下是 GPT-2 可以生成的文本示例，從一個(gè)由人類(lèi)撰寫(xiě)的段落開(kāi)始：

來(lái)源：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

生成的英語(yǔ)文本質(zhì)量很不錯(cuò)，而且具有連貫性。例如，科學(xué)家的名字沒(méi)有改變，而這在基于 RNN 的模型中是個(gè)經(jīng)典問(wèn)題。由于 GPT-2 在所生成文本的質(zhì)量上取得了巨大突破，為避免濫用，OpenAI 最初決定不向公眾發(fā)布。可以說(shuō) GPT-2 標(biāo)志著 LLM 正朝著正確的方向發(fā)展。需要注意的是：使用這類(lèi)語(yǔ)言模型需要先提供一個(gè)起始文本，這個(gè)起始文本被稱(chēng)為提示（prompt）。

一年后（2020 年），OpenAI 創(chuàng)建了 GPT-3。GPT-3 是一個(gè)具有 1750 億個(gè)參數(shù)的模型（需要 700GB 的計(jì)算機(jī)內(nèi)存來(lái)存儲(chǔ)模型?。?，該模型不僅規(guī)模顯著擴(kuò)大，文本生成質(zhì)量也有重大改進(jìn)。除了性能的提升外，GPT-3 還讓人們對(duì)未來(lái)如何使用 LLM 大開(kāi)眼界。

首先，GPT-3 能夠編寫(xiě)代碼。例如，你可以使用 GPT-3 來(lái)生成（非常）簡(jiǎn)單的網(wǎng)站，只需在提示中描述網(wǎng)站的外觀即可。以下是一個(gè)示例，讓 GPT-3 使用 HTML 創(chuàng)建一個(gè)按鈕：

這些基本的編碼能力在當(dāng)時(shí)并不十分實(shí)用，但它們的出現(xiàn)意味著軟件開(kāi)發(fā)在未來(lái)可能會(huì)發(fā)生根本性轉(zhuǎn)變。

GPT-3 另一令人矚目的能力是能夠進(jìn)行上下文學(xué)習(xí)，它可以通過(guò)提示中所展示的示例來(lái)學(xué)習(xí)如何執(zhí)行任務(wù)。這意味著你可以通過(guò)編寫(xiě)提示來(lái)定制 LLM，而無(wú)需更改它們的權(quán)重。這一能力開(kāi)辟了一種全新的、完全基于提示的自然語(yǔ)言處理方式，如今十分受歡迎。

總而言之，GPT-3 展示了 “提示” 作為一種新方式的潛力，可以讓機(jī)器通過(guò)自然語(yǔ)言按照我們的意愿執(zhí)行任務(wù)。

注意：GPT-3 比 GPT-2 要大得多。自 2018 年以來(lái)，模型的規(guī)模急劇增加。以下是一些值得關(guān)注的 LLM 及其規(guī)模：

在兩年時(shí)間里，模型參數(shù)的數(shù)量增加了 1000 倍，目前最大的模型（如 GPT-4）已接近 1 萬(wàn)億個(gè)參數(shù)，這是因?yàn)槟Ｐ鸵?guī)模的增加與性能的改善密切相關(guān)，并且目前還未達(dá)到性能瓶頸。這些模型規(guī)模十分龐大，與人腦相比，人腦約有 1000 億個(gè)神經(jīng)元，每個(gè)神經(jīng)元平均與其他 1000 個(gè)神經(jīng)元相連接，總共約有 100 萬(wàn)億個(gè)連接。從某種意義上說(shuō)，最大的 LLM 仍然比人腦小 100 倍。當(dāng)然，這只是一個(gè)非常寬泛的比較，因?yàn)槿四X和當(dāng)前 LLM 使用的架構(gòu)和學(xué)習(xí)方法都截然不同。

另一個(gè)有趣的指標(biāo)是這些模型在訓(xùn)練階段所 “閱讀（read）” 的單詞數(shù)量。

如你所見(jiàn)，數(shù)量十分龐大。這些模型在訓(xùn)練過(guò)程中會(huì)接觸超 1000 億個(gè)單詞，是一個(gè)人在一生中聽(tīng)到或閱讀單詞數(shù)量的 100 倍以上！這顯示出神經(jīng)網(wǎng)絡(luò)與人腦的不同之處：神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度比人類(lèi)慢得多，但可以獲得比人類(lèi)接觸的多得多的數(shù)據(jù)。

需要注意的是，LLM 在訓(xùn)練過(guò)程中所接觸到的單詞數(shù)量并未像參數(shù)數(shù)量那樣迅速增長(zhǎng)（從 GPT-1 到 GPT-3 只增長(zhǎng)了 3 倍）。這是因?yàn)閮?yōu)先考慮模型規(guī)模，不過(guò)結(jié)果證明這是一個(gè)小小的失誤。最新的模型并沒(méi)有比 GPT-3 大很多，但通過(guò)處理更多單詞來(lái)進(jìn)行訓(xùn)練。

這種對(duì)數(shù)據(jù)的渴求導(dǎo)致了一個(gè)問(wèn)題，即可用文本的總量存在硬性限制，約為數(shù)萬(wàn)億個(gè)單詞，而模型正在接近這一限制。雖然仍有可能循環(huán)遍歷所有文本，但這會(huì)導(dǎo)致模型性能的回報(bào)遞減?？偠灾傻贸鼋Y(jié)論：網(wǎng)絡(luò)在訓(xùn)練階段處理的有效限制是幾十萬(wàn)億個(gè)單詞，比 GPT-4 的數(shù)量約多出 10 倍。

另一個(gè)問(wèn)題是，通過(guò)用更多的數(shù)據(jù)訓(xùn)練更大的模型，計(jì)算成本也在增加。以下是訓(xùn)練上述模型的預(yù)估計(jì)算成本：

為顯著超越當(dāng)前模型的性能，下一代模型需要耗費(fèi)數(shù)億美元的計(jì)算資源。雖然考慮到這些模型能帶來(lái)的好處，這一成本是合理的，但如此巨大的花費(fèi)仍然是一個(gè)問(wèn)題。

模型的擴(kuò)展變得越來(lái)越困難。幸運(yùn)的是，擴(kuò)大規(guī)模并不是改進(jìn) LLM 的唯一途徑。2022 年末，一項(xiàng)創(chuàng)新開(kāi)啟了另一場(chǎng)革命，這次的影響遠(yuǎn)遠(yuǎn)超出了 NLP 領(lǐng)域。

指令調(diào)優(yōu)和聊天機(jī)器人 LLM

GPT-3 揭示了提示的潛力，但撰寫(xiě)提示并不容易。事實(shí)上，傳統(tǒng)語(yǔ)言模型經(jīng)訓(xùn)練可以模仿其在網(wǎng)絡(luò)上看到的內(nèi)容。因此，要想創(chuàng)建一個(gè)好的提示，你必須清楚網(wǎng)絡(luò)上哪種起始文本可能會(huì)引導(dǎo)模型生成你所期望的結(jié)果。這是一種奇怪的游戲，也是一種找到正確表述的藝術(shù)，你需要改變措辭，假裝自己是專(zhuān)家，展示如何逐步思考的示例等等。這一過(guò)程叫做提示工程，這使得使用這些 LLM 變得困難。

為解決這個(gè)問(wèn)題，研究人員一直在探索如何修改基礎(chǔ) LLM，以讓其更好地遵循人類(lèi)指令。現(xiàn)主要有兩種方法：一是使用人類(lèi)編寫(xiě)的指令 - 回答對(duì)（instruction-answer pairs），并在此數(shù)據(jù)集上對(duì)基礎(chǔ) LLM 進(jìn)行微調(diào)（即繼續(xù)訓(xùn)練）。二是讓 LLM 生成幾個(gè)可能的答案，然后由人類(lèi)對(duì)答案評(píng)分，并使用強(qiáng)化學(xué)習(xí)在此數(shù)據(jù)集上對(duì) LLM 微調(diào)。這就是著名的 RLHF（人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）的過(guò)程。此外，我們還可以將兩種方法相結(jié)合，OpenAI 在 InstructGPT 和 ChatGPT 中就對(duì)這兩者進(jìn)行了結(jié)合。

InstructGPT 和 ChatGPT 的指令調(diào)整步驟。來(lái)源：https://openai.com/blog/chatgpt（修改自 https://arxiv.org/abs/2203.02155）

將這兩種技術(shù)結(jié)合在一起可以得到一個(gè)經(jīng)過(guò)指令調(diào)整的 LLM。調(diào)整后的 LLM 比基礎(chǔ)模型更擅長(zhǎng)遵循人類(lèi)指令，使用起來(lái)更加容易。

經(jīng)過(guò)指令調(diào)整的 LLM 已經(jīng)非常出色了，但還有最后一步才能將這些 LLM 真正轉(zhuǎn)化為每個(gè)人都可以使用的東西 —— 聊天機(jī)器人。OpenAI 在 2022 年 12 月發(fā)布了 ChatGPT，一個(gè)基于 GPT-3.5 的聊天機(jī)器人。它的創(chuàng)建方式與 InstructGPT 相同，但這次使用的是整個(gè)對(duì)話(huà)而不僅僅是指令 - 回答對(duì)。

ChatGPT 發(fā)布后，基于 LLM 的新型聊天機(jī)器人開(kāi)始層出不窮。OpenAI 使用 GPT-4 來(lái)代替 GPT-3.5，對(duì) ChatGPT 進(jìn)行了改進(jìn)，Anthropic 發(fā)布了 Claude，Google 推出 Bard，Meta 也研發(fā)出了 LLaMA，還有幾個(gè)開(kāi)源 LLM 正在發(fā)布過(guò)程中。這是一次真正的模型大爆炸，將會(huì)帶來(lái)許多令人興奮的應(yīng)用，NuMind 也會(huì)為此出一份力。

ChatGPT 發(fā)布兩個(gè)月后，迅速擁有了上億用戶(hù)，成為有史以來(lái)用戶(hù)增長(zhǎng)最快的產(chǎn)品。人們用 ChatGPT 來(lái)根據(jù)要點(diǎn)編寫(xiě)電子郵件、重新組織文本、總結(jié)文本、編寫(xiě)代碼，或?qū)W習(xí)東西（在此之前，搜索引擎一直壟斷著這項(xiàng)任務(wù)）。ChatGPT 的發(fā)布是 LLM 發(fā)展史的轉(zhuǎn)折點(diǎn)，它讓人們意識(shí)到了 LLM 的潛力，引發(fā)了 “AI 競(jìng)賽”，世界上主要人工智能實(shí)驗(yàn)室和初創(chuàng)公司都參與其中。

值得注意的是，LLM 的突然普及也引發(fā)了人們的擔(dān)憂(yōu)。人們擔(dān)心 LLM 被有心人利用，做一些有害的事情，所以創(chuàng)建開(kāi)放式 LLM 聊天機(jī)器人必須確保它們的 “安全” 性（或 “與人類(lèi)價(jià)值觀保持一致”），也就是說(shuō)它們不能幫助制造炸彈等。目前有一些方法可以繞過(guò)聊天機(jī)器人的安全防御措施，但隨著時(shí)間推移，這些安全措施會(huì)逐漸完善，想繞過(guò)它們將變得十分困難。

語(yǔ)言大模型的未來(lái)

近年來(lái)，LLM 取得了很大進(jìn)步，人們對(duì)它的熱情達(dá)到了空前高度，在這一領(lǐng)域投入了大量精力。那么，LLM 的未來(lái)將如何發(fā)展？雖然預(yù)測(cè)未來(lái)很難，但我們也有一些看法：

模型大小和訓(xùn)練規(guī)模將繼續(xù)擴(kuò)大。擴(kuò)展在過(guò)去取得了非常好的效果，且仍有提升空間，但問(wèn)題是，模型的訓(xùn)練成本急劇增長(zhǎng)，逐漸讓人望而卻步（>1 億美元）。更好的 GPU 和新的專(zhuān)用硬件有助于擴(kuò)展模型規(guī)模，但它們的開(kāi)發(fā)和生產(chǎn)需要時(shí)間。此外，最大的模型已經(jīng)迭代了所有書(shū)籍和整個(gè)網(wǎng)絡(luò)，這意味著我們正在達(dá)到可用訓(xùn)練數(shù)據(jù)的極限（即 “詞元危機(jī)”）。

因此，可以肯定的是，在未來(lái)幾年內(nèi)，參數(shù)數(shù)量不會(huì)像過(guò)去那樣出現(xiàn)爆發(fā)式增長(zhǎng)。最大的模型今年應(yīng)該會(huì)穩(wěn)定在 1 萬(wàn)億參數(shù)以下規(guī)模，然后以每年 50% 的速度增長(zhǎng)。

LLM 將超越純語(yǔ)言模型，將圖像和視頻納入訓(xùn)練數(shù)據(jù)，成為多模態(tài)模型。從圖像和視頻中學(xué)習(xí)可能有助于模型更好地理解世界。GPT-4 就是在圖像和文本上進(jìn)行訓(xùn)練的，且取得了少許性能提升。利用視頻數(shù)據(jù)訓(xùn)練 LLM 可能給這一領(lǐng)域帶來(lái)質(zhì)的改變，但這需要大量計(jì)算。預(yù)計(jì)還需兩年多的時(shí)間才能真正實(shí)現(xiàn)利用視頻訓(xùn)練 “語(yǔ)言” 大模型。

擴(kuò)大規(guī)模、實(shí)現(xiàn)語(yǔ)言模型向多模態(tài)模型的轉(zhuǎn)變需要大量算力。為緩解這一問(wèn)題，我們可以采用更好的神經(jīng)架構(gòu)和訓(xùn)練程序，這些架構(gòu)和訓(xùn)練程序要么計(jì)算強(qiáng)度較低，要么可以用更少的數(shù)據(jù)進(jìn)行學(xué)習(xí)（人類(lèi)大腦證明這是可能的）。然而更可能的是類(lèi)似于 RNN 的內(nèi)存會(huì)卷土重來(lái)，因?yàn)檫@種內(nèi)存運(yùn)行時(shí)的效率非常高（例如最近的 RWKV 架構(gòu)）。

此外，還可能有一些更大的變化，例如 LLM 不以自回歸的方式生成，而是以自上而下的方式生成（例如在生成單詞之前做出（隨機(jī)）決定），這種做法可能更合乎邏輯（這就是神經(jīng)網(wǎng)絡(luò)目前生成圖像的方式）。到底何時(shí)會(huì)開(kāi)發(fā)出這樣的新架構(gòu) / 方法還很難說(shuō)，但我們預(yù)計(jì)應(yīng)該就在未來(lái)幾年，一旦開(kāi)發(fā)出來(lái)，LLM 模型的性能將得到大幅提升。

另一個(gè)改進(jìn)方向是繼續(xù)進(jìn)行指令調(diào)優(yōu)，讓更多人參與到 “教育” LLM（即與 AI 對(duì)齊）的過(guò)程中。這可以由私人 AI 實(shí)驗(yàn)室來(lái)實(shí)現(xiàn)，也可以是一個(gè)更像維基百科的眾包項(xiàng)目，以改進(jìn)和對(duì)齊開(kāi)放模型的 LLM 能力。在這個(gè)問(wèn)題上，我們還是希望偏離傳統(tǒng)的 RLHF，而是讓人們與模型對(duì)話(huà)來(lái)進(jìn)行教導(dǎo)，就像我們對(duì)待孩子一樣。我不確定這種項(xiàng)目的具體時(shí)間線(xiàn)，但我已經(jīng)思考了一段時(shí)間，非常希望看到它的實(shí)現(xiàn)。

上文我們只討論了改進(jìn)實(shí)際模型的方法，但實(shí)際上有一些方法可以在不改變模型的情況下改進(jìn) LLM。方法之一就是為 LLM 提供工具。這種工具可以是用于查找準(zhǔn)確信息的搜索引擎，或者是用于進(jìn)行基本數(shù)學(xué)計(jì)算的計(jì)算器。此外，它還可以是一個(gè)結(jié)合了推理引擎（符號(hào)人工智能的經(jīng)典組件）的知識(shí)庫(kù)，如 Wolfram Alpha，用于查找事實(shí)、進(jìn)行邏輯推理或其他神經(jīng)網(wǎng)絡(luò)不擅長(zhǎng)的計(jì)算。當(dāng)然，這個(gè)工具還可以是一個(gè)用于編寫(xiě)和運(yùn)行代碼的完整編程環(huán)境。LLM 可以通過(guò)生成觸發(fā) API 調(diào)用的特殊詞元（單詞）來(lái)使用這些工具，然后將 API 的輸出插入到生成的文本中。

LLM 使用工具示例。來(lái)源：https://arxiv.org/abs/2302.04761

上述趨勢(shì)實(shí)際上已經(jīng)開(kāi)始了（例如，ChatGPT 插件、LangChain 庫(kù)和 Toolformer 論文），我相信這些工具將成為 LLM 的核心。

改進(jìn) LLM 的另一個(gè)方法是以更智能的方式使用它們，讓它們更好地完成任務(wù)。這可以通過(guò)巧妙的提示或更高級(jí)的程序來(lái)實(shí)現(xiàn)。比如說(shuō)我們可以讓 LLM 按步驟進(jìn)行思考（即思想鏈提示（ chain-of-thoughts prompting）），并提高 LLM 在邏輯任務(wù)上的表現(xiàn)。以下是提示 LLM 按步驟思考的示例：

思維鏈提示示例。來(lái)源：https://arxiv.org/abs/2201.11903

同樣地，我們可以要求 LLM 反思、批判自己的輸出，并對(duì)其進(jìn)行迭代修改。通過(guò)迭代，我們可以顯著提高 LLM 性能，尤其是生成代碼方面的性能。我們還可以更進(jìn)一步，創(chuàng)建完全自主的智能體，這些智能體可以管理任務(wù)列表并迭代任務(wù)，直到達(dá)到主要目標(biāo)（請(qǐng)參考 AutoGPT 和 BabyAGI）。目前，這些自動(dòng)化智能體的運(yùn)行效果并不理想，但它們的效果會(huì)逐步提升，很難說(shuō)這些自動(dòng)化智能體會(huì)發(fā)展到何種程度，對(duì) LLM 產(chǎn)生何種影響。

由于 LLM 可以通過(guò)這些程序（思想鏈、迭代批評(píng)等）改進(jìn)答案，因此，我們可以使用這些程序創(chuàng)建指令 - 答案對(duì)，然后在指令 - 答案對(duì)上按順序?qū)?LLM 微調(diào)以提高其性能。這種自我完善是可能的（參見(jiàn) https://arxiv.org/abs/2210.11610），我相信它具有很大的潛力。例如，我們可以想象模型為了變得更加自洽而與自身進(jìn)行討論，這是一種自我反思過(guò)程?？赡軙?huì)進(jìn)一步提升 LLM 的表現(xiàn)。

LLM 可能還有其他改進(jìn)方向，總的來(lái)說(shuō)，我們無(wú)法確定 LLM 的未來(lái)，但顯然它們將繼續(xù)發(fā)展下去。理解和生成文本的能力使 LLM 成為了一項(xiàng)基本技術(shù)。即使在目前的發(fā)展情況下，LLM 也將解鎖大量應(yīng)用程序，日常工作中的數(shù)字助理就是一個(gè)很好的例子，更瘋狂的是，LLM 甚至可能引導(dǎo)我們創(chuàng)造某種超級(jí)智能。