博客專欄

EEPW首頁(yè) > 博客 > 從馬爾可夫鏈到GPT,字節(jié)跳動(dòng)AI Lab總監(jiān)李航細(xì)說(shuō)語(yǔ)言模型的前世今生

從馬爾可夫鏈到GPT,字節(jié)跳動(dòng)AI Lab總監(jiān)李航細(xì)說(shuō)語(yǔ)言模型的前世今生

發(fā)布人:機(jī)器之心 時(shí)間:2022-07-24 來(lái)源:工程師 發(fā)布文章

本文描述了語(yǔ)言模型的發(fā)展歷史,指出未來(lái)可能的發(fā)展方向。

近年來(lái),自然語(yǔ)言處理 (NLP) 領(lǐng)域發(fā)生了革命性的變化。由于預(yù)訓(xùn)練語(yǔ)言模型的開(kāi)發(fā)和應(yīng)用,NLP 在許多應(yīng)用領(lǐng)域取得了顯著的成就。預(yù)訓(xùn)練語(yǔ)言模型有兩個(gè)主要優(yōu)點(diǎn)。一、它們可以顯著提高許多自然語(yǔ)言處理任務(wù)的準(zhǔn)確性。例如,可以利用 BERT 模型來(lái)實(shí)現(xiàn)比人類更高的語(yǔ)言理解性能。我們還可以利用 GPT-3 模型生成類似人類寫的文章。預(yù)訓(xùn)練語(yǔ)言模型的第二個(gè)優(yōu)點(diǎn)是它們是通用的語(yǔ)言處理工具。在傳統(tǒng)的自然語(yǔ)言處理中,為了執(zhí)行機(jī)器學(xué)習(xí)任務(wù),必須標(biāo)記大量數(shù)據(jù)來(lái)訓(xùn)練模型。相比之下,目前只需要標(biāo)記少量數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型,因?yàn)樗呀?jīng)獲得了語(yǔ)言處理所需的大量知識(shí)。
本文從計(jì)算機(jī)科學(xué)的發(fā)展歷史和未來(lái)趨勢(shì)的角度簡(jiǎn)要介紹語(yǔ)言建模,特別是預(yù)訓(xùn)練語(yǔ)言模型,對(duì) NLP 領(lǐng)域的基本概念、直觀解釋、技術(shù)成就和面臨的挑戰(zhàn)展開(kāi)了綜述,為初學(xué)者提供了關(guān)于預(yù)訓(xùn)練語(yǔ)言模型的參考文獻(xiàn)。
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)(CS)、人工智能(AI)和語(yǔ)言學(xué)的一個(gè)交叉領(lǐng)域,包括機(jī)器翻譯、閱讀理解、對(duì)話系統(tǒng)、文本摘要、文本生成等應(yīng)用。近年來(lái),深度學(xué)習(xí)已成為自然語(yǔ)言處理的基礎(chǔ)技術(shù)。
借助數(shù)學(xué)知識(shí)對(duì)人類語(yǔ)言建模主要有兩種方法:一種是基于概率,另一種是基于形式語(yǔ)言。這兩種方法也可以結(jié)合使用。從基本框架的角度看,語(yǔ)言模型屬于第一類。語(yǔ)言模型是定義在單詞序列(句子或段落)上的概率分布。
本文首先介紹馬爾可夫和香農(nóng)的研究中關(guān)于語(yǔ)言建模的基本概念;然后討論了諾姆 ? 喬姆斯基提出的語(yǔ)言模型(基于形式語(yǔ)言理論),描述了神經(jīng)語(yǔ)言模型的定義及其對(duì)傳統(tǒng)語(yǔ)言模型的擴(kuò)展;接下來(lái)解釋了預(yù)訓(xùn)練語(yǔ)言模型的基本思想,討論了神經(jīng)語(yǔ)言建模方法的優(yōu)勢(shì)和局限性,并對(duì) NLP 的未來(lái)進(jìn)行了展望。
馬爾可夫與語(yǔ)言模型
安德烈 · 馬爾可夫可能是第一個(gè)研究語(yǔ)言模型的科學(xué)家。盡管當(dāng)時(shí)還沒(méi)有「語(yǔ)言模型」這個(gè)詞。
假設(shè)w1w2, ···, wN是一個(gè)單詞序列。我們可以按如下公式計(jì)算單詞序列的概率:

圖片


設(shè) p(w1|w0) = p(w1)
不同類型的語(yǔ)言模型使用不同的方法計(jì)算條件概率 p(wi|w1w2, ···, wi-1)。學(xué)習(xí)和使用語(yǔ)言模型的過(guò)程稱為語(yǔ)言建模。
n-gram 模型是一種基本模型,它假設(shè)每個(gè)位置的單詞僅取決于前 n-1 個(gè)位置的單詞。也就是說(shuō),該模型是一個(gè) n–1 階馬爾可夫鏈。

圖片


馬爾可夫鏈模型非常簡(jiǎn)單,只涉及兩個(gè)狀態(tài)之間的轉(zhuǎn)移概率。馬爾可夫證明,如果根據(jù)轉(zhuǎn)移概率在兩個(gè)狀態(tài)之間跳躍,則訪問(wèn)兩個(gè)狀態(tài)的頻率將收斂到期望值,這是馬爾可夫鏈的遍歷定理。在接下來(lái)的幾年里,他擴(kuò)展了模型,并證明了上述結(jié)論在更一般的情況下仍然成立。
為了提供一個(gè)具體的例子,馬爾可夫?qū)⑺岢龅哪P蛻?yīng)用于亞歷山大 · 普希金 1913 年的詩(shī)體小說(shuō)《尤金 · 奧涅金》。去掉空格和標(biāo)點(diǎn)符號(hào),將小說(shuō)的前 20000 個(gè)俄語(yǔ)字母分為元音和輔音,他得到了小說(shuō)中的元音和輔音序列。然后,馬爾可夫使用紙和筆計(jì)算元音和輔音之間的轉(zhuǎn)換概率。然后,使用數(shù)據(jù)驗(yàn)證最簡(jiǎn)單馬爾可夫鏈的特征。非常有趣的是,馬爾可夫鏈的初始應(yīng)用領(lǐng)域是語(yǔ)言。馬爾可夫模型是最簡(jiǎn)單的語(yǔ)言模型。
香農(nóng)和語(yǔ)言模型
1948 年,克勞德 · 香農(nóng)發(fā)表了開(kāi)創(chuàng)性的論文《通信的數(shù)學(xué)理論》,開(kāi)創(chuàng)了信息論領(lǐng)域。在該論文中,香農(nóng)引入了熵和交叉熵的概念,并研究了 n-gram 模型的性質(zhì)。
熵表示概率分布的不確定性,而交叉熵表示概率分布相對(duì)于另一概率分布的不確定性。熵是交叉熵的下限。
假設(shè)語(yǔ)言(單詞序列)是由隨機(jī)過(guò)程生成的數(shù)據(jù)。n-gram 的概率分布熵定義如下:

圖片


其中 p(w1w2, ···, wn表示 n-gram 中 w1w2, ···, wn 的概率。n-gram 概率分布相對(duì)于數(shù)據(jù)「真實(shí)」概率分布的交叉熵定義如下:

圖片


其中q(w1w2, ···, wn表示 n-gram 中w1w2, ···, wn 的概率,p(w1w2, ···, wn表示 n-gram 中 w1w2, ···, wn 的真實(shí)概率。那么,以下關(guān)系成立:

圖片


Shannon-McMillan-Breiman 定理指出,當(dāng)語(yǔ)言的隨機(jī)過(guò)程滿足平穩(wěn)性和遍歷性條件時(shí),以下關(guān)系成立:

圖片


換句話說(shuō),當(dāng)單詞序列長(zhǎng)度趨于無(wú)窮大時(shí),可以定義語(yǔ)言的熵,從語(yǔ)言的數(shù)據(jù)中估計(jì)出熵的常數(shù)值。
如果一種語(yǔ)言模型能比另一種語(yǔ)言模型更準(zhǔn)確地預(yù)測(cè)單詞序列,那么它應(yīng)該具有更低的交叉熵。因此,香農(nóng)的工作為語(yǔ)言建模提供了一個(gè)評(píng)估工具。
注意,語(yǔ)言模型不僅可以建模自然語(yǔ)言,還可以建模形式和半形式語(yǔ)言,例如 Peng 和 Roth。
喬姆斯基和語(yǔ)言模型
與此同時(shí),諾姆 · 喬姆斯基在 1956 年提出了喬姆斯基語(yǔ)法層次,用于表示語(yǔ)言的語(yǔ)法。他指出,有限狀態(tài)語(yǔ)法(n-gram 模型)在描述自然語(yǔ)言方面具有局限性。
喬姆斯基的理論認(rèn)為,一種語(yǔ)言由一組有限或無(wú)限的句子組成,每個(gè)句子是一系列長(zhǎng)度有限的單詞,單詞來(lái)自有限的詞匯,語(yǔ)法是一組生成規(guī)則,可以生成語(yǔ)言中的所有句子。不同的語(yǔ)法可以產(chǎn)生不同復(fù)雜性的語(yǔ)言,其中存在一些層次結(jié)構(gòu)。
能夠生成有限狀態(tài)機(jī)可接受句子的語(yǔ)法是有限狀態(tài)語(yǔ)法或正則語(yǔ)法,而能夠生成非確定性下推自動(dòng)機(jī)(PDA)可接受句子的語(yǔ)法是上下文無(wú)關(guān)語(yǔ)法(CFG),有限狀態(tài)語(yǔ)法正確地包含在上下文無(wú)關(guān)語(yǔ)法中。有限馬爾可夫鏈(或 n-gram 模型)背后的「語(yǔ)法」是有限狀態(tài)語(yǔ)法。有限狀態(tài)語(yǔ)法在生成英語(yǔ)句子方面確實(shí)有局限性。
然而,有限狀態(tài)語(yǔ)法不能描述所有的語(yǔ)法關(guān)系組合,有些句子無(wú)法涵蓋。因此,喬姆斯基認(rèn)為,用有限狀態(tài)語(yǔ)法(包括 n-gram 模型)描述語(yǔ)言有很大的局限性。相反,他指出上下文無(wú)關(guān)語(yǔ)法可以更有效地建模語(yǔ)言。受他的影響,在接下來(lái)的幾十年里,上下文無(wú)關(guān)語(yǔ)法在自然語(yǔ)言處理中更為常用。喬姆斯基的理論目前對(duì)自然語(yǔ)言處理影響不大,但仍具有重要的科學(xué)價(jià)值。
神經(jīng)語(yǔ)言模型
n-gram 模型的學(xué)習(xí)能力有限。傳統(tǒng)的方法是使用平滑方法從語(yǔ)料庫(kù)中估計(jì)模型中的條件概率 p(wi|wi-n+1wi-n+2, ···, wi-1。然而,模型中的參數(shù)數(shù)量為指數(shù)級(jí)O(Vn),其中 V 表示詞匯量。當(dāng) n 增加時(shí),由于訓(xùn)練數(shù)據(jù)的稀疏性,無(wú)法準(zhǔn)確地學(xué)習(xí)模型的參數(shù)。
2001 年,Yoshua Bengio 等人提出了第一個(gè)神經(jīng)語(yǔ)言模型,開(kāi)啟了語(yǔ)言建模的新時(shí)代。
Bengio 等人提出的神經(jīng)語(yǔ)言模型從兩個(gè)方面改進(jìn)了 n-gram 模型。首先,實(shí)值向量(稱為單詞嵌入)用于表征單詞或單詞的組合。
詞嵌入作為一種「分布式表征」,可以比 one-hot 向量更有效地表征一個(gè)詞,具有泛化能力、穩(wěn)健性和可擴(kuò)展性。并且,用神經(jīng)網(wǎng)絡(luò)表征語(yǔ)言模型,大大減少了模型中的參數(shù)數(shù)量。條件概率由神經(jīng)網(wǎng)絡(luò)確定:

圖片


其中(wi-n+1wi-n+2, ···, wi-1) 表示單詞 wi-n+1wi-n+2, ···, wi-1 的嵌入;f(·) 表示神經(jīng)網(wǎng)絡(luò);? 表示網(wǎng)絡(luò)參數(shù)。模型中的參數(shù)數(shù)量?jī)H為 O(V)。圖 1 顯示了模型中表征之間的關(guān)系。每個(gè)位置都有一個(gè)中間表征,它取決于前 n–1 個(gè)位置處的詞嵌入(單詞),這適用于所有位置。然后,使用當(dāng)前位置的中間表征為該位置生成一個(gè)單詞。

圖片

圖 1:原始神經(jīng)語(yǔ)言模型中表征之間的關(guān)系

在 Bengio 等人的工作之后,研究人員開(kāi)發(fā)了大量的詞嵌入方法和神經(jīng)語(yǔ)言建模方法,從不同角度進(jìn)行了改進(jìn)。幾個(gè)有代表性的方法包括:文字嵌入方法 Word2Vec、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)語(yǔ)言模型,包括長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)。在 RNN 語(yǔ)言模型中,每個(gè)位置的條件概率由 RNN 確定:

圖片


其中w1w2, ···, wi-1 表示單詞w1w2, ···, wi-1的嵌入;f(·) 表示 RNN;? 表示網(wǎng)絡(luò)參數(shù)。RNN 語(yǔ)言模型不再使用馬爾可夫假設(shè),每個(gè)位置的詞取決于之前所有位置的詞。RNN 中的一個(gè)重要概念是其中間表征或狀態(tài)。在 RNN 模型中,詞之間的依賴關(guān)系以狀態(tài)之間的依賴關(guān)系為特征。模型的參數(shù)被不同位置共享,但在不同位置獲得的表征不同。
下圖 2 顯示了 RNN 語(yǔ)言模型中表征之間的關(guān)系。到目前為止,每個(gè)位置的每一層都有一個(gè)中間表征,表示單詞序列的「狀態(tài)」。當(dāng)前層在當(dāng)前位置的中間表征由同一層在前一位置的中間表征和下面層在當(dāng)前位置的中間表征確定。當(dāng)前位置的最終中間表征用于計(jì)算下一個(gè)單詞的概率。

圖片

圖 2:RNN 語(yǔ)言模型中表征之間的關(guān)系
語(yǔ)言模型可用于計(jì)算語(yǔ)言(詞序列)的概率或生成語(yǔ)言。后一種情況通過(guò)從語(yǔ)言模型中隨機(jī)采樣來(lái)生成自然語(yǔ)言句子或文章。眾所周知,從大量數(shù)據(jù)中學(xué)習(xí)的 LSTM 語(yǔ)言模型可以生成非常自然的句子。
語(yǔ)言模型的擴(kuò)展是條件語(yǔ)言模型,它計(jì)算給定條件下單詞序列的條件概率。如果條件是另一個(gè)詞序列,則問(wèn)題變成從一個(gè)詞序列到另一個(gè)詞序列的轉(zhuǎn)換,即所謂的序列到序列問(wèn)題。機(jī)器翻譯 、文本摘要和生成對(duì)話都是這樣的任務(wù)。如果給定的條件是圖片,那么問(wèn)題就變成了從圖片到文字序列的轉(zhuǎn)換。圖像字幕就是這樣一項(xiàng)任務(wù)。
條件語(yǔ)言模型可用于多種應(yīng)用。在機(jī)器翻譯中,系統(tǒng)將一種語(yǔ)言的句子轉(zhuǎn)換為另一種語(yǔ)言的句子,具有相同的語(yǔ)義。在對(duì)話生成中,系統(tǒng)生成對(duì)用戶話語(yǔ)的響應(yīng),兩條消息形成一輪對(duì)話。在文本摘要中,系統(tǒng)將長(zhǎng)文本轉(zhuǎn)換為短文本,使后者代表前者的要點(diǎn)。模型的條件概率分布表示的語(yǔ)義因應(yīng)用程序而異,并從應(yīng)用程序的數(shù)據(jù)中學(xué)習(xí)。

序列到序列模型的研究有助于新技術(shù)的發(fā)展。典型的序列到序列模型是 Vaswani 等人開(kāi)發(fā)的 transformer。transformer 完全基于注意力機(jī)制。并利用注意力在編碼器和****之間進(jìn)行編碼、解碼和信息交換。目前,幾乎所有的機(jī)器翻譯系統(tǒng)都采用 transformer 模型,機(jī)器翻譯已經(jīng)達(dá)到了幾乎可以滿足實(shí)際需要的水平。由于 transformer 在語(yǔ)言表示方面的強(qiáng)大功能,它的體系結(jié)構(gòu)現(xiàn)在幾乎被所有預(yù)訓(xùn)練語(yǔ)言模型所采用。
預(yù)訓(xùn)練語(yǔ)言模型
基于 transformer 編碼器或****的語(yǔ)言模型分兩個(gè)階段進(jìn)行學(xué)習(xí):預(yù)訓(xùn)練,通過(guò)無(wú)監(jiān)督學(xué)習(xí)(也稱為自監(jiān)督學(xué)習(xí))使用非常大的語(yǔ)料庫(kù)訓(xùn)練模型參數(shù);微調(diào),將經(jīng)過(guò)預(yù)訓(xùn)練的模型應(yīng)用于特定任務(wù),并通過(guò)監(jiān)督學(xué)習(xí)使用少量標(biāo)記數(shù)據(jù)進(jìn)一步調(diào)整模型參數(shù)。下表 1 中的鏈接提供了學(xué)習(xí)和使用預(yù)訓(xùn)練語(yǔ)言模型的資源。

圖片

表 1:學(xué)習(xí)和使用預(yù)訓(xùn)練語(yǔ)言模型的資源。

有三種類型的預(yù)訓(xùn)練語(yǔ)言模型:?jiǎn)蜗?、雙向和序列到序列。由于篇幅限制,本文僅涵蓋前兩種類型。所有主要的預(yù)訓(xùn)練語(yǔ)言模型都采用 transformer 的架構(gòu)。表 2 提供了現(xiàn)有預(yù)訓(xùn)練語(yǔ)言模型的簡(jiǎn)介。

圖片

表 2 現(xiàn)有預(yù)訓(xùn)練語(yǔ)言模型概述

Transformer 具有很強(qiáng)的語(yǔ)言表征能力,大型語(yǔ)料庫(kù)包含豐富的語(yǔ)言表達(dá)(這樣的未標(biāo)記數(shù)據(jù)很容易獲得),使得訓(xùn)練大規(guī)模深度學(xué)習(xí)模型變得更加高效。因此,預(yù)訓(xùn)練語(yǔ)言模型可以有效地表示語(yǔ)言的詞匯、句法和語(yǔ)義特征。預(yù)訓(xùn)練語(yǔ)言模型,如 BERT 和 GPT(GPT-1、GPT-2 和 GPT-3),已成為當(dāng)前 NLP 的核心技術(shù)。
預(yù)訓(xùn)練語(yǔ)言模型的流行,為自然語(yǔ)言處理帶來(lái)了巨大的成功。BERT 在語(yǔ)言理解任務(wù)(如閱讀理解)的準(zhǔn)確性方面優(yōu)于人類。GPT-3 在文本生成任務(wù)中也達(dá)到了驚人的流利程度。請(qǐng)注意,這些結(jié)果僅表明機(jī)器在這些任務(wù)中具有非常高的性能,而不應(yīng)簡(jiǎn)單地解釋 BERT 和 GPT-3 能比人類更好地理解語(yǔ)言,因?yàn)檫@也取決于如何進(jìn)行基準(zhǔn)測(cè)試。正確理解和期望人工智能技術(shù)的能力對(duì)于該領(lǐng)域的發(fā)展至關(guān)重要。
Radford 和 Brown 等人開(kāi)發(fā)的 GPT 具有以下架構(gòu)。輸入是一系列單詞w1w2, ···, wN。首先,通過(guò)輸入層創(chuàng)建一系列輸入表征,表示為矩陣H(0)。
再通過(guò) L transformer ****層后創(chuàng)建一系列中間表征,表示為矩陣H(L)

圖片


最后,根據(jù)每個(gè)位置的最終中間表征,計(jì)算每個(gè)位置的單詞概率分布。GPT 的預(yù)訓(xùn)練與傳統(tǒng)的語(yǔ)言建模相同,目的是預(yù)測(cè)單詞序列的可能性。對(duì)于給定的詞序列w = w1w2, ···, wN,我們計(jì)算并最小化交叉熵或負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù):

圖片

其中? 表示 GPT 模型的參數(shù)。

圖 3 顯示了 GPTs 模型中表征之間的關(guān)系。每個(gè)位置的輸入表征由單詞嵌入和「位置嵌入」組成每個(gè)位置處每個(gè)層的中間表征是根據(jù)之前位置處下方層的中間表征創(chuàng)建的。從左到右在每個(gè)位置重復(fù)執(zhí)行單詞的預(yù)測(cè)或生成。換句話說(shuō),GPT 是一種單向語(yǔ)言模型,其中單詞序列從一個(gè)方向建模。(請(qǐng)注意,RNN 語(yǔ)言模型也是單向語(yǔ)言模型。)因此,GPTs 更適合解決自動(dòng)生成句子的語(yǔ)言生成問(wèn)題。

圖片

圖 3:GPT 模型中表征之間的關(guān)系
BERT,由 Devlin 等人開(kāi)發(fā)。它的輸入是一個(gè)單詞序列,可以是單個(gè)文檔中的連續(xù)句子,也可以是兩個(gè)文檔中連續(xù)句子的串聯(lián)。這使得該模型適用于以一個(gè)文本作為輸入的任務(wù)(如文本分類),以及以兩個(gè)文本作為輸入的任務(wù)(如回答問(wèn)題)。該模型首先通過(guò)輸入層創(chuàng)建一系列輸入表征,表示為矩陣H(0)。通過(guò)L transformer編碼器層創(chuàng)建一系列中間表征,表示為H(L)。

圖片


最后,可以根據(jù)每個(gè)位置的最終中間表征,計(jì)算每個(gè)位置的單詞概率分布。BERT 的預(yù)訓(xùn)練作為所謂的 mask 語(yǔ)言建模進(jìn)行。假設(shè)單詞序列是 w = w_1, w_2, ···, w_N。序列中的幾個(gè)詞被隨機(jī) mask,即更改為特殊符號(hào)——產(chǎn)生新的詞序列。學(xué)習(xí)的目標(biāo)是通過(guò)計(jì)算并最小化以下負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù),從而恢復(fù)「mask 詞」:

圖片


其中? 表示BERT模型的參數(shù),δi 取1或0,表示位置 i 處的單詞是否被 mask。請(qǐng)注意,mask 語(yǔ)言建模已經(jīng)是一種不同于傳統(tǒng)語(yǔ)言建模的技術(shù)。
圖 4 顯示了 BERT 模型中表征之間的關(guān)系。每個(gè)位置的輸入表征由單詞嵌入、位置嵌入等組成。每個(gè)位置的每個(gè)層的中間表征是從下面所有位置的層的中間表征創(chuàng)建的。字的預(yù)測(cè)或生成在每個(gè) mask 位置獨(dú)立執(zhí)行。也就是說(shuō),BERT 是一種雙向語(yǔ)言模型,其中單詞序列從兩個(gè)方向建模。因此,BERT 可以自然地應(yīng)用于語(yǔ)言理解問(wèn)題,這些問(wèn)題的輸入是一個(gè)完整的單詞序列,輸出通常是一個(gè)標(biāo)簽或標(biāo)簽序列。

圖片

圖 4:BERT 模型中表征之間的關(guān)系
對(duì)預(yù)練語(yǔ)言模型的直觀解釋是,計(jì)算機(jī)在預(yù)訓(xùn)練中基于大型語(yǔ)料庫(kù)進(jìn)行了大量的單詞接龍(GPT)或單詞完形填空(BERT)練習(xí),從單詞中捕獲各種構(gòu)詞模式,然后從句子中構(gòu)詞,并表達(dá)和記憶模型中的模式。文本不是由單詞和句子隨機(jī)創(chuàng)建的,而是基于詞匯、句法和語(yǔ)義規(guī)則構(gòu)建的。GPT 和 BERT 可以分別使用 transformer 的****和編碼器來(lái)實(shí)現(xiàn)語(yǔ)言的組合性。(組合性是語(yǔ)言最基本的特征,也是由喬姆斯基層次結(jié)構(gòu)中的語(yǔ)法建模的。)換句話說(shuō),GPT 和 BERT 在預(yù)訓(xùn)練中獲得了大量的詞匯、句法和語(yǔ)義知識(shí)。因此,當(dāng)適應(yīng)特定任務(wù)時(shí),可以僅使用少量標(biāo)記數(shù)據(jù)來(lái)微調(diào)模型,以實(shí)現(xiàn)高性能。例如,BERT 的不同層具有不同的特征。底層主要代表詞匯知識(shí),中間層主要代表句法知識(shí),頂層主要代表語(yǔ)義知識(shí)。
預(yù)訓(xùn)練語(yǔ)言模型,如 BERT 和 GPT-3,包含大量事實(shí)知識(shí)。例如,它們可以用來(lái)回答諸如「但丁出生在哪里?」只要他們從訓(xùn)練數(shù)據(jù)中獲得了知識(shí),就可以進(jìn)行簡(jiǎn)單的推理,例如「48 加 76 等于多少?」
然而,語(yǔ)言模型本身沒(méi)有推理機(jī)制。他們的「推理」能力是基于聯(lián)想而不是真正的邏輯推理。因此,他們?cè)谛枰獜?fù)雜推理的問(wèn)題如論點(diǎn)推理、數(shù)值推理和話語(yǔ)推理等方面并沒(méi)有很好的表現(xiàn)。將推理能力和語(yǔ)言能力集成到自然語(yǔ)言處理系統(tǒng)中將是未來(lái)的一個(gè)重要課題。

未來(lái)展望
當(dāng)代科學(xué)(腦科學(xué)和認(rèn)知科學(xué))對(duì)人類語(yǔ)言處理機(jī)制(語(yǔ)言理解和語(yǔ)言生成)的理解有限。在可預(yù)見(jiàn)的未來(lái),很難看到出現(xiàn)重大突破,永遠(yuǎn)不突破的可能性也存在。另一方面,我們希望不斷推動(dòng)人工智能技術(shù)的發(fā)展,開(kāi)發(fā)對(duì)人類有用的語(yǔ)言處理機(jī)器。

神經(jīng)語(yǔ)言建模似乎是迄今為止最成功的方法。語(yǔ)言建模的基本特征沒(méi)有改變,即它依賴于在包含所有單詞序列的離散空間中定義的概率分布。學(xué)習(xí)過(guò)程是找到最優(yōu)模型,以便根據(jù)交叉熵預(yù)測(cè)語(yǔ)言數(shù)據(jù)的準(zhǔn)確性最高(見(jiàn)圖 5)。神經(jīng)語(yǔ)言建模通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建模型。其優(yōu)點(diǎn)是,通過(guò)利用復(fù)雜的模型、大數(shù)據(jù)和強(qiáng)大的計(jì)算能力,它可以非常準(zhǔn)確地模擬人類的語(yǔ)言行為。從 Bengio 等人提出的原始模型到 RNN 語(yǔ)言模型和預(yù)訓(xùn)練語(yǔ)言模型,如 GPT 和 BERT,神經(jīng)網(wǎng)絡(luò)的架構(gòu)變得越來(lái)越復(fù)雜(參見(jiàn)圖 1, 2 ,3 ,4 ),而預(yù)測(cè)語(yǔ)言的能力越來(lái)越高(交叉熵越來(lái)越小)。然而,這并不一定意味著這些模型具有與人類相同的語(yǔ)言能力,這種方法的局限性也是不言而喻的。

圖片

圖 5:該機(jī)器通過(guò)調(diào)整其 “大腦” 內(nèi)神經(jīng)網(wǎng)絡(luò)的參數(shù)來(lái)模擬人類的語(yǔ)言行為最終,它可以像人類一樣處理語(yǔ)言
還有其他可能的發(fā)展途徑嗎?目前尚不清楚??梢灶A(yù)見(jiàn),神經(jīng)語(yǔ)言建模方法仍有許多可改進(jìn)的方面。當(dāng)前的神經(jīng)語(yǔ)言模型與人腦在表示能力和計(jì)算效率(在功耗方面)方面仍有很大差距。成年人的大腦處理語(yǔ)言問(wèn)題只需要 12 瓦功耗與之形成鮮明對(duì)比的是,根據(jù)作者的說(shuō)法,訓(xùn)練 GPT-3 模型已經(jīng)消耗了數(shù)千萬(wàn)億次浮點(diǎn)計(jì)算。能否開(kāi)發(fā)出更接近人類語(yǔ)言處理的更好的語(yǔ)言模型是未來(lái)研究的一個(gè)重要方向。技術(shù)改進(jìn)仍有很多機(jī)會(huì)。我們?nèi)匀豢梢詮哪X科學(xué)的有限發(fā)現(xiàn)中繼續(xù)探索。
人們認(rèn)為,人類語(yǔ)言處理主要在大腦皮層的兩個(gè)大腦區(qū)域進(jìn)行:布羅卡區(qū)和韋尼克區(qū)(圖 6)。前者負(fù)責(zé)語(yǔ)法,后者負(fù)責(zé)詞匯。有兩種典型的由腦損傷引起的失語(yǔ)癥。布羅卡區(qū)受傷的患者只能用零星的單詞而不是句子說(shuō)話,而韋尼克區(qū)受傷的患者可以構(gòu)造語(yǔ)法正確的句子,但單詞往往缺乏意義。一個(gè)自然的假設(shè)是,人類的語(yǔ)言處理是在兩個(gè)大腦區(qū)域并行進(jìn)行的。是否有必要采用更人性化的處理機(jī)制是一個(gè)值得研究的課題。語(yǔ)言模型不明確使用語(yǔ)法,也不能無(wú)限組合語(yǔ)言,這是喬姆斯基指出的人類語(yǔ)言的一個(gè)重要屬性。將語(yǔ)法更直接地納入語(yǔ)言模型的能力將是一個(gè)需要研究的問(wèn)題。

圖片

圖 6 人腦中負(fù)責(zé)語(yǔ)言處理的區(qū)域
腦科學(xué)家認(rèn)為,人類語(yǔ)言理解是一個(gè)在潛意識(shí)中激活相關(guān)概念表達(dá)并在意識(shí)中生成相關(guān)圖像的過(guò)程。表征包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)表征。它們是視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)等概念的內(nèi)容,這些概念通過(guò)一個(gè)人在成長(zhǎng)和發(fā)展過(guò)程中的經(jīng)歷在大腦的各個(gè)部分被記住。因此,語(yǔ)言理解與人們的經(jīng)驗(yàn)密切相關(guān)。生活中的基本概念,如貓和狗,是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等傳感器的輸入來(lái)學(xué)習(xí)的。聽(tīng)到或看到單詞 “貓” 和“狗”也會(huì)激活人們大腦中相關(guān)的視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)表征。機(jī)器能否從大量多模式數(shù)據(jù)(語(yǔ)言、視覺(jué)、語(yǔ)音)中學(xué)習(xí)更好的模型,以便能夠更智能地處理語(yǔ)言、視覺(jué)和語(yǔ)音?多模態(tài)語(yǔ)言模型將是未來(lái)探索的一個(gè)重要課題。
結(jié)論
語(yǔ)言模型的歷史可以追溯到 100 多年前。馬爾可夫、香農(nóng)和其他人無(wú)法預(yù)見(jiàn)他們研究的模型和理論會(huì)在以后產(chǎn)生如此大的影響;這對(duì) Bengio 來(lái)說(shuō)甚至可能出乎意料。未來(lái) 100 年,語(yǔ)言模型將如何發(fā)展?它們?nèi)匀皇侨斯ぶ悄芗夹g(shù)的重要組成部分嗎?這超出了我們的想象和預(yù)測(cè)。我們可以看到,語(yǔ)言建模技術(shù)在不斷發(fā)展。在未來(lái)幾年,很可能會(huì)有更強(qiáng)大的模型取代 BERT 和 GPT。對(duì)我們來(lái)說(shuō),我們有幸成為第一代看到技術(shù)巨大成就并參與研發(fā)的人。
原文鏈接:https://cacm.acm.org/magazines/2022/7/262080-language-models/fulltext


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

紅外熱像儀相關(guān)文章:紅外熱像儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉