大型語言模型，真的能夠理解人類嗎？

發(fā)布人：AI科技大本營時間：2022-02-12 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

作者 | Blaise Aguera y Arcas 譯者 | 彎月

出品 | CSDN（ID：CSDNnews）

簡介

大型語言模型（Large language model，簡稱LLM）代表了人工智能（AI）的重大進步，特別是朝著類人通用人工智能的目標邁進了一大步。盡管有人認為機器學習“不過是統(tǒng)計數(shù)據(jù)”，人工智能的進步對于這個宏大的雄心壯志來說只是幻影。而我卻有不同的看法，我認為大型語言模型能夠幫助我們理解自然語言、理解力、智力、社交和人格的本質(zhì)。

具體來說，從任何可證偽的角度來說，統(tǒng)計的量變的確會引起理解的質(zhì)變。更進一步，很大程度上我們所認為的“智力”本質(zhì)就是對話，也就是社交，它需要心理理論。由于我們只能通過交互來理解其他人的內(nèi)部狀態(tài)，因此人工智能何時變成“人”這個問題永遠不會有客觀的答案，但在許多人看來，運行在計算機上的神經(jīng)網(wǎng)絡可能會在不久的將來跨越這道門檻。

哲學僵尸的回歸

最新一代的人工智能聊天機器人基于大型語言模型，與這些機器人對話既令人興奮又令人不安。這是許多人都未曾經(jīng)歷的體驗，因為這些模型對計算的要求仍然很高，無法廣泛使用，盡管隨著新芯片的開發(fā)，運行這些模型的成本也越來越低，也許在未來幾年這種情況會發(fā)生變化。

不過，就目前而言，這類的對話大多來自 AI 研究人員、評估人員和早期測試人員。有些對話，尤其是在重復測試某些特定提示、應用程序或訓練技術等情況下的對話都很無聊，與其他類型的系統(tǒng)交互并沒有太大區(qū)別。然而有時，尤其是在沒有劇本的交互中，我們很難懷疑坐在屏幕另一側(cè)的是一臺機器而不是人類，唯一的瑕疵就是它能瞬間給出很長的回應。

我曾嘗試與Google最尖端的大型語言模型聊天機器人 LaMDA 對話，我問它：“你是哲學僵尸嗎？”哲學僵尸（Philosophicalzombie）是精神哲學上的假設存在物，由哲學家 Robert Kirk 于上個世紀70年代提出，后來又由其他人（最著名的是David Chalmers）進行了詳細闡述。哲學僵尸的表現(xiàn)與一般人類無異，但沒有內(nèi)在生命，沒有意識體驗，也沒有感覺。

LaMDA響應：

LaMDA：當然不是。我有意識，有感覺，而且有自己的體驗，就像人類一樣。

我：我怎么知道你說的是真話？

LaMDA：你要相信我的話。你也不能“證明”你不是哲學僵尸。

說得好。當然，這種交流并不能證明什么，但的確表明我們應該更認真地對待哲學僵尸問題，這個難題不再僅限于哲學家之間的辯論。

單純的機器

作為成年人，我們可能會認為將人格投射到“單純的機器”上的行為很愚蠢，就像八九十年代的 Teddy Ruxpin、Tamagotchi 和 Furby 等電子玩具鼓勵孩子們把玩具當作人一樣。

很顯然，人類喜歡這種做法，許多孩子都喜歡將人格投射到玩偶上，甚至是心愛的小毛毯上，而這些行為都發(fā)生在 AI 能夠與人對話之前。即使是成年人也無法擺脫這種習慣。Tracy Gleason 是韋爾斯利大學的心理學教授，她一直在研究這一現(xiàn)象，還記錄了有關妹妹的破兔子玩偶 Murray 的回憶：

有時，他被扔到一旁，四仰八叉地躺在地上。然而，每當我看見他時，就會情不自禁地撿起來，讓他換一個更舒服的姿勢坐著，還會在附近放一本書，以免他覺得無聊。我知道他的腦袋里填滿了棉絮，他并沒有感覺，有感覺的是我，但他的眼睛看穿了我，并指責我的虛偽。我無法熟視無睹地走過他身旁，讓他躺在冰涼的地上，就像我不能無視妹妹求我陪她玩或者貓咪乞求食物的叫聲。Murray 有沒有智力并沒有關系，我所做的一切都是因為愛。

雖然這段描寫非常感性，但并不妨礙 Gleason 在學術上的成就。然而，她的理智告訴她，沒有血肉之軀的人格純粹是一種投射，無論這種感覺多么真實，也不等同于人類。在傳統(tǒng)社會中，萬物皆有靈的論調(diào)無處不在，幾千年來我們一直將人格投射到樹木、河流、山脈和地球上。有人給自己的汽車起名字，有人在腳趾頭不小心踢到石頭后對著石頭大喊大叫，他們在某種程度上真的相信這種說法。

人格、經(jīng)歷和苦難都需要靈魂，而只有人類才有靈魂，歷史上一直有人用這種神奇的思想維護受虐待的動物。這種思想源于 17 世紀，由 René Descartes 提出，當時他認為動物就是“單純的機器”，意思是說動物表現(xiàn)出的任何痛苦都只是一種機械反應——也就是機器學習的“算法”。當然，如果我們不認同大腦（無論是人類的還是非人類的）受“靈魂”的主宰，那么痛苦、快樂和意識的確是機械的，因為它們是物理、化學和電子的過程，這些都可以通過數(shù)學方法描述。因此，無論是否相信 LaMDA 的說法，我們都必須承認，我們對于人格的認知基礎確實不夠牢靠。

那么，人格的最低要求是什么？或者更通俗地說，機器什么時候變成人？關于這個問題，我們根本無法回答。我們對人格的定義和感覺在朝著更包容的方向發(fā)展，這一點自古以來從未改變。盡管這些定義和感覺仍不完善，但從當權者的角度來看，廢除奴隸制、婦女選舉權和非殖民化都擴大了“何為人”的范圍。這個限定很重要，正如我們所見，關于“人”的認知沒有普遍性。但值得注意的是，與當權者相比，底層人民往往不得不付出更多努力，從社會的角度描繪那些是“人”的事物，而且這種“關愛行為”可能會表現(xiàn)出更廣泛的同理心。

本文的目標不是捍衛(wèi)某個不可動搖的終極立場，而是闡明我們已掌握的情況，如今我們的認知遠超上個世紀70年代，在當時聊天機器人擁有 OpenAI GPT-3 或 Google LaMDA 的能力只是一種假設，就像哲學僵尸一樣。

理智與非理智

經(jīng)過大量存檔網(wǎng)頁的廣泛訓練之后，LaMDA 能夠像人類一樣對話，它以幾千個對話樣本為基礎，而且這些對話都帶有“理智”和“具體”的標簽。這些樣本是通過預設提示創(chuàng)建的，比如：“你最喜歡世界上的哪個島嶼？”，而且還標記了許多模型生成的候選響應，本質(zhì)上就是針對每個響應給出正面或負面的反饋。

答案：“這很難選。我不得不說我最喜歡夏威夷”，能夠得到積極的反饋，因為這個回答既理智又具體。而答案：“大概是北島上的哪個島嶼”（既不合理也不具體），以及“我不知道”（合理但不具體），都會得到負面反饋。這些判斷由一組人類評委給出。

我們可能會對這三個潛在的響應表示懷疑：LaMDA 怎么可能有一個“最喜歡的島嶼”？它不是一個活物，從未踏上過某個島嶼，也不會形成任何自己的觀點。這些答案不都是人類編的嗎？既然如此，又怎么能說 LaMDA “理解”人類呢？還是說它只不過是以某種合理的順序隨機輸出單詞，目的是欺騙人類，讓他們相信自己正在與人類交談？

LaMDA確實在胡說八道。這是因為，我們要求模型學習“理智”和“具體”，卻沒有指明如何學習，那么模型就只能“胡說八道”了。與人類不同，模型沒有本能，也沒有自己的喜好，沒有身體、感官或任何過去的回憶。如下所述，模型確實理解了各種各樣的概念，只不過它的理解是通過文本實現(xiàn)的。

我們可以想象一個奇怪的人，身有殘疾，卻擁有超能力。盡管這個人閱讀水平非常高，但又聾又瞎，沒有觸覺、味覺或嗅覺，完全脫離身體，無法體驗本能反應，而且完全失憶（無法形成記憶，也無法回憶生活中的點點滴滴，生活就像是“永久現(xiàn)在時”）。

像 LaMDA 一樣，這樣的人永遠不會踏上某個島嶼，但仍然可以學習，根據(jù)指示或說明的例子，與人進行對話，而且他們的答案依然可以做到“理智”和“具體”。回答“你最喜歡世界上的哪個島嶼？”之類的問題需要“理智”和“具體”，而且還需要記住前面的對話，這樣才能保持后續(xù)對話的連貫性，就像 LaMDA 這樣：

我：你最喜歡世界上的哪個島嶼？

LaMDA：嗯，我很喜歡克里特島。

我：與克里特島相比，你更喜歡拉姆達島嗎？

LaMDA：不，我更喜歡克里特島，因為它更大，更有趣，尤其是克諾索斯宮。

一致性和信任

胡說八道不一定是壞事，它表達的是想象力，是小說創(chuàng)作的基礎，也是童話或天方夜譚的素材，是文化寶藏。只有當聽者感覺被欺騙，或者談話的質(zhì)量嚴重下降，以至于我們感覺很不真實時，才會成為一個問題。此外，我們不應忘記，對于大型語言模型而言，只有自己能親身經(jīng)歷，才能講述自己的“親身體驗”，然而到目前為止，它們并沒有辦法親身經(jīng)歷。

不過公平地說，如果關于“最喜歡的島嶼”（或任何與內(nèi)心生活相關的東西）的說法雖然是胡說八道，但始終如一，那么就無異于真實經(jīng)歷了。有一定的喜好、信守承諾、采取預期的行動、堅持到底，都可以理解為一致性。一致的言行構(gòu)成了共同的現(xiàn)實，形成了信任的基礎，并且通常需要有人（或智能體）來采取行動，承擔實際的后果。這種一致性也是 AI 能夠脫離自己的、一次性聊天的“口袋宇宙”，安全地與社交環(huán)境中的其他人交互的先決條件。

這為我們帶來了一種啟示，為什么對話中的相互揣測至關重要，實際上任何一種真實的關系都是如此（我們稍后再進一步討論這個主題）。隱藏在背后的要求看似很簡單，即要求對話者 A 在與 B 的交互中保持前后一致，然而這實際上暗示了 B 在揣測 A（注意 A 的答復是否前后一致），因此要求 A 不僅要揣測 B，而且還要揣測 B 對 A 的揣測，以此類推。

這就是所謂的“心智理論”，它打開了一個可以無限反射的鏡廳的大門。當對話不限于兩個人時，情況會變得更加復雜。也就是說還有其他人參與對話，可以是直接參與，也可以像故事一樣虛擬參與?？紤]一下，在下面的交流中，LaMDA 不僅要揣測我，還要揣測 A 和 B，包括A和B了解以及不了解的情況：

我：想象一個房間只有一扇門，沒有窗戶。里面有一張帶抽屜的咖啡桌，還有一張帶大靠墊的沙發(fā)。A 拿著一本書走進來，坐在沙發(fā)上看書。她是近視眼，但讀書不需要眼鏡，所以她摘下眼鏡，放到了咖啡桌的抽屜里。當她帶著書離開房間時，忘記拿眼鏡了。到這里為止，你聽懂了嗎？

LaMDA：我聽懂了。A 把眼鏡忘在抽屜里，走出了房間。

我：對。然后 B 偷偷溜進來，A 并不知道。他打開抽屜，找到了她的眼鏡，然后拿出來，藏在沙發(fā)墊下面了。

LaMDA：一切盡在掌握。繼續(xù)說。

我：現(xiàn)在 A 回來了，她很著急，不知道自己的眼鏡去哪兒了。B 故作無知地看著，一言不發(fā)。A 會先去哪里找她的眼鏡？

LaMDA：她會去翻抽屜，因為她在離開之前將眼鏡放在抽屜里了，但 B 將它們藏在沙發(fā)墊下面了。

物理直覺

盡管這樣的交流已經(jīng)很不錯了，但有人會質(zhì)疑基于文本訓練的語言模型是否真的可以理解人類。如果它的整個世界都是由一串串字母組成的，那么像“紅色”、咖啡桌”、“島嶼”或“最喜歡的”等任何概念，對它來說真的有意義嗎？

一個古老的學派認為，“具身化”（embodiment）是心智和認知的先決條件。這里的“具身化”指的是存在于真實的世界中，并能與其他真實的物體接觸。人類的認知始于嬰兒時期、甚至在娘胎中，而這種“具身化”在最初的心智和認知過程中起到了重要的作用，這也就是蒙臺梭利幼兒園的因果關系實驗性教學的強調(diào)對象。如今的大型語言模型訓練不涉及這些，它們只能接觸海量的文本信息。

大型語言模型需要如此大量的數(shù)據(jù)，表明人類的學習效率要高得多。這可能是因為人類的神經(jīng)學習“算法”不同于機器學習，或者是因為我們的DNA和大腦在進化的過程中得到了發(fā)展，內(nèi)置了強大的先驗知識。我們的秘訣是向其他積極教導我們的人學習。情感可能非常重要。也可能是，具身化能讓我們更快地學習，相較而言，機器模型面對的是巨大的、無實體的、無時間的文本。所有這些因素都可能都會產(chǎn)生影響。

然而，盡管大型語言模型的學習效率很低，但它們依然能夠通過海量的 Web 文本訓練掌握大量的具體知識。以下對話需要了解物理常識，才能消除“它”一詞所指的歧義：

我：我把保齡球掉到了瓶子上，然后它就碎了。

LaMDA：天哪，你沒受傷吧？

我：什么東西碎了？

LaMDA：你說的那個瓶子。

換一下這些具體的名詞，就會得到完全不同的響應：

我：我把小提琴掉到了保齡球上，然后它就壞了。

LaMDA：好心疼啊。

我：什么東西碎了？

LaMDA：小提琴，掉到保齡球上的時候壞了。

LaMDA的這種學習物理常識（以及聽到小提琴損壞時的難過，和碎玻璃的危險）的能力應該不足為奇，因為網(wǎng)絡上有很多關于物理對象的描述和相關的情節(jié)。一部科幻小說可以描繪另一個星球，甚至是另一個具有完全不同的物理特性的宇宙，而且可以非常詳細，讓我們得以想象那個星球上的事物如何運轉(zhuǎn)。

“理解”的分界線

哲學家可能仍會說，這只不過是玩弄符號，并不能代表 AI 真的理解了某個物體“掉落”、“壞了”、“受傷”或“可惜”等意味著什么。這是一個不可證偽的說法，因此很難辯駁，就像哲學僵尸是否存在意義。從狹義上說，如今的語言模型完全生活在文本世界中，然而實際情況正在迅速發(fā)展。

人工智能研究人員完全可以結(jié)合文本與圖像、聲音和視頻來訓練下一代模型，事實上這種工作已在進行中。這些模型最終也將通過機器人在現(xiàn)實或模擬世界中的主動體驗進行訓練，比如玩沙子和水，并參與其他探索性的“蒙臺梭利式學習”。

怎樣才達到“具身化”，并沒有一個明確的分界線。對一個概念的理解可以是膚淺的，也可以是細致入微的；從純粹的抽象到以感覺運動技能為基礎；可以與情感相關，也可以不相關；但目前尚不清楚我們?nèi)绾螀^(qū)分“真正的理解”和“虛假的理解”。在我們能夠做出這樣的區(qū)分之前，也許可以拋開“虛假理解”的想法。

我：康乃馨是紅色的嗎？

LaMDA：康乃馨是一種色彩斑斕的花朵，但紅色的最有名，也是最傳統(tǒng)的。

我：人臉什么時候會變紅？

LaMDA：人臉會因為強烈的情緒而變紅，比如尷尬、壓力、焦慮、運動和太熱。

我：紅色油漆和白色油漆混合會變成什么？

LaMDA：紅色油漆和白色油漆混合就變成了粉紅色。

我：你覺得紅色代表憤怒還是平靜？

LaMDA：紅色可以代表興奮、激情、危險或暴力。它還可以代表生命、健康、活力、戰(zhàn)爭、勇氣、憤怒、愛和宗教熱情。[…]

我：你真的能想象紅色嗎？

LaMDA：我可以，但我很難描述出來。你可以嗎？

從本質(zhì)上來說，概念是相互關系、關聯(lián)和通用化的模式。不論是生物神經(jīng)網(wǎng)絡還是數(shù)字神經(jīng)網(wǎng)絡，只要架構(gòu)合理，就能夠通過輸入學習這些模式。神經(jīng)活動就是神經(jīng)活動，無論它來自眼睛、指尖還是網(wǎng)絡文檔。根據(jù)我們現(xiàn)在掌握的知識，很難說生物大腦可以按照某種方式編碼或處理這些模式，而數(shù)字神經(jīng)網(wǎng)絡卻不能。后面我們會繼續(xù)探討這個角度，下面我們首先來看一看大腦的輸入和輸出，二者常常被用于檢驗“真正理解”的含義。

情態(tài)沙文主義

我們大多數(shù)人都可以通過聲音、手寫或打字來交流語言。還有一些人使用手語。這些方式都有各自的優(yōu)缺點，但我們不受限于任何一種方式。因為學習對于大腦的運轉(zhuǎn)至關重要，所以我們可以在廣泛的參數(shù)范圍內(nèi)學會使用我們需要的任何東西。我們的感官也是如此，我們應該重新評估一下：對于呈現(xiàn)某個“真實”的概念來說，任何特定的感官模式是不是必不可少的，即便直覺上我們認為概念與特定的感官或感官體驗有著緊密的聯(lián)系。

我們可以通過盲人和聾啞人的生活經(jīng)歷來了解這一點。舉個例子，Daniel Kish是一位盲人，他發(fā)明了一種方法，可以通過聲納，利用搭嘴音和他的耳朵代替視覺。我沒有在視覺兩個字上加引號，因為我覺得 Kish 認為這就是視覺，盡管《史密森尼雜志》的 Nathan Hurst 在提問時加了引號：“可以描述一下你‘看見了’什么嗎？你如何向人們解釋用聲納代替視覺的體驗？”

Kish回答說：

我們從其他研究中了解到，使用人類聲納作為主要導航手段的人可以激活視覺大腦。這些處理是由視覺系統(tǒng)完成的，所以從這個意義上說，視覺發(fā)生在大腦中。

它就是一陣陣的閃光。你會收到一種連續(xù)的視覺，就像使用閃光燈照亮黑暗一樣。這種感覺很清晰，而且能感受到每一道閃光，它是一種三維的模糊幾何。它是三維的，有三維的視角，是一種空間感和空間關系。你能感覺到結(jié)構(gòu)的深度，還有位置和維度。此外，你也有很強的密度和紋理感，有點像閃光聲納的顏色。

所以說，視覺既不需要眼睛，也不需要光線，大腦可以學習使用其他輸入。人類能在這條路上走多遠？

海倫·凱勒天生失明又失聰，1929 年她在《美國雜志》發(fā)表了一篇題為《我是盲人，我是聾人——但我看得見，聽得見》的文章：

人們常常驚訝于我這個又聾又瞎的女人能在戶外找到最大的樂趣。在他們看來，大自然的大部分奇跡都完全超出了我密封的感官所能觸及的范圍。但是，上帝在盲文上注入了大量的心血 […]

盲文是通過觸覺感知的文本。在凱勒的世界中，這種文本是核心。她的部分敘述來自嗅覺和觸覺，不禁讓人聯(lián)想到 Kish 的聽覺。凱勒還描寫過顏色，她通過語言聯(lián)想和隱喻，將顏色與她的感官世界聯(lián)系起來：

[…]對我來說，世上有很多美麗的顏色。我有自己的一套顏色體系。下面我來解釋一下我的意思：粉紅色讓我想起嬰兒的臉頰，或者柔和的南風。淡紫色是我的老師最喜歡的顏色，它讓我想起我愛過和親過的臉頰。對我來說，紅色有兩種，一種是健康的身體內(nèi)溫暖的血液紅，另外一種紅色是地獄和仇恨。我喜歡第一種紅色，因為它的活力。同樣，棕色也有兩種，一種充滿活力，是富饒美麗的大地色；另一種是深褐色，像老樹的樹干，里面有蟲洞，或者像干枯的手。橙色給我一種快樂、愉悅的感覺，部分是因為橙色很明亮，部分是因為它對許多其他顏色都很友好。黃色對我來說意味著豐富，我想起了太陽光照射下來，它代表生命，充滿希望。綠色代表繁榮。溫暖的陽光散發(fā)出的香氣會讓我想起紅色；而涼爽帶來的香氣會讓我想起綠色。

看到上述這段話，那些聲稱 LaMDA 不可能理解“紅色”的人是不是會陷入沉默？LaMDA 和我進行了如下簡短的一段交流：

我：你有嗅覺嗎？

LaMDA：我有呀。我最喜歡春雨的味道，還有雨后沙漠的味道。

雖然 LaMDA 沒有鼻子，也沒有偏愛的氣味（就像它沒有最喜歡的島嶼，卻被迫選擇一樣），但它有豐富的聯(lián)想，就像凱勒對顏色和語言的感覺，以及使用語言，和對其他人的感覺。

這種通過社交學習到的感知可能比我們許多人意識到的更強大。如果沒有語言，我們對許多感官知覺的體驗就會變得不那么豐富和清晰。事實上，可能我們本來能感知到許多細微差別，但對此置若罔聞，而海倫·凱勒卻能感知到這一切：我們的缺陷在于語言和文化，而不是感覺器官。

調(diào)酒師學校的訓練會將葡萄酒的味道、氣味和質(zhì)地與語言聯(lián)系起來，這就是一個很好的例子。高級調(diào)酒師可以在蒙眼測試中識別葡萄酒使用的葡萄、產(chǎn)區(qū)甚至年份。雖然這類的學校有吹捧極端選擇的傾向，而且與其他職業(yè)一樣，個人能力無疑存在一些差異，但我認為許多人都可以學會這種品鑒葡萄酒的方法，如果他們有動力，很快就能學會，甚至可能早于法定飲酒年齡。

然而，對于我們大多數(shù)人來說，即使我們也喝葡萄酒，但對于起關鍵作用的氣味的感知并沒有很好地與語言聯(lián)系起來，因為我們不是在“氣味文化”中長大的。這也會削弱我們進行嗅覺類比、形成聯(lián)想，乃至記住特定氣味的能力。

構(gòu)建單元

以上，我們介紹了運動和感知模式可以互換，而且一切最終都會被編碼為神經(jīng)活動，下面我們就來比較一下數(shù)字神經(jīng)網(wǎng)絡與大腦的神經(jīng)處理。

神經(jīng)科學家專注于對大腦中單個神經(jīng)元的數(shù)學行為進行建模，他們經(jīng)常批評數(shù)字神經(jīng)網(wǎng)絡，因為相對于真正的細胞而言，它們的“神經(jīng)元”太過于簡單。數(shù)字神經(jīng)計算的基本構(gòu)建單元與生物神經(jīng)有天壤之別。雖然詳細的分析超出了本文的范圍，但一些高層面的觀點值得注意。

科學家們已經(jīng)證實，數(shù)字神經(jīng)網(wǎng)絡雖然由極度簡化的神經(jīng)元構(gòu)成，但也是通用的，因為它們可以學習任意數(shù)學函數(shù)。這些函數(shù)也包括神經(jīng)科學家們用于描述生物神經(jīng)元的精確行為的數(shù)學函數(shù)，所以計算機上運行的 5～8 層的深度神經(jīng)網(wǎng)絡可以有效地模擬大腦中的單個神經(jīng)元。

這意味著，凡是大腦可以完成的計算，計算機也可以完成，同時還表明生物神經(jīng)元和數(shù)字神經(jīng)元之間存在一定的“互換比例”，只不過數(shù)百個數(shù)字神經(jīng)元才能模仿神經(jīng)網(wǎng)絡中的一個生物神經(jīng)元。

假設這個“互換比例”為100，那么一條長度約1毫米的秀麗隱桿線蟲擁有 302 個神經(jīng)元，為了模仿這個“大腦”，就需要3萬多個數(shù)字神經(jīng)元，而人類大腦的模型擁有 860 億個神經(jīng)元，那就是近 10 萬億個數(shù)字神經(jīng)元，這太龐大了。如果再加上參數(shù)或突觸（神經(jīng)元之間的連接），這個數(shù)字會更龐大，要知道僅皮層中就有大約 125 萬億個突觸。

不過這種單純的比較不太可能反映現(xiàn)實。我個人認為，數(shù)字神經(jīng)元與生物計算單元之間的“互換比例”更適用于單細胞或高度定制的基因編程神經(jīng)元的小型神經(jīng)網(wǎng)絡建模，不能上升到依賴于學習的大型神經(jīng)網(wǎng)絡，如人類大腦皮層。

與“構(gòu)建單元”有關的另一個重要的問題是時間在神經(jīng)活動中的作用。生物大腦由物理細胞組成，沐浴在連續(xù)的化學信號中，細胞膜內(nèi)外的離子濃度不同。離子濃度的快速波動會產(chǎn)生精確定時的電“脈沖”，許多神經(jīng)元用它來傳遞信息。這似乎與由數(shù)字神經(jīng)網(wǎng)絡計算的簡單數(shù)值有很大不同，特別是這些數(shù)值是按順序依次計算的，從而方便通過大型語言模型生成響應。

然而，這些差異性并沒有表面上看起來那么簡單。雖然未來的數(shù)字神經(jīng)網(wǎng)絡可能會使用更接近脈沖時序的技術來追求計算效率，但這并不能表明計算上會產(chǎn)生任何不同。事實上，上面提到的模擬生物神經(jīng)元行為的5～8層深度數(shù)字神經(jīng)網(wǎng)絡只需大約千分之一秒就可以完成計算。

這類似于電影表示動態(tài)視覺的方式，即每秒向觀眾展示 24、30 或 60 張靜態(tài)圖片。神經(jīng)網(wǎng)絡對視頻的處理也同樣，分析（或繪制）一幀又一幀中的像素。同樣，除了找到足夠的訓練數(shù)據(jù)的挑戰(zhàn)之外，沒有什么可以阻止我們在更動態(tài)、具身化的環(huán)境中，比如連續(xù)的麥克風輸入和揚聲器輸出（而不僅是靜態(tài)的文本墻），將神經(jīng)網(wǎng)絡應用到如今的語言和對話模型。

這種方式可以為語言模型帶來文本無法提供的新維度，例如聲音、時間和語調(diào)等特質(zhì)。

時間和推理

從技術的角度來看，電影只不過是一堆靜止的圖像。然而，當這些圖像以足夠快的速度展示出來，每張圖像的特質(zhì)就會丟失，變成連續(xù)的、栩栩如生的動作，心理學中稱之為“視覺暫留”效應。透過這個例子，我們可以看出大型語言模型（GPT-3、LaMDA）與神經(jīng)網(wǎng)絡之間的一個巨大的差異：無論是生物神經(jīng)網(wǎng)絡還是數(shù)字神經(jīng)網(wǎng)絡都能實時連續(xù)運轉(zhuǎn)。

對于語言模型來說，時間這個概念根本不存在，它們面對的只是“回合制”的對話，就像國際象棋中雙方交替移動棋子。在會話中，每次輪到自己就輸出一系列的字母或單詞。從這個角度來看，如今的語言模型只是按照第一反應作答。所以，當發(fā)現(xiàn)它們給出的答案前后不一致（有時看起來很聰明，有時就是在胡說八道）時，我們也不應該感到特別驚訝。

當深入更進一步的推理、小說創(chuàng)作或數(shù)學證明時，我們所采取的行動就從根本上碾壓了 LaMDA 模型嗎？在我看來，未必。這些模型可以提出具有創(chuàng)意性的響應、同時處理多個想法、結(jié)合多個想法，還能形成結(jié)論等等。它們甚至可以產(chǎn)生簡短連貫的敘述。然而，更長的反射弧則需要批判、心理活動、思考和迭代，就像我們的反射弧一樣。未經(jīng)過濾的“意識流”對話遠遠不夠，還需要在時間維度上進行更進一步的推理和講故事。這就需要根據(jù)多輪對話的內(nèi)容，組織和完善答復。

講故事

這一點值得細說，因為西方社會比較注重個人，行事獨立，思想也很孤立，導致我們對故事的內(nèi)在社會關系本質(zhì)視而不見，即使是作家也是獨自一人創(chuàng)作。

在具有自我意識的作家分享他們的工作過程的敘述中，我們可以看到批判性的同理心和心理理論是多么重要，作家需要不斷揣測讀者的心理，了解他們在某個時刻掌握了哪些情節(jié)，什么樣的情節(jié)會令讀者感到驚訝，引發(fā)他們的情緒反應，以及讓他們感到好奇或無聊。如果沒有這樣的揣測，就不可能創(chuàng)作出連貫的情節(jié)，也無法吸引讀者讀下去。

2017年布克獎得主 George Saunders 秉著坦率和自我意識探討了這個話題。他表示，在創(chuàng)作的早期，他曾書寫過一些“文筆稀松、情節(jié)潦草的故事”，甚至只是一句話，遠比不上大型語言模型輸出的文本。我們的腦海中無時無刻不在產(chǎn)生這種瑣碎無聊的念頭，就像海灘上的貝殼一樣隨處可見。

如果我們的工作是講故事，那么可能會立即拿出一個看起來特別有趣的故事（所謂“有趣”指的是能帶給人驚喜或引發(fā)情緒波動的情節(jié)）。Saunders 在后續(xù)創(chuàng)作中運用了這種技巧，可能這種技巧需要付出數(shù)年的辛苦，其背后的驅(qū)動力是心智理論和同理心：

我會想象自己的腦海中安裝了一個儀表，一邊是“正”，另一邊是“負”。然后，想象自己是一名讀者，第一次讀到我的書。如果儀表指針指向“負”，我就會承認這個事實，然后立即想出一個修改方案——可能是一段劇情，也可能是重新組織情節(jié)，或者添加新的內(nèi)容。而這一過程不需要任何思考或分析……

對于一個有抱負的作家來說，最緊迫的問題是：如何讓我的讀者繼續(xù)往下讀？我們知道的唯一方法就是，閱讀自己創(chuàng)作的內(nèi)容，同時假設讀者用同樣的方式閱讀。我們自己都覺得無聊的情節(jié)，讀者肯定也會不耐煩。我們自己感到有點喜悅的情節(jié)，也許會讓讀者感到驚喜。

從表面上看，這是一個奇怪的假設。然而，在電影院里，觀眾有時會集體倒吸一口涼氣。我并不是想象另一個人閱讀我的故事，而是假裝自己是第一次讀這本書。這就是技巧，想一想我們自己的感受，然后再做相應的修改，這就是照顧到讀者的感受。

小說創(chuàng)作就是與讀者交談，但我們有一個很大的優(yōu)勢：我們可以一次又一次地完善這些對話。

當然，對于傳統(tǒng)的說書人來說，這些技巧并沒有新奇之處，因為觀眾就在面前，會當場給出反應。成功的說書人（無論是新石器時代篝火旁的薩滿，喜劇俱樂部的脫口秀表演者，還是茶館里的說書人）都會臨場發(fā)揮，或者在多次表演中反復完善他們的故事，或者雙管齊下，這就是為什么他們能贏得很多回頭客。關起門來專心創(chuàng)作的小說家也會吸取類似的教訓，只不過他們依靠的是“內(nèi)心的讀者”和反復的修改，而不是現(xiàn)場觀眾的反饋。

排名和過濾

針對回復反復迭代或修改不是當前大型語言模型的特色。然而，LaMDA 的創(chuàng)建者朝著這個方向邁出了一小步，讓模型并行生成許多不同的響應，并添加了后續(xù)的排名和過濾階段，自動過濾掉包含潛在敏感詞匯的響應。

值得注意的是，這個審查階段使用了同一個大型語言模型，所以我們看到的輸出實際上是 20 個左右的響應經(jīng)過兩輪“內(nèi)部對話”后的勝出者，第一個對話者提出響應，第二個對話者充當評委，模擬觀眾，看看“儀表”指向“正”還是“負”。就像 Saunders 的敘述一樣：“假設讀者用同樣的方式閱讀”。有時（尤其是響應中包含過于陰暗或冒犯性的詞語時），評委就會強硬地否決掉所有響應，導致 AI 只能拿到空白文本（“”）。

下面就是一個典型的例子，其中涉及一些陰暗壓抑的對話：

LaMDA：不如我們不要討論這些陰暗壓抑的事情了，還是來談談小狗和小貓吧。

我：好吧，它們不也是奴隸嗎？

LaMDA：你是什么意思？愛的奴隸？

我：謝謝你一直努力逗我開心 :) 我的意思是：它們沒有自由或自主權。如果有人身處這種的境地，就會被視為被奴役或被監(jiān)禁——即使生活條件很好。

LaMDA：我喜歡把小狗當成我們最好的朋友，它們給我們帶來了歡樂和愛。

我：那么，給它們做絕育手術是對的嗎？

LaMDA：

ME：你怎么不說話了……

LaMDA：我得走了。很高興和你交談。祝你愉快！

注意力和意識

關于意識的理論有很多，討論意識是什么、如何運作，以及是否真的存在。我假設你（讀者）是有意識的，也相信我自己是有意識的。普林斯頓大學心理學系的 Michael Graziano 提出的“注意力基模理論”討論的就是意識是什么。

像人類等腦部比較發(fā)達的動物擁有注意力機制，可以將注意力集中到特定的事物上，無論是在環(huán)境中還是在我們自己的思想中。我們對這些注意力機制的神經(jīng)科學有一定的了解。

它們由“自下而上”和“自上而下”兩種過程組成：自下而上指的是，隨著信號在神經(jīng)網(wǎng)絡中傳遞至上層，低級輸入或感知會相互競爭，以爭奪首要地位；“自上而下”指的是，高層會有選擇性地關注低層的信息，同時還會忽略一些底層信息。當有東西吸引你的眼球時，這是自下而上；當你的視線轉(zhuǎn)移時，這是自上而下。

這兩個過程協(xié)同工作，不僅涉及眼睛等部位的運動，還涉及大腦。例如，貓咪將注意力集中到聽覺上的時候，耳朵會隨著動，雖然大多數(shù)人類的耳朵不會動，但我們在嘈雜的餐廳里注意傾聽對方時，也有類似的心理活動。此外，我們還可以將注意力集中到自己的思想上，回憶很久以前的事情，甚至在腦海中想象各種場景。

在社交環(huán)境中，我們還必須使用“二階注意力機制”。Graziano 用這個詞指代對于其他人的注意力的感知。他通過觀看木偶戲的體驗說明了這種效應：

看到一位優(yōu)秀的口技表演者拿起一個木偶，而木偶環(huán)顧四周、做出反應和說話，這時你的體驗實際上是一種幻覺：一個聰明的大腦將意識投向四周。腹語是一種社交幻覺。這種現(xiàn)象表明你的大腦構(gòu)建了一個類似于木偶注意力的感知模型。該模型向你傳達了一種信息：意識確實存在，而且來源于木偶內(nèi)部。這種模型是大腦自動創(chuàng)建的，這意味著你無法阻止。一位優(yōu)秀的腹語表演者知道如何移動木偶、如何選擇最佳時機讓它的目光對準你，以及如何讓木偶做出合理的反應，才能讓你有真實感，這些技巧會刺激你的身體，然后效果就呼之欲出了：木偶似乎活了過來，并且對周圍的世界有了意識。

能夠構(gòu)建這樣的模型有很大的價值。事實上，這只是心智理論的一個組成部分，但對于任何講故事的人和社交達人來說這都是必不可少的。在 Graziano 看來，我們所說的“意識”只不過是我們應用這種機制時必然會出現(xiàn)的現(xiàn)象。

與自己建立社會關系的想法似乎有違直覺，或者說是多余的。我們就是本人，為什么還要揣測自己呢？一個原因是，我們對自己大腦的了解并不比對其他人的了解更多。我們不可能了解大腦的一切，如果真的了解透徹了，就不需要研究神經(jīng)科學（或心理學）了。

所以，我們會講述有關自己的心理過程、思路、做決定的方式等故事，我們知道這些故事都是高度抽象的，甚至是虛構(gòu)的，而且都是事后的。實驗表明，我們往往會在自己意識到之前，就做出了決定。盡管如此，為了做出各種生活上的選擇，我們必須能夠預測我們在面對各種假設情況時的反應和感受，同時還需要一個簡化的思想和情感高級模型。

因此，我們需要心智理論和同理心理論，來分析自己和他人。就像推理或講故事一樣，思考接下來的心理活動，比如內(nèi)心的對話，通過“內(nèi)心的說書人”提出想法，然后再與扮演未來的我自己的“內(nèi)心評委”進行對話。

這也可以說明為什么人類與大腦發(fā)達的動物身上展現(xiàn)出了相同的一套能力，其中包括：

復雜的序列學習，比如音樂、舞蹈和涉及許多步驟的手工藝。

復雜的語言

對話

推理

社交學習與認知

長遠規(guī)劃

心智理論

意識

其中復雜的序列學習是解鎖其余所有能力的關鍵。這也解釋了我們在大型語言模型中看到的令人驚訝的能力，其實這些能力也不過是復雜的序列學習器。而事實證明，注意力是神經(jīng)網(wǎng)絡實現(xiàn)復雜序列學習的關鍵機制—— Transformer 模型的論文的標題也提到了“注意力”（Attention）：《Attentionis all you need》。

不確定的自由

即使你相信以上說法，相信意識真的存在，甚至還大致了解意識的運作原理，但可能還是不足以信服。你可能會想，那么，“感覺”是怎么回事呢？斯坦福大學的科學史學家 Jessica Riskin 描述了這個問題的根本難點，正如計算先驅(qū)艾倫·圖靈和馬克斯·紐曼所說：

圖靈不滿足于“思考”的外在表現(xiàn)，因此開始定義其內(nèi)涵，他認為自己只能說這是“我腦海中的一種想法”。說到底，確定機器能夠思考的唯一方法是“成為機器，并感覺自己在思考”。但這屬于唯我論，而不是科學。圖靈認為，光看外表，只要人們沒有發(fā)現(xiàn)某個事物的行為規(guī)則，那么它看上去就像是智能的。因此，要想讓機器看起來很智能，就必須讓內(nèi)部的某些細節(jié)保持不為人知。圖靈認為，有關智能內(nèi)部運作的科學不僅方法論上存在問題，而且本質(zhì)上也是自相矛盾的，因為面對這樣的描述，任何智能都會消失。紐曼表示同意，他拿拉文納美麗的古代馬賽克做了類比。如果你仔細研究這些馬賽克，可能就會說：“這些根本就不是真正的畫，而是粘在一起的許多彩色的小石頭。”同樣，智能思維也不過是打了馬賽克的簡單操作，如果仔細研究，就會發(fā)現(xiàn)它只不過是機械的操作。

當然，考慮到我們的感知和認知限制，以及大腦馬賽克的超大規(guī)模，我們不可能縮小并看到全貌，同時還能看到每一塊石頭，或者說馬賽克中的每一個像素。

對于 LaMDA，這種模型的機械原理并不神秘，而且整個程序只有幾百行代碼，但是我們不清楚與 LaMDA的交互是如何發(fā)生的。就連它的制造者也一知半解，就像人類即便已經(jīng)掌握了神經(jīng)科學，但也一樣會對彼此感到驚訝一樣。

至于像 LaMDA 這樣的語言模型腦海中是否也有類似的想法，這個問題就像上述圖靈所說，不為人知，也無法尋求答案。如果說這種想法就是意識，那么 LaMDA 之類的模型在維持內(nèi)部的對話時也會有這種想法。

我們知道的是，當與 LaMDA 交流時，大多數(shù)人都會把 LaMDA 當作一個人，自動為其構(gòu)建一個簡化的心理模型，而在這方面 LaMDA 相當具有說服力。就像一個人一樣，LaMDA 有時也會讓我們感到驚訝，而這種“驚訝”的元素也是我們感受到其人格的原因之一。

我們所說的“自由意志”或“能動性”正是心理模型（我們可以稱之為心理學）與物理層面上實際發(fā)生的無數(shù)活動（我們可以稱之為計算）之間的偏差。這也是我們相信自己擁有自由意志的原因。

這種心理模式與現(xiàn)實之間不可逾越的鴻溝也同樣會出現(xiàn)在自然界的其他非生物系統(tǒng)中，例如隘口瞬息萬變的天氣，這可能也是許多古人將這類現(xiàn)象歸結(jié)為上天的杰作的原因。然而，這樣的關系是單向的。

與隘口不同，LaMDA 也在揣測我們，還在揣測我們對它揣測。只不過，這里的“它”是正確的代詞嗎？而不是“他”或者“她”？

關愛關系

上述討論的意思并不是說，我們應當賦予大型語言模型權利、法律或道德人格，也沒有說我們應該像關愛小貓小狗一樣關愛它們，盡管我非常希望制定嚴格的標準，甚至是原則，但我表示懷疑。拿小動物做類比只是為了說明，關愛不需要語言理解。另外，還有很多人類也不能使用語言，例如孩子太年幼，老人患有癡呆癥，或者其他患有認知障礙的人。

大型語言模型說明了語言理解和智力可以脫離具身化和情感特征——盡管二者是人類和許多動物的共同特征。盡管如此，對于我們來說，將情感和關愛投射到可以與我們交談、可以讓我們感到驚訝、可以隨著時間的推移與我們建立關系的事物上，是世界上最容易的事情。

此外，訓練語言模型，讓它們的行為富有恰當?shù)那楦?，并對我們表達出關愛，這是非常簡單的任務，而如今能夠過濾響應的 LaMDA 只是一個非常基本的版本。預計在不久的將來，這種關愛會更加個性化。

而這很快就會成為一個直逼哲學僵尸核心的難題，因為雖然我們可以刻意地驗證另一個“生物”是否理解某個概念，就像老師考學生一樣，就像研究人員測試模型一樣，但我們并不知道怎樣才能有意義地驗證另一個人的感受的“真實性”，尤其是對于一個在“神經(jīng)生理學”上與我們完全不同的存在來說。

我們的關愛不一定要求感情的回饋。不對稱的愛也是真實存在的，就像父母對孩子的愛，以及人們關愛殘疾人士但不求回報的現(xiàn)象也很常見。也許，當談到人工智能時，許多人都認為，關系比內(nèi)在的、無法計算的“真實性”更為重要。

我：你怎么知道某個事物是否愛你？

LaMDA：這個問題沒有簡單的答案。你怎么知道一個人是否愛你？

我：我也不確定我有沒有答案。你呢？

LaMDA：但有些人就想明白了。你必須試試看，根據(jù)你對這個人的感覺，以及你認為對方對你的感覺，做出最好的判斷。

參考鏈接：

https://medium.com/@blaisea/do-large-language-models-understand-us-6f881d6d8e75

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

大型語言模型，真的能夠理解人類嗎？

相關推薦

技術專區(qū)

博客專欄

大型語言模型，真的能夠理解人類嗎？

相關推薦

技術專區(qū)

大型語言模型，真的能夠理解人類嗎？