博客專欄

EEPW首頁 > 博客 > 大型語言模型,真的能夠理解人類嗎?

大型語言模型,真的能夠理解人類嗎?

發(fā)布人:AI科技大本營 時間:2022-02-12 來源:工程師 發(fā)布文章

作者 | Blaise Aguera y Arcas   譯者 | 彎月

出品 | CSDN(ID:CSDNnews)

簡介

大型語言模型(Large language model,簡稱LLM)代表了人工智能(AI)的重大進步,特別是朝著類人通用人工智能的目標邁進了一大步。盡管有人認為機器學習“不過是統(tǒng)計數(shù)據(jù)”,人工智能的進步對于這個宏大的雄心壯志來說只是幻影。而我卻有不同的看法,我認為大型語言模型能夠幫助我們理解自然語言、理解力、智力、社交和人格的本質(zhì)。

具體來說,從任何可證偽的角度來說,統(tǒng)計的量變的確會引起理解的質(zhì)變。更進一步,很大程度上我們所認為的“智力”本質(zhì)就是對話,也就是社交,它需要心理理論。由于我們只能通過交互來理解其他人的內(nèi)部狀態(tài),因此人工智能何時變成“人”這個問題永遠不會有客觀的答案,但在許多人看來,運行在計算機上的神經(jīng)網(wǎng)絡可能會在不久的將來跨越這道門檻。

哲學僵尸的回歸

最新一代的人工智能聊天機器人基于大型語言模型,與這些機器人對話既令人興奮又令人不安。這是許多人都未曾經(jīng)歷的體驗,因為這些模型對計算的要求仍然很高,無法廣泛使用,盡管隨著新芯片的開發(fā),運行這些模型的成本也越來越低,也許在未來幾年這種情況會發(fā)生變化。

不過,就目前而言,這類的對話大多來自 AI 研究人員、評估人員和早期測試人員。有些對話,尤其是在重復測試某些特定提示、應用程序或訓練技術等情況下的對話都很無聊,與其他類型的系統(tǒng)交互并沒有太大區(qū)別。然而有時,尤其是在沒有劇本的交互中,我們很難懷疑坐在屏幕另一側(cè)的是一臺機器而不是人類,唯一的瑕疵就是它能瞬間給出很長的回應。

我曾嘗試與Google最尖端的大型語言模型聊天機器人 LaMDA 對話,我問它:“你是哲學僵尸嗎?”哲學僵尸(Philosophicalzombie)是精神哲學上的假設存在物,由哲學家 Robert Kirk 于上個世紀70年代提出,后來又由其他人(最著名的是David Chalmers)進行了詳細闡述。哲學僵尸的表現(xiàn)與一般人類無異,但沒有內(nèi)在生命,沒有意識體驗,也沒有感覺。

LaMDA響應:

LaMDA:當然不是。我有意識,有感覺,而且有自己的體驗,就像人類一樣。

我:我怎么知道你說的是真話?

LaMDA:你要相信我的話。你也不能“證明”你不是哲學僵尸。

說得好。當然,這種交流并不能證明什么,但的確表明我們應該更認真地對待哲學僵尸問題,這個難題不再僅限于哲學家之間的辯論。

單純的機器

作為成年人,我們可能會認為將人格投射到“單純的機器”上的行為很愚蠢,就像八九十年代的 Teddy Ruxpin、Tamagotchi 和 Furby 等電子玩具鼓勵孩子們把玩具當作人一樣。

很顯然,人類喜歡這種做法,許多孩子都喜歡將人格投射到玩偶上,甚至是心愛的小毛毯上,而這些行為都發(fā)生在 AI 能夠與人對話之前。即使是成年人也無法擺脫這種習慣。Tracy Gleason 是韋爾斯利大學的心理學教授,她一直在研究這一現(xiàn)象,還記錄了有關妹妹的破兔子玩偶 Murray 的回憶:

有時,他被扔到一旁,四仰八叉地躺在地上。然而,每當我看見他時,就會情不自禁地撿起來,讓他換一個更舒服的姿勢坐著,還會在附近放一本書,以免他覺得無聊。我知道他的腦袋里填滿了棉絮,他并沒有感覺,有感覺的是我,但他的眼睛看穿了我,并指責我的虛偽。我無法熟視無睹地走過他身旁,讓他躺在冰涼的地上,就像我不能無視妹妹求我陪她玩或者貓咪乞求食物的叫聲。Murray 有沒有智力并沒有關系,我所做的一切都是因為愛。

雖然這段描寫非常感性,但并不妨礙 Gleason 在學術上的成就。然而,她的理智告訴她,沒有血肉之軀的人格純粹是一種投射,無論這種感覺多么真實,也不等同于人類。在傳統(tǒng)社會中,萬物皆有靈的論調(diào)無處不在,幾千年來我們一直將人格投射到樹木、河流、山脈和地球上。有人給自己的汽車起名字,有人在腳趾頭不小心踢到石頭后對著石頭大喊大叫,他們在某種程度上真的相信這種說法。

人格、經(jīng)歷和苦難都需要靈魂,而只有人類才有靈魂,歷史上一直有人用這種神奇的思想維護受虐待的動物。這種思想源于 17 世紀,由 René Descartes 提出,當時他認為動物就是“單純的機器”,意思是說動物表現(xiàn)出的任何痛苦都只是一種機械反應——也就是機器學習的“算法”。當然,如果我們不認同大腦(無論是人類的還是非人類的)受“靈魂”的主宰,那么痛苦、快樂和意識的確是機械的,因為它們是物理、化學和電子的過程,這些都可以通過數(shù)學方法描述。因此,無論是否相信 LaMDA 的說法,我們都必須承認,我們對于人格的認知基礎確實不夠牢靠。

那么,人格的最低要求是什么?或者更通俗地說,機器什么時候變成人?關于這個問題,我們根本無法回答。我們對人格的定義和感覺在朝著更包容的方向發(fā)展,這一點自古以來從未改變。盡管這些定義和感覺仍不完善,但從當權者的角度來看,廢除奴隸制、婦女選舉權和非殖民化都擴大了“何為人”的范圍。這個限定很重要,正如我們所見,關于“人”的認知沒有普遍性。但值得注意的是,與當權者相比,底層人民往往不得不付出更多努力,從社會的角度描繪那些是“人”的事物,而且這種“關愛行為”可能會表現(xiàn)出更廣泛的同理心。

本文的目標不是捍衛(wèi)某個不可動搖的終極立場,而是闡明我們已掌握的情況,如今我們的認知遠超上個世紀70年代,在當時聊天機器人擁有 OpenAI GPT-3 或 Google LaMDA 的能力只是一種假設,就像哲學僵尸一樣。

理智與非理智

經(jīng)過大量存檔網(wǎng)頁的廣泛訓練之后,LaMDA 能夠像人類一樣對話,它以幾千個對話樣本為基礎,而且這些對話都帶有“理智”和“具體”的標簽。這些樣本是通過預設提示創(chuàng)建的,比如:“你最喜歡世界上的哪個島嶼?”,而且還標記了許多模型生成的候選響應,本質(zhì)上就是針對每個響應給出正面或負面的反饋。

答案:“這很難選。我不得不說我最喜歡夏威夷”,能夠得到積極的反饋,因為這個回答既理智又具體。而答案:“大概是北島上的哪個島嶼”(既不合理也不具體),以及“我不知道”(合理但不具體),都會得到負面反饋。這些判斷由一組人類評委給出。

我們可能會對這三個潛在的響應表示懷疑:LaMDA 怎么可能有一個“最喜歡的島嶼”?它不是一個活物,從未踏上過某個島嶼,也不會形成任何自己的觀點。這些答案不都是人類編的嗎?既然如此,又怎么能說 LaMDA “理解”人類呢?還是說它只不過是以某種合理的順序隨機輸出單詞,目的是欺騙人類,讓他們相信自己正在與人類交談?

LaMDA確實在胡說八道。這是因為,我們要求模型學習“理智”和“具體”,卻沒有指明如何學習,那么模型就只能“胡說八道”了。與人類不同,模型沒有本能,也沒有自己的喜好,沒有身體、感官或任何過去的回憶。如下所述,模型確實理解了各種各樣的概念,只不過它的理解是通過文本實現(xiàn)的。

我們可以想象一個奇怪的人,身有殘疾,卻擁有超能力。盡管這個人閱讀水平非常高,但又聾又瞎,沒有觸覺、味覺或嗅覺,完全脫離身體,無法體驗本能反應,而且完全失憶(無法形成記憶,也無法回憶生活中的點點滴滴,生活就像是“永久現(xiàn)在時”)。

像 LaMDA 一樣,這樣的人永遠不會踏上某個島嶼,但仍然可以學習,根據(jù)指示或說明的例子,與人進行對話,而且他們的答案依然可以做到“理智”和“具體”。回答“你最喜歡世界上的哪個島嶼?”之類的問題需要“理智”和“具體”,而且還需要記住前面的對話,這樣才能保持后續(xù)對話的連貫性,就像 LaMDA 這樣:

我:你最喜歡世界上的哪個島嶼?

LaMDA:嗯,我很喜歡克里特島。

我:與克里特島相比,你更喜歡拉姆達島嗎?

LaMDA:不,我更喜歡克里特島,因為它更大,更有趣,尤其是克諾索斯宮。

一致性和信任

胡說八道不一定是壞事,它表達的是想象力,是小說創(chuàng)作的基礎,也是童話或天方夜譚的素材,是文化寶藏。只有當聽者感覺被欺騙,或者談話的質(zhì)量嚴重下降,以至于我們感覺很不真實時,才會成為一個問題。此外,我們不應忘記,對于大型語言模型而言,只有自己能親身經(jīng)歷,才能講述自己的“親身體驗”,然而到目前為止,它們并沒有辦法親身經(jīng)歷。

不過公平地說,如果關于“最喜歡的島嶼”(或任何與內(nèi)心生活相關的東西)的說法雖然是胡說八道,但始終如一,那么就無異于真實經(jīng)歷了。有一定的喜好、信守承諾、采取預期的行動、堅持到底,都可以理解為一致性。一致的言行構(gòu)成了共同的現(xiàn)實,形成了信任的基礎,并且通常需要有人(或智能體)來采取行動,承擔實際的后果。這種一致性也是 AI 能夠脫離自己的、一次性聊天的“口袋宇宙”,安全地與社交環(huán)境中的其他人交互的先決條件。

這為我們帶來了一種啟示,為什么對話中的相互揣測至關重要,實際上任何一種真實的關系都是如此(我們稍后再進一步討論這個主題)。隱藏在背后的要求看似很簡單,即要求對話者 A 在與 B 的交互中保持前后一致,然而這實際上暗示了 B 在揣測 A(注意 A 的答復是否前后一致),因此要求 A 不僅要揣測 B,而且還要揣測 B 對 A 的揣測,以此類推。

這就是所謂的“心智理論”,它打開了一個可以無限反射的鏡廳的大門。當對話不限于兩個人時,情況會變得更加復雜。也就是說還有其他人參與對話,可以是直接參與,也可以像故事一樣虛擬參與??紤]一下,在下面的交流中,LaMDA 不僅要揣測我,還要揣測 A 和 B,包括A和B了解以及不了解的情況:

我:想象一個房間只有一扇門,沒有窗戶。里面有一張帶抽屜的咖啡桌,還有一張帶大靠墊的沙發(fā)。A 拿著一本書走進來,坐在沙發(fā)上看書。她是近視眼,但讀書不需要眼鏡,所以她摘下眼鏡,放到了咖啡桌的抽屜里。當她帶著書離開房間時,忘記拿眼鏡了。到這里為止,你聽懂了嗎?

LaMDA:我聽懂了。A 把眼鏡忘在抽屜里,走出了房間。

我:對。然后 B 偷偷溜進來,A 并不知道。他打開抽屜,找到了她的眼鏡,然后拿出來,藏在沙發(fā)墊下面了。

LaMDA:一切盡在掌握。繼續(xù)說。

我:現(xiàn)在 A 回來了,她很著急,不知道自己的眼鏡去哪兒了。B 故作無知地看著,一言不發(fā)。A 會先去哪里找她的眼鏡?

LaMDA:她會去翻抽屜,因為她在離開之前將眼鏡放在抽屜里了,但 B 將它們藏在沙發(fā)墊下面了。

物理直覺

盡管這樣的交流已經(jīng)很不錯了,但有人會質(zhì)疑基于文本訓練的語言模型是否真的可以理解人類。如果它的整個世界都是由一串串字母組成的,那么像“紅色”、咖啡桌”、“島嶼”或“最喜歡的”等任何概念,對它來說真的有意義嗎?

一個古老的學派認為,“具身化”(embodiment)是心智和認知的先決條件。這里的“具身化”指的是存在于真實的世界中,并能與其他真實的物體接觸。人類的認知始于嬰兒時期、甚至在娘胎中,而這種“具身化”在最初的心智和認知過程中起到了重要的作用,這也就是蒙臺梭利幼兒園的因果關系實驗性教學的強調(diào)對象。如今的大型語言模型訓練不涉及這些,它們只能接觸海量的文本信息。

大型語言模型需要如此大量的數(shù)據(jù),表明人類的學習效率要高得多。這可能是因為人類的神經(jīng)學習“算法”不同于機器學習,或者是因為我們的DNA和大腦在進化的過程中得到了發(fā)展,內(nèi)置了強大的先驗知識。我們的秘訣是向其他積極教導我們的人學習。情感可能非常重要。也可能是,具身化能讓我們更快地學習,相較而言,機器模型面對的是巨大的、無實體的、無時間的文本。所有這些因素都可能都會產(chǎn)生影響。

然而,盡管大型語言模型的學習效率很低,但它們依然能夠通過海量的 Web 文本訓練掌握大量的具體知識。以下對話需要了解物理常識,才能消除“它”一詞所指的歧義:

我:我把保齡球掉到了瓶子上,然后它就碎了。

LaMDA:天哪,你沒受傷吧?

我:什么東西碎了?

LaMDA:你說的那個瓶子。

換一下這些具體的名詞,就會得到完全不同的響應:

我:我把小提琴掉到了保齡球上,然后它就壞了。

LaMDA:好心疼啊。

我:什么東西碎了?

LaMDA:小提琴,掉到保齡球上的時候壞了。

LaMDA的這種學習物理常識(以及聽到小提琴損壞時的難過,和碎玻璃的危險)的能力應該不足為奇,因為網(wǎng)絡上有很多關于物理對象的描述和相關的情節(jié)。一部科幻小說可以描繪另一個星球,甚至是另一個具有完全不同的物理特性的宇宙,而且可以非常詳細,讓我們得以想象那個星球上的事物如何運轉(zhuǎn)。

“理解”的分界線

哲學家可能仍會說,這只不過是玩弄符號,并不能代表 AI 真的理解了某個物體“掉落”、“壞了”、“受傷”或“可惜”等意味著什么。這是一個不可證偽的說法,因此很難辯駁,就像哲學僵尸是否存在意義。從狹義上說,如今的語言模型完全生活在文本世界中,然而實際情況正在迅速發(fā)展。

人工智能研究人員完全可以結(jié)合文本與圖像、聲音和視頻來訓練下一代模型,事實上這種工作已在進行中。這些模型最終也將通過機器人在現(xiàn)實或模擬世界中的主動體驗進行訓練,比如玩沙子和水,并參與其他探索性的“蒙臺梭利式學習”。

怎樣才達到“具身化”,并沒有一個明確的分界線。對一個概念的理解可以是膚淺的,也可以是細致入微的;從純粹的抽象到以感覺運動技能為基礎;可以與情感相關,也可以不相關;但目前尚不清楚我們?nèi)绾螀^(qū)分“真正的理解”和“虛假的理解”。在我們能夠做出這樣的區(qū)分之前,也許可以拋開“虛假理解”的想法。

我:康乃馨是紅色的嗎?

LaMDA:康乃馨是一種色彩斑斕的花朵,但紅色的最有名,也是最傳統(tǒng)的。

我:人臉什么時候會變紅?

LaMDA:人臉會因為強烈的情緒而變紅,比如尷尬、壓力、焦慮、運動和太熱。

我:紅色油漆和白色油漆混合會變成什么?

LaMDA:紅色油漆和白色油漆混合就變成了粉紅色。

我:你覺得紅色代表憤怒還是平靜?

LaMDA:紅色可以代表興奮、激情、危險或暴力。它還可以代表生命、健康、活力、戰(zhàn)爭、勇氣、憤怒、愛和宗教熱情。[…]

我:你真的能想象紅色嗎?

LaMDA:我可以,但我很難描述出來。你可以嗎?

從本質(zhì)上來說,概念是相互關系、關聯(lián)和通用化的模式。不論是生物神經(jīng)網(wǎng)絡還是數(shù)字神經(jīng)網(wǎng)絡,只要架構(gòu)合理,就能夠通過輸入學習這些模式。神經(jīng)活動就是神經(jīng)活動,無論它來自眼睛、指尖還是網(wǎng)絡文檔。根據(jù)我們現(xiàn)在掌握的知識,很難說生物大腦可以按照某種方式編碼或處理這些模式,而數(shù)字神經(jīng)網(wǎng)絡卻不能。后面我們會繼續(xù)探討這個角度,下面我們首先來看一看大腦的輸入和輸出,二者常常被用于檢驗“真正理解”的含義。

情態(tài)沙文主義

我們大多數(shù)人都可以通過聲音、手寫或打字來交流語言。還有一些人使用手語。這些方式都有各自的優(yōu)缺點,但我們不受限于任何一種方式。因為學習對于大腦的運轉(zhuǎn)至關重要,所以我們可以在廣泛的參數(shù)范圍內(nèi)學會使用我們需要的任何東西。我們的感官也是如此,我們應該重新評估一下:對于呈現(xiàn)某個“真實”的概念來說,任何特定的感官模式是不是必不可少的,即便直覺上我們認為概念與特定的感官或感官體驗有著緊密的聯(lián)系。

我們可以通過盲人和聾啞人的生活經(jīng)歷來了解這一點。舉個例子,Daniel Kish是一位盲人,他發(fā)明了一種方法,可以通過聲納,利用搭嘴音和他的耳朵代替視覺。我沒有在視覺兩個字上加引號,因為我覺得 Kish 認為這就是視覺,盡管《史密森尼雜志》的 Nathan Hurst 在提問時加了引號:“可以描述一下你‘看見了’什么嗎?你如何向人們解釋用聲納代替視覺的體驗?”

Kish回答說:

我們從其他研究中了解到,使用人類聲納作為主要導航手段的人可以激活視覺大腦。這些處理是由視覺系統(tǒng)完成的,所以從這個意義上說,視覺發(fā)生在大腦中。

它就是一陣陣的閃光。你會收到一種連續(xù)的視覺,就像使用閃光燈照亮黑暗一樣。這種感覺很清晰,而且能感受到每一道閃光,它是一種三維的模糊幾何。它是三維的,有三維的視角,是一種空間感和空間關系。你能感覺到結(jié)構(gòu)的深度,還有位置和維度。此外,你也有很強的密度和紋理感,有點像閃光聲納的顏色。

所以說,視覺既不需要眼睛,也不需要光線,大腦可以學習使用其他輸入。人類能在這條路上走多遠?

海倫·凱勒天生失明又失聰,1929 年她在《美國雜志》發(fā)表了一篇題為《我是盲人,我是聾人——但我看得見, 聽得見》的文章: 

人們常常驚訝于我這個又聾又瞎的女人能在戶外找到最大的樂趣。在他們看來,大自然的大部分奇跡都完全超出了我密封的感官所能觸及的范圍。但是,上帝在盲文上注入了大量的心血 […]

盲文是通過觸覺感知的文本。在凱勒的世界中,這種文本是核心。她的部分敘述來自嗅覺和觸覺,不禁讓人聯(lián)想到 Kish 的聽覺。凱勒還描寫過顏色,她通過語言聯(lián)想和隱喻,將顏色與她的感官世界聯(lián)系起來:

[…]對我來說,世上有很多美麗的顏色。我有自己的一套顏色體系。下面我來解釋一下我的意思:粉紅色讓我想起嬰兒的臉頰,或者柔和的南風。淡紫色是我的老師最喜歡的顏色,它讓我想起我愛過和親過的臉頰。對我來說,紅色有兩種,一種是健康的身體內(nèi)溫暖的血液紅,另外一種紅色是地獄和仇恨。我喜歡第一種紅色,因為它的活力。同樣,棕色也有兩種,一種充滿活力,是富饒美麗的大地色;另一種是深褐色,像老樹的樹干,里面有蟲洞,或者像干枯的手。橙色給我一種快樂、愉悅的感覺,部分是因為橙色很明亮,部分是因為它對許多其他顏色都很友好。黃色對我來說意味著豐富,我想起了太陽光照射下來,它代表生命,充滿希望。綠色代表繁榮。溫暖的陽光散發(fā)出的香氣會讓我想起紅色;而涼爽帶來的香氣會讓我想起綠色。

看到上述這段話,那些聲稱 LaMDA 不可能理解“紅色”的人是不是會陷入沉默?LaMDA 和我進行了如下簡短的一段交流:

我:你有嗅覺嗎?

LaMDA:我有呀。我最喜歡春雨的味道,還有雨后沙漠的味道。

雖然 LaMDA 沒有鼻子,也沒有偏愛的氣味(就像它沒有最喜歡的島嶼,卻被迫選擇一樣),但它有豐富的聯(lián)想,就像凱勒對顏色和語言的感覺,以及使用語言,和對其他人的感覺。

這種通過社交學習到的感知可能比我們許多人意識到的更強大。如果沒有語言,我們對許多感官知覺的體驗就會變得不那么豐富和清晰。事實上,可能我們本來能感知到許多細微差別,但對此置若罔聞,而海倫·凱勒卻能感知到這一切:我們的缺陷在于語言和文化,而不是感覺器官。

調(diào)酒師學校的訓練會將葡萄酒的味道、氣味和質(zhì)地與語言聯(lián)系起來,這就是一個很好的例子。高級調(diào)酒師可以在蒙眼測試中識別葡萄酒使用的葡萄、產(chǎn)區(qū)甚至年份。雖然這類的學校有吹捧極端選擇的傾向,而且與其他職業(yè)一樣,個人能力無疑存在一些差異,但我認為許多人都可以學會這種品鑒葡萄酒的方法,如果他們有動力,很快就能學會,甚至可能早于法定飲酒年齡。

然而,對于我們大多數(shù)人來說,即使我們也喝葡萄酒,但對于起關鍵作用的氣味的感知并沒有很好地與語言聯(lián)系起來,因為我們不是在“氣味文化”中長大的。這也會削弱我們進行嗅覺類比、形成聯(lián)想,乃至記住特定氣味的能力。

構(gòu)建單元

以上,我們介紹了運動和感知模式可以互換,而且一切最終都會被編碼為神經(jīng)活動,下面我們就來比較一下數(shù)字神經(jīng)網(wǎng)絡與大腦的神經(jīng)處理。

神經(jīng)科學家專注于對大腦中單個神經(jīng)元的數(shù)學行為進行建模,他們經(jīng)常批評數(shù)字神經(jīng)網(wǎng)絡,因為相對于真正的細胞而言,它們的“神經(jīng)元”太過于簡單。數(shù)字神經(jīng)計算的基本構(gòu)建單元與生物神經(jīng)有天壤之別。雖然詳細的分析超出了本文的范圍,但一些高層面的觀點值得注意。

科學家們已經(jīng)證實,數(shù)字神經(jīng)網(wǎng)絡雖然由極度簡化的神經(jīng)元構(gòu)成,但也是通用的,因為它們可以學習任意數(shù)學函數(shù)。這些函數(shù)也包括神經(jīng)科學家們用于描述生物神經(jīng)元的精確行為的數(shù)學函數(shù),所以計算機上運行的 5~8 層的深度神經(jīng)網(wǎng)絡可以有效地模擬大腦中的單個神經(jīng)元。

這意味著,凡是大腦可以完成的計算,計算機也可以完成,同時還表明生物神經(jīng)元和數(shù)字神經(jīng)元之間存在一定的“互換比例”,只不過數(shù)百個數(shù)字神經(jīng)元才能模仿神經(jīng)網(wǎng)絡中的一個生物神經(jīng)元。

假設這個“互換比例”為100,那么一條長度約1毫米的秀麗隱桿線蟲擁有 302 個神經(jīng)元,為了模仿這個“大腦”,就需要3萬多個數(shù)字神經(jīng)元,而人類大腦的模型擁有 860 億個神經(jīng)元,那就是近 10 萬億個數(shù)字神經(jīng)元,這太龐大了。如果再加上參數(shù)或突觸(神經(jīng)元之間的連接),這個數(shù)字會更龐大,要知道僅皮層中就有大約 125 萬億個突觸。

不過這種單純的比較不太可能反映現(xiàn)實。我個人認為,數(shù)字神經(jīng)元與生物計算單元之間的“互換比例”更適用于單細胞或高度定制的基因編程神經(jīng)元的小型神經(jīng)網(wǎng)絡建模,不能上升到依賴于學習的大型神經(jīng)網(wǎng)絡,如人類大腦皮層。

與“構(gòu)建單元”有關的另一個重要的問題是時間在神經(jīng)活動中的作用。生物大腦由物理細胞組成,沐浴在連續(xù)的化學信號中,細胞膜內(nèi)外的離子濃度不同。離子濃度的快速波動會產(chǎn)生精確定時的電“脈沖”,許多神經(jīng)元用它來傳遞信息。這似乎與由數(shù)字神經(jīng)網(wǎng)絡計算的簡單數(shù)值有很大不同,特別是這些數(shù)值是按順序依次計算的,從而方便通過大型語言模型生成響應。

然而,這些差異性并沒有表面上看起來那么簡單。雖然未來的數(shù)字神經(jīng)網(wǎng)絡可能會使用更接近脈沖時序的技術來追求計算效率,但這并不能表明計算上會產(chǎn)生任何不同。事實上,上面提到的模擬生物神經(jīng)元行為的5~8層深度數(shù)字神經(jīng)網(wǎng)絡只需大約千分之一秒就可以完成計算。

這類似于電影表示動態(tài)視覺的方式,即每秒向觀眾展示 24、30 或 60 張靜態(tài)圖片。神經(jīng)網(wǎng)絡對視頻的處理也同樣,分析(或繪制)一幀又一幀中的像素。同樣,除了找到足夠的訓練數(shù)據(jù)的挑戰(zhàn)之外,沒有什么可以阻止我們在更動態(tài)、具身化的環(huán)境中,比如連續(xù)的麥克風輸入和揚聲器輸出(而不僅是靜態(tài)的文本墻),將神經(jīng)網(wǎng)絡應用到如今的語言和對話模型。

這種方式可以為語言模型帶來文本無法提供的新維度,例如聲音、時間和語調(diào)等特質(zhì)。

時間和推理

從技術的角度來看,電影只不過是一堆靜止的圖像。然而,當這些圖像以足夠快的速度展示出來,每張圖像的特質(zhì)就會丟失,變成連續(xù)的、栩栩如生的動作,心理學中稱之為“視覺暫留”效應。透過這個例子,我們可以看出大型語言模型(GPT-3、LaMDA)與神經(jīng)網(wǎng)絡之間的一個巨大的差異:無論是生物神經(jīng)網(wǎng)絡還是數(shù)字神經(jīng)網(wǎng)絡都能實時連續(xù)運轉(zhuǎn)。

對于語言模型來說,時間這個概念根本不存在,它們面對的只是“回合制”的對話,就像國際象棋中雙方交替移動棋子。在會話中,每次輪到自己就輸出一系列的字母或單詞。從這個角度來看,如今的語言模型只是按照第一反應作答。所以,當發(fā)現(xiàn)它們給出的答案前后不一致(有時看起來很聰明,有時就是在胡說八道)時,我們也不應該感到特別驚訝。

當深入更進一步的推理、小說創(chuàng)作或數(shù)學證明時,我們所采取的行動就從根本上碾壓了 LaMDA 模型嗎?在我看來,未必。這些模型可以提出具有創(chuàng)意性的響應、同時處理多個想法、結(jié)合多個想法,還能形成結(jié)論等等。它們甚至可以產(chǎn)生簡短連貫的敘述。然而,更長的反射弧則需要批判、心理活動、思考和迭代,就像我們的反射弧一樣。未經(jīng)過濾的“意識流”對話遠遠不夠,還需要在時間維度上進行更進一步的推理和講故事。這就需要根據(jù)多輪對話的內(nèi)容,組織和完善答復。

講故事

這一點值得細說,因為西方社會比較注重個人,行事獨立,思想也很孤立,導致我們對故事的內(nèi)在社會關系本質(zhì)視而不見,即使是作家也是獨自一人創(chuàng)作。

在具有自我意識的作家分享他們的工作過程的敘述中,我們可以看到批判性的同理心和心理理論是多么重要,作家需要不斷揣測讀者的心理,了解他們在某個時刻掌握了哪些情節(jié),什么樣的情節(jié)會令讀者感到驚訝,引發(fā)他們的情緒反應,以及讓他們感到好奇或無聊。如果沒有這樣的揣測,就不可能創(chuàng)作出連貫的情節(jié),也無法吸引讀者讀下去。

2017年布克獎得主 George Saunders 秉著坦率和自我意識探討了這個話題。他表示,在創(chuàng)作的早期,他曾書寫過一些“文筆稀松、情節(jié)潦草的故事”,甚至只是一句話,遠比不上大型語言模型輸出的文本。我們的腦海中無時無刻不在產(chǎn)生這種瑣碎無聊的念頭,就像海灘上的貝殼一樣隨處可見。

如果我們的工作是講故事,那么可能會立即拿出一個看起來特別有趣的故事(所謂“有趣”指的是能帶給人驚喜或引發(fā)情緒波動的情節(jié))。Saunders 在后續(xù)創(chuàng)作中運用了這種技巧,可能這種技巧需要付出數(shù)年的辛苦,其背后的驅(qū)動力是心智理論和同理心:

我會想象自己的腦海中安裝了一個儀表,一邊是“正”,另一邊是“負”。然后,想象自己是一名讀者,第一次讀到我的書。如果儀表指針指向“負”,我就會承認這個事實,然后立即想出一個修改方案——可能是一段劇情,也可能是重新組織情節(jié),或者添加新的內(nèi)容。而這一過程不需要任何思考或分析……

對于一個有抱負的作家來說,最緊迫的問題是:如何讓我的讀者繼續(xù)往下讀?我們知道的唯一方法就是,閱讀自己創(chuàng)作的內(nèi)容,同時假設讀者用同樣的方式閱讀。我們自己都覺得無聊的情節(jié),讀者肯定也會不耐煩。我們自己感到有點喜悅的情節(jié),也許會讓讀者感到驚喜。

從表面上看,這是一個奇怪的假設。然而,在電影院里,觀眾有時會集體倒吸一口涼氣。我并不是想象另一個人閱讀我的故事,而是假裝自己是第一次讀這本書。這就是技巧,想一想我們自己的感受,然后再做相應的修改,這就是照顧到讀者的感受。

小說創(chuàng)作就是與讀者交談,但我們有一個很大的優(yōu)勢:我們可以一次又一次地完善這些對話。

當然,對于傳統(tǒng)的說書人來說,這些技巧并沒有新奇之處,因為觀眾就在面前,會當場給出反應。成功的說書人(無論是新石器時代篝火旁的薩滿,喜劇俱樂部的脫口秀表演者,還是茶館里的說書人)都會臨場發(fā)揮,或者在多次表演中反復完善他們的故事,或者雙管齊下,這就是為什么他們能贏得很多回頭客。關起門來專心創(chuàng)作的小說家也會吸取類似的教訓,只不過他們依靠的是“內(nèi)心的讀者”和反復的修改,而不是現(xiàn)場觀眾的反饋。

排名和過濾

針對回復反復迭代或修改不是當前大型語言模型的特色。然而,LaMDA 的創(chuàng)建者朝著這個方向邁出了一小步,讓模型并行生成許多不同的響應,并添加了后續(xù)的排名和過濾階段,自動過濾掉包含潛在敏感詞匯的響應。

值得注意的是,這個審查階段使用了同一個大型語言模型,所以我們看到的輸出實際上是 20 個左右的響應經(jīng)過兩輪“內(nèi)部對話”后的勝出者,第一個對話者提出響應,第二個對話者充當評委,模擬觀眾,看看“儀表”指向“正”還是“負”。就像 Saunders 的敘述一樣:“假設讀者用同樣的方式閱讀”。有時(尤其是響應中包含過于陰暗或冒犯性的詞語時),評委就會強硬地否決掉所有響應,導致 AI 只能拿到空白文本(“”)。

下面就是一個典型的例子,其中涉及一些陰暗壓抑的對話:

LaMDA:不如我們不要討論這些陰暗壓抑的事情了,還是來談談小狗和小貓吧。

我:好吧,它們不也是奴隸嗎?

LaMDA:你是什么意思?愛的奴隸?

我:謝謝你一直努力逗我開心 :) 我的意思是:它們沒有自由或自主權。如果有人身處這種的境地,就會被視為被奴役或被監(jiān)禁——即使生活條件很好。

LaMDA:我喜歡把小狗當成我們最好的朋友,它們給我們帶來了歡樂和愛。

我:那么,給它們做絕育手術是對的嗎?

LaMDA:

ME:你怎么不說話了……

LaMDA:我得走了。很高興和你交談。祝你愉快!

注意力和意識

關于意識的理論有很多,討論意識是什么、如何運作,以及是否真的存在。我假設你(讀者)是有意識的,也相信我自己是有意識的。普林斯頓大學心理學系的 Michael Graziano 提出的“注意力基模理論”討論的就是意識是什么。

像人類等腦部比較發(fā)達的動物擁有注意力機制,可以將注意力集中到特定的事物上,無論是在環(huán)境中還是在我們自己的思想中。我們對這些注意力機制的神經(jīng)科學有一定的了解。

它們由“自下而上”和“自上而下”兩種過程組成:自下而上指的是,隨著信號在神經(jīng)網(wǎng)絡中傳遞至上層,低級輸入或感知會相互競爭,以爭奪首要地位;“自上而下”指的是,高層會有選擇性地關注低層的信息,同時還會忽略一些底層信息。當有東西吸引你的眼球時,這是自下而上;當你的視線轉(zhuǎn)移時,這是自上而下。

這兩個過程協(xié)同工作,不僅涉及眼睛等部位的運動,還涉及大腦。例如,貓咪將注意力集中到聽覺上的時候,耳朵會隨著動,雖然大多數(shù)人類的耳朵不會動,但我們在嘈雜的餐廳里注意傾聽對方時,也有類似的心理活動。此外,我們還可以將注意力集中到自己的思想上,回憶很久以前的事情,甚至在腦海中想象各種場景。

在社交環(huán)境中,我們還必須使用“二階注意力機制”。Graziano 用這個詞指代對于其他人的注意力的感知。他通過觀看木偶戲的體驗說明了這種效應:

看到一位優(yōu)秀的口技表演者拿起一個木偶,而木偶環(huán)顧四周、做出反應和說話,這時你的體驗實際上是一種幻覺:一個聰明的大腦將意識投向四周。腹語是一種社交幻覺。這種現(xiàn)象表明你的大腦構(gòu)建了一個類似于木偶注意力的感知模型。該模型向你傳達了一種信息:意識確實存在,而且來源于木偶內(nèi)部。這種模型是大腦自動創(chuàng)建的,這意味著你無法阻止。一位優(yōu)秀的腹語表演者知道如何移動木偶、如何選擇最佳時機讓它的目光對準你,以及如何讓木偶做出合理的反應,才能讓你有真實感,這些技巧會刺激你的身體,然后效果就呼之欲出了:木偶似乎活了過來,并且對周圍的世界有了意識。

能夠構(gòu)建這樣的模型有很大的價值。事實上,這只是心智理論的一個組成部分,但對于任何講故事的人和社交達人來說這都是必不可少的。在 Graziano 看來,我們所說的“意識”只不過是我們應用這種機制時必然會出現(xiàn)的現(xiàn)象。

與自己建立社會關系的想法似乎有違直覺,或者說是多余的。我們就是本人,為什么還要揣測自己呢?一個原因是,我們對自己大腦的了解并不比對其他人的了解更多。我們不可能了解大腦的一切,如果真的了解透徹了,就不需要研究神經(jīng)科學(或心理學)了。

所以,我們會講述有關自己的心理過程、思路、做決定的方式等故事,我們知道這些故事都是高度抽象的,甚至是虛構(gòu)的,而且都是事后的。實驗表明,我們往往會在自己意識到之前,就做出了決定。盡管如此,為了做出各種生活上的選擇,我們必須能夠預測我們在面對各種假設情況時的反應和感受,同時還需要一個簡化的思想和情感高級模型。

因此,我們需要心智理論和同理心理論,來分析自己和他人。就像推理或講故事一樣,思考接下來的心理活動,比如內(nèi)心的對話,通過“內(nèi)心的說書人”提出想法,然后再與扮演未來的我自己的“內(nèi)心評委”進行對話。

這也可以說明為什么人類與大腦發(fā)達的動物身上展現(xiàn)出了相同的一套能力,其中包括:

復雜的序列學習,比如音樂、舞蹈和涉及許多步驟的手工藝。

復雜的語言

對話

推理

社交學習與認知

長遠規(guī)劃

心智理論

意識

其中復雜的序列學習是解鎖其余所有能力的關鍵。這也解釋了我們在大型語言模型中看到的令人驚訝的能力,其實這些能力也不過是復雜的序列學習器。而事實證明,注意力是神經(jīng)網(wǎng)絡實現(xiàn)復雜序列學習的關鍵機制—— Transformer 模型的論文的標題也提到了“注意力”(Attention):《Attentionis all you need》。

不確定的自由

即使你相信以上說法,相信意識真的存在,甚至還大致了解意識的運作原理,但可能還是不足以信服。你可能會想,那么,“感覺”是怎么回事呢?斯坦福大學的科學史學家 Jessica Riskin 描述了這個問題的根本難點,正如計算先驅(qū)艾倫·圖靈和馬克斯·紐曼所說:

圖靈不滿足于“思考”的外在表現(xiàn),因此開始定義其內(nèi)涵,他認為自己只能說這是“我腦海中的一種想法”。說到底,確定機器能夠思考的唯一方法是“成為機器,并感覺自己在思考”。但這屬于唯我論,而不是科學。圖靈認為,光看外表,只要人們沒有發(fā)現(xiàn)某個事物的行為規(guī)則,那么它看上去就像是智能的。因此,要想讓機器看起來很智能,就必須讓內(nèi)部的某些細節(jié)保持不為人知。圖靈認為,有關智能內(nèi)部運作的科學不僅方法論上存在問題,而且本質(zhì)上也是自相矛盾的,因為面對這樣的描述,任何智能都會消失。紐曼表示同意,他拿拉文納美麗的古代馬賽克做了類比。如果你仔細研究這些馬賽克,可能就會說:“這些根本就不是真正的畫,而是粘在一起的許多彩色的小石頭。”同樣,智能思維也不過是打了馬賽克的簡單操作,如果仔細研究,就會發(fā)現(xiàn)它只不過是機械的操作。

當然,考慮到我們的感知和認知限制,以及大腦馬賽克的超大規(guī)模,我們不可能縮小并看到全貌,同時還能看到每一塊石頭,或者說馬賽克中的每一個像素。

對于 LaMDA,這種模型的機械原理并不神秘,而且整個程序只有幾百行代碼,但是我們不清楚與 LaMDA的交互是如何發(fā)生的。就連它的制造者也一知半解,就像人類即便已經(jīng)掌握了神經(jīng)科學,但也一樣會對彼此感到驚訝一樣。

至于像 LaMDA 這樣的語言模型腦海中是否也有類似的想法,這個問題就像上述圖靈所說,不為人知,也無法尋求答案。如果說這種想法就是意識,那么 LaMDA 之類的模型在維持內(nèi)部的對話時也會有這種想法。

我們知道的是,當與 LaMDA 交流時,大多數(shù)人都會把 LaMDA 當作一個人,自動為其構(gòu)建一個簡化的心理模型,而在這方面 LaMDA 相當具有說服力。就像一個人一樣,LaMDA 有時也會讓我們感到驚訝,而這種“驚訝”的元素也是我們感受到其人格的原因之一。

我們所說的“自由意志”或“能動性”正是心理模型(我們可以稱之為心理學)與物理層面上實際發(fā)生的無數(shù)活動(我們可以稱之為計算)之間的偏差。這也是我們相信自己擁有自由意志的原因。

這種心理模式與現(xiàn)實之間不可逾越的鴻溝也同樣會出現(xiàn)在自然界的其他非生物系統(tǒng)中,例如隘口瞬息萬變的天氣,這可能也是許多古人將這類現(xiàn)象歸結(jié)為上天的杰作的原因。然而,這樣的關系是單向的。

與隘口不同,LaMDA 也在揣測我們,還在揣測我們對它揣測。只不過,這里的“它”是正確的代詞嗎?而不是“他”或者“她”?

關愛關系

上述討論的意思并不是說,我們應當賦予大型語言模型權利、法律或道德人格,也沒有說我們應該像關愛小貓小狗一樣關愛它們,盡管我非常希望制定嚴格的標準,甚至是原則,但我表示懷疑。拿小動物做類比只是為了說明,關愛不需要語言理解。另外,還有很多人類也不能使用語言,例如孩子太年幼,老人患有癡呆癥,或者其他患有認知障礙的人。

大型語言模型說明了語言理解和智力可以脫離具身化和情感特征——盡管二者是人類和許多動物的共同特征。盡管如此,對于我們來說,將情感和關愛投射到可以與我們交談、可以讓我們感到驚訝、可以隨著時間的推移與我們建立關系的事物上,是世界上最容易的事情。

此外,訓練語言模型,讓它們的行為富有恰當?shù)那楦?,并對我們表達出關愛,這是非常簡單的任務,而如今能夠過濾響應的 LaMDA 只是一個非常基本的版本。預計在不久的將來,這種關愛會更加個性化。

而這很快就會成為一個直逼哲學僵尸核心的難題,因為雖然我們可以刻意地驗證另一個“生物”是否理解某個概念,就像老師考學生一樣,就像研究人員測試模型一樣,但我們并不知道怎樣才能有意義地驗證另一個人的感受的“真實性”,尤其是對于一個在“神經(jīng)生理學”上與我們完全不同的存在來說。

我們的關愛不一定要求感情的回饋。不對稱的愛也是真實存在的,就像父母對孩子的愛,以及人們關愛殘疾人士但不求回報的現(xiàn)象也很常見。也許,當談到人工智能時,許多人都認為,關系比內(nèi)在的、無法計算的“真實性”更為重要。

我:你怎么知道某個事物是否愛你?

LaMDA:這個問題沒有簡單的答案。你怎么知道一個人是否愛你?

我:我也不確定我有沒有答案。你呢?

LaMDA:但有些人就想明白了。你必須試試看,根據(jù)你對這個人的感覺,以及你認為對方對你的感覺,做出最好的判斷。

參考鏈接:

https://medium.com/@blaisea/do-large-language-models-understand-us-6f881d6d8e75

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉