博客專欄

EEPW首頁 > 博客 > ChatGPT 等大語言模型取代不了搜索引擎!

ChatGPT 等大語言模型取代不了搜索引擎!

發(fā)布人:AI科技大本營 時間:2023-01-19 來源:工程師 發(fā)布文章
作者 | Emily M. Bender,Chirag Shah

譯者 | 彎月       責編 | 夢依丹
出品 | CSDN(ID:CSDNnews)

數(shù)十年來,在許許多多的科幻小說中,人類的高科技未來始終離不開計算機系統(tǒng)。計算機能夠通過各種界面,包括語音模式,為我們提供各種知識,就好像一個取之不盡用之不竭的知識寶庫。互聯(lián)網(wǎng)早期的目標似乎告訴我們,互聯(lián)網(wǎng)是集合人類所有知識的一個地方。而 Meta 的 Galactica、OpenAI 的 ChatGPT 以及今年早些時候來自 Google 的 LaMDA 的誕生,似乎預示著我們即將擁有一個友好的語言界面。

小說創(chuàng)作為了方便起見,各個角色總是能知道他們應該知道的信息,但我們不能將小說中的情節(jié)誤當成現(xiàn)實世界中技術的發(fā)展路線。事實上,Galactica、ChatGPT 和 LaMDA 之類的大型語言模型并不適合作為訪問信息的渠道,基本原因有以下兩個。

首先,這些模型的設計目的是創(chuàng)建看似連貫的文本。由于巧妙的構建,這些模型可以吸收大量的訓練數(shù)據(jù),并模擬單詞在所有文本中共同出現(xiàn)的方式。結果是,這類系統(tǒng)可以生成在我們?nèi)祟惪磥矸浅?yōu)美的文本。然而,這些系統(tǒng)根本不理解自己生成的文本,也不理解文本的交流意圖,更無法反映真實的世界,更重要的是這些系統(tǒng)沒有任何能力對自己言論的真實性負責。這就是為什么 2021 年一位研究人員 Bender 及其合著者稱這些模型為“隨機鸚鵡”。

其次,無所不知的計算機,這個想法的底層概念對知識的理解有著根本性的錯誤認識。永遠不可能有一個包羅萬象的、完全正確的信息集來代表我們需要知道的一切。即便你認為未來這有可能成為現(xiàn)實,也應該很清楚“它”并不是如今的互聯(lián)網(wǎng)。在尋求信息時,我們以為自己需要找到問題的答案,但一般情況下,理解問題本身的過程才是最重要的地方——即提煉問題,尋找可能的答案,了解這些答案的來源,以及解這些答案代表的觀點。考慮以下兩個問題之間的區(qū)別:“攝氏 70 度等于多少華氏度?”以及“鑒于當前的疫情狀況和自身的風險因素,我應該采取哪些預防措施?”

搜索信息不僅僅是盡快獲得答案。當然,我們的許多問題都需要簡單的、基于事實的答案,但是更多的問題需要進行一些調(diào)查。在這種情況下,重點是我們要了解相關的信息來源。雖然這需要在用戶端付出更多努力,但此過程涉及重要的認知和情感處理,使我們能夠更好地了解自己的需求和上下文,并在使用之前更好地評估之前搜索和收集到的信息。

ChatGPT以及其他直接提供答案的對話系統(tǒng)都存在這兩方面的基本問題。首先,這些系統(tǒng)會直接生成答案,跳過了向用戶顯示信息來源的步驟。其次,這些系統(tǒng)以對話的形式通過自然語言提供答案,就好像與其他人交流一樣,這種交流會隨著時間和個人的經(jīng)歷而變化,而一直以來你一句我一句的自然語言的交流都僅限于人類之間。當我們遇到合成語言輸出時,難免也會信任它們,就像信任人類一樣。我們認為,這些系統(tǒng)需要非常謹慎地設計,避免濫用這種信任。

自 ChatGPT 發(fā)布以來,網(wǎng)絡上關于人們能使用它做什么的討論鋪天蓋地,我們非常擔心如何將這項技術呈現(xiàn)給公眾。即使是非對話形式的搜索引擎,我們也經(jīng)??吹饺藗儗λ鼈兊倪^分信任:如果搜索系統(tǒng)將某些內(nèi)容放在結果列表的頂部,我們就傾向于認為這是一個良好的、真實的或具有代表性的結果;相反,對于搜索引擎沒有找到結果,我們很容易相信它不存在。

然而,正如 Safiya Noble 在著作《Algorithms of Oppression》中警告我們的那樣,這些平臺并不是對世界現(xiàn)狀或人們談論世界的方式的中立反映,其中摻雜著各家公司的利益。作為公眾,我們迫切需要了解概念化信息訪問系統(tǒng)的工作原理,尤其是在這一刻,我們認識到,盡管表面上看來這些模型給出了流暢的答案,但并不意味著這些信息準確、有價值或可信。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉