為什么谷歌AI Overviews會(huì)給出離譜答案?或因采取統(tǒng)計(jì)計(jì)算來生成答案 發(fā)布人:深科技 時(shí)間:2024-06-02 來源:工程師 加入技術(shù)交流群 掃碼加入和技術(shù)大咖面對(duì)面交流海量資料庫查詢 發(fā)布文章 當(dāng)谷歌本月早些時(shí)候宣布推出人工智能搜索功能時(shí),該公司承諾“谷歌將替你完成谷歌搜索?!?/span>這項(xiàng)名為“人工智能概述”(AI Overviews)的新功能將提供人工智能生成的簡短摘要,在搜索結(jié)果頁面的頂部突出顯示關(guān)鍵信息和鏈接。不幸的是,人工智能系統(tǒng)天生就不可靠。AI Overviews 在美國上線的幾天內(nèi),用戶們?cè)谏缃幻襟w上分享了許多令人啼笑皆非的案例。它建議用戶在披薩中添加膠水或每天至少吃一塊小石頭。它還聲稱美國前總統(tǒng)安德魯·約翰遜(Andrew Johnson)在 1947 年至 2012 年間獲得了大學(xué)學(xué)位,但他早在 1875 年就去世了。當(dāng)?shù)貢r(shí)間 5 月 30 號(hào),谷歌搜索主管利茲·瑞德(Liz Reid)表示,該公司一直在對(duì)該系統(tǒng)進(jìn)行技術(shù)改進(jìn),以降低其產(chǎn)生錯(cuò)誤答案的可能性,包括更好地檢測(cè)無意義查詢的機(jī)制。該公司還限制了在回應(yīng)中包含諷刺、幽默和用戶生成的內(nèi)容,因?yàn)檫@些信息可能會(huì)導(dǎo)致誤導(dǎo)性建議。但為什么 AI Overviews 會(huì)返回不可靠、可能存在危險(xiǎn)的信息?有什么辦法可以解決這一問題呢(如果有的話)?為了理解為什么人工智能搜索引擎會(huì)出錯(cuò),我們需要看看它們是如何工作的。我們知道,AI Overviews 使用的是生成式人工智能模型 Gemini 的一個(gè)版本。Gemini 是谷歌的大型語言模型(LLM,large language models)家族,并為谷歌搜索進(jìn)行了定制。該模型已與谷歌的核心網(wǎng)絡(luò)排名系統(tǒng)集成,旨在從其網(wǎng)站索引中提取相關(guān)結(jié)果。大多數(shù)大型語言模型只是在預(yù)測(cè)序列中的下一個(gè)單詞(或 token),這使它們生成的內(nèi)容看起來很流暢,但同時(shí)也使它們?nèi)菀拙幵焯摷傩畔ⅰ?/span>它們沒有真實(shí)信息作為證據(jù),而是純粹根據(jù)統(tǒng)計(jì)計(jì)算來選擇每個(gè)單詞。這會(huì)導(dǎo)致“幻覺”。美國華盛頓大學(xué)專門研究在線搜索的教授奇拉格·沙阿(Chirag Shah)表示,AI Overviews 中的 Gemini 模型很可能是通過使用一種名為檢索增強(qiáng)生成(RAG,retrieval-augmented generation)的人工智能技術(shù)來解決這一問題的。該技術(shù)允許大模型檢查其訓(xùn)練數(shù)據(jù)之外的特定(信息)來源,例如某些網(wǎng)頁。(來源:SARAH ROGERS/MITTR)一旦用戶輸入查詢信息,該系統(tǒng)就會(huì)根據(jù)構(gòu)成系統(tǒng)信息源的文檔進(jìn)行檢查,并生成響應(yīng)。因?yàn)樗軌驅(qū)⒃疾樵兣c網(wǎng)頁的特定部分相匹配,所以它能夠給出答案的引用來源,這是普通大模型無法做到的。檢索增強(qiáng)生成技術(shù)的一個(gè)主要優(yōu)點(diǎn)是,它對(duì)用戶查詢生成的響應(yīng)應(yīng)該比僅基于訓(xùn)練數(shù)據(jù)生成答案的典型模型的響應(yīng)更及時(shí)、更準(zhǔn)確、更相關(guān)。這種技術(shù)經(jīng)常被用來防止大模型產(chǎn)生“幻覺”。但谷歌發(fā)言人沒有證實(shí) AI Overviews 是否使用了檢索增強(qiáng)生成技術(shù)。而檢索增強(qiáng)生成技術(shù)并非完美無缺。為了讓使用該技術(shù)的大模型得出一個(gè)好的答案,它必須正確地檢索信息并正確地生成響應(yīng)。當(dāng)這兩個(gè)步驟中的一個(gè)或全都失敗時(shí),模型就會(huì)給出一個(gè)糟糕的答案。AI Overviews 推薦在披薩里加入膠水的回應(yīng),源自于 Reddit 論壇上的一篇搞笑回帖。該帖子很可能與用戶一開始提到的如何解決奶酪不粘在披薩上的查詢有關(guān),但在檢索過程中出現(xiàn)了問題。僅僅因?yàn)閮?nèi)容是相關(guān)的并不意味著它是正確的,這個(gè)過程的信息生成步驟并不會(huì)質(zhì)疑這一點(diǎn)。同樣,如果檢索增強(qiáng)生成系統(tǒng)遇到相互沖突的信息,如老版和新版的政策手冊(cè),它將無法確定從哪個(gè)版本中獲取信息并構(gòu)建響應(yīng)。它可能會(huì)將兩者的信息結(jié)合起來,產(chǎn)生一個(gè)潛在的誤導(dǎo)性答案。荷蘭萊頓大學(xué)專門研究自然語言處理的教授蘇珊·韋伯恩(Suzan Verberne)說:“大型語言模型會(huì)根據(jù)你提供的信息來源生成流利的回復(fù),但流利的回復(fù)與正確的信息不同。”她說,一個(gè)主題越具體,在大型語言模型的輸出中出現(xiàn)錯(cuò)誤信息的幾率就越高。并補(bǔ)充道:“這個(gè)問題不僅出現(xiàn)在醫(yī)學(xué)領(lǐng)域,也出現(xiàn)在教育領(lǐng)域和科學(xué)領(lǐng)域?!?/span>谷歌發(fā)言人表示,在許多情況下,當(dāng) AI Overviews 返回錯(cuò)誤答案時(shí),是因?yàn)榫W(wǎng)絡(luò)上沒有太多高質(zhì)量的信息可供顯示,或者是因?yàn)橛脩舨樵兊臇|西與諷刺網(wǎng)站或搞笑帖子最匹配。這位發(fā)言人表示,AI Overviews 在絕大多數(shù)情況下都提供了高質(zhì)量的信息,許多錯(cuò)誤案例都是針對(duì)不常見的查詢。其補(bǔ)充說,AI Overviews 在回復(fù)中包含有害、淫穢或其他不可接受內(nèi)容的概率是 700 萬分之一,即每 700 萬個(gè)獨(dú)特查詢會(huì)導(dǎo)致一個(gè)糟糕的回復(fù)。其還表示,會(huì)繼續(xù)根據(jù)其內(nèi)容政策刪除某些查詢的 AI Overviews。盡管“披薩膠水”的錯(cuò)誤很好地展示了 AI Overviews 如何指向不可靠來源,但該系統(tǒng)也可能從事實(shí)正確的來源產(chǎn)生錯(cuò)誤信息。美國新墨西哥州圣達(dá)菲研究所的人工智能研究員梅蘭妮·米切爾(Melanie Mitchell)搜索了“美國有多少位穆斯林總統(tǒng)?”AI Overviews 回應(yīng)道:“美國有一位穆斯林總統(tǒng),巴拉克·侯賽因·奧巴馬(Barack Hussein Obama)?!?/span>巴拉克·奧巴馬不是穆斯林,因此 AI Overviews 的回應(yīng)是錯(cuò)誤的,但它是從一本名為《巴拉克·侯賽因·奧巴馬:美國第一位穆斯林總統(tǒng)?》的書中提取到的信息。因此,人工智能系統(tǒng)不僅沒有抓住文章的全部要點(diǎn),而且以與預(yù)期完全相反的方式對(duì)其進(jìn)行了解釋。人工智能有幾個(gè)問題;一個(gè)是找到一個(gè)不是玩笑的好的信息來源,另一個(gè)是正確地解釋消息來源。這是人工智能系統(tǒng)很難做到的事情,重要的是要注意,即使它得到了一個(gè)好的信息來源,它仍然會(huì)出錯(cuò)。最終,我們會(huì)知道人工智能系統(tǒng)是不可靠的,只要它們使用概率逐字逐句地生成文本,就總會(huì)有出現(xiàn)“幻覺”的風(fēng)險(xiǎn)。雖然隨著谷歌做出調(diào)整,AI Overviews 可能會(huì)有所改進(jìn),但我們永遠(yuǎn)無法確定它是否會(huì) 100% 準(zhǔn)確。該公司表示,它正在為 AI Overviews 添加觸發(fā)限制,如果對(duì)查詢沒有太多幫助的話,并為與健康相關(guān)的查詢添加了額外的“觸發(fā)改進(jìn)”。韋伯恩說,該公司可以在信息檢索過程中增加一個(gè)步驟,用于標(biāo)記有風(fēng)險(xiǎn)的查詢,并讓系統(tǒng)在這些情況下拒絕生成答案。谷歌發(fā)言人表示,該公司的目標(biāo)不是顯示危險(xiǎn)話題或脆弱狀況的 AI Overviews。從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)等技術(shù),將這種反饋納入大模型的訓(xùn)練中,也有助于提高其答案的質(zhì)量。同樣,大模型可以針對(duì)無法回答的問題進(jìn)行專門訓(xùn)練。在生成答案之前,讓它們仔細(xì)評(píng)估檢索到的文檔的質(zhì)量也很有用,因此正確的指導(dǎo)很有幫助。盡管谷歌在 AI Overviews 的答案中添加了一個(gè)標(biāo)簽,上面寫著“生成式人工智能是實(shí)驗(yàn)性的”,但它應(yīng)該考慮讓人們更清楚地知道該功能正在測(cè)試中,并強(qiáng)調(diào)它還沒有準(zhǔn)備好提供完全可靠的答案。“它現(xiàn)在還是測(cè)試版,而且還會(huì)持續(xù)一段時(shí)間,在它不再是測(cè)試版之前,它應(yīng)該是一個(gè)選項(xiàng),而不應(yīng)該作為核心搜索的一部分強(qiáng)加給用戶?!鄙嘲⒄f。支持:Ren排版:希幔 *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。