博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 為什么谷歌AI Overviews會(huì)給出離譜答案?或因采取統(tǒng)計(jì)計(jì)算來(lái)生成答案

為什么谷歌AI Overviews會(huì)給出離譜答案?或因采取統(tǒng)計(jì)計(jì)算來(lái)生成答案

發(fā)布人:深科技 時(shí)間:2024-06-02 來(lái)源:工程師 發(fā)布文章
當(dāng)谷歌本月早些時(shí)候宣布推出人工智能搜索功能時(shí),該公司承諾“谷歌將替你完成谷歌搜索?!?/span>

這項(xiàng)名為“人工智能概述”(AI Overviews)的新功能將提供人工智能生成的簡(jiǎn)短摘要,在搜索結(jié)果頁(yè)面的頂部突出顯示關(guān)鍵信息和鏈接。不幸的是,人工智能系統(tǒng)天生就不可靠。AI Overviews 在美國(guó)上線的幾天內(nèi),用戶們?cè)谏缃幻襟w上分享了許多令人啼笑皆非的案例。它建議用戶在披薩中添加膠水或每天至少吃一塊小石頭。它還聲稱(chēng)美國(guó)前總統(tǒng)安德魯·約翰遜(Andrew Johnson)在 1947 年至 2012 年間獲得了大學(xué)學(xué)位,但他早在 1875 年就去世了。當(dāng)?shù)貢r(shí)間 5 月 30 號(hào),谷歌搜索主管利茲·瑞德(Liz Reid)表示,該公司一直在對(duì)該系統(tǒng)進(jìn)行技術(shù)改進(jìn),以降低其產(chǎn)生錯(cuò)誤答案的可能性,包括更好地檢測(cè)無(wú)意義查詢(xún)的機(jī)制。該公司還限制了在回應(yīng)中包含諷刺、幽默和用戶生成的內(nèi)容,因?yàn)檫@些信息可能會(huì)導(dǎo)致誤導(dǎo)性建議。但為什么 AI Overviews 會(huì)返回不可靠、可能存在危險(xiǎn)的信息?有什么辦法可以解決這一問(wèn)題呢(如果有的話)?為了理解為什么人工智能搜索引擎會(huì)出錯(cuò),我們需要看看它們是如何工作的。我們知道,AI Overviews 使用的是生成式人工智能模型 Gemini 的一個(gè)版本。Gemini 是谷歌的大型語(yǔ)言模型(LLM,large language models)家族,并為谷歌搜索進(jìn)行了定制。該模型已與谷歌的核心網(wǎng)絡(luò)排名系統(tǒng)集成,旨在從其網(wǎng)站索引中提取相關(guān)結(jié)果。大多數(shù)大型語(yǔ)言模型只是在預(yù)測(cè)序列中的下一個(gè)單詞(或 token),這使它們生成的內(nèi)容看起來(lái)很流暢,但同時(shí)也使它們?nèi)菀拙幵焯摷傩畔ⅰ?/span>它們沒(méi)有真實(shí)信息作為證據(jù),而是純粹根據(jù)統(tǒng)計(jì)計(jì)算來(lái)選擇每個(gè)單詞。這會(huì)導(dǎo)致“幻覺(jué)”。美國(guó)華盛頓大學(xué)專(zhuān)門(mén)研究在線搜索的教授奇拉格·沙阿(Chirag Shah)表示,AI Overviews 中的 Gemini 模型很可能是通過(guò)使用一種名為檢索增強(qiáng)生成(RAG,retrieval-augmented generation)的人工智能技術(shù)來(lái)解決這一問(wèn)題的。該技術(shù)允許大模型檢查其訓(xùn)練數(shù)據(jù)之外的特定(信息)來(lái)源,例如某些網(wǎng)頁(yè)。圖片(來(lái)源:SARAH ROGERS/MITTR)一旦用戶輸入查詢(xún)信息,該系統(tǒng)就會(huì)根據(jù)構(gòu)成系統(tǒng)信息源的文檔進(jìn)行檢查,并生成響應(yīng)。因?yàn)樗軌驅(qū)⒃疾樵?xún)與網(wǎng)頁(yè)的特定部分相匹配,所以它能夠給出答案的引用來(lái)源,這是普通大模型無(wú)法做到的。檢索增強(qiáng)生成技術(shù)的一個(gè)主要優(yōu)點(diǎn)是,它對(duì)用戶查詢(xún)生成的響應(yīng)應(yīng)該比僅基于訓(xùn)練數(shù)據(jù)生成答案的典型模型的響應(yīng)更及時(shí)、更準(zhǔn)確、更相關(guān)。這種技術(shù)經(jīng)常被用來(lái)防止大模型產(chǎn)生“幻覺(jué)”。但谷歌發(fā)言人沒(méi)有證實(shí) AI Overviews 是否使用了檢索增強(qiáng)生成技術(shù)。而檢索增強(qiáng)生成技術(shù)并非完美無(wú)缺。為了讓使用該技術(shù)的大模型得出一個(gè)好的答案,它必須正確地檢索信息并正確地生成響應(yīng)。當(dāng)這兩個(gè)步驟中的一個(gè)或全都失敗時(shí),模型就會(huì)給出一個(gè)糟糕的答案。AI Overviews 推薦在披薩里加入膠水的回應(yīng),源自于 Reddit 論壇上的一篇搞笑回帖。該帖子很可能與用戶一開(kāi)始提到的如何解決奶酪不粘在披薩上的查詢(xún)有關(guān),但在檢索過(guò)程中出現(xiàn)了問(wèn)題。僅僅因?yàn)閮?nèi)容是相關(guān)的并不意味著它是正確的,這個(gè)過(guò)程的信息生成步驟并不會(huì)質(zhì)疑這一點(diǎn)。同樣,如果檢索增強(qiáng)生成系統(tǒng)遇到相互沖突的信息,如老版和新版的政策手冊(cè),它將無(wú)法確定從哪個(gè)版本中獲取信息并構(gòu)建響應(yīng)。它可能會(huì)將兩者的信息結(jié)合起來(lái),產(chǎn)生一個(gè)潛在的誤導(dǎo)性答案。荷蘭萊頓大學(xué)專(zhuān)門(mén)研究自然語(yǔ)言處理的教授蘇珊·韋伯恩(Suzan Verberne)說(shuō):“大型語(yǔ)言模型會(huì)根據(jù)你提供的信息來(lái)源生成流利的回復(fù),但流利的回復(fù)與正確的信息不同?!?/span>她說(shuō),一個(gè)主題越具體,在大型語(yǔ)言模型的輸出中出現(xiàn)錯(cuò)誤信息的幾率就越高。并補(bǔ)充道:“這個(gè)問(wèn)題不僅出現(xiàn)在醫(yī)學(xué)領(lǐng)域,也出現(xiàn)在教育領(lǐng)域和科學(xué)領(lǐng)域?!?/span>谷歌發(fā)言人表示,在許多情況下,當(dāng) AI Overviews 返回錯(cuò)誤答案時(shí),是因?yàn)榫W(wǎng)絡(luò)上沒(méi)有太多高質(zhì)量的信息可供顯示,或者是因?yàn)橛脩舨樵?xún)的東西與諷刺網(wǎng)站或搞笑帖子最匹配。這位發(fā)言人表示,AI Overviews 在絕大多數(shù)情況下都提供了高質(zhì)量的信息,許多錯(cuò)誤案例都是針對(duì)不常見(jiàn)的查詢(xún)。其補(bǔ)充說(shuō),AI Overviews 在回復(fù)中包含有害、淫穢或其他不可接受內(nèi)容的概率是 700 萬(wàn)分之一,即每 700 萬(wàn)個(gè)獨(dú)特查詢(xún)會(huì)導(dǎo)致一個(gè)糟糕的回復(fù)。其還表示,會(huì)繼續(xù)根據(jù)其內(nèi)容政策刪除某些查詢(xún)的 AI Overviews。盡管“披薩膠水”的錯(cuò)誤很好地展示了 AI Overviews 如何指向不可靠來(lái)源,但該系統(tǒng)也可能從事實(shí)正確的來(lái)源產(chǎn)生錯(cuò)誤信息。美國(guó)新墨西哥州圣達(dá)菲研究所的人工智能研究員梅蘭妮·米切爾(Melanie Mitchell)搜索了“美國(guó)有多少位穆斯林總統(tǒng)?”AI Overviews 回應(yīng)道:“美國(guó)有一位穆斯林總統(tǒng),巴拉克·侯賽因·奧巴馬(Barack Hussein Obama)?!?/span>巴拉克·奧巴馬不是穆斯林,因此 AI Overviews 的回應(yīng)是錯(cuò)誤的,但它是從一本名為《巴拉克·侯賽因·奧巴馬:美國(guó)第一位穆斯林總統(tǒng)?》的書(shū)中提取到的信息。因此,人工智能系統(tǒng)不僅沒(méi)有抓住文章的全部要點(diǎn),而且以與預(yù)期完全相反的方式對(duì)其進(jìn)行了解釋。人工智能有幾個(gè)問(wèn)題;一個(gè)是找到一個(gè)不是玩笑的好的信息來(lái)源,另一個(gè)是正確地解釋消息來(lái)源。這是人工智能系統(tǒng)很難做到的事情,重要的是要注意,即使它得到了一個(gè)好的信息來(lái)源,它仍然會(huì)出錯(cuò)。最終,我們會(huì)知道人工智能系統(tǒng)是不可靠的,只要它們使用概率逐字逐句地生成文本,就總會(huì)有出現(xiàn)“幻覺(jué)”的風(fēng)險(xiǎn)。雖然隨著谷歌做出調(diào)整,AI Overviews 可能會(huì)有所改進(jìn),但我們永遠(yuǎn)無(wú)法確定它是否會(huì) 100% 準(zhǔn)確。該公司表示,它正在為 AI Overviews 添加觸發(fā)限制,如果對(duì)查詢(xún)沒(méi)有太多幫助的話,并為與健康相關(guān)的查詢(xún)添加了額外的“觸發(fā)改進(jìn)”。韋伯恩說(shuō),該公司可以在信息檢索過(guò)程中增加一個(gè)步驟,用于標(biāo)記有風(fēng)險(xiǎn)的查詢(xún),并讓系統(tǒng)在這些情況下拒絕生成答案。谷歌發(fā)言人表示,該公司的目標(biāo)不是顯示危險(xiǎn)話題或脆弱狀況的 AI Overviews。從人類(lèi)反饋中進(jìn)行強(qiáng)化學(xué)習(xí)等技術(shù),將這種反饋納入大模型的訓(xùn)練中,也有助于提高其答案的質(zhì)量。同樣,大模型可以針對(duì)無(wú)法回答的問(wèn)題進(jìn)行專(zhuān)門(mén)訓(xùn)練。在生成答案之前,讓它們仔細(xì)評(píng)估檢索到的文檔的質(zhì)量也很有用,因此正確的指導(dǎo)很有幫助。盡管谷歌在 AI Overviews 的答案中添加了一個(gè)標(biāo)簽,上面寫(xiě)著“生成式人工智能是實(shí)驗(yàn)性的”,但它應(yīng)該考慮讓人們更清楚地知道該功能正在測(cè)試中,并強(qiáng)調(diào)它還沒(méi)有準(zhǔn)備好提供完全可靠的答案。“它現(xiàn)在還是測(cè)試版,而且還會(huì)持續(xù)一段時(shí)間,在它不再是測(cè)試版之前,它應(yīng)該是一個(gè)選項(xiàng),而不應(yīng)該作為核心搜索的一部分強(qiáng)加給用戶?!鄙嘲⒄f(shuō)。

支持:Ren


排版:希幔


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉