為什么谷歌AI Overviews會(huì)給出離譜答案？或因采取統(tǒng)計(jì)計(jì)算來(lái)生成答案

發(fā)布人：深科技時(shí)間：2024-06-02 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

當(dāng)谷歌本月早些時(shí)候宣布推出人工智能搜索功能時(shí)，該公司承諾“谷歌將替你完成谷歌搜索?！?/span>

這項(xiàng)名為“人工智能概述”（AI Overviews）的新功能將提供人工智能生成的簡(jiǎn)短摘要，在搜索結(jié)果頁(yè)面的頂部突出顯示關(guān)鍵信息和鏈接。不幸的是，人工智能系統(tǒng)天生就不可靠。AI Overviews 在美國(guó)上線的幾天內(nèi)，用戶們?cè)谏缃幻襟w上分享了許多令人啼笑皆非的案例。它建議用戶在披薩中添加膠水或每天至少吃一塊小石頭。它還聲稱美國(guó)前總統(tǒng)安德魯·約翰遜（Andrew Johnson）在 1947 年至 2012 年間獲得了大學(xué)學(xué)位，但他早在 1875 年就去世了。當(dāng)?shù)貢r(shí)間 5 月 30 號(hào)，谷歌搜索主管利茲·瑞德（Liz Reid）表示，該公司一直在對(duì)該系統(tǒng)進(jìn)行技術(shù)改進(jìn)，以降低其產(chǎn)生錯(cuò)誤答案的可能性，包括更好地檢測(cè)無(wú)意義查詢的機(jī)制。該公司還限制了在回應(yīng)中包含諷刺、幽默和用戶生成的內(nèi)容，因?yàn)檫@些信息可能會(huì)導(dǎo)致誤導(dǎo)性建議。但為什么 AI Overviews 會(huì)返回不可靠、可能存在危險(xiǎn)的信息？有什么辦法可以解決這一問(wèn)題呢（如果有的話）？為了理解為什么人工智能搜索引擎會(huì)出錯(cuò)，我們需要看看它們是如何工作的。我們知道，AI Overviews 使用的是生成式人工智能模型 Gemini 的一個(gè)版本。Gemini 是谷歌的大型語(yǔ)言模型（LLM，large language models）家族，并為谷歌搜索進(jìn)行了定制。該模型已與谷歌的核心網(wǎng)絡(luò)排名系統(tǒng)集成，旨在從其網(wǎng)站索引中提取相關(guān)結(jié)果。大多數(shù)大型語(yǔ)言模型只是在預(yù)測(cè)序列中的下一個(gè)單詞（或 token），這使它們生成的內(nèi)容看起來(lái)很流暢，但同時(shí)也使它們?nèi)菀拙幵焯摷傩畔ⅰ?/span>它們沒(méi)有真實(shí)信息作為證據(jù)，而是純粹根據(jù)統(tǒng)計(jì)計(jì)算來(lái)選擇每個(gè)單詞。這會(huì)導(dǎo)致“幻覺(jué)”。美國(guó)華盛頓大學(xué)專門(mén)研究在線搜索的教授奇拉格·沙阿（Chirag Shah）表示，AI Overviews 中的 Gemini 模型很可能是通過(guò)使用一種名為檢索增強(qiáng)生成（RAG，retrieval-augmented generation）的人工智能技術(shù)來(lái)解決這一問(wèn)題的。該技術(shù)允許大模型檢查其訓(xùn)練數(shù)據(jù)之外的特定（信息）來(lái)源，例如某些網(wǎng)頁(yè)。

（來(lái)源：SARAH ROGERS/MITTR）一旦用戶輸入查詢信息，該系統(tǒng)就會(huì)根據(jù)構(gòu)成系統(tǒng)信息源的文檔進(jìn)行檢查，并生成響應(yīng)。因?yàn)樗軌驅(qū)⒃疾樵兣c網(wǎng)頁(yè)的特定部分相匹配，所以它能夠給出答案的引用來(lái)源，這是普通大模型無(wú)法做到的。檢索增強(qiáng)生成技術(shù)的一個(gè)主要優(yōu)點(diǎn)是，它對(duì)用戶查詢生成的響應(yīng)應(yīng)該比僅基于訓(xùn)練數(shù)據(jù)生成答案的典型模型的響應(yīng)更及時(shí)、更準(zhǔn)確、更相關(guān)。這種技術(shù)經(jīng)常被用來(lái)防止大模型產(chǎn)生“幻覺(jué)”。但谷歌發(fā)言人沒(méi)有證實(shí) AI Overviews 是否使用了檢索增強(qiáng)生成技術(shù)。而檢索增強(qiáng)生成技術(shù)并非完美無(wú)缺。為了讓使用該技術(shù)的大模型得出一個(gè)好的答案，它必須正確地檢索信息并正確地生成響應(yīng)。當(dāng)這兩個(gè)步驟中的一個(gè)或全都失敗時(shí)，模型就會(huì)給出一個(gè)糟糕的答案。AI Overviews 推薦在披薩里加入膠水的回應(yīng)，源自于 Reddit 論壇上的一篇搞笑回帖。該帖子很可能與用戶一開(kāi)始提到的如何解決奶酪不粘在披薩上的查詢有關(guān)，但在檢索過(guò)程中出現(xiàn)了問(wèn)題。僅僅因?yàn)閮?nèi)容是相關(guān)的并不意味著它是正確的，這個(gè)過(guò)程的信息生成步驟并不會(huì)質(zhì)疑這一點(diǎn)。同樣，如果檢索增強(qiáng)生成系統(tǒng)遇到相互沖突的信息，如老版和新版的政策手冊(cè)，它將無(wú)法確定從哪個(gè)版本中獲取信息并構(gòu)建響應(yīng)。它可能會(huì)將兩者的信息結(jié)合起來(lái)，產(chǎn)生一個(gè)潛在的誤導(dǎo)性答案。荷蘭萊頓大學(xué)專門(mén)研究自然語(yǔ)言處理的教授蘇珊·韋伯恩（Suzan Verberne）說(shuō)：“大型語(yǔ)言模型會(huì)根據(jù)你提供的信息來(lái)源生成流利的回復(fù)，但流利的回復(fù)與正確的信息不同?！?/span>她說(shuō)，一個(gè)主題越具體，在大型語(yǔ)言模型的輸出中出現(xiàn)錯(cuò)誤信息的幾率就越高。并補(bǔ)充道：“這個(gè)問(wèn)題不僅出現(xiàn)在醫(yī)學(xué)領(lǐng)域，也出現(xiàn)在教育領(lǐng)域和科學(xué)領(lǐng)域?！?/span>谷歌發(fā)言人表示，在許多情況下，當(dāng) AI Overviews 返回錯(cuò)誤答案時(shí)，是因?yàn)榫W(wǎng)絡(luò)上沒(méi)有太多高質(zhì)量的信息可供顯示，或者是因?yàn)橛脩舨樵兊臇|西與諷刺網(wǎng)站或搞笑帖子最匹配。這位發(fā)言人表示，AI Overviews 在絕大多數(shù)情況下都提供了高質(zhì)量的信息，許多錯(cuò)誤案例都是針對(duì)不常見(jiàn)的查詢。其補(bǔ)充說(shuō)，AI Overviews 在回復(fù)中包含有害、淫穢或其他不可接受內(nèi)容的概率是 700 萬(wàn)分之一，即每 700 萬(wàn)個(gè)獨(dú)特查詢會(huì)導(dǎo)致一個(gè)糟糕的回復(fù)。其還表示，會(huì)繼續(xù)根據(jù)其內(nèi)容政策刪除某些查詢的 AI Overviews。盡管“披薩膠水”的錯(cuò)誤很好地展示了 AI Overviews 如何指向不可靠來(lái)源，但該系統(tǒng)也可能從事實(shí)正確的來(lái)源產(chǎn)生錯(cuò)誤信息。美國(guó)新墨西哥州圣達(dá)菲研究所的人工智能研究員梅蘭妮·米切爾（Melanie Mitchell）搜索了“美國(guó)有多少位穆斯林總統(tǒng)？”AI Overviews 回應(yīng)道：“美國(guó)有一位穆斯林總統(tǒng)，巴拉克·侯賽因·奧巴馬（Barack Hussein Obama）。”巴拉克·奧巴馬不是穆斯林，因此 AI Overviews 的回應(yīng)是錯(cuò)誤的，但它是從一本名為《巴拉克·侯賽因·奧巴馬：美國(guó)第一位穆斯林總統(tǒng)？》的書(shū)中提取到的信息。因此，人工智能系統(tǒng)不僅沒(méi)有抓住文章的全部要點(diǎn)，而且以與預(yù)期完全相反的方式對(duì)其進(jìn)行了解釋。人工智能有幾個(gè)問(wèn)題；一個(gè)是找到一個(gè)不是玩笑的好的信息來(lái)源，另一個(gè)是正確地解釋消息來(lái)源。這是人工智能系統(tǒng)很難做到的事情，重要的是要注意，即使它得到了一個(gè)好的信息來(lái)源，它仍然會(huì)出錯(cuò)。最終，我們會(huì)知道人工智能系統(tǒng)是不可靠的，只要它們使用概率逐字逐句地生成文本，就總會(huì)有出現(xiàn)“幻覺(jué)”的風(fēng)險(xiǎn)。雖然隨著谷歌做出調(diào)整，AI Overviews 可能會(huì)有所改進(jìn)，但我們永遠(yuǎn)無(wú)法確定它是否會(huì) 100% 準(zhǔn)確。該公司表示，它正在為 AI Overviews 添加觸發(fā)限制，如果對(duì)查詢沒(méi)有太多幫助的話，并為與健康相關(guān)的查詢添加了額外的“觸發(fā)改進(jìn)”。韋伯恩說(shuō)，該公司可以在信息檢索過(guò)程中增加一個(gè)步驟，用于標(biāo)記有風(fēng)險(xiǎn)的查詢，并讓系統(tǒng)在這些情況下拒絕生成答案。谷歌發(fā)言人表示，該公司的目標(biāo)不是顯示危險(xiǎn)話題或脆弱狀況的 AI Overviews。從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)等技術(shù)，將這種反饋納入大模型的訓(xùn)練中，也有助于提高其答案的質(zhì)量。同樣，大模型可以針對(duì)無(wú)法回答的問(wèn)題進(jìn)行專門(mén)訓(xùn)練。在生成答案之前，讓它們仔細(xì)評(píng)估檢索到的文檔的質(zhì)量也很有用，因此正確的指導(dǎo)很有幫助。盡管谷歌在 AI Overviews 的答案中添加了一個(gè)標(biāo)簽，上面寫(xiě)著“生成式人工智能是實(shí)驗(yàn)性的”，但它應(yīng)該考慮讓人們更清楚地知道該功能正在測(cè)試中，并強(qiáng)調(diào)它還沒(méi)有準(zhǔn)備好提供完全可靠的答案。“它現(xiàn)在還是測(cè)試版，而且還會(huì)持續(xù)一段時(shí)間，在它不再是測(cè)試版之前，它應(yīng)該是一個(gè)選項(xiàng)，而不應(yīng)該作為核心搜索的一部分強(qiáng)加給用戶。”沙阿說(shuō)。

支持：Ren

排版：希幔

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

為什么谷歌AI Overviews會(huì)給出離譜答案？或因采取統(tǒng)計(jì)計(jì)算來(lái)生成答案

相關(guān)推薦

技術(shù)專區(qū)