博客專欄

EEPW首頁 > 博客 > 微軟與谷歌之戰(zhàn):語言模型會(huì)取代搜索引擎嗎

微軟與谷歌之戰(zhàn):語言模型會(huì)取代搜索引擎嗎

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-05-28 來源:工程師 發(fā)布文章

圖片


作者 | Alberto Romero譯者 | 王強(qiáng)策劃 | 劉燕

ChatGPT 是一種針對(duì)對(duì)話交流場景優(yōu)化的強(qiáng)大語言模型(LM),我認(rèn)為它現(xiàn)在是世界上表現(xiàn)最出色的聊天機(jī)器人——盡管它的這一地位可能不會(huì)持續(xù)太長時(shí)間。

在 ChatGPT 模型于 2022 年 11 月 30 日發(fā)布后,人們很快意識(shí)到,它的存在意味著 LM 有可能在短期內(nèi)超越傳統(tǒng)搜索引擎(SE),成為在線信息檢索的主要手段。推而廣之,這意味著谷歌在搜索領(lǐng)域長達(dá)兩個(gè)十年的霸主地位可能岌岌可危。

微軟推出 ChatGPT 模型的新版 Bing 服務(wù)的消息,重新點(diǎn)燃了關(guān)于 LM 與 SE 地位的爭論。盡管沒人真的知道故事將如何進(jìn)行下去,但在一件事上人們幾乎達(dá)成了共識(shí);以某種方式,LM 和搜索很可能在未來成為一個(gè)更大整體中不可分割的部分。

就像地心引力將我們拉向地面一樣,技術(shù)自發(fā)地朝著一個(gè)方向流動(dòng),也就是“讓我們的生活變得更加美好”——讓人想起熱力學(xué)定律描述的圖景。LM 更直觀,與它們交互對(duì)我們來說是很自然的事情?!癝E 要么改變要么消亡”似乎是不可避免的結(jié)果。

我知道,這聽起來像是典型的,不可證偽的那種胡亂預(yù)測。但起碼我們能設(shè)法回答一些答案未知的問題:ChatGPT 是否對(duì)谷歌構(gòu)成真正的威脅?微軟能擊敗谷歌嗎?這家搜索巨頭能否做出足夠的反應(yīng)?最終哪家公司會(huì)拔得頭籌?LM 會(huì)取代搜索嗎?會(huì)成為搜索引擎的重要補(bǔ)充嗎?LM 將在哪些方面改進(jìn)或弱化搜索技術(shù)?這一切將如何以及何時(shí)發(fā)生?

我們來試著回答其中的一些問題,了解 LM 和 SE 在未來將如何互動(dòng),微軟、谷歌和 OpenAI 對(duì)這一切有何看法,再談?wù)勎艺J(rèn)為未來幾個(gè)月 / 幾年的故事將如何展開。

語言模型和搜索引擎

在 ChatGPT 公開的那天,一位名叫 josh 的 Twitter 用戶首先提出了這個(gè)觀點(diǎn):“谷歌完蛋了?!逼渌耍热绗F(xiàn)在已經(jīng)是前推特員工的 George Hotz 同意這個(gè)看法——但并不是每個(gè)人都得出了相同的結(jié)論。

Gary Marcus 教授用經(jīng)驗(yàn)證據(jù)反駁了 George Hotz 的觀點(diǎn),谷歌的 Fran?ois Chollet 也指出了類似的問題:“搜索是搜索問題,而不是生成問題:”

圖片

我同意 Marcus 和 Chollet 的觀點(diǎn)。LM 本身并不是為超越 SE 而打造的。然而,SE 可以為搜索技術(shù)帶來重大改進(jìn),以至于那些不集成很多基于 LM 的功能的 SE 將遲早過時(shí)。

如果我們接受這個(gè)假設(shè),那么很容易看出最有機(jī)會(huì)將 LM 和搜索結(jié)合起來的公司就是谷歌,不是 OpenAI,不是微軟。谷歌在這兩個(gè)領(lǐng)域上單拿出來都有著無與倫比的世界領(lǐng)先地位。盡管 OpenAI 很受歡迎,但 GPT-3、ChatGPT 和所有類似模型都是基于谷歌的技術(shù),谷歌的 SE 占據(jù)了 4/5 的市場份額。

正如 Stability 的 Emad Mostaque 所說,如果該公司沒有出產(chǎn)那么多人工智能產(chǎn)品,那是因?yàn)樗摹爸贫榷栊浴?。谷歌在研究深度和廣度指標(biāo)上無疑是全球領(lǐng)先的人工智能公司。

然而,正如受歡迎的投資者 Balaji Srinivasan 所說的那樣,研究和生產(chǎn)是兩個(gè)完全不同的領(lǐng)域:谷歌不能承擔(dān)從頭開始重組其 SE,以使用 LM 為其提供動(dòng)力所面臨的風(fēng)險(xiǎn)。多年來,該公司推出了一系列新的搜索功能和漸進(jìn)式改進(jìn),但不會(huì)像微軟以及其他公司,如 Perplexity、You 和 Neeva 那樣做出可能是革命性的舉動(dòng)。

圖片

我對(duì) LM 與 SE 相關(guān)爭論的看法可以總結(jié)如下:”搜索引擎的局限大得多,但它也是專門為線上搜索優(yōu)化的……但我不認(rèn)為傳統(tǒng)搜索引擎是 LM 的對(duì)手?!边@里的關(guān)鍵詞(原文沒有提到這一點(diǎn))是“傳統(tǒng)的”。

SE 仍將生存下去,但它們會(huì)和今天的 SE 非常不同,甚至完全看不出來是同樣的東西。LM 很可能就是這一差異的背后原因。

(我不會(huì)詳細(xì)討論將 LM 集成到 SE 中是否是個(gè)好主意。Gary Marcus 在這方面有一篇很棒的文章,我?guī)缀跬耆馑挠^點(diǎn):“Is ChatGPT Really a “CodeRed” for Google Search?”)

微軟 vs 谷歌:

跨越時(shí)代的科技戰(zhàn)爭

微軟對(duì) OpenAI 的 10 億美元投資——以及他們獲得后者部分 AI 技術(shù)棧的獨(dú)家許可——是其對(duì)該領(lǐng)域擁有濃厚興趣的明確信號(hào)。他們計(jì)劃將 DALL-E 和 ChatGPT 集成到他們的服務(wù)中也就不足為奇了。正如 Tom Warren 所寫,增強(qiáng)版的 Bing SE 可以“挑戰(zhàn)谷歌的主導(dǎo)地位”。

當(dāng)然,我們的想法不是用 LM 代替 SE,而是對(duì)其進(jìn)行補(bǔ)充。微軟發(fā)言人告訴彭博社,“對(duì)用戶查詢的對(duì)話式和上下文式回復(fù)將為搜索用戶提供比一串鏈接質(zhì)量更好的答案,從而贏得更多用戶。”

與谷歌不同,微軟非常清楚 LM 不如 SE 可靠。該公司必須要評(píng)估將一些人們不能 100% 依賴的功能部署到生產(chǎn)環(huán)境的風(fēng)險(xiǎn),雖然這些功能可能會(huì)為它贏得與谷歌戰(zhàn)爭的優(yōu)勢。微軟正在“權(quán)衡……聊天機(jī)器人的準(zhǔn)確性,初始版本可能是對(duì)一小部分用戶的有限測試?!甭犉饋硎莻€(gè)合理的開始。

但是,如果有人比微軟更了解 LM 可以做什么和不能做什么,那就是谷歌。在一篇 2021 年的論文中——其發(fā)表時(shí)間甚至在 ChatGPT 還只是一個(gè)想法之前——谷歌研究人員探討了使用 LM 來“重新思考 [] 搜索”的問題。

他們考慮了我們是否可以這樣做,更重要的是,是否應(yīng)該這樣做:

“經(jīng)典信息檢索系統(tǒng) [即傳統(tǒng)的 SE] 不直接回答信息需求,而是提供對(duì)(希望是權(quán)威的)答案的參考。

……

相比之下,預(yù)訓(xùn)練的語言模型能夠直接生成可能對(duì)信息需求做出響應(yīng)的文字段落,但目前它們只是業(yè)余愛好者水平而不是領(lǐng)域?qū)<宜健鼈儗?duì)世界沒有真正的理解,它們更容易異想天開,而且至關(guān)重要的是,它們無法通過參考訓(xùn)練它們的語料庫中的支持文件來證明自己的言論是正確的?!?/span>

谷歌的最終結(jié)論是,使用類似 ChatGPT 的系統(tǒng)來增強(qiáng)其 SE 將帶來很高的“聲譽(yù)風(fēng)險(xiǎn)”。CEO Sundar Pichai 和 AI 負(fù)責(zé)人 Jeff Dean 告訴 CNBC,“如果出現(xiàn)問題,這種做法的成本會(huì) [比 OpenAI] 更高,因?yàn)槿藗儽仨毾嘈潘麄儚墓雀璜@得的答案?!?/p>

谷歌于 2021 年 5 月宣布推出 LaMDA(但并未發(fā)布)。鑒于 LaMDA 與 ChatGPT 至少旗鼓相當(dāng),(Blake Lemoine 是這樣說的)——我們有理由質(zhì)疑為什么谷歌沒有利用它來應(yīng)對(duì)像 OpenAI 這樣的威脅。Balaji Srinivasan 猜測這是因?yàn)樵摴緵]有足夠的“風(fēng)險(xiǎn)預(yù)算”,事實(shí)證明他是對(duì)的。

像谷歌這樣的大公司為數(shù)十億用戶(而不是像 OpenAI 那樣只有幾百萬)提供像谷歌搜索這樣的高可靠性服務(wù),不能僅僅因?yàn)橐豁?xiàng)技術(shù)似乎代表未來,每個(gè)人就都要為之瘋狂。

但谷歌的高管們不是傻子。他們知道 ChatGPT 由一家規(guī)模小得多、風(fēng)險(xiǎn)規(guī)避程度低得多的公司掌控,這確實(shí)是一種威脅——當(dāng)像微軟這樣的直接競爭對(duì)手擁有大量股份時(shí)更是如此。據(jù)《紐約時(shí)報(bào)》報(bào)道,這就是他們宣布 ChatGPT 為“紅色代碼”的原因:

“……隨著一種有望重塑甚至取代傳統(tǒng)搜索引擎的新型聊天機(jī)器人技術(shù)的出現(xiàn),谷歌可能面臨對(duì)其主要搜索業(yè)務(wù)的第一個(gè)嚴(yán)重威脅。一位谷歌高管將這些工作描述為決定谷歌未來的成敗。

……

谷歌必須應(yīng)對(duì)競爭,否則該行業(yè)可能會(huì)在拋棄它的情況下繼續(xù)發(fā)展……”

就目前的情況來看,谷歌面臨著微軟(在搜索領(lǐng)域是一個(gè)強(qiáng)大的直接競爭對(duì)手)和 OpenAI(后者擁有同水平的人工智能技術(shù),雖說其預(yù)算要緊得多)的挑戰(zhàn),同時(shí),谷歌還要努力平衡 LM 由于其內(nèi)在的不可靠性帶來的聲譽(yù)風(fēng)險(xiǎn),以及它們?cè)陲L(fēng)險(xiǎn)厭惡程度較低的初創(chuàng)公司手中這一事實(shí)所構(gòu)成的明確威脅。

正如 Pichai 所說,谷歌必須“大膽而負(fù)責(zé)任”,找到折衷方案?!拔覀儼堰@件事做好是非常重要的,”Dean 總結(jié)道。

我對(duì)故事將如何展開的預(yù)測

鑒于目前的情況,我認(rèn)為如果要預(yù)測接下來會(huì)發(fā)生什么以及如何發(fā)生,我們需要關(guān)注三個(gè)關(guān)鍵點(diǎn)。首先,谷歌到底在和誰競爭,才會(huì)將“聲譽(yù)風(fēng)險(xiǎn)”報(bào)告為未來其面對(duì)的主要障礙?其次,是否有可能使用 LM 和當(dāng)前的 AI 安全技術(shù)來“獲得完善的版本”?第三,如果這件事可以做到并且公司認(rèn)為應(yīng)該這樣做,是否可以從中衍生出可行的商業(yè)模式?

谷歌真正的敵人

當(dāng)我讀到 Pichai 和 Dean 關(guān)于 ChatGPT 威脅的論點(diǎn)時(shí),我注意到了一些奇怪的事情:他們似乎在暗示谷歌正在與 OpenAI 競爭。事實(shí)上,OpenAI 的技術(shù)是谷歌高管眼中的“紅色代碼”,但我認(rèn)為 OpenAI 不會(huì)對(duì)谷歌構(gòu)成威脅——這是錯(cuò)誤的構(gòu)想。

一方面,OpenAI 在技術(shù)研究和人工智能專業(yè)知識(shí)方面無法與谷歌匹敵。谷歌的預(yù)算和人才遠(yuǎn)遠(yuǎn)超過 OpenAI——光是從數(shù)字上就能看出來。正如 Emad Mostaque 所說:

圖片

另一方面,OpenAI 不想與谷歌競爭。

OpenAI 的聲譽(yù)風(fēng)險(xiǎn)遠(yuǎn)低于谷歌,因?yàn)樗且患蚁喈?dāng)新的小型公司,充其量只為幾百萬用戶提供服務(wù),而據(jù)估計(jì),全球有超過 40 億人使用谷歌搜索,他們占據(jù)了驚人的 84% 的市場份額。

然而,OpenAI 的目標(biāo)是構(gòu)建有益的通用人工智能(AGI)。他們?yōu)槭裁匆爸艞壱粋€(gè)可以說是更優(yōu)越的目標(biāo)的風(fēng)險(xiǎn),在一個(gè)與他們的主要目標(biāo)完全不重疊的領(lǐng)域與一家更大的公司對(duì)抗呢?

即使 OpenAI 主要追求的是經(jīng)濟(jì)利益(不可否認(rèn),戰(zhàn)勝谷歌將帶來無可估量的巨大財(cái)富),該公司也有更好的,不會(huì)與其長期目標(biāo)相沖突的選擇,比如建立付費(fèi)訂閱或支付 - 使用模型,就像他們現(xiàn)在所做的那樣(例如 GPT-3 和 DALL-E)。

就影響力、規(guī)模、預(yù)算以及最重要的目標(biāo)而言,谷歌真正的競爭對(duì)手是微軟。但是,如果我們以這種方式看待它,谷歌不得不面對(duì)更高聲譽(yù)風(fēng)險(xiǎn)的論點(diǎn)就站不住腳了。微軟的用戶數(shù)量與谷歌相當(dāng),微軟也必須維護(hù)其精心打造的聲譽(yù)——其在 2016 年關(guān)閉種族主義聊天機(jī)器人 Tay 的決定就體現(xiàn)了這一點(diǎn)。

支持“聲譽(yù)風(fēng)險(xiǎn)”觀點(diǎn)的一個(gè)論據(jù)是,微軟的搜索市場份額比谷歌小太多了。然而,如果微軟將 LM 和搜索結(jié)合起來的嘗試取得成功,他們的用戶數(shù)量會(huì)大幅增長,因此聲譽(yù)風(fēng)險(xiǎn)也會(huì)相應(yīng)增加。

留給微軟回答的問題是,他們是否愿意冒著聲譽(yù)風(fēng)險(xiǎn)做出將 ChatGPT 集成到 Bing 的決定,讓越來越多的用戶被新服務(wù)的更強(qiáng)大功能吸引進(jìn)來,只是為了有機(jī)會(huì)推翻谷歌。

谷歌打算如何應(yīng)對(duì)?

“完善”是一個(gè)聽起來好聽卻不可行的目標(biāo)

Jeff Dean 的解釋是,谷歌正在等待“技術(shù)完善”,這讓我想起了我對(duì)將道德原則嵌入 AI 模型和打擊錯(cuò)誤信息的舉措曾有著天真的期望。我認(rèn)為,以后也會(huì)繼續(xù)堅(jiān)持說這些工作是最重要的,但我可以看到,雖然它們?cè)诶碚撋鲜欠浅@硐氲?,但在?shí)踐中卻變得幾乎不可推行下去。

在我看來,按照 Dean 在這里所說的意思,完善 LM 的唯一方法是重新定義、重新設(shè)計(jì)和完全重建它們。如果像 Gary Marcus 所猜測的那樣,他們只是沒有足夠的能力做到真實(shí)、真實(shí)、可靠和中立,那么就沒有任何臨時(shí)抱佛腳的方法能夠遏制源自 LM 所學(xué)習(xí)的數(shù)據(jù)中的那些惡行。

一種可能是,一旦有公司試圖將 SE 與 LM 結(jié)合起來,保障前者可靠性的所有關(guān)鍵特性都會(huì)因 LM 缺乏相應(yīng)的功能設(shè)計(jì)而失效。Marcus 在他對(duì) Perplexity、Neeva 和 You 的分析中充分證明了這一點(diǎn)。他的結(jié)論讓人們對(duì)未來充滿希望,但終結(jié)了現(xiàn)在的爭論:

“我頂多可以說 Perplexity.ai 和 you.com 的聊天功能的確在探索一個(gè)有趣的想法:將經(jīng)典搜索引擎與大型語言模型結(jié)合起來,可能帶來更多變化。但是,要真正將經(jīng)典搜索和大型語言模型這兩者結(jié)合起來并完善,還有大量工作要做?!?/blockquote>

另一個(gè)問題是當(dāng)前最先進(jìn)的 AI 技術(shù)是否足夠優(yōu)秀,是否指向正確的目標(biāo)。Scott Alexander 寫了一篇關(guān)于通過人工反饋強(qiáng)化學(xué)習(xí)(RLHF)的局限性的好文章,而 ChatGPT 使用的就是這種技術(shù),并且它似乎是公司阻止 LM 的行為缺陷的唯一方法。

Alexander 直言不諱:“RLHF 效果不佳。”正如我在自己關(guān)于 ChatGPT 的文章中所寫,“人們可以‘輕松地’通過它的過濾器,而且它很容易被迅速注入新數(shù)據(jù)。”RLHF 優(yōu)化模型也可能進(jìn)入優(yōu)先級(jí)沖突的循環(huán)。Alexander 說,“懲罰無用的答案會(huì)讓 AI 更容易給出錯(cuò)誤的答案;懲罰錯(cuò)誤的答案將使人工智能更有可能給出攻擊性的答案;等等。”我們可能無法讓 LM 同時(shí)生成有用的、真實(shí)的和非冒犯性的響應(yīng)結(jié)果。

此外,如果 LM 對(duì) RLHF 的改進(jìn)是漸進(jìn)式的,正如 Alexander 想到的那樣,我們將永遠(yuǎn)不會(huì)“完善”它。然而,因?yàn)樗切阅茏詈玫姆椒ǎ緵]有動(dòng)力花費(fèi)時(shí)間和資源研究另一個(gè)可能像 RLHF 一樣有效的好主意。

如果以上所有事實(shí)都是正確的——也就是說 LM 本質(zhì)上不適合搜索,而我們可以使用的最好的技術(shù)也不怎么樣——那么短期內(nèi)就不會(huì)出現(xiàn) Jeff Dean 所期望的,可以滿足谷歌需求的“完善”時(shí)刻。

谷歌將面臨兩難選擇:一方面,他們可以讓微軟率先承擔(dān)“聲譽(yù)風(fēng)險(xiǎn)”,但這樣微軟就有可能重新定義搜索未來并成為該領(lǐng)域下一個(gè)霸主。另一方面,他們可能會(huì)認(rèn)為“完善技術(shù)”是一個(gè)過于雄心勃勃的目標(biāo),于是冒著自己的聲譽(yù)風(fēng)險(xiǎn),通過一系列公關(guān)舉措(例如對(duì)公眾說“我們盡可能努力地嘗試”)和半生不熟的功能(例如對(duì)公眾說“它現(xiàn)在表現(xiàn)更好了”)跌跌撞撞地前進(jìn),但最終在人工智能和搜索領(lǐng)域都保持領(lǐng)先地位,并在接下來的幾十年中幸存下來。

如果問題的本質(zhì)是谷歌必須在其聲譽(yù)或生死存亡之間做出選擇,我想我們都知道會(huì)發(fā)生什么。

LM 驅(qū)動(dòng)的搜索會(huì)賺錢嗎?

接下來是挑戰(zhàn)的最后一部分,如果谷歌一切順利,他們遲早會(huì)遇到這一障礙。微軟也逃不掉。如果搜索引擎是通過廣告業(yè)務(wù)模式盈利,那么公司如何在用戶無需點(diǎn)擊任何內(nèi)容的情況下通過 LM 驅(qū)動(dòng)的搜索獲利?

谷歌(如果它選擇帶頭)能否找到一種方法來圍繞 LM 驅(qū)動(dòng)的搜索創(chuàng)建護(hù)城河,同時(shí)圍繞 LM+ 搜索構(gòu)建一個(gè)新穎的可行商業(yè)模型?二十年前,谷歌的 PageRank 算法與廣告模型相結(jié)合創(chuàng)造了無與倫比的奇跡。谷歌能否重塑輝煌?

當(dāng)然,如果我們能享受無廣告的互聯(lián)網(wǎng)肯定是最好的。然而,如果替代方案是將搜索轉(zhuǎn)變?yōu)楦顿M(fèi)服務(wù),人們?cè)敢饨邮苓@樣的轉(zhuǎn)變嗎?

我看到的另一種可能性(這可能只是一個(gè)瘋狂的假設(shè))是微軟可以決定將搜索引擎變成一種非營利性服務(wù)(沒有廣告或任何其他形式的貨幣化服務(wù)),其唯一目標(biāo)是在未來擊倒谷歌這家對(duì)手。

但是,還有其他問題可能會(huì)阻止微軟嘗試這一舉措。正如 Marcus 在他的文章中解釋的那樣,當(dāng)前搜索技術(shù)比 LM 便宜得多,而且速度也快得多。這意味著公司轉(zhuǎn)型后獲得的利潤會(huì)下降。微軟在與谷歌競爭的同時(shí)會(huì)耗盡資金,這會(huì)讓雙方都陷入困境,這似乎是一項(xiàng)非常冒險(xiǎn)的業(yè)務(wù)決策。

無論最終發(fā)生什么,很明顯,二十年來幾乎停滯不前的搜索領(lǐng)域即將經(jīng)歷前所未有的拐點(diǎn)。


來源:AI前線


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 微軟與谷歌

技術(shù)專區(qū)

關(guān)閉