微軟與谷歌之戰(zhàn)：語言模型會(huì)取代搜索引擎嗎

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-05-28 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

作者 | Alberto Romero譯者 | 王強(qiáng)策劃 | 劉燕

ChatGPT 是一種針對(duì)對(duì)話交流場景優(yōu)化的強(qiáng)大語言模型（LM），我認(rèn)為它現(xiàn)在是世界上表現(xiàn)最出色的聊天機(jī)器人——盡管它的這一地位可能不會(huì)持續(xù)太長時(shí)間。

在 ChatGPT 模型于 2022 年 11 月 30 日發(fā)布后，人們很快意識(shí)到，它的存在意味著 LM 有可能在短期內(nèi)超越傳統(tǒng)搜索引擎（SE），成為在線信息檢索的主要手段。推而廣之，這意味著谷歌在搜索領(lǐng)域長達(dá)兩個(gè)十年的霸主地位可能岌岌可危。

微軟推出 ChatGPT 模型的新版 Bing 服務(wù)的消息，重新點(diǎn)燃了關(guān)于 LM 與 SE 地位的爭論。盡管沒人真的知道故事將如何進(jìn)行下去，但在一件事上人們幾乎達(dá)成了共識(shí)；以某種方式，LM 和搜索很可能在未來成為一個(gè)更大整體中不可分割的部分。

就像地心引力將我們拉向地面一樣，技術(shù)自發(fā)地朝著一個(gè)方向流動(dòng)，也就是“讓我們的生活變得更加美好”——讓人想起熱力學(xué)定律描述的圖景。LM 更直觀，與它們交互對(duì)我們來說是很自然的事情?！癝E 要么改變要么消亡”似乎是不可避免的結(jié)果。

我知道，這聽起來像是典型的，不可證偽的那種胡亂預(yù)測。但起碼我們能設(shè)法回答一些答案未知的問題：ChatGPT 是否對(duì)谷歌構(gòu)成真正的威脅？微軟能擊敗谷歌嗎？這家搜索巨頭能否做出足夠的反應(yīng)？最終哪家公司會(huì)拔得頭籌？LM 會(huì)取代搜索嗎？會(huì)成為搜索引擎的重要補(bǔ)充嗎？LM 將在哪些方面改進(jìn)或弱化搜索技術(shù)？這一切將如何以及何時(shí)發(fā)生？

我們來試著回答其中的一些問題，了解 LM 和 SE 在未來將如何互動(dòng)，微軟、谷歌和 OpenAI 對(duì)這一切有何看法，再談?wù)勎艺J(rèn)為未來幾個(gè)月 / 幾年的故事將如何展開。

語言模型和搜索引擎

在 ChatGPT 公開的那天，一位名叫 josh 的 Twitter 用戶首先提出了這個(gè)觀點(diǎn)：“谷歌完蛋了?！逼渌耍热绗F(xiàn)在已經(jīng)是前推特員工的 George Hotz 同意這個(gè)看法——但并不是每個(gè)人都得出了相同的結(jié)論。

Gary Marcus 教授用經(jīng)驗(yàn)證據(jù)反駁了 George Hotz 的觀點(diǎn)，谷歌的 Fran?ois Chollet 也指出了類似的問題：“搜索是搜索問題，而不是生成問題：”

我同意 Marcus 和 Chollet 的觀點(diǎn)。LM 本身并不是為超越 SE 而打造的。然而，SE 可以為搜索技術(shù)帶來重大改進(jìn)，以至于那些不集成很多基于 LM 的功能的 SE 將遲早過時(shí)。

如果我們接受這個(gè)假設(shè)，那么很容易看出最有機(jī)會(huì)將 LM 和搜索結(jié)合起來的公司就是谷歌，不是 OpenAI，不是微軟。谷歌在這兩個(gè)領(lǐng)域上單拿出來都有著無與倫比的世界領(lǐng)先地位。盡管 OpenAI 很受歡迎，但 GPT-3、ChatGPT 和所有類似模型都是基于谷歌的技術(shù)，谷歌的 SE 占據(jù)了 4/5 的市場份額。

正如 Stability 的 Emad Mostaque 所說，如果該公司沒有出產(chǎn)那么多人工智能產(chǎn)品，那是因?yàn)樗摹爸贫榷栊浴?。谷歌在研究深度和廣度指標(biāo)上無疑是全球領(lǐng)先的人工智能公司。

然而，正如受歡迎的投資者 Balaji Srinivasan 所說的那樣，研究和生產(chǎn)是兩個(gè)完全不同的領(lǐng)域：谷歌不能承擔(dān)從頭開始重組其 SE，以使用 LM 為其提供動(dòng)力所面臨的風(fēng)險(xiǎn)。多年來，該公司推出了一系列新的搜索功能和漸進(jìn)式改進(jìn)，但不會(huì)像微軟以及其他公司，如 Perplexity、You 和 Neeva 那樣做出可能是革命性的舉動(dòng)。

我對(duì) LM 與 SE 相關(guān)爭論的看法可以總結(jié)如下：”搜索引擎的局限大得多，但它也是專門為線上搜索優(yōu)化的……但我不認(rèn)為傳統(tǒng)搜索引擎是 LM 的對(duì)手?！边@里的關(guān)鍵詞（原文沒有提到這一點(diǎn)）是“傳統(tǒng)的”。

SE 仍將生存下去，但它們會(huì)和今天的 SE 非常不同，甚至完全看不出來是同樣的東西。LM 很可能就是這一差異的背后原因。

（我不會(huì)詳細(xì)討論將 LM 集成到 SE 中是否是個(gè)好主意。Gary Marcus 在這方面有一篇很棒的文章，我?guī)缀跬耆馑挠^點(diǎn)：“Is ChatGPT Really a “CodeRed” for Google Search？”）

微軟 vs 谷歌：

跨越時(shí)代的科技戰(zhàn)爭

微軟對(duì) OpenAI 的 10 億美元投資——以及他們獲得后者部分 AI 技術(shù)棧的獨(dú)家許可——是其對(duì)該領(lǐng)域擁有濃厚興趣的明確信號(hào)。他們計(jì)劃將 DALL-E 和 ChatGPT 集成到他們的服務(wù)中也就不足為奇了。正如 Tom Warren 所寫，增強(qiáng)版的 Bing SE 可以“挑戰(zhàn)谷歌的主導(dǎo)地位”。

當(dāng)然，我們的想法不是用 LM 代替 SE，而是對(duì)其進(jìn)行補(bǔ)充。微軟發(fā)言人告訴彭博社，“對(duì)用戶查詢的對(duì)話式和上下文式回復(fù)將為搜索用戶提供比一串鏈接質(zhì)量更好的答案，從而贏得更多用戶。”

與谷歌不同，微軟非常清楚 LM 不如 SE 可靠。該公司必須要評(píng)估將一些人們不能 100% 依賴的功能部署到生產(chǎn)環(huán)境的風(fēng)險(xiǎn)，雖然這些功能可能會(huì)為它贏得與谷歌戰(zhàn)爭的優(yōu)勢。微軟正在“權(quán)衡……聊天機(jī)器人的準(zhǔn)確性，初始版本可能是對(duì)一小部分用戶的有限測試?！甭犉饋硎莻€(gè)合理的開始。

但是，如果有人比微軟更了解 LM 可以做什么和不能做什么，那就是谷歌。在一篇 2021 年的論文中——其發(fā)表時(shí)間甚至在 ChatGPT 還只是一個(gè)想法之前——谷歌研究人員探討了使用 LM 來“重新思考 [] 搜索”的問題。

他們考慮了我們是否可以這樣做，更重要的是，是否應(yīng)該這樣做：

“經(jīng)典信息檢索系統(tǒng) [即傳統(tǒng)的 SE] 不直接回答信息需求，而是提供對(duì)（希望是權(quán)威的）答案的參考。
……
相比之下，預(yù)訓(xùn)練的語言模型能夠直接生成可能對(duì)信息需求做出響應(yīng)的文字段落，但目前它們只是業(yè)余愛好者水平而不是領(lǐng)域?qū)＜宜健鼈儗?duì)世界沒有真正的理解，它們更容易異想天開，而且至關(guān)重要的是，它們無法通過參考訓(xùn)練它們的語料庫中的支持文件來證明自己的言論是正確的?！?/span>

谷歌的最終結(jié)論是，使用類似 ChatGPT 的系統(tǒng)來增強(qiáng)其 SE 將帶來很高的“聲譽(yù)風(fēng)險(xiǎn)”。CEO Sundar Pichai 和 AI 負(fù)責(zé)人 Jeff Dean 告訴 CNBC，“如果出現(xiàn)問題，這種做法的成本會(huì) [比 OpenAI] 更高，因?yàn)槿藗儽仨毾嘈潘麄儚墓雀璜@得的答案?！?/p>

谷歌于 2021 年 5 月宣布推出 LaMDA（但并未發(fā)布）。鑒于 LaMDA 與 ChatGPT 至少旗鼓相當(dāng)，（Blake Lemoine 是這樣說的）——我們有理由質(zhì)疑為什么谷歌沒有利用它來應(yīng)對(duì)像 OpenAI 這樣的威脅。Balaji Srinivasan 猜測這是因?yàn)樵摴緵]有足夠的“風(fēng)險(xiǎn)預(yù)算”，事實(shí)證明他是對(duì)的。

像谷歌這樣的大公司為數(shù)十億用戶（而不是像 OpenAI 那樣只有幾百萬）提供像谷歌搜索這樣的高可靠性服務(wù)，不能僅僅因?yàn)橐豁?xiàng)技術(shù)似乎代表未來，每個(gè)人就都要為之瘋狂。

但谷歌的高管們不是傻子。他們知道 ChatGPT 由一家規(guī)模小得多、風(fēng)險(xiǎn)規(guī)避程度低得多的公司掌控，這確實(shí)是一種威脅——當(dāng)像微軟這樣的直接競爭對(duì)手擁有大量股份時(shí)更是如此。據(jù)《紐約時(shí)報(bào)》報(bào)道，這就是他們宣布 ChatGPT 為“紅色代碼”的原因：

“……隨著一種有望重塑甚至取代傳統(tǒng)搜索引擎的新型聊天機(jī)器人技術(shù)的出現(xiàn)，谷歌可能面臨對(duì)其主要搜索業(yè)務(wù)的第一個(gè)嚴(yán)重威脅。一位谷歌高管將這些工作描述為決定谷歌未來的成敗。
……
谷歌必須應(yīng)對(duì)競爭，否則該行業(yè)可能會(huì)在拋棄它的情況下繼續(xù)發(fā)展……”

就目前的情況來看，谷歌面臨著微軟（在搜索領(lǐng)域是一個(gè)強(qiáng)大的直接競爭對(duì)手）和 OpenAI（后者擁有同水平的人工智能技術(shù)，雖說其預(yù)算要緊得多）的挑戰(zhàn)，同時(shí)，谷歌還要努力平衡 LM 由于其內(nèi)在的不可靠性帶來的聲譽(yù)風(fēng)險(xiǎn)，以及它們?cè)陲L(fēng)險(xiǎn)厭惡程度較低的初創(chuàng)公司手中這一事實(shí)所構(gòu)成的明確威脅。

正如 Pichai 所說，谷歌必須“大膽而負(fù)責(zé)任”，找到折衷方案?！拔覀儼堰@件事做好是非常重要的，”Dean 總結(jié)道。

我對(duì)故事將如何展開的預(yù)測

鑒于目前的情況，我認(rèn)為如果要預(yù)測接下來會(huì)發(fā)生什么以及如何發(fā)生，我們需要關(guān)注三個(gè)關(guān)鍵點(diǎn)。首先，谷歌到底在和誰競爭，才會(huì)將“聲譽(yù)風(fēng)險(xiǎn)”報(bào)告為未來其面對(duì)的主要障礙？其次，是否有可能使用 LM 和當(dāng)前的 AI 安全技術(shù)來“獲得完善的版本”？第三，如果這件事可以做到并且公司認(rèn)為應(yīng)該這樣做，是否可以從中衍生出可行的商業(yè)模式？

谷歌真正的敵人

當(dāng)我讀到 Pichai 和 Dean 關(guān)于 ChatGPT 威脅的論點(diǎn)時(shí)，我注意到了一些奇怪的事情：他們似乎在暗示谷歌正在與 OpenAI 競爭。事實(shí)上，OpenAI 的技術(shù)是谷歌高管眼中的“紅色代碼”，但我認(rèn)為 OpenAI 不會(huì)對(duì)谷歌構(gòu)成威脅——這是錯(cuò)誤的構(gòu)想。

一方面，OpenAI 在技術(shù)研究和人工智能專業(yè)知識(shí)方面無法與谷歌匹敵。谷歌的預(yù)算和人才遠(yuǎn)遠(yuǎn)超過 OpenAI——光是從數(shù)字上就能看出來。正如 Emad Mostaque 所說：

另一方面，OpenAI 不想與谷歌競爭。

OpenAI 的聲譽(yù)風(fēng)險(xiǎn)遠(yuǎn)低于谷歌，因?yàn)樗且患蚁喈?dāng)新的小型公司，充其量只為幾百萬用戶提供服務(wù)，而據(jù)估計(jì)，全球有超過 40 億人使用谷歌搜索，他們占據(jù)了驚人的 84% 的市場份額。

然而，OpenAI 的目標(biāo)是構(gòu)建有益的通用人工智能（AGI）。他們?yōu)槭裁匆爸艞壱粋€(gè)可以說是更優(yōu)越的目標(biāo)的風(fēng)險(xiǎn)，在一個(gè)與他們的主要目標(biāo)完全不重疊的領(lǐng)域與一家更大的公司對(duì)抗呢？

即使 OpenAI 主要追求的是經(jīng)濟(jì)利益（不可否認(rèn)，戰(zhàn)勝谷歌將帶來無可估量的巨大財(cái)富），該公司也有更好的，不會(huì)與其長期目標(biāo)相沖突的選擇，比如建立付費(fèi)訂閱或支付 - 使用模型，就像他們現(xiàn)在所做的那樣（例如 GPT-3 和 DALL-E）。

就影響力、規(guī)模、預(yù)算以及最重要的目標(biāo)而言，谷歌真正的競爭對(duì)手是微軟。但是，如果我們以這種方式看待它，谷歌不得不面對(duì)更高聲譽(yù)風(fēng)險(xiǎn)的論點(diǎn)就站不住腳了。微軟的用戶數(shù)量與谷歌相當(dāng)，微軟也必須維護(hù)其精心打造的聲譽(yù)——其在 2016 年關(guān)閉種族主義聊天機(jī)器人 Tay 的決定就體現(xiàn)了這一點(diǎn)。

支持“聲譽(yù)風(fēng)險(xiǎn)”觀點(diǎn)的一個(gè)論據(jù)是，微軟的搜索市場份額比谷歌小太多了。然而，如果微軟將 LM 和搜索結(jié)合起來的嘗試取得成功，他們的用戶數(shù)量會(huì)大幅增長，因此聲譽(yù)風(fēng)險(xiǎn)也會(huì)相應(yīng)增加。

留給微軟回答的問題是，他們是否愿意冒著聲譽(yù)風(fēng)險(xiǎn)做出將 ChatGPT 集成到 Bing 的決定，讓越來越多的用戶被新服務(wù)的更強(qiáng)大功能吸引進(jìn)來，只是為了有機(jī)會(huì)推翻谷歌。

谷歌打算如何應(yīng)對(duì)？

“完善”是一個(gè)聽起來好聽卻不可行的目標(biāo)

Jeff Dean 的解釋是，谷歌正在等待“技術(shù)完善”，這讓我想起了我對(duì)將道德原則嵌入 AI 模型和打擊錯(cuò)誤信息的舉措曾有著天真的期望。我認(rèn)為，以后也會(huì)繼續(xù)堅(jiān)持說這些工作是最重要的，但我可以看到，雖然它們?cè)诶碚撋鲜欠浅＠硐氲?，但在?shí)踐中卻變得幾乎不可推行下去。

在我看來，按照 Dean 在這里所說的意思，完善 LM 的唯一方法是重新定義、重新設(shè)計(jì)和完全重建它們。如果像 Gary Marcus 所猜測的那樣，他們只是沒有足夠的能力做到真實(shí)、真實(shí)、可靠和中立，那么就沒有任何臨時(shí)抱佛腳的方法能夠遏制源自 LM 所學(xué)習(xí)的數(shù)據(jù)中的那些惡行。

一種可能是，一旦有公司試圖將 SE 與 LM 結(jié)合起來，保障前者可靠性的所有關(guān)鍵特性都會(huì)因 LM 缺乏相應(yīng)的功能設(shè)計(jì)而失效。Marcus 在他對(duì) Perplexity、Neeva 和 You 的分析中充分證明了這一點(diǎn)。他的結(jié)論讓人們對(duì)未來充滿希望，但終結(jié)了現(xiàn)在的爭論：

“我頂多可以說 Perplexity.ai 和 you.com 的聊天功能的確在探索一個(gè)有趣的想法：將經(jīng)典搜索引擎與大型語言模型結(jié)合起來，可能帶來更多變化。但是，要真正將經(jīng)典搜索和大型語言模型這兩者結(jié)合起來并完善，還有大量工作要做?！?/blockquote>
另一個(gè)問題是當(dāng)前最先進(jìn)的 AI 技術(shù)是否足夠優(yōu)秀，是否指向正確的目標(biāo)。Scott Alexander 寫了一篇關(guān)于通過人工反饋強(qiáng)化學(xué)習(xí)（RLHF）的局限性的好文章，而 ChatGPT 使用的就是這種技術(shù)，并且它似乎是公司阻止 LM 的行為缺陷的唯一方法。
Alexander 直言不諱：“RLHF 效果不佳。”正如我在自己關(guān)于 ChatGPT 的文章中所寫，“人們可以‘輕松地’通過它的過濾器，而且它很容易被迅速注入新數(shù)據(jù)。”RLHF 優(yōu)化模型也可能進(jìn)入優(yōu)先級(jí)沖突的循環(huán)。Alexander 說，“懲罰無用的答案會(huì)讓 AI 更容易給出錯(cuò)誤的答案；懲罰錯(cuò)誤的答案將使人工智能更有可能給出攻擊性的答案；等等。”我們可能無法讓 LM 同時(shí)生成有用的、真實(shí)的和非冒犯性的響應(yīng)結(jié)果。
此外，如果 LM 對(duì) RLHF 的改進(jìn)是漸進(jìn)式的，正如 Alexander 想到的那樣，我們將永遠(yuǎn)不會(huì)“完善”它。然而，因?yàn)樗切阅茏詈玫姆椒ǎ緵]有動(dòng)力花費(fèi)時(shí)間和資源研究另一個(gè)可能像 RLHF 一樣有效的好主意。
如果以上所有事實(shí)都是正確的——也就是說 LM 本質(zhì)上不適合搜索，而我們可以使用的最好的技術(shù)也不怎么樣——那么短期內(nèi)就不會(huì)出現(xiàn) Jeff Dean 所期望的，可以滿足谷歌需求的“完善”時(shí)刻。
谷歌將面臨兩難選擇：一方面，他們可以讓微軟率先承擔(dān)“聲譽(yù)風(fēng)險(xiǎn)”，但這樣微軟就有可能重新定義搜索未來并成為該領(lǐng)域下一個(gè)霸主。另一方面，他們可能會(huì)認(rèn)為“完善技術(shù)”是一個(gè)過于雄心勃勃的目標(biāo)，于是冒著自己的聲譽(yù)風(fēng)險(xiǎn)，通過一系列公關(guān)舉措（例如對(duì)公眾說“我們盡可能努力地嘗試”）和半生不熟的功能（例如對(duì)公眾說“它現(xiàn)在表現(xiàn)更好了”）跌跌撞撞地前進(jìn)，但最終在人工智能和搜索領(lǐng)域都保持領(lǐng)先地位，并在接下來的幾十年中幸存下來。
如果問題的本質(zhì)是谷歌必須在其聲譽(yù)或生死存亡之間做出選擇，我想我們都知道會(huì)發(fā)生什么。
LM 驅(qū)動(dòng)的搜索會(huì)賺錢嗎？
接下來是挑戰(zhàn)的最后一部分，如果谷歌一切順利，他們遲早會(huì)遇到這一障礙。微軟也逃不掉。如果搜索引擎是通過廣告業(yè)務(wù)模式盈利，那么公司如何在用戶無需點(diǎn)擊任何內(nèi)容的情況下通過 LM 驅(qū)動(dòng)的搜索獲利？
谷歌（如果它選擇帶頭）能否找到一種方法來圍繞 LM 驅(qū)動(dòng)的搜索創(chuàng)建護(hù)城河，同時(shí)圍繞 LM+ 搜索構(gòu)建一個(gè)新穎的可行商業(yè)模型？二十年前，谷歌的 PageRank 算法與廣告模型相結(jié)合創(chuàng)造了無與倫比的奇跡。谷歌能否重塑輝煌？
當(dāng)然，如果我們能享受無廣告的互聯(lián)網(wǎng)肯定是最好的。然而，如果替代方案是將搜索轉(zhuǎn)變?yōu)楦顿M(fèi)服務(wù)，人們?cè)敢饨邮苓@樣的轉(zhuǎn)變嗎？
我看到的另一種可能性（這可能只是一個(gè)瘋狂的假設(shè)）是微軟可以決定將搜索引擎變成一種非營利性服務(wù)（沒有廣告或任何其他形式的貨幣化服務(wù)），其唯一目標(biāo)是在未來擊倒谷歌這家對(duì)手。
但是，還有其他問題可能會(huì)阻止微軟嘗試這一舉措。正如 Marcus 在他的文章中解釋的那樣，當(dāng)前搜索技術(shù)比 LM 便宜得多，而且速度也快得多。這意味著公司轉(zhuǎn)型后獲得的利潤會(huì)下降。微軟在與谷歌競爭的同時(shí)會(huì)耗盡資金，這會(huì)讓雙方都陷入困境，這似乎是一項(xiàng)非常冒險(xiǎn)的業(yè)務(wù)決策。
無論最終發(fā)生什么，很明顯，二十年來幾乎停滯不前的搜索領(lǐng)域即將經(jīng)歷前所未有的拐點(diǎn)。

來源：AI前線

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

微軟與谷歌之戰(zhàn)：語言模型會(huì)取代搜索引擎嗎

相關(guān)推薦

技術(shù)專區(qū)