微軟與谷歌之戰(zhàn):語言模型會取代搜索引擎嗎
作者 | Alberto Romero譯者 | 王強策劃 | 劉燕
ChatGPT 是一種針對對話交流場景優(yōu)化的強大語言模型(LM),我認為它現(xiàn)在是世界上表現(xiàn)最出色的聊天機器人——盡管它的這一地位可能不會持續(xù)太長時間。
在 ChatGPT 模型于 2022 年 11 月 30 日發(fā)布后,人們很快意識到,它的存在意味著 LM 有可能在短期內(nèi)超越傳統(tǒng)搜索引擎(SE),成為在線信息檢索的主要手段。推而廣之,這意味著谷歌在搜索領(lǐng)域長達兩個十年的霸主地位可能岌岌可危。
微軟推出 ChatGPT 模型的新版 Bing 服務(wù)的消息,重新點燃了關(guān)于 LM 與 SE 地位的爭論。盡管沒人真的知道故事將如何進行下去,但在一件事上人們幾乎達成了共識;以某種方式,LM 和搜索很可能在未來成為一個更大整體中不可分割的部分。
就像地心引力將我們拉向地面一樣,技術(shù)自發(fā)地朝著一個方向流動,也就是“讓我們的生活變得更加美好”——讓人想起熱力學(xué)定律描述的圖景。LM 更直觀,與它們交互對我們來說是很自然的事情?!癝E 要么改變要么消亡”似乎是不可避免的結(jié)果。
我知道,這聽起來像是典型的,不可證偽的那種胡亂預(yù)測。但起碼我們能設(shè)法回答一些答案未知的問題:ChatGPT 是否對谷歌構(gòu)成真正的威脅?微軟能擊敗谷歌嗎?這家搜索巨頭能否做出足夠的反應(yīng)?最終哪家公司會拔得頭籌?LM 會取代搜索嗎?會成為搜索引擎的重要補充嗎?LM 將在哪些方面改進或弱化搜索技術(shù)?這一切將如何以及何時發(fā)生?
我們來試著回答其中的一些問題,了解 LM 和 SE 在未來將如何互動,微軟、谷歌和 OpenAI 對這一切有何看法,再談?wù)勎艺J為未來幾個月 / 幾年的故事將如何展開。
語言模型和搜索引擎
在 ChatGPT 公開的那天,一位名叫 josh 的 Twitter 用戶首先提出了這個觀點:“谷歌完蛋了。”其他人,比如現(xiàn)在已經(jīng)是前推特員工的 George Hotz 同意這個看法——但并不是每個人都得出了相同的結(jié)論。
Gary Marcus 教授用經(jīng)驗證據(jù)反駁了 George Hotz 的觀點,谷歌的 Fran?ois Chollet 也指出了類似的問題:“搜索是搜索問題,而不是生成問題:”
我同意 Marcus 和 Chollet 的觀點。LM 本身并不是為超越 SE 而打造的。然而,SE 可以為搜索技術(shù)帶來重大改進,以至于那些不集成很多基于 LM 的功能的 SE 將遲早過時。
如果我們接受這個假設(shè),那么很容易看出最有機會將 LM 和搜索結(jié)合起來的公司就是谷歌,不是 OpenAI,不是微軟。谷歌在這兩個領(lǐng)域上單拿出來都有著無與倫比的世界領(lǐng)先地位。盡管 OpenAI 很受歡迎,但 GPT-3、ChatGPT 和所有類似模型都是基于谷歌的技術(shù),谷歌的 SE 占據(jù)了 4/5 的市場份額。
正如 Stability 的 Emad Mostaque 所說,如果該公司沒有出產(chǎn)那么多人工智能產(chǎn)品,那是因為它的“制度惰性”。谷歌在研究深度和廣度指標上無疑是全球領(lǐng)先的人工智能公司。
然而,正如受歡迎的投資者 Balaji Srinivasan 所說的那樣,研究和生產(chǎn)是兩個完全不同的領(lǐng)域:谷歌不能承擔從頭開始重組其 SE,以使用 LM 為其提供動力所面臨的風險。多年來,該公司推出了一系列新的搜索功能和漸進式改進,但不會像微軟以及其他公司,如 Perplexity、You 和 Neeva 那樣做出可能是革命性的舉動。
我對 LM 與 SE 相關(guān)爭論的看法可以總結(jié)如下:”搜索引擎的局限大得多,但它也是專門為線上搜索優(yōu)化的……但我不認為傳統(tǒng)搜索引擎是 LM 的對手?!边@里的關(guān)鍵詞(原文沒有提到這一點)是“傳統(tǒng)的”。
SE 仍將生存下去,但它們會和今天的 SE 非常不同,甚至完全看不出來是同樣的東西。LM 很可能就是這一差異的背后原因。
(我不會詳細討論將 LM 集成到 SE 中是否是個好主意。Gary Marcus 在這方面有一篇很棒的文章,我?guī)缀跬耆馑挠^點:“Is ChatGPT Really a “CodeRed” for Google Search?”)
微軟 vs 谷歌:
跨越時代的科技戰(zhàn)爭
微軟對 OpenAI 的 10 億美元投資——以及他們獲得后者部分 AI 技術(shù)棧的獨家許可——是其對該領(lǐng)域擁有濃厚興趣的明確信號。他們計劃將 DALL-E 和 ChatGPT 集成到他們的服務(wù)中也就不足為奇了。正如 Tom Warren 所寫,增強版的 Bing SE 可以“挑戰(zhàn)谷歌的主導(dǎo)地位”。
當然,我們的想法不是用 LM 代替 SE,而是對其進行補充。微軟發(fā)言人告訴彭博社,“對用戶查詢的對話式和上下文式回復(fù)將為搜索用戶提供比一串鏈接質(zhì)量更好的答案,從而贏得更多用戶?!?/p>
與谷歌不同,微軟非常清楚 LM 不如 SE 可靠。該公司必須要評估將一些人們不能 100% 依賴的功能部署到生產(chǎn)環(huán)境的風險,雖然這些功能可能會為它贏得與谷歌戰(zhàn)爭的優(yōu)勢。微軟正在“權(quán)衡……聊天機器人的準確性,初始版本可能是對一小部分用戶的有限測試。”聽起來是個合理的開始。
但是,如果有人比微軟更了解 LM 可以做什么和不能做什么,那就是谷歌。在一篇 2021 年的論文中——其發(fā)表時間甚至在 ChatGPT 還只是一個想法之前——谷歌研究人員探討了使用 LM 來“重新思考 [] 搜索”的問題。
他們考慮了我們是否可以這樣做,更重要的是,是否應(yīng)該這樣做:
“經(jīng)典信息檢索系統(tǒng) [即傳統(tǒng)的 SE] 不直接回答信息需求,而是提供對(希望是權(quán)威的)答案的參考。
……
相比之下,預(yù)訓(xùn)練的語言模型能夠直接生成可能對信息需求做出響應(yīng)的文字段落,但目前它們只是業(yè)余愛好者水平而不是領(lǐng)域?qū)<宜健鼈儗κ澜鐩]有真正的理解,它們更容易異想天開,而且至關(guān)重要的是,它們無法通過參考訓(xùn)練它們的語料庫中的支持文件來證明自己的言論是正確的?!?/span>
谷歌的最終結(jié)論是,使用類似 ChatGPT 的系統(tǒng)來增強其 SE 將帶來很高的“聲譽風險”。CEO Sundar Pichai 和 AI 負責人 Jeff Dean 告訴 CNBC,“如果出現(xiàn)問題,這種做法的成本會 [比 OpenAI] 更高,因為人們必須相信他們從谷歌獲得的答案?!?/p>
谷歌于 2021 年 5 月宣布推出 LaMDA(但并未發(fā)布)。鑒于 LaMDA 與 ChatGPT 至少旗鼓相當,(Blake Lemoine 是這樣說的)——我們有理由質(zhì)疑為什么谷歌沒有利用它來應(yīng)對像 OpenAI 這樣的威脅。Balaji Srinivasan 猜測這是因為該公司沒有足夠的“風險預(yù)算”,事實證明他是對的。
像谷歌這樣的大公司為數(shù)十億用戶(而不是像 OpenAI 那樣只有幾百萬)提供像谷歌搜索這樣的高可靠性服務(wù),不能僅僅因為一項技術(shù)似乎代表未來,每個人就都要為之瘋狂。
但谷歌的高管們不是傻子。他們知道 ChatGPT 由一家規(guī)模小得多、風險規(guī)避程度低得多的公司掌控,這確實是一種威脅——當像微軟這樣的直接競爭對手擁有大量股份時更是如此。據(jù)《紐約時報》報道,這就是他們宣布 ChatGPT 為“紅色代碼”的原因:
“……隨著一種有望重塑甚至取代傳統(tǒng)搜索引擎的新型聊天機器人技術(shù)的出現(xiàn),谷歌可能面臨對其主要搜索業(yè)務(wù)的第一個嚴重威脅。一位谷歌高管將這些工作描述為決定谷歌未來的成敗。
……
谷歌必須應(yīng)對競爭,否則該行業(yè)可能會在拋棄它的情況下繼續(xù)發(fā)展……”
就目前的情況來看,谷歌面臨著微軟(在搜索領(lǐng)域是一個強大的直接競爭對手)和 OpenAI(后者擁有同水平的人工智能技術(shù),雖說其預(yù)算要緊得多)的挑戰(zhàn),同時,谷歌還要努力平衡 LM 由于其內(nèi)在的不可靠性帶來的聲譽風險,以及它們在風險厭惡程度較低的初創(chuàng)公司手中這一事實所構(gòu)成的明確威脅。
正如 Pichai 所說,谷歌必須“大膽而負責任”,找到折衷方案?!拔覀儼堰@件事做好是非常重要的,”Dean 總結(jié)道。
我對故事將如何展開的預(yù)測
鑒于目前的情況,我認為如果要預(yù)測接下來會發(fā)生什么以及如何發(fā)生,我們需要關(guān)注三個關(guān)鍵點。首先,谷歌到底在和誰競爭,才會將“聲譽風險”報告為未來其面對的主要障礙?其次,是否有可能使用 LM 和當前的 AI 安全技術(shù)來“獲得完善的版本”?第三,如果這件事可以做到并且公司認為應(yīng)該這樣做,是否可以從中衍生出可行的商業(yè)模式?
谷歌真正的敵人
當我讀到 Pichai 和 Dean 關(guān)于 ChatGPT 威脅的論點時,我注意到了一些奇怪的事情:他們似乎在暗示谷歌正在與 OpenAI 競爭。事實上,OpenAI 的技術(shù)是谷歌高管眼中的“紅色代碼”,但我認為 OpenAI 不會對谷歌構(gòu)成威脅——這是錯誤的構(gòu)想。
一方面,OpenAI 在技術(shù)研究和人工智能專業(yè)知識方面無法與谷歌匹敵。谷歌的預(yù)算和人才遠遠超過 OpenAI——光是從數(shù)字上就能看出來。正如 Emad Mostaque 所說:
另一方面,OpenAI 不想與谷歌競爭。
OpenAI 的聲譽風險遠低于谷歌,因為它是一家相當新的小型公司,充其量只為幾百萬用戶提供服務(wù),而據(jù)估計,全球有超過 40 億人使用谷歌搜索,他們占據(jù)了驚人的 84% 的市場份額。
然而,OpenAI 的目標是構(gòu)建有益的通用人工智能(AGI)。他們?yōu)槭裁匆爸艞壱粋€可以說是更優(yōu)越的目標的風險,在一個與他們的主要目標完全不重疊的領(lǐng)域與一家更大的公司對抗呢?
即使 OpenAI 主要追求的是經(jīng)濟利益(不可否認,戰(zhàn)勝谷歌將帶來無可估量的巨大財富),該公司也有更好的,不會與其長期目標相沖突的選擇,比如建立付費訂閱或支付 - 使用模型,就像他們現(xiàn)在所做的那樣(例如 GPT-3 和 DALL-E)。
就影響力、規(guī)模、預(yù)算以及最重要的目標而言,谷歌真正的競爭對手是微軟。但是,如果我們以這種方式看待它,谷歌不得不面對更高聲譽風險的論點就站不住腳了。微軟的用戶數(shù)量與谷歌相當,微軟也必須維護其精心打造的聲譽——其在 2016 年關(guān)閉種族主義聊天機器人 Tay 的決定就體現(xiàn)了這一點。
支持“聲譽風險”觀點的一個論據(jù)是,微軟的搜索市場份額比谷歌小太多了。然而,如果微軟將 LM 和搜索結(jié)合起來的嘗試取得成功,他們的用戶數(shù)量會大幅增長,因此聲譽風險也會相應(yīng)增加。
留給微軟回答的問題是,他們是否愿意冒著聲譽風險做出將 ChatGPT 集成到 Bing 的決定,讓越來越多的用戶被新服務(wù)的更強大功能吸引進來,只是為了有機會推翻谷歌。
谷歌打算如何應(yīng)對?
“完善”是一個聽起來好聽卻不可行的目標
Jeff Dean 的解釋是,谷歌正在等待“技術(shù)完善”,這讓我想起了我對將道德原則嵌入 AI 模型和打擊錯誤信息的舉措曾有著天真的期望。我認為,以后也會繼續(xù)堅持說這些工作是最重要的,但我可以看到,雖然它們在理論上是非常理想的,但在實踐中卻變得幾乎不可推行下去。
在我看來,按照 Dean 在這里所說的意思,完善 LM 的唯一方法是重新定義、重新設(shè)計和完全重建它們。如果像 Gary Marcus 所猜測的那樣,他們只是沒有足夠的能力做到真實、真實、可靠和中立,那么就沒有任何臨時抱佛腳的方法能夠遏制源自 LM 所學(xué)習的數(shù)據(jù)中的那些惡行。
一種可能是,一旦有公司試圖將 SE 與 LM 結(jié)合起來,保障前者可靠性的所有關(guān)鍵特性都會因 LM 缺乏相應(yīng)的功能設(shè)計而失效。Marcus 在他對 Perplexity、Neeva 和 You 的分析中充分證明了這一點。他的結(jié)論讓人們對未來充滿希望,但終結(jié)了現(xiàn)在的爭論:
“我頂多可以說 Perplexity.ai 和 you.com 的聊天功能的確在探索一個有趣的想法:將經(jīng)典搜索引擎與大型語言模型結(jié)合起來,可能帶來更多變化。但是,要真正將經(jīng)典搜索和大型語言模型這兩者結(jié)合起來并完善,還有大量工作要做?!?/blockquote>另一個問題是當前最先進的 AI 技術(shù)是否足夠優(yōu)秀,是否指向正確的目標。Scott Alexander 寫了一篇關(guān)于通過人工反饋強化學(xué)習(RLHF)的局限性的好文章,而 ChatGPT 使用的就是這種技術(shù),并且它似乎是公司阻止 LM 的行為缺陷的唯一方法。
Alexander 直言不諱:“RLHF 效果不佳?!闭缥以谧约宏P(guān)于 ChatGPT 的文章中所寫,“人們可以‘輕松地’通過它的過濾器,而且它很容易被迅速注入新數(shù)據(jù)?!盧LHF 優(yōu)化模型也可能進入優(yōu)先級沖突的循環(huán)。Alexander 說,“懲罰無用的答案會讓 AI 更容易給出錯誤的答案;懲罰錯誤的答案將使人工智能更有可能給出攻擊性的答案;等等?!蔽覀兛赡軣o法讓 LM 同時生成有用的、真實的和非冒犯性的響應(yīng)結(jié)果。
此外,如果 LM 對 RLHF 的改進是漸進式的,正如 Alexander 想到的那樣,我們將永遠不會“完善”它。然而,因為它是性能最好的方法,公司沒有動力花費時間和資源研究另一個可能像 RLHF 一樣有效的好主意。
如果以上所有事實都是正確的——也就是說 LM 本質(zhì)上不適合搜索,而我們可以使用的最好的技術(shù)也不怎么樣——那么短期內(nèi)就不會出現(xiàn) Jeff Dean 所期望的,可以滿足谷歌需求的“完善”時刻。
谷歌將面臨兩難選擇:一方面,他們可以讓微軟率先承擔“聲譽風險”,但這樣微軟就有可能重新定義搜索未來并成為該領(lǐng)域下一個霸主。另一方面,他們可能會認為“完善技術(shù)”是一個過于雄心勃勃的目標,于是冒著自己的聲譽風險,通過一系列公關(guān)舉措(例如對公眾說“我們盡可能努力地嘗試”)和半生不熟的功能(例如對公眾說“它現(xiàn)在表現(xiàn)更好了”)跌跌撞撞地前進,但最終在人工智能和搜索領(lǐng)域都保持領(lǐng)先地位,并在接下來的幾十年中幸存下來。
如果問題的本質(zhì)是谷歌必須在其聲譽或生死存亡之間做出選擇,我想我們都知道會發(fā)生什么。
LM 驅(qū)動的搜索會賺錢嗎?接下來是挑戰(zhàn)的最后一部分,如果谷歌一切順利,他們遲早會遇到這一障礙。微軟也逃不掉。如果搜索引擎是通過廣告業(yè)務(wù)模式盈利,那么公司如何在用戶無需點擊任何內(nèi)容的情況下通過 LM 驅(qū)動的搜索獲利?
谷歌(如果它選擇帶頭)能否找到一種方法來圍繞 LM 驅(qū)動的搜索創(chuàng)建護城河,同時圍繞 LM+ 搜索構(gòu)建一個新穎的可行商業(yè)模型?二十年前,谷歌的 PageRank 算法與廣告模型相結(jié)合創(chuàng)造了無與倫比的奇跡。谷歌能否重塑輝煌?
當然,如果我們能享受無廣告的互聯(lián)網(wǎng)肯定是最好的。然而,如果替代方案是將搜索轉(zhuǎn)變?yōu)楦顿M服務(wù),人們愿意接受這樣的轉(zhuǎn)變嗎?
我看到的另一種可能性(這可能只是一個瘋狂的假設(shè))是微軟可以決定將搜索引擎變成一種非營利性服務(wù)(沒有廣告或任何其他形式的貨幣化服務(wù)),其唯一目標是在未來擊倒谷歌這家對手。
但是,還有其他問題可能會阻止微軟嘗試這一舉措。正如 Marcus 在他的文章中解釋的那樣,當前搜索技術(shù)比 LM 便宜得多,而且速度也快得多。這意味著公司轉(zhuǎn)型后獲得的利潤會下降。微軟在與谷歌競爭的同時會耗盡資金,這會讓雙方都陷入困境,這似乎是一項非常冒險的業(yè)務(wù)決策。
無論最終發(fā)生什么,很明顯,二十年來幾乎停滯不前的搜索領(lǐng)域即將經(jīng)歷前所未有的拐點。
來源:AI前線
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。