新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > OpenAI再次對(duì)線谷歌,誰(shuí)才是贏家?

OpenAI再次對(duì)線谷歌,誰(shuí)才是贏家?

作者:陳玲麗 時(shí)間:2024-05-16 來(lái)源:電子產(chǎn)品世界 收藏

2月份,發(fā)布了多模態(tài) 1.5 Pro,直接將性能拉到支持百萬(wàn)Token的業(yè)界新高。但在同一天發(fā)布了文生視頻工具Sora,搶盡了的幾乎所有風(fēng)頭。

本文引用地址:http://m.butianyuan.cn/article/202405/458804.htm

這一次再次精準(zhǔn)“定位”,上周突然宣布在I/O大會(huì)前一天搶先召開(kāi)發(fā)布會(huì),而谷歌I/O大會(huì)的日期早在數(shù)月前就已經(jīng)定檔。發(fā)布的最新GPT-4o(o代表著Omnimodel全能模型),提前引爆了AI的關(guān)注熱度,分散了谷歌即將發(fā)布AI新品的話題度。

OpenAI更自然的人機(jī)交互

在OpenAI的最新發(fā)布會(huì)上,雖然沒(méi)能見(jiàn)到GPT-5,但GPT-4o的出現(xiàn)仍然驚艷,GPT-4o中的“o”代表“Omni”,是一個(gè)基于GPT-4之上的多模態(tài)大模型。OpenAI稱,它向更自然的人機(jī)交互邁進(jìn)了一步,因?yàn)樗邮芪谋尽⒁纛l和圖像的任意組合作為輸入內(nèi)容,并生成文本、音頻和圖像的任意組合輸出內(nèi)容。

GPT-4o不僅是完全免費(fèi)的,而且覆蓋了桌面與移動(dòng)App,人機(jī)交互更加自然簡(jiǎn)單,真正做到了實(shí)時(shí)語(yǔ)音對(duì)話,就像是與真人聊天一樣自然流暢 —— 能夠在短至232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時(shí)間為320毫秒,與人類在對(duì)話中的反應(yīng)速度幾乎一致。

對(duì)比傳統(tǒng)語(yǔ)音助手如Siri、Alexa以及各種「同學(xué)們」在處理語(yǔ)音輸入時(shí),需要多個(gè)模型的接力處理:先將音頻轉(zhuǎn)換為文本,再進(jìn)行“輸入并輸出文本”的處理,最后再將文本轉(zhuǎn)換回音頻。這種處理方式常導(dǎo)致信息的大量丟失,例如無(wú)法捕捉到語(yǔ)調(diào)、識(shí)別多個(gè)說(shuō)話者或背景噪音。GPT-4o則是通過(guò)端到端地訓(xùn)練一個(gè)統(tǒng)一的新模型,直接處理所有輸入和輸出,實(shí)現(xiàn)了真正的毫秒級(jí)響應(yīng)。

值得注意的是,GPT-4o還能夠與用戶進(jìn)行多樣化的語(yǔ)氣交互,并精準(zhǔn)捕捉到用戶的情緒變化。面對(duì)GPT-4o處理反應(yīng)已經(jīng)達(dá)到人類的速度,甚至還可以理解用戶的情緒,以相應(yīng)的情感作出回應(yīng)。那么,谷歌在I/O大會(huì)上又拿出了怎樣的AI產(chǎn)品,是否帶來(lái)了足夠的震撼與新意?

640.jpeg

谷歌AI全家桶

谷歌I/O大會(huì)主題演講上發(fā)布了一系列基于的“AI全家桶” —— 包括AI助手Project Astra、升級(jí)200萬(wàn)tokens上下文的Gemini 1.5 Pro、新模型Gemini 1.5 flash、類Sora的新視頻大模型Veo,以及包括AI搜索、AI+Gmail在內(nèi)的多個(gè)AI應(yīng)用。

Project Astra

Project Astra是一個(gè)實(shí)時(shí)、多模式的人工智能助手,而從谷歌的演示視頻來(lái)看,可以通過(guò)視頻畫(huà)面接受信息、理解復(fù)雜多變的環(huán)境并做出回應(yīng)。例如用戶手持手機(jī),將攝像頭對(duì)準(zhǔn)辦公室的不同角落,當(dāng)發(fā)出指令“請(qǐng)告訴我智能眼鏡在哪里”時(shí),Astra能夠迅速識(shí)別物體,并與用戶進(jìn)行實(shí)時(shí)的語(yǔ)音交流。

它也可以理解繪畫(huà)和圖像,如可以對(duì)一個(gè)寫(xiě)在白板上的系統(tǒng)流程圖給出意見(jiàn)“在服務(wù)器和數(shù)據(jù)庫(kù)間添加緩存可以提高速度”。DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)稱,Project Astra是自己期待了幾十年的AI助手的雛形,是通用AI的未來(lái),“可以通過(guò)連續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入組合到事件時(shí)間線中,并緩存這些信息以進(jìn)行有效回憶,從而更快地處理信息?!?/p>

略微遺憾的是,OpenAI搶先發(fā)布了GPT-4o的類似功能,晚一天亮相的Project Astra少了一些驚喜和震撼,或許這就是OpenAI突然搶先發(fā)布的主要原因,因?yàn)檎l(shuí)先發(fā)布就占據(jù)了媒體報(bào)道的焦點(diǎn)。

升級(jí)版Gemini 1.5 pro

Project Astra背后的Gemini系列大模型能力也有更新,此次升級(jí)大致可以歸結(jié)為:更長(zhǎng)上下文、輕量版本、個(gè)性化機(jī)器人。升級(jí)后的Gemini可以分析比以前更長(zhǎng)的文檔、代碼庫(kù)、視頻和音頻記錄,據(jù)透露,它最多可以容納200萬(wàn)token(暫時(shí)只面向開(kāi)發(fā)者提供)。這是之前的兩倍,新版Gemini 1.5 Pro支持所有商用型號(hào)中最大的輸入。

新模型Gemini 1.5 flash

為了滿足不同場(chǎng)景的需求,谷歌還發(fā)布了新的輕量級(jí)模型:Gemini 1.5 Flash,是通過(guò)Gemini 1.5 Pro“蒸餾”得來(lái)(“蒸餾”是一種模型壓縮技術(shù),讓小模型學(xué)習(xí)大模型,將重要的知識(shí)和技能遷移過(guò)來(lái))。Gemini 1.5 Flash的上下文處理能力同樣達(dá)到了百萬(wàn)級(jí)別,但卻比1.5 Pro更為輕便迅速,針對(duì)低延遲和專注成本的任務(wù)進(jìn)行了優(yōu)化,更適合規(guī)?;瘶?gòu)建。

解決了關(guān)鍵的成本問(wèn)題,Gemini 1.5 Flash的價(jià)格定為每100萬(wàn)個(gè)token需要35美分,這比GPT-4o的每100萬(wàn)個(gè)token需要5美元的價(jià)格要便宜得多。

640-2.jpeg

Gemini大模型已經(jīng)覆蓋了谷歌全平臺(tái)的20億用戶產(chǎn)品,僅僅三個(gè)月時(shí)間就有100多萬(wàn)用戶注冊(cè)使用。而兩個(gè)月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過(guò)150萬(wàn)開(kāi)發(fā)者的使用。

在AI領(lǐng)域投入了十多年時(shí)間,貫穿了AI的每一層:研究、產(chǎn)品、基礎(chǔ)設(shè)施后,谷歌宣布已經(jīng)全面進(jìn)入Gemini時(shí)代。雖然OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢(shì),但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢(shì)。

文生視頻模型Veo

視頻生成模型Veo直接對(duì)標(biāo)OpenAI的Sora,可以根據(jù)文本提示創(chuàng)建大約一分鐘長(zhǎng)的1080p視頻剪輯。Veo可以捕捉不同的視覺(jué)和電影風(fēng)格,包括風(fēng)景和延時(shí)鏡頭,并對(duì)已生成的鏡頭進(jìn)行編輯和調(diào)整。與Sora類似,Veo展現(xiàn)了對(duì)物理規(guī)律的一定理解,比如流體動(dòng)力學(xué)和重力等。

未來(lái)Veo將整合到Y(jié)ouTube Shorts和其他產(chǎn)品中,YouTube Shorts是谷歌對(duì)標(biāo)TikTok的短視頻服務(wù),得益于YouTube的龐大體量,發(fā)布三年時(shí)間之后,目前月活用戶已經(jīng)突破了23億。顯然,一旦Veo進(jìn)入YouTube Shorts,其用戶規(guī)模將是Sora所無(wú)法想象的。

更強(qiáng)的AI搜索

自生成式AI崛起開(kāi)始,搜索被認(rèn)為是AI應(yīng)用最成熟的場(chǎng)景。AI搜索的升級(jí)也是本次發(fā)布會(huì)的一大亮點(diǎn),推出了AI Overviews,該功能將AI結(jié)果加入到搜索內(nèi)容呈現(xiàn),即當(dāng)用戶進(jìn)行提問(wèn)時(shí),頁(yè)面頂部將提供AI生成的答案。每次用戶進(jìn)行搜索時(shí),谷歌會(huì)在后臺(tái)進(jìn)行算法價(jià)值判斷,以決定是否提供由AI生成的答案還是直接提供傳統(tǒng)的網(wǎng)頁(yè)鏈接。

谷歌也強(qiáng)化了多模態(tài)方面的搜索表現(xiàn)。比如,推出AI驅(qū)動(dòng)的“圈搜索”功能,允許Android用戶使用轉(zhuǎn)圈等手勢(shì)立即獲得答案。這一設(shè)計(jì)的初衷是,讓用戶在手機(jī)上的任何地方都可以更自然地通過(guò)一些操作(例如圈選、突出顯示、涂鴉或點(diǎn)擊)來(lái)使用搜索。此外,用戶還能通過(guò)結(jié)合視頻進(jìn)行搜索,用視頻搜索能夠更清晰、準(zhǔn)確地反饋問(wèn)題。

實(shí)際上,移動(dòng)端才是用戶體驗(yàn)谷歌AI功能的最直接平臺(tái)。在今年年初三星手機(jī)推出谷歌AI技術(shù)加持的畫(huà)圈搜索、全屏翻譯等人性功能之后(三星國(guó)行版使用百度AI技術(shù)),半年時(shí)間全球已經(jīng)有超過(guò)1億設(shè)備搭載了谷歌畫(huà)圈搜索功能。谷歌預(yù)計(jì)今年年底這一數(shù)字將翻一倍,達(dá)到兩億設(shè)備。

第六代TPU芯片Trillium

在I/O大會(huì)上還發(fā)布了第六代TPU處理器Trillum,每個(gè)芯片處理速度比前一代TPU v5e提升了4.7倍。谷歌在AI領(lǐng)域的強(qiáng)大優(yōu)勢(shì)不僅體現(xiàn)在大模型,還體現(xiàn)在他們?cè)贏I處理器領(lǐng)域的實(shí)力,早在2016年谷歌就推出了為AI訓(xùn)練設(shè)計(jì)的第一代TPU(定制張量處理單元)。Gemini大模型完全是在自己的第四代和第五代TPU上進(jìn)行訓(xùn)練與服務(wù)的,谷歌甚至還向Anthropic等其他AI公司提供了TPU訓(xùn)練服務(wù)。除了TPU之外,谷歌上個(gè)月還發(fā)布了第一代基于ARM架構(gòu)的AI CPU Axiom。

OpenAI再次對(duì)線谷歌

2023一整年,OpenAI和谷歌多次對(duì)線,相信谷歌深深品嘗到了peer pressure的滋味:

· 2022年11月,OpenAI發(fā)布一鳴驚人,開(kāi)啟了全球大語(yǔ)言模型的熱潮;2023年3月,谷歌緊急發(fā)布了Bard,上線時(shí)功能有限,無(wú)法和有效競(jìng)爭(zhēng)。

· 在谷歌發(fā)布Bard的同一時(shí)期,OpenAI已經(jīng)更新推出GPT-4并開(kāi)放了API;2023年的谷歌I/O大會(huì)發(fā)布PaLM 2對(duì)應(yīng)GPT-4。但PaLM 2僅僅縮小了與GPT-4的差距,并沒(méi)有整體超越GPT-4,因此在這場(chǎng)大會(huì)上同時(shí)宣布正在訓(xùn)練PaLM的繼任者Gemini。

· 2023年12月,谷歌發(fā)布Gemini,而GPT-4已經(jīng)是OpenAI一年前的產(chǎn)品。而且,Gemini還被爆出,宣稱打敗GPT-4的多模態(tài)視頻有后期制作和剪輯的成分。

· 谷歌隨后緊接著推出了最強(qiáng)多模態(tài)大模型Gemini 1.5 pro,能夠穩(wěn)定處理高達(dá)100萬(wàn)token,創(chuàng)下了最長(zhǎng)上下文窗口的紀(jì)錄;面對(duì)Gemini 1.5 pro,OpenAI只用了幾個(gè)小時(shí)就做出了回應(yīng) —— 推出文字視頻生成模型Sora,用前所未有的視頻生成性能以及世界模型的產(chǎn)品化,搶走了Gemini 1.5 pro的話題度,也強(qiáng)化了自己的AI領(lǐng)導(dǎo)地位。

從產(chǎn)品進(jìn)展來(lái)看OpenAI領(lǐng)先一籌。雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢(shì),屢屢搶占先發(fā)優(yōu)勢(shì),每次都能領(lǐng)先谷歌一步發(fā)布新品,但谷歌依然有著自己的獨(dú)有優(yōu)勢(shì)所在。作為最早投入AI研究的科技巨頭,谷歌最大的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅在于產(chǎn)品的研發(fā),還包括了基礎(chǔ)設(shè)施和運(yùn)算能力,在于龐大的谷歌應(yīng)用矩陣與數(shù)十億的用戶級(jí)別。

OpenAI的GPT-4o在自然語(yǔ)言處理能力上表現(xiàn)強(qiáng)大,谷歌在多模態(tài)理解、數(shù)據(jù)豐富性和開(kāi)發(fā)者支持方面也展現(xiàn)了強(qiáng)勁的競(jìng)爭(zhēng)力。兩者在各自擅長(zhǎng)的領(lǐng)域均有顯著優(yōu)勢(shì),并不斷推動(dòng)人工智能技術(shù)的發(fā)展。

目前來(lái)看,手機(jī)依然是AI智能助手最重要的硬件載體,掌握Android系統(tǒng)的谷歌有著天然的優(yōu)勢(shì),前段時(shí)間蘋(píng)果與OpenAI的合作傳聞,可能正是來(lái)源于二者對(duì)抗谷歌因而各取所需?,F(xiàn)在谷歌除了Gemini外,還有強(qiáng)力的外部支持,也是相比其他競(jìng)爭(zhēng)者的最大優(yōu)勢(shì)之一,即豐富的應(yīng)用生態(tài),可以用Gemini打通并連接更多自己的應(yīng)用,用戶在谷歌應(yīng)用和服務(wù)中的信息都能被調(diào)用。

移動(dòng)與桌面兩端的20億+的用戶規(guī)模,以及幾乎覆蓋所有領(lǐng)域的產(chǎn)品,更是谷歌AI技術(shù)落地的龐大產(chǎn)品軍火庫(kù)。從搜索到郵件,從地圖到圖片,再到辦公組件,谷歌有著太多上億乃至十億用戶級(jí)別的產(chǎn)品可以承載AI落地。

然而,谷歌DeepMind的技術(shù)路線就暴露出了明顯的短板:在各個(gè)技術(shù)方向上投入的泛創(chuàng)新,消耗了大量資金,DeepMind與谷歌母公司Alphabet在商業(yè)化上的矛盾日趨加深;每個(gè)技術(shù)的重視程度、持續(xù)深入強(qiáng)度分散,最典型的就是Transformer架構(gòu),由谷歌發(fā)明卻被OpenAI發(fā)揚(yáng)光大;落地遲緩,成果轉(zhuǎn)化的效率也很低下,這一點(diǎn)在Sora的爆火上就能看到,訓(xùn)練Sora使用的擴(kuò)散模型(diffusion model)、文生圖模型,谷歌都有相應(yīng)的技術(shù)儲(chǔ)備和成果,但是卻沒(méi)能先推出相關(guān)的產(chǎn)品。

值得一提的是,今年初,OpenAI發(fā)布了AI文生視頻模型Sora,一度驚艷市場(chǎng),但Sora的模型訓(xùn)練數(shù)據(jù)來(lái)源卻引起了外界的懷疑。面對(duì)Sora濫用Youtube視頻訓(xùn)練的問(wèn)題,在接受接受采訪時(shí),桑達(dá)爾·皮查伊表示,如果谷歌確定OpenAI依賴YouTube內(nèi)容來(lái)訓(xùn)練其Sora模型,谷歌將要“解決這個(gè)問(wèn)題”。

“我認(rèn)為這是他們應(yīng)該回答的問(wèn)題,我沒(méi)有什么要補(bǔ)充的,我們有明確的服務(wù)條款。所以,你知道,我認(rèn)為通常在這些事情上,我們會(huì)與企業(yè)接觸,并確保他們理解我們的服務(wù)條款。我們會(huì)解決的?!?/span>



關(guān)鍵詞: OpenAI 谷歌 Gemini ChatGPT 大模型

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉