因嫌 GPU 太貴,巨頭 ChatGPT 大戰(zhàn)陷敗局,Meta 用 CPU 跑 AI,點(diǎn)錯科技樹
小扎 All In 元宇宙兩年后,忽然發(fā)現(xiàn)全世界都在搞生成式 AI。這可尷尬了,自家公司還在用 CPU 做 AI 推理呢……
本文引用地址:http://m.butianyuan.cn/article/202304/446019.htmChatGPT 大戰(zhàn),Meta 為何遲遲沒有動作?
就在今天,路透社記者挖出了一個大瓜,原因讓人瞠目結(jié)舌 ——
相比谷歌、微軟等大廠,Meta 跑 AI 時,用的竟然是 CPU!
很難想象,在深度學(xué)習(xí)幾乎占機(jī)器學(xué)習(xí)半壁江山的時代,一個科技巨頭竟然能用 CPU 堅持這么久。
雖然他們也曾嘗試過自研 AI 芯片,但最終遭遇滑鐵盧。
現(xiàn)在,ChatGPT 引爆的生成式 AI 大戰(zhàn)打得昏天黑地,這就更加劇了 Meta 的產(chǎn)能緊縮。
用 CPU 訓(xùn)練 AI,Meta 怎么想的?
Meta 遲遲不肯接受用 GPU 的原因,令人匪夷所思。
GPU 芯片非常適合 AI 處理,因為它們可以同時執(zhí)行大量任務(wù),從而減少處理數(shù)十億條數(shù)據(jù)所需的時間。
然而,GPU 也比其他芯片更昂貴,英偉達(dá)控制著 80% 的市場份額,并在配套軟件上,也保持著絕對的領(lǐng)先地位。
直到去年,Meta 在處理 AI 工作負(fù)載時,主要使用的還是 CPU。CPU 是計算機(jī)的主力芯片,幾十年來數(shù)據(jù)中心用的也是 CPU,但它在 AI 工作上表現(xiàn)并不佳。
據(jù)悉,Meta 還曾自研芯片,在內(nèi)部設(shè)計的定制芯片上進(jìn)行推理。
但在 2021 年,Meta 還是失望地發(fā)現(xiàn),比起 GPU,這種雙管齊下的方法速度更慢、效率更低。而且 GPU 在運(yùn)行不同類型的模型上,遠(yuǎn)比 Meta 的芯片更靈活。
而且,小扎決定 All In 元宇宙這一舉措,也直接榨干了 Meta 的算力。不管是 AI 的部署,還是威脅的應(yīng)對上,都遭到了極大的削弱。
這些失誤,引起了前 Meta 董事會成員 Peter Thiel 的注意,隨后,他于 2022 年初辭職。
據(jù)內(nèi)部人士透露,在離開前的一次董事會會議上,Thiel 告訴小扎和高管們,他們對 Meta 的社交媒體業(yè)務(wù)太自滿,并且過分關(guān)注元宇宙了,這讓公司很容易被 TikTok 的挑戰(zhàn)所撼動。
Meta 粗大事了
在去年夏天快要結(jié)束的時候,小扎曾召集了高級副手們,花了五個小時,對 Meta 的計算能力進(jìn)行分析。
他們需要知道,在開發(fā)尖端的 AI 方面,Meta 有多大的能力?
出來的結(jié)果,讓所有人倒吸一口涼氣。
根據(jù) 9 月 20 日的公司備忘錄顯示,盡管 Meta 對 AI 研究進(jìn)行了大筆高調(diào)的投資,然而主要業(yè)務(wù)需要的 AI 友好型硬件和軟件系統(tǒng)都非常昂貴,在這些方面公司的進(jìn)展相當(dāng)緩慢。
緩慢到,已經(jīng)阻礙了 Meta 跟上大規(guī)模創(chuàng)新的步伐。
這可是個棘手的大麻煩,要知道,Meta 的增長,越來越依賴 AI。
基礎(chǔ)設(shè)施負(fù)責(zé)人 Santosh Janardhan 強(qiáng)調(diào),無論是開發(fā) AI 的工具,還是工作流程,Meta 都已經(jīng)遠(yuǎn)遠(yuǎn)落后于其他對手。
「Meta 需要從根本上改變物理基礎(chǔ)設(shè)施設(shè)計、軟件系統(tǒng)和提供穩(wěn)定平臺的方法?!?/p>
一年多來,Meta 一直在搞的大項目,就是希望完善 AI 基礎(chǔ)設(shè)施。但經(jīng)歷過產(chǎn)能緊縮、領(lǐng)導(dǎo)層變動和廢棄的 AI 芯片項目后,Meta 的改革似乎不盡如人意。
所以,Meta 徹底放棄 AI 芯片了?
對于外媒的這個提問,Meta 發(fā)言人 Jon Carvill 表示,公司「在大規(guī)模創(chuàng)建和部署最先進(jìn)的基礎(chǔ)設(shè)施方面有著良好的記錄,并有著人工智能研究和工程方面的深厚專業(yè)知識?!?/p>
「隨著我們?yōu)閼?yīng)用程序和消費(fèi)產(chǎn)品系列帶來新的 AI 體驗,我們有信心繼續(xù)擴(kuò)展基礎(chǔ)設(shè)施的能力,以滿足我們的近期和長期需求?!?/p>
總之,沒有正面回答。
但這次改革,已經(jīng)耗費(fèi)了大量的人力物力。
據(jù)悉,改革使 Meta 每季度的資本支出增加了約 40 億美元,幾乎是 2021 年支出的兩倍。而且 Meta 此前建設(shè) 4 個數(shù)據(jù)中心的計劃,也因此暫?;蛉∠?。
Meta 的資本支出大增
而這些大筆支出,跟 Meta 嚴(yán)重的財務(wù)緊縮期又恰恰重合。
去年 11 月以來,硅谷的互聯(lián)網(wǎng)泡沫開始破滅,Meta 一直在大規(guī)模裁員。
OpenAI 的 ChatGPT 在 11 月 30 日亮相后,立馬引爆了科技巨頭之間的軍備競賽。
此后的生成式 AI 大戰(zhàn),吞噬了大量的算力,這更逼得 Meta 加緊改革。
極力追趕
據(jù)悉,Meta 在現(xiàn)實(shí)面前,不得不選擇低頭。
高管們?nèi)∠嗽?2022 年大規(guī)模推出自研芯片的計劃,轉(zhuǎn)頭訂購了價值數(shù)十億美元的英偉達(dá) GPU。
但此時,已經(jīng)為時已晚。
Meta 已經(jīng)落后于谷歌等同行一大截,谷歌早在 2015 年就開始部署自己定制的 GPU——TPU。
在 2022 年春天,高管們也同時開始著手重組 Meta 的 AI 部門。
這期間發(fā)生了長達(dá)數(shù)月的動蕩,十幾位高管離開了。AI 基礎(chǔ)設(shè)施領(lǐng)導(dǎo)層,整個經(jīng)歷了一次大換血。
接下來,Meta 的工作也很棘手。
他們得費(fèi)老大勁重組數(shù)據(jù)中心,來適應(yīng)新的 GPU,因為 GPU 比 CPU 的功耗和產(chǎn)熱都更多,還必須用專用網(wǎng)絡(luò)把它們聚在一起。
為了管理集群的熱量,這些設(shè)施需要 24 到 32 倍的網(wǎng)絡(luò)容量和新的液冷系統(tǒng),因此需要從頭設(shè)計。
即便如此,Meta 似乎也并沒有放棄自研芯片的路線。
據(jù)悉,新的內(nèi)部芯片會和 GPU 一樣,能夠訓(xùn)練 AI 模型并執(zhí)行推理,將于 2025 年左右完成。
懸崖勒馬,回頭是岸
此前,微軟有 ChatGPT,谷歌緊忙拉 Bard 出來對打,Meta 卻似乎并不急于下場生成式 AI 競賽,推出的 LLaMA 也并不用作商用。
Meta CFO Susan Li 在 2 月承認(rèn),Meta 并沒有將大部分計算資源投入到生成式 AI 中,而是基本上將所有的 AI 能力都用于廣告、feeds 和 Reels(類似于 TikTok 的短視頻)。
此前,同谷歌一樣,Meta 并不重視生成式 AI。Meta 的 FAIR 實(shí)驗室從 21 年底以來,就在發(fā)布這種 AI 技術(shù)的原型,研究成果也備受推崇,但 Meta 從未考慮過將其轉(zhuǎn)化為產(chǎn)品。
去年 11 月中旬,Meta 的 FAIR 實(shí)驗室曾提出 Galactica 模型
然而 ChatGPT 誕生后,一切都不一樣了。投資者的興趣開始飆升,小扎在今年二月官宣了全新的頂級團(tuán)隊,押寶生成式 AI。
據(jù)悉,工作的重點(diǎn)是建成一個基礎(chǔ)模型,在這個核心的基礎(chǔ)上,可以針對不同產(chǎn)品進(jìn)行微調(diào)和調(diào)整。
All In AIGC?網(wǎng)友:改名 MetAI 吧
18 個月前,小扎把 Facebook 的未來押在了元宇宙上,甚至還把公司的名字改成了 Meta。最近,他又迷上了另一個非常燒錢的技術(shù) ——AIGC。
本月早些時候,Meta 首席技術(shù)官 Andrew Bosworth 表示,扎克伯格和其他高管現(xiàn)在把大部分時間都花在了人工智能上。
對此,Bernstein 的分析師表示,照這個架勢下去,Meta 很可能要改名叫 ——MetAI 了。
不過,想要追上 OpenAI、微軟和谷歌的步伐,Meta 就必須為訓(xùn)練這些超大規(guī)模的生成式 AI 模型,大肆采購英偉達(dá)的芯片(單個組件 1 萬美金起跳)。
目前,耗時 5 個月訓(xùn)練出的「Meta 版 ChatGPT」LLaMa,用的是 2048 個 80GB 顯存的 A100。
作為對比,微軟為 OpenAI 量身定做的超算,搭載的可是上萬塊 A100。
而 ChatGPT 和 Bard「決一死戰(zhàn)」的背后,正是英偉達(dá) CUDA 支持的 GPU(圖形處理單元)和谷歌定制的 TPU(張量處理單元)。
換句話說,這已經(jīng)不再是關(guān)于 ChatGPT 與 Bard 的對抗,而是 TPU 與 GPU 之間的對決,以及它們?nèi)绾斡行У剡M(jìn)行矩陣乘法。
由于在硬件架構(gòu)方面的出色設(shè)計,英偉達(dá)的 GPU 非常適合矩陣乘法任務(wù) —— 能有效地在多個 CUDA 核心之間實(shí)現(xiàn)并行處理。
因此從 2012 年開始,在 GPU 上訓(xùn)練模型便成為了深度學(xué)習(xí)領(lǐng)域的共識,至今都未曾改變。
而隨著 NVIDIA DGX 的推出,英偉達(dá)能夠為幾乎所有的 AI 任務(wù)提供一站式硬件和軟件解決方案,這是競爭對手由于缺乏知識產(chǎn)權(quán)而無法提供的。
相比之下,谷歌則在 2016 年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優(yōu)化的定制 ASIC(專用集成電路),并且還針對自家的 TensorFlow 框架進(jìn)行了優(yōu)化。
而這也讓 TPU 在矩陣乘法之外的其他 AI 計算任務(wù)中具有優(yōu)勢,甚至還可以加速微調(diào)和推理任務(wù)。
不過,微軟與英偉達(dá)長久以來的深度合作,讓各自在行業(yè)上的積累得到充分地利用,并以此同時擴(kuò)大了雙方的競爭優(yōu)勢。
尤其是當(dāng) ChatGPT 開始橫掃整個 AI 圈時,兩家公司的市值也是一路狂飆。
而這波被 ChatGPT 帶起來的大模型煉丹潮,更是讓「煉丹爐」供應(yīng)商英偉達(dá)賺得盆滿缽滿。僅在今年的這幾個月里,市值就增長了超過 80%。
裁員硅谷第二,野心如何支撐
然而,Meta 現(xiàn)在好像并沒有足夠的資金來支撐自己的野心。
眾所周知,這段時間裁員潮繼續(xù)席卷了整個科技行業(yè),但有些公司裁得比別人更多。
在比例上,裁掉 80% 員工的推特毫無疑問地占據(jù)了第一的位置,而送走近四分之一員工的 Meta 緊隨其后。
在數(shù)量上,Meta 也憑借著高達(dá) 2.1 萬人的巨大優(yōu)勢位列第二,但這并沒包括即將進(jìn)行第三輪裁員。
2022 年,在小扎宣布大裁員之前,Meta 有差不多 87,000 名員工。但在 11 月時畢業(yè)了 11,000 人,3 月又畢業(yè)了 10,000 人。
據(jù) Insider 報道,Meta 的第三輪裁員會直接影響數(shù)千人,而管理層職位更是首當(dāng)其沖。包括但不限于,現(xiàn)實(shí)實(shí)驗室、Facebook 和 Instagram 的技術(shù)產(chǎn)品經(jīng)理,以及人工智能研究科學(xué)家、軟件工程師、數(shù)據(jù)工程師等。
最新的一項分析顯示,從 2018 年到 2022 年,Meta 的員工隊伍膨脹了 143%,但每個員工的收入在這段時間內(nèi)下降了 14%。
高管變動、員工流失、資金不足、路線選錯,Meta 前方的路,似乎困難重重。
讓我們看看小扎接下來會怎么走。
評論