大模型時(shí)代的芯片機(jī)遇

發(fā)布人：芯東西時(shí)間：2024-04-29 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大模型時(shí)代，AI芯片迎來(lái)了真正商業(yè)化的機(jī)會(huì)。作者 | 季宇本文來(lái)自行云集成電路創(chuàng)始人季宇，更被大家熟知的江湖綽號(hào)——mackler，本文是mackler最新演講，非常精彩。以下是演講全文：關(guān)于大模型，我們聽(tīng)到的最多的就是Scaling。OpenAI通過(guò)多年對(duì)Scaling的堅(jiān)持和激進(jìn)投入，把模型一步步有效推進(jìn)到千億萬(wàn)億規(guī)模，實(shí)際上證明了AGI這個(gè)非常非常難的問(wèn)題可以通過(guò)Scaling這種路徑清晰也簡(jiǎn)單地多的方式去不斷逼近。同時(shí)OpenAI也把Scale作為他們組織的核心價(jià)值觀之一來(lái)不斷逼近AGI。今天不光模型尺寸在Scale，上下文長(zhǎng)度也在劇烈地Scale。這種方法論雖然相比AGI這么宏大的目標(biāo)而言已經(jīng)足夠簡(jiǎn)化了，但這背后是同等急劇上升的資源投入，單純的Scale并不是一個(gè)經(jīng)濟(jì)性的方案。所以我們看到Sam Altman提到7萬(wàn)億美元的瘋狂計(jì)劃，大家也經(jīng)常討論大模型商業(yè)落地的巨大成本。大模型的商業(yè)落地相比互聯(lián)網(wǎng)目前有一個(gè)非常巨大的區(qū)別，就是邊際成本仍然非常高。過(guò)去的互聯(lián)網(wǎng)業(yè)務(wù)，增加一個(gè)用戶對(duì)互聯(lián)網(wǎng)廠商的基礎(chǔ)設(shè)施而言，增加的成本幾乎是可以忽略不記的。但今天大模型每增加一個(gè)用戶，對(duì)基礎(chǔ)設(shè)施增加的成本是肉眼可見(jiàn)的增加的，目前一個(gè)月幾十美元的訂閱費(fèi)用都不足以抵消背后高昂的成本。而且今天的大模型要大規(guī)模商業(yè)化，在模型質(zhì)量、上下文長(zhǎng)度等方面還有進(jìn)一步訴求，實(shí)際上還有可能需要進(jìn)一步增加這個(gè)邊際成本。今天一個(gè)日活千萬(wàn)的通用大模型需要一年超過(guò)100億的收入才能支撐其背后的數(shù)據(jù)中心成本，未來(lái)如果我們希望大模型產(chǎn)業(yè)真正像今天的互聯(lián)網(wǎng)產(chǎn)業(yè)一樣服務(wù)上億人，模型的質(zhì)量可能也需要進(jìn)一步上一個(gè)臺(tái)階，成本會(huì)成為很嚴(yán)重的問(wèn)題。但對(duì)于芯片行業(yè)而言，只要適當(dāng)拉長(zhǎng)時(shí)間尺度，這些都不會(huì)是問(wèn)題。芯片行業(yè)是人類所有工業(yè)體系中Scaling技能點(diǎn)最強(qiáng)的。過(guò)去大半個(gè)世紀(jì)，半導(dǎo)體行業(yè)一直踐行的摩爾定律就是一個(gè)關(guān)于Scaling的經(jīng)濟(jì)性方案。其實(shí)NVIDIA的老黃評(píng)論Sam的7萬(wàn)億美元計(jì)劃時(shí)也提到，芯片本身也會(huì)持續(xù)演進(jìn)來(lái)不斷降低大模型Scaling所需的資源。7萬(wàn)億會(huì)在幾年內(nèi)逐漸變成7千億、7百億，逐漸變成一個(gè)不是那么夸張的數(shù)字。今天很多人講大模型的上下文窗口就是新的內(nèi)存，今天看起來(lái)非常寶貴的幾K到幾M的大模型上下文窗口長(zhǎng)度，我們精打細(xì)算把重要的信息，各種prompt填入到這有限的上下文窗口里，有點(diǎn)像上個(gè)世紀(jì)的各種經(jīng)典小游戲，用很多不可思議的方式在KB級(jí)別的內(nèi)存實(shí)現(xiàn)今天看起來(lái)已經(jīng)非常復(fù)雜的游戲。但在不遠(yuǎn)的未來(lái)，芯片行業(yè)就可以把上下文窗口逐漸變得和今天的內(nèi)存一樣非常便宜，隨便一個(gè)hello world就直接吃掉MB級(jí)別的內(nèi)存，隨便一個(gè)應(yīng)用就GB級(jí)別的內(nèi)存占用。未來(lái)我們也一樣可以隨隨便便把一個(gè)領(lǐng)域的全部知識(shí)裝進(jìn)上下文里，讓大模型成為絕對(duì)意義上的領(lǐng)域?qū)＜遥部梢宰尨竽Ｐ蛽碛羞h(yuǎn)超人類一輩子能接受的全部上下文，從而引發(fā)大模型走向新的質(zhì)變。最近幾年其實(shí)說(shuō)摩爾定律放緩的觀點(diǎn)很多，這也是實(shí)際情況，先進(jìn)工藝的研發(fā)投入資金也在指數(shù)級(jí)飆升，使得維持摩爾定律逐漸變得失去經(jīng)濟(jì)性。但芯片行業(yè)的Scaling不只是晶體管的微縮推動(dòng)的，NVidia的GPU過(guò)去十年靠架構(gòu)繼續(xù)推動(dòng)放緩的摩爾定律持續(xù)保持非常高的增速，算力成本降低了一千倍。而今天大模型進(jìn)一步打開(kāi)了更多芯片的演進(jìn)空間，今天大模型對(duì)芯片的需求從算力轉(zhuǎn)向了內(nèi)存和互聯(lián)，內(nèi)存系統(tǒng)和互聯(lián)的Scale空間更大，除了半導(dǎo)體工藝的演進(jìn)外，封裝工藝的發(fā)展、硅光都對(duì)內(nèi)存和互聯(lián)的設(shè)計(jì)打開(kāi)了巨大的空間。大模型今天也早已經(jīng)全面走向分布式，今天不僅僅是單顆芯片的設(shè)計(jì)，也進(jìn)一步擴(kuò)展到服務(wù)器、機(jī)柜、網(wǎng)絡(luò)層面，這些層面都有比原來(lái)有大得多的設(shè)計(jì)空間，未來(lái)芯片的增速不僅不會(huì)放緩，反而會(huì)比今天更快。從大模型未來(lái)大規(guī)模商業(yè)化來(lái)看，大模型對(duì)芯片的主要需求實(shí)際上已經(jīng)轉(zhuǎn)向內(nèi)存和互聯(lián)，因?yàn)槲覀?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">需要足夠多的高帶寬內(nèi)存通過(guò)互聯(lián)系統(tǒng)連接起來(lái)形成一個(gè)巨大的高帶寬內(nèi)存來(lái)支撐大模型的服務(wù)。今天我們經(jīng)常討論的售賣Token的價(jià)格，實(shí)際上Token和Token是不一樣的，一個(gè)7B模型的Token和千億萬(wàn)億模型的Token肯定不等價(jià)，一個(gè)4K上下文的Token和一個(gè)2M上下文的Token也不等價(jià)。Token的質(zhì)量實(shí)際上和模型規(guī)模以及上下文窗口都是強(qiáng)相關(guān)的。模型權(quán)重是模型在訓(xùn)練時(shí)候?qū)φ麄€(gè)數(shù)據(jù)集的壓縮和泛化，是對(duì)世界和常識(shí)的理解，而上下文對(duì)應(yīng)的KV-Cache是對(duì)上下文的理解。而權(quán)重和KV-Cache其實(shí)也是大模型對(duì)內(nèi)存最主要的需求，這部分的訪存速度也決定了Token生成的速度。我們可以把Token的業(yè)務(wù)質(zhì)量和這個(gè)Token對(duì)應(yīng)的權(quán)重以及KV-Cache的總訪存量直接掛鉤。高質(zhì)量的Token生成過(guò)程中需要更大的訪存量，低質(zhì)量的Token生成過(guò)程中需要的訪存量也相應(yīng)更小。而售賣Token對(duì)硬件系統(tǒng)而言實(shí)際上是售賣內(nèi)存系統(tǒng)的訪存帶寬。一個(gè)容量足夠大的內(nèi)存系統(tǒng)才能提供足夠高質(zhì)量的Token服務(wù)，一個(gè)內(nèi)存帶寬性價(jià)比足夠高的系統(tǒng)才能帶來(lái)更好的服務(wù)成本。物理世界中的內(nèi)存介質(zhì)選擇往往要帶寬就沒(méi)有容量、要容量就沒(méi)有帶寬。當(dāng)然這也沒(méi)辦法，如果存在一種內(nèi)存介質(zhì)容量和帶寬都比另一種都要低，也就被淘汰了，容量和帶寬總得占一個(gè)才會(huì)被篩選出來(lái)。所以今天繼要容量大又要帶寬性價(jià)比高，往往需要通過(guò)足夠有性價(jià)比的互聯(lián)系統(tǒng)將大量高帶寬內(nèi)存連到一起，這里面是存在非常大的設(shè)計(jì)空間的。這也是中國(guó)AI芯片行業(yè)真正實(shí)現(xiàn)商業(yè)化的一次巨大機(jī)會(huì)，過(guò)去十年大家都是在卷算力，算力的競(jìng)爭(zhēng)往往不只是峰值算力指標(biāo)的競(jìng)爭(zhēng)，算力和編程模型、軟件都有很強(qiáng)的耦合性，算力指標(biāo)對(duì)先進(jìn)工藝也有很強(qiáng)的依賴性。這兩點(diǎn)實(shí)際上造成了過(guò)去十年大量AI芯片在產(chǎn)品定義和供應(yīng)鏈安全方面都遭遇了巨大的困難。大模型今天把芯片產(chǎn)品的競(jìng)爭(zhēng)力拉到了內(nèi)存和互聯(lián)維度，這些維度相比算力都標(biāo)準(zhǔn)化得多，對(duì)解決產(chǎn)品定義問(wèn)題提供了新的可能性，標(biāo)準(zhǔn)化的維度更貼近指標(biāo)競(jìng)爭(zhēng)，就像今天大家買網(wǎng)卡或者交換機(jī)時(shí)候只關(guān)注指標(biāo)而不關(guān)注是哪家的產(chǎn)品，這就是標(biāo)準(zhǔn)化競(jìng)爭(zhēng)的好處。今天AI芯片可能介于網(wǎng)卡交換機(jī)這種純標(biāo)準(zhǔn)化的競(jìng)爭(zhēng)和過(guò)去那種純算力這種非標(biāo)競(jìng)爭(zhēng)之間，相比過(guò)去是存在更多空間來(lái)解決產(chǎn)品定義的問(wèn)題。內(nèi)存和互聯(lián)對(duì)先進(jìn)工藝的依賴度相比算力也更少，而且擴(kuò)大到機(jī)柜甚至集群層面，有更多競(jìng)爭(zhēng)的可能性，今天在封裝、互聯(lián)層面有更多發(fā)揮空間，也降低了對(duì)先進(jìn)制程的依賴，在供應(yīng)鏈上也存在更多的選擇。我們?nèi)绻串?dāng)下和未來(lái)兩三年，其實(shí)大模型的商業(yè)探索也是在成本和Token質(zhì)量上相互妥協(xié)，也逐漸分化成了兩派。一派是質(zhì)量?jī)?yōu)先，用高端系統(tǒng)打造高質(zhì)量的通用大模型，尋找超級(jí)應(yīng)用來(lái)覆蓋高昂的成本。另一派是成本優(yōu)先，用足夠便宜的硬件上，提供基本夠用的Token質(zhì)量，尋找垂直場(chǎng)景的落地。從芯片未來(lái)兩三年的短期Scaling來(lái)看，也會(huì)從兩個(gè)路徑來(lái)解決這兩派在成本和質(zhì)量上的糾結(jié)。一種是高端系統(tǒng)的成本的大幅度下降，顯著降低超級(jí)應(yīng)用需要承擔(dān)的成本，另一種是低端設(shè)備的規(guī)格大幅提升，顯著提升低成本設(shè)備下可以支持的Token質(zhì)量。今天很多人講7B模型已經(jīng)夠用了，或者努力讓7B或者更小的模型變得夠用，其實(shí)也是一種無(wú)奈，如果能在同樣的成本下買到規(guī)格大得多的芯片，跑一個(gè)百億千億模型，支持超長(zhǎng)上下文，商業(yè)化的空間會(huì)比今天大得多，就像曾經(jīng)的顯卡和游戲行業(yè)一樣，當(dāng)足夠便宜的顯卡已經(jīng)可以流程跑4k畫質(zhì)的時(shí)候，誰(shuí)還會(huì)覺(jué)得1080p的畫質(zhì)也夠用了呢？?jī)?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">三年后，隨著芯片行業(yè)的發(fā)展，不會(huì)再有人需要小模型，大模型長(zhǎng)文本的高質(zhì)量Token會(huì)變得足夠便宜。往更長(zhǎng)遠(yuǎn)看，大模型的成本模型對(duì)于商業(yè)形態(tài)都會(huì)產(chǎn)生巨大的變革。很多傳統(tǒng)互聯(lián)網(wǎng)業(yè)務(wù)具有巨大的固定成本，而邊際成本非常低，一個(gè)集中式的云往往就是最經(jīng)濟(jì)的商業(yè)形態(tài)。今天大模型實(shí)際上把信息高度壓縮到一個(gè)足夠小的系統(tǒng)中，甚至是單個(gè)用戶在未來(lái)可能承受的。同時(shí)，今天大模型服務(wù)的邊際成本相比固定成本占比已經(jīng)非常高，短期內(nèi)仍然在云端更多是因?yàn)檫呺H成本對(duì)于用戶來(lái)講還是太高了，并且商業(yè)模式也還未大規(guī)模爆發(fā)，用戶也不會(huì)愿意為一個(gè)尚未大規(guī)模商業(yè)化的需求承擔(dān)這部分邊際成本。因此未來(lái)兩三年內(nèi)仍然是云端承擔(dān)大量的邊際成本來(lái)探索商業(yè)化的可能性，芯片行業(yè)幫助降低成本加速商業(yè)化。但隨著大模型大規(guī)模商業(yè)化爆發(fā)，這種成本模型實(shí)際上會(huì)造成巨大的浪費(fèi)。試想一下以后我們常用的幾十種不同的應(yīng)用都獨(dú)自提供大模型服務(wù)，這些邊際成本對(duì)于所有廠商都是巨大的，而羊毛出在羊身上，最終還是會(huì)轉(zhuǎn)嫁到消費(fèi)者身上，就像今天需要付費(fèi)訂閱各種大模型廠商。隨著芯片行業(yè)進(jìn)一步降低成本，大模型落到端側(cè)會(huì)變成總體更加經(jīng)濟(jì)的成本模型。就像今天的游戲市場(chǎng)，游戲畫質(zhì)的成本是游戲玩家自己買的顯卡來(lái)承擔(dān)，游戲玩家也無(wú)需為想玩的不同游戲單獨(dú)為畫質(zhì)付費(fèi)，游戲廠商也無(wú)需承擔(dān)這部分成本。大模型也是類似的，未來(lái)芯片的Scaling讓用戶可以在端側(cè)低成本跑極高質(zhì)量的大模型，無(wú)需為不同的云端服務(wù)承擔(dān)獨(dú)立的大模型訂閱費(fèi)用，大模型的高度智能也能更容易打破不同應(yīng)用之間的壁壘，還能在端側(cè)更好地協(xié)同起來(lái)，實(shí)現(xiàn)更好的體驗(yàn)。當(dāng)然這和今天AI PC這一類在端側(cè)跑低成本的小模型還是有本質(zhì)區(qū)別的，還有待于芯片行業(yè)的迭代，讓大家能在比今天更低的成本下跑起來(lái)未來(lái)的旗艦?zāi)Ｐ汀?/span>我們相信大模型能隨著芯片行業(yè)的Scaling逐漸低成本走進(jìn)千行百業(yè)，也走進(jìn)大家的生活。我們也相信在大模型時(shí)代，AI芯片迎來(lái)了真正商業(yè)化的機(jī)會(huì)，可以把產(chǎn)品定義和供應(yīng)鏈的問(wèn)題解決好，也在更多維度創(chuàng)造出更有競(jìng)爭(zhēng)力的芯片產(chǎn)品。我們行云也希望在未來(lái)努力把這些都變成現(xiàn)實(shí)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

大模型時(shí)代的芯片機(jī)遇

相關(guān)推薦

技術(shù)專區(qū)