把GPT時代引擎拉滿,國產(chǎn)AI大算力芯片換道狂飆
編輯 | 漠影
從2022年11月開始,美國人工智能(AI)公司OpenAI連續(xù)祭出ChatGPT家族的3、3.5、4以及插件還有商業(yè)落地模式的連環(huán)大招,引爆了全球關(guān)注和期待AI應(yīng)用發(fā)展的新一輪熱潮。而在此之前,AI發(fā)展歷程中已出現(xiàn)過兩次“圣杯時刻”。2012年10月,在國際頂級賽事ImageNet計算機視覺挑戰(zhàn)賽上,杰弗里·辛頓與其團隊用卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法一舉奪魁,憑借比人眼識別還低的錯誤率,掀開了計算機視覺盛世的序章。2016年3月,DeepMind研發(fā)的AI程序AlphaGo戰(zhàn)勝世界圍棋冠軍李世石,在全世界擲下一枚重磅炸彈?!叭斯ぶ悄堋睆拇顺鋈?,創(chuàng)業(yè)狂瀾席卷全球,2016年也被稱作“人工智能元年”。兩次“圣杯時刻”背后的算力功臣,分別是英偉達GPGPU(通用圖形處理單元)芯片與谷歌TPU(張量處理單元)芯片。他們也成為業(yè)界AI大算力芯片企業(yè)競相模仿和追趕的對象。如今,ChatGPT的橫空出世宣告著AI行業(yè)迎來第三次“圣杯時刻”,業(yè)界也將其盛贊為AI時代的“iPhone時刻”。盡管ChatGPT及一眾主流大模型背后的芯片主力仍是GPGPU,但嚴峻的挑戰(zhàn)已經(jīng)擺到眼前:一邊是計算量爆棚的生成式AI與大模型發(fā)展熱情高漲,另一邊是即將觸頂?shù)乃懔υ鲩L空間與算力消耗所帶來的驚人碳排放量。正如馬斯克所述,大多數(shù)人會用舉一反三的類比推理來思考問題,即模仿別人做的事情再加以小幅更改,可如果想做出新的東西,必須敢于打破常規(guī)、積極質(zhì)疑舊的經(jīng)驗知識,探究問題本質(zhì),層層推演,進而創(chuàng)造出新的解決方案。中國AI大算力芯片的創(chuàng)新之路,大抵亦是如此。當ASIC、GPGPU發(fā)展道路面臨底層技術(shù)與產(chǎn)業(yè)需求的雙向夾擊,“換道”也許能開辟新的可能。誰能率先填補大模型算力需求的缺口,誰就有機會搶占新一輪AI芯片搶位賽的前排。
01.國產(chǎn)AI大算力芯片的
三波創(chuàng)業(yè)浪潮與三大技術(shù)流派
▲AI不同計算任務(wù)需要各類芯片實現(xiàn)(圖源:浙商證券)
然而,下游AI算法的演進速度遠超想象。根據(jù)頂級AI研究企業(yè)OpenAI在2018年發(fā)布的一份分析報告,自2012年到2017年,訓(xùn)練最大AI模型所使用的算力每3.4個月翻1倍。相比之下,按照芯片行業(yè)的“圭臬”摩爾定律,芯片上容納的晶體管數(shù)量每18~24個月才會翻1倍,兩者之間僅從翻倍的時間上,就產(chǎn)生了16-20個月的差距。專用芯片在特定場景能實現(xiàn)更高算力和能效,但難以適應(yīng)算法種類快速的增加以及迭代速度,因此通用性更強的GPGPU一直是AI芯片的主角。在2018年中美科技競爭大幕拉開后,國產(chǎn)替代的呼聲越來越高,創(chuàng)業(yè)熱點隨之切換到英偉達雄踞多年的GPGPU(通用GPU)賽道。這成為第二波浪潮中主流技術(shù)路徑,也可以劃定為中國AI大算力芯片落地的技術(shù)2.0。天數(shù)智芯、登臨科技、壁仞科技、摩爾線程、沐曦集成電路等一批初創(chuàng)公司,大致都是2017年-2020年期間創(chuàng)業(yè)或啟動自研GPGPU芯片的研發(fā)。資本也蜂擁而至,邏輯很簡單,GPGPU市場有英偉達珠玉在前,已經(jīng)驗證了成功的可能性。以英偉達上百億美元年收入與躋身全球前十的市值來看,假若能切走英偉達在中國的市場份額,足以帶給國產(chǎn)AI大算力芯片企業(yè)優(yōu)渥的回報。但無論是ASIC還是GPGPU,在應(yīng)對生成式AI及大模型正對算力基礎(chǔ)設(shè)施提出的新要求,都顯得多少有些捉襟見肘。▲大模型參數(shù)邁向千億時代,算力需求一路飆漲(圖源:浙商證券)
眼見著摩爾定律身陷邊際效用遞減的困境,ASIC芯片的弱通用性難以應(yīng)對下游算法的快速演化,GPGPU又難解高功耗與低算力利用率問題,業(yè)界正翹首以盼新架構(gòu)、新工藝、新材料、新封裝,以進一步突破算力天花板。與此同時,博弈氣息日漸濃厚的地緣關(guān)系,又給對先進制程工藝高度依賴的AI大算力芯片創(chuàng)企們提出了技術(shù)之外的新難題。在這些大背景下,第三波創(chuàng)業(yè)浪潮正滾滾向前。從2017年到2021年期間集中成立的一批創(chuàng)企,選擇探路存算一體等新興技術(shù),這可以被劃定為中國AI大算力芯片落地的技術(shù)3.0。不同于ASIC與GPGPU,這些新興技術(shù)路線跳出了馮·諾依曼架構(gòu)體系,理論上擁有得天獨厚的高能效比優(yōu)勢,又能繞過先進制程封鎖,兼顧更強通用性與更高性價比,算力發(fā)展空間巨大。隨著新型存儲器件走向量產(chǎn),存算一體AI芯片已經(jīng)挺進AI大算力芯片落地競賽。▲馮·諾依曼、近存計算、存內(nèi)計算架構(gòu)對比(圖源:億鑄科技)
而無論是傳統(tǒng)計算芯片還是存算一體芯片,在實際加速AI計算時往往還需處理大量的邏輯計算、視頻編解碼等非AI加速計算領(lǐng)域的計算任務(wù)。隨著多模態(tài)成為大模型時代的大勢所趨,AI芯片未來需處理文本、語音、圖像、視頻等多類數(shù)據(jù)。這個問題如何解決?億鑄科技,一家做存算一體AI大算力芯片的創(chuàng)企提出了自己的解法——存算一體超異構(gòu)AI大算力技術(shù)路徑。這也是業(yè)內(nèi)首次提出將存算一體和超異構(gòu)做結(jié)合,提供在大模型時代AI大算力芯片換道發(fā)展的一個全新思路。02.兼顧通用性&高性能未來必然走向超異構(gòu)
▲存算一體能實現(xiàn)超越傳統(tǒng)ASIC芯片的更大算力、更高能效(圖源:浙商證券)
但單顆芯片很難為大模型提供充足的計算資源與存儲資源,這就需要將很多計算芯片連在一起,形成系統(tǒng)。據(jù)韓媒報道,受ChatGPT熱潮驅(qū)動,韓國兩大存儲芯片巨頭三星電子、SK海力士的高帶寬內(nèi)存(HBM)接單量大增。芯片與芯片之間的數(shù)據(jù)傳輸過程,往往會造成大量不必要的資源浪費,導(dǎo)致計算系統(tǒng)受限于傳輸帶寬瓶頸,在實際應(yīng)用中發(fā)揮的算力遠小于理論峰值算力。要進一步提升計算資源利用率,必須研究更先進的互連技術(shù),以實現(xiàn)成千上萬個AI芯片之間的高效協(xié)同。最后,軟件的迭代升級亦不可或缺。要降低芯片開發(fā)門檻并實現(xiàn)所有芯片的高效協(xié)同,需要設(shè)計分布式的AI編程軟件平臺,來解決線程調(diào)度、同步、任務(wù)平衡等復(fù)雜問題。“沒有一個單芯片能夠獨立解決大模型問題,所以一定是走向一個超異構(gòu)。”梁曉峣說,盡管他很看好存算一體路線,但僅靠存算一體還不夠,還需與其他架構(gòu)配合,形成一個完整的系統(tǒng)。億鑄科技首次提出的“存算一體超異構(gòu)”概念,就有可能是一個未來的理想組合。超異構(gòu)計算將CPU、GPGPU、CIM(存內(nèi)計算)等不同類型的芯片用先進封裝技術(shù)組合,讓不同架構(gòu)各司其職,既有靈活、可編程的部分來適應(yīng)算法的快速變化,又有定制化部分來提供超高性能和超低功耗,通過統(tǒng)籌調(diào)度,綜合發(fā)揮出多類芯片架構(gòu)的優(yōu)勢,將整體效率做到最優(yōu)。由于器件優(yōu)勢,存算一體在同等功耗下能承擔更大算力。在超異構(gòu)計算的基礎(chǔ)上,以存算一體架構(gòu)為核心,以其他架構(gòu)作輔助,理論上能夠兼顧對高算力與通用性的需求。億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士相信,存算一體超異構(gòu)將來會成為AI算力芯片的主流技術(shù)路線之一。在今年2月份舉行的國際芯片設(shè)計領(lǐng)域最高級別會議ISSCC 2023大會上,AMD董事長兼CEO蘇姿豐也提出了相似的“系統(tǒng)級創(chuàng)新”概念,即綜合考慮跨計算、跨通信、跨內(nèi)存等各項元素,從整體上推動系統(tǒng)級性能和能效的提升。而存算一體超異構(gòu)理念的前瞻性和落地可行性在于,它不像基于傳統(tǒng)計算架構(gòu)的大算力芯片那樣依賴先進制造技術(shù)。這一思路需結(jié)合的新架構(gòu)、新存儲、新封裝等前沿技術(shù),國內(nèi)均已有儲備。03.減輕先進制程依賴癥,億鑄科技的存算一體超異構(gòu)如何換道超車?
▲未來算力升級路徑:Chiplet、存算一體(圖源:浙商證券)
從單芯片來看,熊大鵬告訴智東西,存算一體芯片屬于是“換道超車”,對工藝的要求較低,比如在28nm工藝上實現(xiàn)的算力和能效,就能比肩甚至超過傳統(tǒng)架構(gòu)芯片在7nm工藝上的表現(xiàn)。梁曉峣說,億鑄科技是第一家嘗試設(shè)計并量產(chǎn)基于ReRAM全數(shù)字存算一體AI大算力芯片的企業(yè)。據(jù)熊大鵬透露,億鑄科技自研的存算一體AI大算力芯片,或?qū)⒃?5W-100W功耗范圍內(nèi)實現(xiàn)接近1P的算力,能效比優(yōu)勢非常顯著,將于今年回片。同時,億鑄科技基于存算一體超異構(gòu)概念的下一代芯片設(shè)計工作已經(jīng)開始推進。從器件來看,相比傳統(tǒng)存儲器存在易失性、微縮性差等痼疾,億鑄科技選擇采用的非易失性新型存儲器RRAM更適合應(yīng)用于AI大算力場景。此前,臺積電、聯(lián)電、中芯國際、昕原半導(dǎo)體等代工廠均建立了商業(yè)化RRAM產(chǎn)線。去年2月,昕原半導(dǎo)體主導(dǎo)建設(shè)的RRAM 12寸中試生產(chǎn)線已順利完成自主研發(fā)裝備的裝機驗收工作,實現(xiàn)中試線工藝流程的通線,并成功流片。熊大鵬認為,隨著工藝不斷迭代,國內(nèi)“超車”速度會越來越快,優(yōu)勢會越來越明顯。從超異構(gòu)來看,對于國內(nèi)企業(yè)來說,CPU有廣受歡迎的開源RISC-V架構(gòu),GPGPU有新興的開源架構(gòu)“青花瓷”平臺,存算一體也有億鑄科技等廠商在大力投入研發(fā)。開源GPGPU“青花瓷”平臺由上海交通大學先進計算機體系結(jié)構(gòu)實驗室開發(fā),定位相當于GPGPU領(lǐng)域的RISC-V架構(gòu)。它提供了一個免費開放的先進GPGPU指令集和架構(gòu)參考設(shè)計,能夠接入現(xiàn)有GPGPU生態(tài),從而助力降低設(shè)計門檻,加速相應(yīng)產(chǎn)品的落地。▲“青花瓷”平臺開源代碼頁面
“青花瓷”平臺直通門:gpgpuarch.org
開源地址:github.com/SJTU-ACA-Lab/blue-porcelain在梁曉峣看來,超異構(gòu)需要不同類型的芯片架構(gòu)互相配合、取長補短,這恰好與“青花瓷”平臺的設(shè)計思路完美契合。存算一體架構(gòu)適用于計算和數(shù)據(jù)量大但算法相對簡單的應(yīng)用,在性能和功耗的優(yōu)勢超過其他類型架構(gòu);而GPGPU架構(gòu)可以適配現(xiàn)有的主流AI框架和平臺,并能處理比較復(fù)雜的算法。兩者結(jié)合,將會實現(xiàn)更大有效算力、放置更多參數(shù)、實現(xiàn)更高能效比、更好的軟件兼容性。因此,面向未來大模型時代,存算一體超異構(gòu)的技術(shù)路徑打開了國內(nèi)AI大算力芯片技術(shù)發(fā)展的新思路,而億鑄科技的存算一體超異構(gòu)芯片是該路徑在國內(nèi)切實落地的關(guān)鍵一步。04.結(jié)語:大模型落地勢不可擋AI算力困境亟待換道突破
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。