博客專欄

EEPW首頁(yè) > 博客 > 揭秘AI芯片創(chuàng)新風(fēng)向!清華北大中科院專家同臺(tái)論道,如何突破性能瓶頸?

揭秘AI芯片創(chuàng)新風(fēng)向!清華北大中科院專家同臺(tái)論道,如何突破性能瓶頸?

發(fā)布人:芯東西 時(shí)間:2022-06-10 來源:工程師 發(fā)布文章
從存算一體到跨層優(yōu)化,把脈AI芯片創(chuàng)新風(fēng)向與瓶頸。

作者 |  ZeR0
編輯 |  漠影
芯東西6月7日?qǐng)?bào)道,在上周舉行的2022北京智源大會(huì)芯片前沿技術(shù)論壇上,來自清華、北大、中科院等科研院所的多位專家學(xué)者分享了AI芯片在存算一體、跨層優(yōu)化、軟硬件協(xié)同設(shè)計(jì)等方面的前沿技術(shù)創(chuàng)新思路。清華大學(xué)教授、清華大學(xué)集成電路學(xué)院院長(zhǎng)吳華強(qiáng)解讀了憶阻器存算一體芯片所面臨的挑戰(zhàn);北京大學(xué)信息科學(xué)技術(shù)學(xué)院長(zhǎng)聘副教授、博雅青年學(xué)者梁云分享了可用于降低軟硬件開發(fā)門檻的智能芯片設(shè)計(jì)工具;清華大學(xué)電子系長(zhǎng)聘教授劉勇攀從“算法-架構(gòu)-器件”協(xié)同優(yōu)化的角度探討“分久必合”的芯片設(shè)計(jì)如何提升性能;中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員、智源青年科學(xué)家杜子?xùn)|聚焦AI訓(xùn)練,提出支持高效量化訓(xùn)練、精度損失可忽略不計(jì)的架構(gòu)。面向產(chǎn)業(yè)落地,AI芯片公司昆侖芯科技的芯片研發(fā)總監(jiān)漆維亦分享了其團(tuán)隊(duì)在十年耕耘期間所觀察和總結(jié)的AI芯片大規(guī)模落地的4個(gè)挑戰(zhàn)。芯東西對(duì)論壇中的干貨內(nèi)容加以梳理,與讀者共饗。
01.清華吳華強(qiáng):憶阻器存算一體芯片興起,三大挑戰(zhàn)解析


清華大學(xué)教授、清華大學(xué)集成電路學(xué)院院長(zhǎng)吳華強(qiáng)長(zhǎng)期從事新型存儲(chǔ)器和存算一體技術(shù)的研究,他著重分享了基于憶阻器的存算一體技術(shù)。

圖片

▲吳華強(qiáng)

對(duì)于AI算法而言,“存儲(chǔ)墻”正成為主要的計(jì)算瓶頸,數(shù)據(jù)搬運(yùn)會(huì)消耗大量功耗和時(shí)間。目前AI算法在一部分云計(jì)算里算子比較集中,因此與憶阻器陣列有很好的契合度。基于憶阻器等類腦計(jì)算器件的存算一體架構(gòu),學(xué)習(xí)了大腦工作機(jī)制,通過模擬一些突觸乃至神經(jīng)元的功能,成為突破“馮·諾伊曼”瓶頸的最有潛力的技術(shù)路線之一,有望大幅提升算力和能效。憶阻器具有電阻可調(diào)特性,也可以解決很多傳統(tǒng)模擬計(jì)算的參數(shù)難以配置的問題,它的出現(xiàn),使得存算一體+模擬計(jì)算的新計(jì)算范式興起。吳華強(qiáng)教授重點(diǎn)解讀了憶阻器存算一體芯片面臨的三個(gè)挑戰(zhàn):1、如何真正克服比特誤差對(duì)系統(tǒng)誤差的影響?過去數(shù)字計(jì)算首先是比特精確,比特精確至少要保證系統(tǒng)精確。在基于憶阻器的模擬計(jì)算里,每個(gè)比特相對(duì)來說有一個(gè)range,個(gè)別比特可能完全不準(zhǔn)。如需將每個(gè)比特都做得很精準(zhǔn),則能耗變高,能效會(huì)受影響。對(duì)此,解決思路一方面是從數(shù)學(xué)模型去驗(yàn)證它們的誤差關(guān)系,另一方面從算法上進(jìn)行挑戰(zhàn),根據(jù)實(shí)踐,如果直接復(fù)制數(shù)字計(jì)算的算法,往往得到的效果較差,而在這之中進(jìn)行微調(diào),尤其對(duì)底層設(shè)備、對(duì)分布規(guī)律的理解會(huì)有很大的幫助。吳華強(qiáng)團(tuán)隊(duì)提出由片外壓力訓(xùn)練和片上自適應(yīng)訓(xùn)練組成的混合訓(xùn)練框架,在片外壓力訓(xùn)練中引入系統(tǒng)誤差模型,構(gòu)建具有誤差耐受性的網(wǎng)絡(luò)模型,提升實(shí)際硬件系統(tǒng)的精度。在權(quán)重映射到芯片后,通過原位更新關(guān)鍵層權(quán)重進(jìn)行自適應(yīng)訓(xùn)練,進(jìn)一步提升精度。2、如何高效、低成本的設(shè)計(jì)并制造出憶阻器存算一體芯片?吳華強(qiáng)給出的解法是:CMOS嵌入式集成+EDA工具鏈。芯片走向更大規(guī)模,需要器件進(jìn)一步優(yōu)化結(jié)構(gòu)。從2010年至今,其團(tuán)隊(duì)制作憶阻器件的過程分了幾個(gè)階段:第一階段,用2μm工藝在實(shí)驗(yàn)室中篩選CMOS兼容材料,制備單器件;第二階段,130nm工藝,打通后端集成工藝,發(fā)展了Foundry+Lab模式,最多集成到64M的憶阻器;第三階段,與聯(lián)電新加坡廠、廈門聯(lián)芯、中芯國(guó)際等大的代工廠合作,從40nm到28nm、22nm,可完成整個(gè)工藝的加工。其團(tuán)隊(duì)還研發(fā)了從器件仿真、電路模塊設(shè)計(jì)到系統(tǒng)架構(gòu)設(shè)計(jì)的EDA工具鏈,目前已將EDA工具鏈跟兩款工業(yè)芯片進(jìn)行適配。此外吳華強(qiáng)透露,他們有計(jì)劃將EDA工具鏈開源3、如何提升存算一體架構(gòu)的通用性,使其適配更多的神經(jīng)網(wǎng)絡(luò)算法?吳華強(qiáng)團(tuán)隊(duì)研發(fā)的軟件工具鏈包括編譯器、軟件模擬、硬件模擬器等,通過軟件工具鏈實(shí)現(xiàn)算法和芯片硬件的解耦,可支持各種神經(jīng)網(wǎng)絡(luò)算法。其中,編譯器對(duì)接算法層,可實(shí)現(xiàn)存算一體計(jì)算單元上高效部署神經(jīng)網(wǎng)絡(luò)算法及生成可執(zhí)行程序的功能;軟件模擬對(duì)接著編譯器和算法層,結(jié)合底層硬件模型,考慮真實(shí)器件的非理想因素,實(shí)現(xiàn)對(duì)真實(shí)硬件功能與性能的評(píng)估與探索;硬件模擬器對(duì)接編譯器,功能完整的計(jì)算單元模塊,模擬存算一體SoC工作過程中的數(shù)據(jù)信號(hào)與控制信號(hào)變化情況。在芯片方面,吳華強(qiáng)團(tuán)隊(duì)在研制一款采用28nm制程工藝的集成憶阻器存算一體芯片,集成規(guī)模達(dá)到64Mb,數(shù)模轉(zhuǎn)換精度達(dá)8bit,預(yù)期算力超過100TOPS,預(yù)期能效超過10TOPS/W,具備一定通用計(jì)算能力,功能可重構(gòu)、參數(shù)可配置,并有配套軟件工具鏈。

圖片

“我們現(xiàn)在還需要更大規(guī)模的芯片,被運(yùn)算之后或者在解決一些復(fù)雜問題之后,才能證明存量一體的計(jì)算有很強(qiáng)的生命力,我們?cè)诓粩嗟赝七M(jìn)中?!眳侨A強(qiáng)說。他希望通過這種底層器件到編譯器的改變實(shí)現(xiàn)新的計(jì)算系統(tǒng),用戶無需改變現(xiàn)有編程語言,便可同時(shí)提升算力和能效。經(jīng)過優(yōu)化,未來其單芯片算力有希望達(dá)到1000TOPS,在邊緣計(jì)算和云計(jì)算中擁有廣泛的應(yīng)用前景。
02.北大梁云:軟硬協(xié)同設(shè)計(jì)工具,降低智能芯片開發(fā)門檻


北京大學(xué)信息科學(xué)技術(shù)學(xué)院長(zhǎng)聘副教授、博雅青年學(xué)者,北大-商湯智能計(jì)算聯(lián)合實(shí)驗(yàn)室主任梁云的研究領(lǐng)域是芯片設(shè)計(jì)自動(dòng)化EDA和計(jì)算機(jī)體系結(jié)構(gòu),其研究曾獲兩項(xiàng)國(guó)際會(huì)議最佳論文獎(jiǎng)和六項(xiàng)國(guó)際會(huì)議最佳論文提名。

圖片

▲梁云

在他看來,摩爾定律停滯不前以及功耗限制,需要架構(gòu)方面的創(chuàng)新,領(lǐng)域?qū)S锰幚砥鳎―SA)是一種可能的解決方案。DSA有多種優(yōu)勢(shì),從硬件角度,可以做更高效的并行設(shè)計(jì)、內(nèi)存架構(gòu)、數(shù)據(jù)表示形式;從軟件角度,可將復(fù)雜的編譯器變簡(jiǎn)單。最近幾年,梁云主要關(guān)注的是張量(Tensor)計(jì)算。由于張量計(jì)算的重要性,許多廠商設(shè)計(jì)了采用Spatial空間架構(gòu)的AI加速器,這種架構(gòu)并行性和數(shù)據(jù)復(fù)用率很高,但也存在一些挑戰(zhàn):一是如何做軟硬件協(xié)同設(shè)計(jì),二是決定了硬件架構(gòu)后如何實(shí)現(xiàn)?總結(jié)下來,整個(gè)軟硬件設(shè)計(jì)流程都需要非常底層的編程,而且很難優(yōu)化,開發(fā)周期漫長(zhǎng)。梁云所在課題組提出了一種軟硬一體的智能芯片設(shè)計(jì)與優(yōu)化框架AHS,希望借助高層次的抽象、自動(dòng)化工具和高效的算法,自動(dòng)生成芯片的硬件架構(gòu)和軟件算子庫(kù),降低芯片軟硬件開發(fā)門檻。具體來說,其課題組通過設(shè)計(jì)領(lǐng)域?qū)S谜Z言和中間的表示形成降低編程門檻,借助機(jī)器學(xué)習(xí)算法讓優(yōu)化更容易,設(shè)計(jì)這種自動(dòng)化的工序來解決人工設(shè)計(jì)的問題。其工作包括硬件綜合、軟件編譯及軟硬件協(xié)同設(shè)計(jì),每個(gè)組件均已開源。硬件綜合方面,其TENET框架可使用基于關(guān)系的表示形式,涵蓋硬件數(shù)據(jù)流的設(shè)計(jì)空間,能夠進(jìn)行一系列的數(shù)學(xué)分析,分析出重用、延遲等跟性能相關(guān)的各種指標(biāo),從而幫助用戶在某些限制條件下找到更好的芯片設(shè)計(jì)。同時(shí),該團(tuán)隊(duì)提出了可在性能、生產(chǎn)力和支持的數(shù)據(jù)流上都取得最優(yōu)的工具TensorLib,并為實(shí)現(xiàn)自動(dòng)生成硬件構(gòu)建了相應(yīng)的EDA工具。軟件編譯方面,團(tuán)隊(duì)提出了針對(duì)不同硬件的統(tǒng)一抽象,核心想法是將形式多樣的intrinsic在語義上降低到一個(gè)scalar program上,接下來把它形式化一個(gè)基于布爾矩陣的映射過程,在這里面通過檢查布爾矩陣來檢查映射方案的合理性。經(jīng)實(shí)驗(yàn),其在單個(gè)算子和整個(gè)網(wǎng)絡(luò)上均實(shí)現(xiàn)大幅度性能提升。軟硬件協(xié)同設(shè)計(jì)方面,該團(tuán)隊(duì)提出一種敏捷的協(xié)同設(shè)計(jì)方法HASCO,它基于新的數(shù)據(jù)結(jié)構(gòu)張量語法樹做軟硬件的劃分。在硬件方面,其借助貝葉斯的優(yōu)化做硬件優(yōu)化和設(shè)計(jì)空間的探索;在軟件方面,引入強(qiáng)化學(xué)習(xí),能快速找到所需軟件設(shè)計(jì)的參數(shù)。與非軟硬件協(xié)同設(shè)計(jì)的工作相比,其在邊緣場(chǎng)景和云計(jì)算場(chǎng)景的實(shí)驗(yàn)結(jié)果在能效、性能方面均有一定的提升。
03.清華劉勇攀:高能效AI芯片設(shè)計(jì)“分久必合”


清華大學(xué)電子系長(zhǎng)聘教授劉勇攀從傳統(tǒng)芯片體系架構(gòu)分層次設(shè)計(jì)的問題出發(fā),解讀了高能效AI芯片的發(fā)展思路,并從“算法-架構(gòu)-器件”協(xié)同優(yōu)化層面探討設(shè)計(jì)層次重組如何帶來的性能提升。

圖片

▲劉勇攀

隨著摩爾定律的放緩,“通用計(jì)算架構(gòu)”+“工藝器件進(jìn)步”相結(jié)合的性能提升之路,面臨日益嚴(yán)重的挑戰(zhàn)。制程工藝演進(jìn)到28nm后,如果在傳統(tǒng)小容量的芯片市場(chǎng),其容量沒有增加,專門為它做一個(gè)芯片,實(shí)際成本并未下降,這打破了摩爾定律以更便宜價(jià)格來提供更高算力的假設(shè)。過去“分而治之”的芯片傳統(tǒng)設(shè)計(jì)分層架構(gòu),好處在于有一個(gè)系統(tǒng)觀的架構(gòu)師將要做的事拆分成若干層,大家各做各的,高效協(xié)同,從而提供更低的設(shè)計(jì)復(fù)雜度和更高靈活性。但隨著這個(gè)組織發(fā)展到一定程度,其代價(jià)是整個(gè)頂層執(zhí)行效率的下降,此前的架構(gòu)反而成為算力、能效提升的瓶頸,這就需要重新打通邏輯、重新定義層次,這對(duì)我們來講是很好的機(jī)會(huì)。劉勇攀認(rèn)為,未來,在底層器件發(fā)展變慢的情況下,我們可能需要使用分久必合的跨層次協(xié)同模式,發(fā)揮一些從應(yīng)用層面的新設(shè)計(jì)融合邏輯,不但要做算法和架構(gòu),還要做電路與器件的協(xié)同,來研發(fā)出高能效、高性價(jià)比的AI芯片。一個(gè)算法級(jí)稀疏可獲得10到30倍的理論加速,而真正到了通用的GPU、CPU層面,可能只有9到25倍的加速,如果做一個(gè)稀疏架構(gòu),就能很好發(fā)揮出稀疏算法的架構(gòu)優(yōu)勢(shì),這便是典型的算法架構(gòu)融合邏輯。器件方面,稀疏也好,低比特推理和訓(xùn)練也好,都是從算法和架構(gòu)上的優(yōu)化。自下而上也有器件和電路的融合,包括先進(jìn)工藝的DTCO(設(shè)計(jì)工藝協(xié)同優(yōu)化)。現(xiàn)在有一些SRAM面積提升,并不是通過把某個(gè)管子做小,而是垂直堆疊起來,密度可能提升了幾倍、百分之幾十,這就是典型的先進(jìn)工藝的DTCO。還有HBM、3D堆疊,這都是從存儲(chǔ)層面,未來可能會(huì)有更大容量、更高速的訪存、更低成本的片上存儲(chǔ),以及更接近計(jì)算的HBM內(nèi)存,這些內(nèi)存將很大程度上解決未來計(jì)算中部分存儲(chǔ)帶寬的問題。另一個(gè)層面,這些器件電路不但可以做存儲(chǔ),還能提升計(jì)算密度,可以做存算一體,甚至可以用光互聯(lián),NVM(非易失存儲(chǔ)器)的計(jì)算堆疊實(shí)現(xiàn)更高性能、低功耗、低成本的計(jì)算??梢钥吹剑O(shè)備和電路的協(xié)同設(shè)計(jì)前景巨大。最后,劉勇攀總結(jié)了對(duì)該領(lǐng)域的3點(diǎn)觀察:其一,做AI計(jì)算,可將原始算法變成硬件高效的AI算法,從而使能效和算力得到顯著的提升。其二,芯片或系統(tǒng)有按比例縮?。╯caling down)和異構(gòu)集成兩條路線,異構(gòu)集成使我們能將更多DSA融合做一個(gè)整體解決方案。由于是芯片級(jí)集成,它不會(huì)受限于SoC要求的大的市場(chǎng)容量成本的問題。隨著一些新型封裝技術(shù)成熟,業(yè)界現(xiàn)已出現(xiàn)芯粒異構(gòu)集成的方式,通過靈活互聯(lián),打破過去單一器件和同構(gòu)計(jì)算架構(gòu)的帶來的局限。這些芯粒可以采用不同的工藝節(jié)點(diǎn),從而繼續(xù)提升性價(jià)比,并一定程度上縮短設(shè)計(jì)周期,這為新型器件和領(lǐng)域定制化異構(gòu)架構(gòu)創(chuàng)新開辟了廣闊空間。其三是新器件?,F(xiàn)在還處在相對(duì)萌芽期的光通信和光計(jì)算,未來有可能被集成到大算力AI芯片中,甚至是更遙遠(yuǎn)的量子技術(shù)里。
04.中科院杜子?xùn)|:定制架構(gòu)支持高效量化訓(xùn)練,精度損失可忽略不計(jì)


中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員、智源青年科學(xué)家杜子?xùn)|長(zhǎng)期從事AI體系結(jié)構(gòu)研究,在深度學(xué)習(xí)處理器方向做出了一系列開創(chuàng)性的工作,并曾以第一作者身份發(fā)表了多篇國(guó)際頂級(jí)學(xué)術(shù)會(huì)議的論文和期刊論文。

圖片

▲杜子?xùn)|

量化被認(rèn)為是有望降低帶寬/存儲(chǔ)要求、提升效率、降低計(jì)算成本的有效手段。過去采用低比特或量化推理方面的應(yīng)用很多,但在開銷巨大的深度學(xué)習(xí)訓(xùn)練中,量化應(yīng)用相對(duì)較少。現(xiàn)有的量化訓(xùn)練算法相關(guān)文章常常采用16bit,少部分可做到8bit,其量化效果通常只有部分?jǐn)?shù)據(jù)能做到8bit,大部分?jǐn)?shù)據(jù)還需16bit、32bit,對(duì)于像CPU/GPU等平臺(tái)沒有加速效果。杜子?xùn)|團(tuán)隊(duì)也在GPU上實(shí)現(xiàn)了一個(gè)量化訓(xùn)練,相比32bit,直接在CPU+GPU平臺(tái)做量化訓(xùn)練,會(huì)比平常慢1.09倍~1.8倍。在訓(xùn)練中,GPU并不能給予很好的硬件和軟件的支持,也沒有特別好的低位寬的高效深度學(xué)習(xí)算法,這是現(xiàn)在阻礙量化訓(xùn)練的兩大因素。量化算法需對(duì)大量數(shù)據(jù)進(jìn)行基于動(dòng)態(tài)統(tǒng)計(jì)的量化和高精度的權(quán)重更新,這使得這些量化訓(xùn)練算法不能有效地部署在當(dāng)前的深度學(xué)習(xí)處理器上。對(duì)此,杜子?xùn)|團(tuán)隊(duì)提出了第一個(gè)用于高效量化訓(xùn)練的定制神經(jīng)網(wǎng)絡(luò)處理器架構(gòu),其訓(xùn)練精度損失可忽略不計(jì)。其團(tuán)隊(duì)提出了3個(gè)策略來解決上述問題,一是局部量化,二是基于誤差估計(jì)的多路量化,三是原位權(quán)值更新。通過將這三點(diǎn)應(yīng)用于AI加速器上,在硬件中做針對(duì)性地支持,使之能做在線量化訓(xùn)練,并避免了多變的數(shù)據(jù)訪問,相對(duì)同規(guī)格TPU實(shí)驗(yàn),其性能提升1.7倍,能效提升1.62倍。
05.昆侖芯科技漆維:AI芯片大規(guī)模落地,直面哪些挑戰(zhàn)?


AI芯片公司昆侖芯科技脫胎于原百度智能芯片及架構(gòu)部,是國(guó)內(nèi)最早布局AI加速領(lǐng)域的團(tuán)隊(duì),在去年4月完成獨(dú)立融資,首輪估值約130億元,擁有國(guó)內(nèi)外350余項(xiàng)發(fā)明專利申請(qǐng)和多項(xiàng)軟件著作權(quán)。昆侖芯科技芯片研發(fā)總監(jiān)漆維畢業(yè)于清華大學(xué),曾是百度高級(jí)技術(shù)經(jīng)理,擁有十年的行業(yè)研發(fā)與管理經(jīng)驗(yàn),主導(dǎo)研發(fā)了FPGA AI集群國(guó)內(nèi)互聯(lián)網(wǎng)最大規(guī)模的部署。目前昆侖芯科技自研云端AI芯片昆侖芯1代和昆侖芯2代均已實(shí)現(xiàn)大規(guī)模量產(chǎn),相關(guān)工作多次發(fā)表在國(guó)際學(xué)術(shù)頂會(huì)上。

圖片

▲漆維

昆侖芯1代采用14nm制程,在百度搜索引擎、小度等業(yè)務(wù)中部署超過2萬片,經(jīng)歷過互聯(lián)網(wǎng)大規(guī)模核心算法考驗(yàn)的產(chǎn)品。昆侖芯2代采用7nm制程,于2021年8月量產(chǎn)。4nm昆侖芯3代已啟動(dòng)研發(fā),昆侖芯4代也在規(guī)劃中。在演講中,漆維分享了AI芯片在走向產(chǎn)業(yè)大規(guī)模落地過程中所面臨的挑戰(zhàn):首先是算法的多樣化。不同業(yè)務(wù)場(chǎng)景有不同的算法模型,即便是同一個(gè)業(yè)務(wù)線,其算法也在持續(xù)優(yōu)化和突破。如谷歌曾在TPU論文中提到等芯片研發(fā)完成、要推到業(yè)務(wù)端落地部署時(shí),才發(fā)現(xiàn)業(yè)務(wù)團(tuán)隊(duì)兩年前所提的模型和精度需求已被推翻。第二,這個(gè)賽道并不是一個(gè)藍(lán)海,因?yàn)橛行袠I(yè)巨頭NVIDIA在前面。NVIDIA已有10多年的積累,構(gòu)建了非常強(qiáng)大的護(hù)城河,并敢于對(duì)自家架構(gòu)做持續(xù)創(chuàng)新,其GPU已跟所有的主流框架做了適配。這種情況下,客戶對(duì)于為什么要選到你的AI芯片是有心理防線的,因此不僅要做到有一個(gè)非常可觀的實(shí)際性能收益,也需要整個(gè)軟件棧做到非常靈活,實(shí)現(xiàn)盡量小的成本。第三,客戶的需求并非一成不變,且非常嚴(yán)苛。以互聯(lián)網(wǎng)為例,他們并不會(huì)關(guān)心一個(gè)單一指標(biāo),他們關(guān)心延時(shí)、吞吐、TCU,這些指標(biāo)很多時(shí)候是糅合在一起的。例如,客戶可能關(guān)心其業(yè)務(wù)在滿足一定延時(shí)條件下,到底單卡能給他帶來的吞吐是多少,甚至有時(shí)還會(huì)加一些限制,如要求其CPU或者整個(gè)AI芯片、GPU限制在一定程度的利用率,去確保整個(gè)業(yè)務(wù)系統(tǒng)的魯棒性。最后,能夠在真正場(chǎng)景中做到業(yè)務(wù)規(guī)模的量化,整個(gè)軟硬件系統(tǒng)都將面臨非常大的工程挑戰(zhàn)。硬件產(chǎn)品做到萬級(jí)、十萬級(jí)甚至更高時(shí),穩(wěn)定性怎么樣,成本對(duì)業(yè)務(wù)來說是不是可接受的;整個(gè)軟件棧要適配不同的深度學(xué)習(xí)框架、處理器、操作系統(tǒng)以及不同OEM的不同機(jī)型等等。到業(yè)務(wù)實(shí)際部署環(huán)節(jié),有時(shí)不是單行程的業(yè)務(wù)在跑,而會(huì)為了把利潤(rùn)率做高,可能會(huì)做多行程的混部。在這種場(chǎng)景下,整個(gè)AI卡實(shí)際性能能否做到很穩(wěn)定,都是走向芯片量產(chǎn)后要面臨的工程化挑戰(zhàn)。針對(duì)上述挑戰(zhàn),昆侖芯的發(fā)展分成了兩個(gè)階段:第一個(gè)階段是2011~2017年,主要基于FPGA開發(fā)集群,隨后因底層硬件存在種種限制,F(xiàn)PGA在業(yè)務(wù)形態(tài)及架構(gòu)上遇到瓶頸,致使相應(yīng)性能和功耗等指標(biāo)很難達(dá)到最優(yōu),因此大概在2017到2018年,也就是AI發(fā)展相對(duì)成熟之際,昆侖芯團(tuán)隊(duì)開始轉(zhuǎn)型,并于2018年正式啟動(dòng)昆侖芯的研發(fā)。從FPGA到昆侖,昆侖芯團(tuán)隊(duì)對(duì)整個(gè)芯片的架構(gòu)做了抽象,從早期一些偏靜止的優(yōu)化做成一個(gè)通用的設(shè)計(jì)。之所以要做通用的AI處理器,一則為靈活支持更廣泛的應(yīng)用場(chǎng)景,二則需要靈活可編程以適應(yīng)各種業(yè)務(wù)的需求,三則盡可能降低芯片、軟件以及對(duì)業(yè)務(wù)牽引的成本。在漆維看來,現(xiàn)在是一個(gè)很好的時(shí)代,信創(chuàng)國(guó)產(chǎn)化等趨勢(shì)給了AI芯片一個(gè)良機(jī),有一批早期用戶愿意接納和嘗試你的產(chǎn)品,而從早期客戶到主流客戶中間有一條鴻溝,什么時(shí)候真正邁過這個(gè)鴻溝,AI芯片產(chǎn)品才真正在市場(chǎng)上站住了腳。
06.結(jié)語:砸錢堆算力,堆不出AI芯片的未來


不久前,谷歌公布其擁有5400億個(gè)參數(shù)的新語言模型PaLM,其在CIFAR-10創(chuàng)下的99.43突破性指標(biāo),僅比此前SOTA的99.40多出了0.03。而在其論文末附上的一張圖表顯示,這個(gè)訓(xùn)練方案所用到的TPU算力,成本大約超過57000美元,這在學(xué)術(shù)界引發(fā)爭(zhēng)議——大公司利用超大規(guī)模算力,結(jié)果較現(xiàn)有成果提升非常小,這樣的工作是否有意義?堆算力是不是AI芯片或者AI領(lǐng)域的未來發(fā)展方向?“真正有影響力的技術(shù),一定是所有的人都用得起的,有高性價(jià)比的技術(shù),才是對(duì)整個(gè)社會(huì)有重大貢獻(xiàn)的技術(shù)?!痹趧⒂屡士磥?,谷歌這個(gè)案例不太符合經(jīng)濟(jì)學(xué)規(guī)律,像這樣的技術(shù)只能是屬于少數(shù)“貴族人”專享,沒有很大的市場(chǎng),“所有技術(shù)發(fā)展的過程中,對(duì)產(chǎn)業(yè)界要檢驗(yàn)要符合社會(huì)經(jīng)濟(jì)規(guī)律,如果不符合社會(huì)經(jīng)濟(jì)規(guī)律強(qiáng)行去推,也會(huì)是一地雞毛,被歷史的車輪給碾碎?!?/span>從做硬件或系統(tǒng)的角度,梁云同樣認(rèn)可這是不符合經(jīng)濟(jì)學(xué)規(guī)律的做法。他也承認(rèn)這種“大力出奇跡”的做法確實(shí)在某些場(chǎng)景下有用,只是不適合學(xué)校或小的單位研究人員去復(fù)制,而不能復(fù)制,對(duì)學(xué)術(shù)的影響力就會(huì)比較有限。不過他相信,兩者是可以兼具的,如高性能計(jì)算領(lǐng)域最高獎(jiǎng)項(xiàng)ACM戈登貝爾獎(jiǎng)便鼓勵(lì)實(shí)現(xiàn)綠色計(jì)算,以及在一定功耗下解決一定規(guī)模的問題。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

伺服電機(jī)相關(guān)文章:伺服電機(jī)工作原理




關(guān)鍵詞: 清華北大

技術(shù)專區(qū)

關(guān)閉