用更多底層技術(shù),打造1P/W的算力,追逐萬(wàn)物智能的夢(mèng)想。編輯 | GTIC
芯東西9月8日?qǐng)?bào)道,在剛剛落幕的GTIC 2022全球AI芯片峰會(huì)期間,后摩智能創(chuàng)始人兼CEO吳強(qiáng)以《用存算一體助力智能駕駛算力革命》為題發(fā)表演講。吳強(qiáng)認(rèn)為,存算一體是解鎖算力和功耗難題的金鑰匙,這種創(chuàng)新計(jì)算架構(gòu)具有大算力、低功耗、低延時(shí)的特點(diǎn),對(duì)工藝的依賴較弱,能用28nm工藝做出基于傳統(tǒng)計(jì)算架構(gòu)的其他AI芯片用7nm甚至5nm工藝才能實(shí)現(xiàn)的性能或者能效比。今年上半年,后摩智能首顆存算一體芯片成功點(diǎn)亮,首次達(dá)到運(yùn)行智能駕駛的復(fù)雜AI場(chǎng)景所需算力和精度需求,成功跑通11個(gè)類別的智能駕駛典型算法,能效比高達(dá)20TOPS/W。吳強(qiáng)透露,其首顆芯片預(yù)計(jì)在今年底或明年初送到一部分客戶側(cè)試用。以下為吳強(qiáng)的演講實(shí)錄:大家好,很高興能代表后摩智能來(lái)參加這個(gè)峰會(huì)。我今天演講的主題是《用存算一體助力智能駕駛算力革命》。這里面有兩個(gè)關(guān)鍵詞,第一個(gè)是存算一體,第二個(gè)是智能駕駛。我先從智能駕駛講起。
01.智能駕駛普及商用,對(duì)芯片提出新的要求
汽車產(chǎn)業(yè)正經(jīng)歷一個(gè)百年未有的大變局,主要是新能源化和智能化,它對(duì)人們的出行方式、生活方式都會(huì)帶來(lái)很大改變,這種改變某種意義上不亞于100多年前汽車剛剛出現(xiàn)的時(shí)候。在今天的中國(guó),走在智能化和電動(dòng)化的前列,我們已經(jīng)能夠感受到這種改變,比如說(shuō)今天在大部分城市,你上了一個(gè)網(wǎng)約車,很大概率這是一個(gè)新能源車,你會(huì)聽(tīng)司機(jī)跟你說(shuō)新能源車比燃油車便宜多了,口袋里很多錢、很幸福。不管是新能源車還是傳統(tǒng)燃油車,汽車智能化是一個(gè)主要的趨勢(shì),并且這種智能化的趨勢(shì)比我們想象要快。比如說(shuō)很多專家預(yù)計(jì)2023年可能智能化普及率到25%,但事實(shí)上我們今年L2及以上的智能化普及率已經(jīng)接近30%,到2025年可能接近50%。這意味著我們中國(guó)每年有2500萬(wàn)輛的車,大概有1000多萬(wàn)輛車會(huì)有L2或者以上的智能化。這種智能化也改變了我們生活,很多是一種剛需,前幾天,一個(gè)朋友跟我說(shuō),他因?yàn)榧依镉惺虑?,要開(kāi)車回家單程1000公里,一個(gè)周末,2000公里在高速上,如果有智能輔助駕駛是很輕松的事情。智能駕駛智能化的普及和商用,對(duì)芯片提出了很多新的需求,要普及智能化有三個(gè)要素:一是強(qiáng)智能,就是這個(gè)東西足夠聰明,至少讓我在高速上開(kāi)1000公里也非常輕松;二是低成本,因?yàn)橹袊?guó)大部分的車是在10-20萬(wàn)人民幣,而這些車能用得起;三是安全,用車是人命關(guān)天。從芯片的角度來(lái)說(shuō),它對(duì)應(yīng)著是大算力、低功耗、低成本、高可靠。從算力的角度來(lái)說(shuō),智能芯片發(fā)展到今天,有一個(gè)核心的矛盾。
02.智能駕駛芯片發(fā)展的核心矛盾
在需求側(cè),算力需求不斷增長(zhǎng)。比如我這里比較了特斯拉Model 3和今年剛發(fā)布的蔚來(lái)的車:第一,傳感器多了很多,像素也多了很多,120萬(wàn)到800萬(wàn)更高,這都會(huì)對(duì)應(yīng)著算力大大加強(qiáng);第二,算法變得更加復(fù)雜,并且還在不斷演進(jìn),這意味著我需要芯片對(duì)算法有更開(kāi)放的一個(gè)支持,因?yàn)橐欢ㄒ軌蛑С治磥?lái)的算法。而目前的做法是什么?首先,我要做大算力,以前是幾十TOPS,現(xiàn)在是幾百甚至到千TOPS。在智能駕駛芯片,那么我用先進(jìn)的工藝,從7nm到5nm甚至到3nm,我用HBM來(lái)增加存儲(chǔ)帶寬。但這些東西,第一,非常昂貴,只有大廠才玩得起,比如HBM就是英偉達(dá)和AMD做得最好。另外一種方法像用軟硬耦合的方式來(lái)增加效率,這種提高了效率,但犧牲了通用性。所以某種意義上來(lái)說(shuō),今天我們?cè)谥悄荞{駛計(jì)算面臨的核心矛盾是:第一,要大算力,但是用傳統(tǒng)的方式去做,成本非常高。第二,大算力必然代表著大功耗很高,因?yàn)椴畈欢喽际?span style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important">1TOPS/W的水平,而在數(shù)據(jù)中心可以用空調(diào),在車上我沒(méi)辦法散熱,散熱就產(chǎn)生很大成本和穩(wěn)定性問(wèn)題。最后,一定需要一個(gè)軟硬解耦的方案,這是今天我覺(jué)得智能駕駛芯片面臨的一個(gè)核心的矛盾。
03.存算一體,解鎖算力和功耗難題的金鑰匙
在所有的方式當(dāng)中,存算一體,是一種創(chuàng)新的計(jì)算架構(gòu)。在所有的新技術(shù)當(dāng)中,它可能是能夠解決我們今天算力和功耗的一把金鑰匙。從傳統(tǒng)的馮·諾依曼到今天的存算一體,存算一體嚴(yán)格意義上它不是近存,近存我理解它是改良,它只是部分解決問(wèn)題,而只有真正的存算一體才能從底層去解決這個(gè)問(wèn)題。它的能夠帶來(lái)的好處是:可以把算力做得更大,另外它天生有能效比的優(yōu)勢(shì),可以避免大數(shù)據(jù)的搬運(yùn),它可以把能效比做一個(gè)數(shù)量級(jí)上的延伸,它的延時(shí)也有提升。還有一個(gè)最重要的點(diǎn),很多人沒(méi)有意識(shí)到,在今天的國(guó)際大環(huán)境下,我們面臨著技術(shù)封鎖,存算一體對(duì)工藝的依賴比較弱,它可以用更傳統(tǒng)的28nm工藝做出別人7nm甚至5nm的性能或者能效比,這也是它天生的優(yōu)勢(shì)。但它也面臨挑戰(zhàn),畢竟它是一個(gè)新的東西。我也一直類比,就像電動(dòng)車剛剛出現(xiàn)的時(shí)候有很多設(shè)計(jì)上的挑戰(zhàn),因?yàn)槿加蛙嚠吘棺隽松习倌辏妱?dòng)車剛剛開(kāi)始。因?yàn)轳T·諾依曼也做了很多年,大家都知道怎么設(shè)計(jì),而存算一體怎么做大算力,這是個(gè)剛剛開(kāi)始的事情。后摩選擇用存算一體芯片,做智能駕駛、無(wú)人車、仿生機(jī)器人等邊緣端場(chǎng)景,這本身從技術(shù)、產(chǎn)品和市場(chǎng)是個(gè)比較完美的匹配。那么我們?cè)趺窗汛嫠阋惑w的技術(shù)優(yōu)勢(shì)變成一個(gè)產(chǎn)品優(yōu)勢(shì),并且能解決下游客戶具體的痛點(diǎn)。舉一個(gè)具體的案例,很多中檔的車,他們是很在意成本的,而散熱其實(shí)是個(gè)很大的問(wèn)題,有三種方式,一個(gè)是自然風(fēng)冷,一個(gè)是風(fēng)扇,或者液冷。自然散熱無(wú)論從成本、可靠性都是最理想的,但是這有一個(gè)強(qiáng)制要求,就是功耗在15瓦以內(nèi)。傳統(tǒng)的NCU大家沒(méi)有問(wèn)題,大家都是自然散熱。而智能駕駛給車廠帶來(lái)一個(gè)新的頭疼的問(wèn)題,從來(lái)沒(méi)遇到過(guò)芯片那么熱,怎么散熱,能不能不用液冷、不增加成本,這是車廠很關(guān)心的問(wèn)題。如果在傳統(tǒng)馮·諾依曼架構(gòu)上,差不多1瓦1TOPS的樣子,15瓦大概20TOPS或者更高一點(diǎn),這其實(shí)滿足不了L2++或者更高自動(dòng)駕駛的需求。而存算一體它能夠用能效比高的特點(diǎn),做到比如15瓦的功耗算力達(dá)60TOPS(物理算力),或者更高的算力,滿足L2++智能駕駛的需求。
04.首顆存算一體芯片今年點(diǎn)亮成功跑通主流智能駕駛算法
簡(jiǎn)單介紹一下后摩,后摩主要是兩撥人,一撥人做存算一體的大牛,另外一撥人是像我這樣在工業(yè)界做了20年、在做大芯片、做過(guò)CPU、GPU,或者智能芯片的一撥人。我們兩撥人一起碰撞,怎么解決我們面臨的問(wèn)題?我們一起想到了這些比較認(rèn)可、比較看好存算一體做智能駕駛芯片、做大算力芯片的路徑,所以我們走到了一起,成立了這家公司。后摩也得到了一線資本的認(rèn)可,目前在南京、上海、北京、深圳設(shè)有研發(fā)中心,我們今年也點(diǎn)亮了第一款大算力的芯片,并且跑通了一些智能駕駛的主流算法。用存算一體做大算力芯片,這是一款AI芯片,怎么去設(shè)計(jì)電路,怎么做AI核融合,比如架構(gòu)層面,包括編譯器、算法層面怎么去融合,這些都是我們成立以來(lái)面臨的挑戰(zhàn),是我們要解決的核心。后摩成立一年多,現(xiàn)在也申請(qǐng)了大概30多項(xiàng)的專利。我舉個(gè)例,這是我們第一代的AI核的設(shè)計(jì),整個(gè)都是我們自己設(shè)計(jì),采用了分層分布式的設(shè)計(jì)。從右邊開(kāi)始是最底層,我們叫Macro,是存算單元,它是在存算里做計(jì)算的單元,根據(jù)不同需求,它可以有不同大小,比如512×64、64×64。若干的Macro可以組成一個(gè)Macro Group,多個(gè)Macro Group可以組成一個(gè)Macro Group Array,Array就變成了Tensor Engine這兒的一部分,我的Tensor Engine主要是Macro Group。一個(gè)Tensor Engine組成了一個(gè)Tile,有點(diǎn)于類似于FSD的Core,是一個(gè)獨(dú)立運(yùn)算單元。若干Tile可以組成AI Core,多個(gè)AI Core又可以組成Cluster,Cluster變成了SoC,就是車規(guī)SoC里最重要的AI計(jì)算單元。整體來(lái)說(shuō),一個(gè)Tile之間本身類似一個(gè)FSD Core,是一個(gè)獨(dú)立運(yùn)算單元,多個(gè)Tile之間也可以聯(lián)合起來(lái)進(jìn)行運(yùn)算,多個(gè)AI Core也可以聯(lián)合起來(lái)做一個(gè)聯(lián)合運(yùn)算。所以整體來(lái)說(shuō)它是一個(gè)分布與集中的完美的結(jié)合,這是我們第一代的設(shè)計(jì)思路。我們成立以來(lái),去年成功做了第一顆流片,這顆流片是業(yè)內(nèi)第一次把存算一體做到了幾十TOPS甚至更高的芯片,能效比20TOPS/W左右。我們把它點(diǎn)亮,并且成功跑通了一些主流的智能駕駛算法,比如像檢測(cè)、識(shí)別、語(yǔ)義分割。這應(yīng)該也是業(yè)內(nèi)第一次用存算一體芯片做出了能夠做智能駕駛主流AI應(yīng)用場(chǎng)景的嘗試,這是按照一個(gè)量產(chǎn)的設(shè)計(jì),我們考慮了冗余、自修復(fù)等等,是完全按照一個(gè)產(chǎn)品級(jí)的設(shè)計(jì)。我們第一代芯片希望今年底或明年初能夠送到一部分客戶去試用,這是我們產(chǎn)品方面的一些進(jìn)展。
05.未來(lái)規(guī)劃:奔向100倍能效比、2000TOPS算力
再說(shuō)一下我們未來(lái)幾年產(chǎn)品的規(guī)劃。后摩做存算一體,它是基于不同的存儲(chǔ)介質(zhì),前幾代基本上基于成熟的SRAM去做,SRAM現(xiàn)在比較成熟,性能也好,但它容量有限。我們希望在用SRAM我們能做出至少能突破500TOPS到千TOPS之間的大算力芯片。2.0階段,我們芯片是基于更先進(jìn)的如MRAM、RRAM等存儲(chǔ)介質(zhì)來(lái)做的。我們希望它本身有更大的容量,能夠做出更大的算力和更高的能效比,可以推出更有競(jìng)爭(zhēng)力的產(chǎn)品來(lái)。后摩的芯片是通過(guò)底層進(jìn)行架構(gòu)創(chuàng)新,對(duì)于客戶來(lái)說(shuō)是無(wú)感知的,他不在乎你是怎么實(shí)現(xiàn)的,他不在乎你是用存算還是馮·諾依曼,他只要看到一個(gè)更好的產(chǎn)品,有更好的性能、更好的延時(shí)等等,這是我們希望的結(jié)果。對(duì)后摩來(lái)說(shuō),軟件更加重要,我們盡可能希望能夠?qū)又髁鞯?span style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important">AI的編程框架,包括比如應(yīng)用層TensorFlow、
PyTorch、
ONNX這些,然后我們自己提供一個(gè)中間層,能夠進(jìn)行無(wú)感轉(zhuǎn)化。
我們只做推理,希望有一層很輕的工具,把這些推理的模型進(jìn)行轉(zhuǎn)換,讓大家做到無(wú)感。另外,我們做相對(duì)通用的計(jì)算芯片,我之前說(shuō)了,算法一直在演進(jìn),大家對(duì)開(kāi)放性是有要求的,因?yàn)楸旧硭懔κ莻€(gè)底層的架構(gòu),可以做到很通用,我們可以提供一系列的計(jì)算的架構(gòu),還能提供類似底層的接口,可以讓客戶自定義算子,這是我們?cè)谲浖矫娴囊粋€(gè)規(guī)劃和正在做的事情。總體來(lái)說(shuō),這是我們軟件棧,基本上我們希望是個(gè)軟硬解耦的設(shè)計(jì)理念,這里面有三個(gè)顏色,看起來(lái)有點(diǎn)多:棕色是我們提供的硬件、芯片、驅(qū)動(dòng)軟件、SDK;黑色是我們會(huì)提供一個(gè)參考設(shè)計(jì),包括參考的硬件、解決方案;灰色是客戶自己的東西,更多是應(yīng)用層,包括他們的操作系統(tǒng)、中間件等等,基本上是三層。我們希望給客戶,把軟硬解耦的方式,我們提供一個(gè)參考設(shè)計(jì),讓客戶有最大的靈活度開(kāi)發(fā)自己的東西,這是后摩智能的設(shè)計(jì)理念。
06.愿景:打造1P/W的算力,支撐萬(wàn)物智能
最后分享一個(gè)有趣的產(chǎn)業(yè)觀察。我覺(jué)得在一個(gè)國(guó)家或者一個(gè)地區(qū),一個(gè)產(chǎn)業(yè)的繁榮一定會(huì)帶動(dòng)或者孵化出本地供應(yīng)鏈的龍頭企業(yè)。打個(gè)比方,比如說(shuō)在七八十年代日本消費(fèi)電子,大家記得攝像頭等的繁榮,誕生了像松下、索尼這樣一些優(yōu)秀的半導(dǎo)體企業(yè)。到90年代,美國(guó)PC產(chǎn)品的繁榮,當(dāng)然也帶動(dòng)了英特爾、AMD這些大的半導(dǎo)體公司。原因很簡(jiǎn)單,因?yàn)楫a(chǎn)品的廠商跟供應(yīng)廠商它會(huì)有一個(gè)良性的循環(huán),產(chǎn)品廠商會(huì)把需求給供應(yīng)商,供應(yīng)商就能夠做出更好的部件、更好的服務(wù),因?yàn)槭潜镜兀催^(guò)來(lái)廠商會(huì)把更多的訂單給供應(yīng)商,最后形成一個(gè)良性的循環(huán)。所以我自己的結(jié)論是說(shuō),中國(guó)汽車在電氣化和智能化它一定會(huì)崛起,這是一個(gè)趨勢(shì)。它必然會(huì)帶動(dòng)本土供應(yīng)鏈公司,包括芯片公司做大做強(qiáng)。所以我也希望我們后摩智能以及在座的一些兄弟AI芯片公司,能夠抓住這個(gè)歷史機(jī)遇,做大做強(qiáng),做出中國(guó)自己的芯片國(guó)際巨頭。最后,我講講后摩智能的愿景,左邊這個(gè)圖是從劉明院士的演講里摘取的,她講了一個(gè)有趣的事,說(shuō)芯片能效比每提升1000倍都會(huì)延伸出一個(gè)新的計(jì)算形態(tài),比如小型機(jī)時(shí)代差不多1M/W,PC機(jī)時(shí)代差不多1G/W,而我們現(xiàn)在的手機(jī)時(shí)代差不多1T/W。她的預(yù)測(cè)是,如果到未來(lái),真到了萬(wàn)物智能的時(shí)代,也許我們需要1P/W的計(jì)算能力和能效比。我很喜歡劉明院士這個(gè)演講,我把它引進(jìn)來(lái),也表達(dá)后摩智能創(chuàng)業(yè)的初心,我們希望用更多底層的技術(shù)去打造1P/W的算力。后摩智能早期從無(wú)人車、機(jī)器人、乘用車的智能駕駛作為切入點(diǎn),把產(chǎn)品落地,為客戶創(chuàng)造價(jià)值。未來(lái),希望能向仿生機(jī)器人、VR/AR這些領(lǐng)域去拓展,最終我們希望能夠打造人工智能時(shí)代的一個(gè)算力平臺(tái),去實(shí)現(xiàn)萬(wàn)物智能的美好愿景。以上是我的分享,謝謝大家。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
安全柵相關(guān)文章:安全柵原理
隔離器相關(guān)文章:隔離器原理
電流變送器相關(guān)文章:電流變送器原理