WTM2101芯片量產(chǎn)不到半年,落地多款可穿戴設(shè)備。編輯 | GTIC
芯東西9月14日?qǐng)?bào)道,在剛剛落幕的GTIC 2022全球AI芯片峰會(huì)期間,知存科技創(chuàng)始人兼CEO王紹迪進(jìn)行了以《WTM存內(nèi)計(jì)算芯片應(yīng)用及發(fā)展》為題的演講。王紹迪說,與傳統(tǒng)馮·諾依曼架構(gòu)相比,存算一體具備明顯的能效、成本優(yōu)勢(shì)。但未來要滿足更多場(chǎng)景需求,存算一體在通用性、工具鏈、精度上的優(yōu)勢(shì)還有待補(bǔ)齊。他預(yù)測(cè)未來3-5年內(nèi),存算一體可能實(shí)現(xiàn)每年超過8倍的算力提升。知存科技的存算一體芯片已進(jìn)入多個(gè)可穿戴設(shè)備產(chǎn)品,年銷量預(yù)計(jì)達(dá)百萬。此外,王紹迪首次公開知存科技未來五年的產(chǎn)品路線圖,預(yù)計(jì)明年發(fā)布覆蓋2D與3D視頻處理場(chǎng)景的更高算力WTM8系列,在2025年前發(fā)布邊緣計(jì)算產(chǎn)品WTM-C系列。以下為王紹迪的演講實(shí)錄:這應(yīng)該是我第三次參加AI芯片峰會(huì)。這一次非常高興的是存算一體AI芯片有了專門的論壇。我是知存科技的創(chuàng)始人兼CEO王紹迪,我們公司專注于存內(nèi)計(jì)算芯片的研發(fā)、生產(chǎn)和銷售。今天的介紹會(huì)有4個(gè)部分:第一部分關(guān)于知存科技以及存內(nèi)計(jì)算芯片的簡(jiǎn)介;第二部分講一講存內(nèi)計(jì)算的優(yōu)勢(shì);第三部分介紹存算一體WTM2101芯片以及它目前的應(yīng)用場(chǎng)景和優(yōu)勢(shì);第四部分介紹知存科技的產(chǎn)品還有未來規(guī)劃。
01.技術(shù)原理基于歐姆定律,矩陣乘法效率倍增,發(fā)展?jié)摿薮?/strong>
知存科技2017年成立,到現(xiàn)在快接近5年時(shí)間。成立之前,我們首席科學(xué)家郭昕婕從2012年開始做存內(nèi)計(jì)算芯片的研發(fā),2016年已經(jīng)完成國際上首個(gè)Flash存算一體芯片的驗(yàn)證,算是一個(gè)從0到1存算一體芯片的驗(yàn)證,這也是第一個(gè)可以做多層深度學(xué)習(xí)網(wǎng)絡(luò)的存算一體芯片。有了這樣的成果,在2017年,我跟郭昕婕創(chuàng)立了知存科技,專注于存算一體芯片的研發(fā)。我們成功量產(chǎn)了一款名為WTM2101的存算一體芯片。WTM2101芯片目前已經(jīng)量產(chǎn)商用,用在多個(gè)產(chǎn)品中,后面我再作介紹。存算一體和傳統(tǒng)計(jì)算的區(qū)別是使用存儲(chǔ)器單元做計(jì)算。主要用存算一體技術(shù)去解決矩陣乘法的計(jì)算,人工智能99%都是矩陣乘法,存算一體非常適合人工智能或者深度學(xué)習(xí)的計(jì)算,可以把存算一體應(yīng)用到人工智能芯片中。存算一體最基本的技術(shù)原理,如果做模擬的存算一體,是利用歐姆定律的乘法。我們知道歐姆定律是電壓×電導(dǎo)=電流,這是物理上的計(jì)算原理。如果我們能夠利用存儲(chǔ)器實(shí)現(xiàn)物理的計(jì)算原理,一個(gè)存儲(chǔ)陣列就可以實(shí)現(xiàn)百萬級(jí)甚至千萬級(jí)并行的計(jì)算,計(jì)算并行度要高出很多。常用的向量矩陣乘法在深度學(xué)習(xí)計(jì)算中,如果轉(zhuǎn)化到存算一體中,只需要1次存儲(chǔ)器的讀取操作,就可以完成百萬級(jí)參數(shù)的乘法和加法計(jì)算。如果用傳統(tǒng)的GPU架構(gòu),百萬級(jí)的乘法加法計(jì)算,光是存儲(chǔ)器的讀取次數(shù)就要超過5萬次。這是1次存儲(chǔ)器的操作和5萬次存儲(chǔ)器操作的區(qū)別。在存儲(chǔ)器操作有巨大區(qū)別的情況下,存算一體計(jì)算的能效、速度、算力、成本就有很大的優(yōu)勢(shì)。基于這樣的優(yōu)勢(shì),知存科技專注開發(fā)存算一體芯片。存算一體芯片目前已經(jīng)實(shí)現(xiàn)商用,而且未來還有很多的迭代優(yōu)化空間,包括存算一體計(jì)算的速度加快、計(jì)算的精度提高、面積持續(xù)減少、規(guī)模持續(xù)加大。我認(rèn)為未來幾年都是存算一體飛速發(fā)展的黃金時(shí)代,這就像以前90年代摩爾定律一樣,每年都有幾倍的算力提升。我認(rèn)為存算一體在未來3-5年內(nèi)可能提升速度更快,每年可能都超過8倍的算力提升。
02.減少數(shù)據(jù)搬運(yùn)代價(jià),成本、能效優(yōu)勢(shì)明顯
存算一體的優(yōu)勢(shì)目前主要是在成本、算力、功耗上,它在通用性、工具鏈和精度上的不足還需補(bǔ)齊。為什么存算一體它從成本、算力、功耗上會(huì)有這樣的優(yōu)勢(shì)?我們可以看CPU、GPU和存算一體的計(jì)算架構(gòu),CPU的計(jì)算架構(gòu)相當(dāng)于計(jì)算單元有很多,有多級(jí)的緩存。GPU也是類似,但它計(jì)算的單元數(shù)量會(huì)更多,計(jì)算的并行度會(huì)更多。存算一體跟前面的架構(gòu)相當(dāng)不同,存算一體相當(dāng)于沒有統(tǒng)一的緩存存儲(chǔ),可以理解成計(jì)算和存儲(chǔ)是一體化且是分布式。如果從架構(gòu)方面來看比較復(fù)雜,我們可以拿核酸檢測(cè)舉例,可以想象CPU是1個(gè)人給1棟樓的居民一點(diǎn)點(diǎn)地做核酸檢測(cè),GPU相當(dāng)于1000個(gè)人給1000個(gè)居民樓做核酸檢測(cè),但馮·諾依曼架構(gòu)就是檢測(cè)人必須呆在一個(gè)大的園區(qū)中,1000個(gè)人都在一個(gè)廣場(chǎng)上,1000個(gè)樓的居民去做檢測(cè)。未來計(jì)算的數(shù)據(jù)量會(huì)越來越大,現(xiàn)在可能是GB、TB級(jí),未來可能是PB級(jí),計(jì)算并行度也從現(xiàn)在的百萬級(jí),到千萬級(jí)、億級(jí)。相當(dāng)于我們現(xiàn)在要做核酸檢測(cè),可能從原先一個(gè)小區(qū)的人變成我們需要把一個(gè)城市的人,1萬倍核酸檢測(cè)的工作人員聚集一起,整個(gè)城市的人過去做核酸檢測(cè),這樣可想而知大家都會(huì)堵在路上。這就變成數(shù)據(jù)搬運(yùn)的代價(jià)是非常大的,因?yàn)槿藦募依锏胶怂釞z測(cè)的園區(qū),可能需要走一天的時(shí)間去做核酸檢測(cè)再回來,這就跟現(xiàn)在馮·諾依曼的計(jì)算瓶頸是一樣的,數(shù)據(jù)搬運(yùn)占用了可能95%以上的功耗,占用了80%以上的時(shí)間。隨著算力越來越大,它的問題會(huì)越來越嚴(yán)重,存算一體是一種可以緩解這種問題的技術(shù),我們不再需要有統(tǒng)一的人一點(diǎn)點(diǎn)做核酸檢測(cè),它的效率就有很大的提升。所以這里面,我們也在分析端側(cè)、邊側(cè)和云側(cè)存算一體到底應(yīng)用優(yōu)勢(shì)在什么。左邊總結(jié)了一個(gè)對(duì)端側(cè)、邊側(cè)、云側(cè)的計(jì)算需求的優(yōu)勢(shì)。端側(cè)最重要的是成本;邊側(cè)相當(dāng)來說能效比較重要,因?yàn)槎藗?cè)很多場(chǎng)景下受散熱限制或者體積限制,但它對(duì)成本、精度、工具鏈、算力都有一定的要求;云側(cè)相對(duì)來說能效也一樣重要,但成本相對(duì)不是那么重要,它對(duì)算力、通信、工具鏈、精度都有不同方面的需求。存算一體在算力、成本、能效都有一定的優(yōu)勢(shì),但在不同的應(yīng)用場(chǎng)景下它的優(yōu)勢(shì)也是有所側(cè)重,隨著算力在增大的情況下能效會(huì)逐漸提高。這點(diǎn)可以很容易理解,不僅存算一體,像現(xiàn)在的NPU還有AI芯片,都是算力越大的時(shí)候,能效在往前提升。但傳統(tǒng)的NPU還有AI芯片,它有一定的瓶頸,達(dá)到一定算力的程度下,再往上的能效就很難提升了,這主要受到存儲(chǔ)墻的限制。但存算一體的能效隨著算力在增大,它能夠提升的空間是更大的。另外是成本,算力更大,存算一體成本下降也是快的,因?yàn)樗懔υ酱蟮臅r(shí)候,存算一體的計(jì)算單元它的存儲(chǔ)器所占的面積、所占的成本以及可拓展性的優(yōu)勢(shì)就發(fā)揮出來了。算力很小的情況下,存儲(chǔ)器只占芯片中非常小的一部分,算力很大的時(shí)候甚至可以用專用的工藝去把存儲(chǔ)器的密度提高,把存儲(chǔ)器的工藝做的成本更低,它的集成度也做得更高。我們認(rèn)為像存算一體,預(yù)計(jì)它的每Tops的成本可以做到普通AI芯片或者GPU的大概1/20,這是它一個(gè)很大的優(yōu)勢(shì)。另外存儲(chǔ)器使用工藝的成本也比大算力下先進(jìn)工藝要低很多,所以存算一體的大算力成本也有很大的優(yōu)勢(shì)。
03.量產(chǎn)不到半年,落地多款可穿戴設(shè)備
我們公司去年發(fā)布、今年量產(chǎn)了一個(gè)WTM2101芯片。這個(gè)芯片的特點(diǎn),常規(guī)使用下功耗是在5uA-3mA的量級(jí),AI算力可以達(dá)到50Gops,可以存1.8兆個(gè)算法參數(shù),用存儲(chǔ)單元做深度學(xué)習(xí)計(jì)算,一般可以運(yùn)行1-3個(gè)算法,因?yàn)橐话闼惴ù笮≡诙藗?cè)下大概幾百K級(jí)別,有的可能到1M的級(jí)別。WTM2101和現(xiàn)有市場(chǎng)上做得很好的芯片方案相比,圍繞典型應(yīng)用場(chǎng)景在算力、功耗上都有很大的優(yōu)勢(shì),兩個(gè)乘起來大概有個(gè)幾十倍的優(yōu)勢(shì)。所以它在能效上或者在算力上、功耗上都有不同幅度的提升。
這是WTM2101芯片的架構(gòu)。它不是一個(gè)專用芯片,而是通用、可開發(fā)的,這里面有1.8M的存算一體,我們也叫它NPU,做人工智能計(jì)算。此外有個(gè)CPU,還有加速器,加速器是標(biāo)準(zhǔn)的ASIC,做一些存內(nèi)計(jì)算做不了的非AI計(jì)算,它的可開發(fā)性也是比較強(qiáng)的。另外有個(gè)320KB RAM可以實(shí)現(xiàn)非AI的算法,配合148MHz的CPU,在常規(guī)非AI的算法都可以跑得游刃有余。我們的接口做了很多低功耗的接口設(shè)計(jì),可以連多個(gè)傳感器去實(shí)現(xiàn)傳感器的取出和實(shí)時(shí)處理,同時(shí)也支持音頻信號(hào)的直接輸入和直接處理。這個(gè)芯片主要用在可穿戴場(chǎng)景中,因?yàn)榭纱┐鲗?duì)功耗一般在幾毫安的限制,像WTM2101一般功耗是在1mA以內(nèi),所以在這個(gè)場(chǎng)景下它增加的功耗很小,但提升算力很大,一般會(huì)把現(xiàn)有產(chǎn)品的人工智能算力提高幾百倍以上,包括像耳機(jī)、手表,功能像語言識(shí)別、語音增強(qiáng)、健康監(jiān)測(cè)、環(huán)境識(shí)別、遠(yuǎn)場(chǎng)喚醒、運(yùn)動(dòng)識(shí)別、視覺識(shí)別、事件檢測(cè),這是芯片的常用場(chǎng)景。我簡(jiǎn)單介紹一些目前在客戶應(yīng)用中用起來比較好的功能。第一個(gè)是AI降噪算法。用芯片可以跑比較大的模型,跑1Gops的算力,這個(gè)算力主要做的算法采集外界的聲音,包括人聲和噪聲,基于深度學(xué)習(xí)的計(jì)算,可以把人聲和噪聲分離開,生成一個(gè)干凈的人聲。這純靠算法層面去做噪聲人聲分離,所以對(duì)人聲的保留比原有的傳統(tǒng)算法做得更好,并且計(jì)算實(shí)時(shí)性可以做得很好,延遲可以做到8ms以內(nèi)。在對(duì)低延時(shí)要求非常強(qiáng)的場(chǎng)景下,這個(gè)芯片的功耗、延時(shí)、算力,目前沒有其他芯片可以取代。另外在做命令詞的識(shí)別,我們可以去運(yùn)行AI的算法,可以支持多個(gè)語言,并且換詞不用重新訓(xùn)練算法,也可以做免換寫,最多支持300個(gè)詞的連續(xù)識(shí)別。在300個(gè)詞的連續(xù)識(shí)別下,芯片的功耗也是低于1mA,包含麥克風(fēng)的數(shù)據(jù)處理以及后面識(shí)別的功耗。尤其多國語言,要切換語言應(yīng)用到不同國家的場(chǎng)景下,這個(gè)芯片可以很容易做到,而且支持語言是不需要換算法的。另外在健康領(lǐng)域,它可以做到很低功耗的處理,包括跟PPG、ECG常規(guī)的傳感器,可以自動(dòng)地去實(shí)時(shí)處理,做健康數(shù)據(jù)的監(jiān)測(cè),包括血壓、血糖、血氧,做運(yùn)動(dòng)的識(shí)別、做抬腕手勢(shì)的識(shí)別。對(duì)比之前最低功耗的芯片,它的功耗優(yōu)勢(shì)基本在6-10倍左右的降低,所以對(duì)穿戴類產(chǎn)品,尤其健康場(chǎng)景下常用產(chǎn)品的待機(jī)增加幅度是非常大的。這個(gè)芯片也已經(jīng)有客戶用起來做視覺的監(jiān)測(cè),包括基本的人體檢測(cè)、物體分類、存在檢測(cè)等,芯片也可以接輕量級(jí)視覺的攝像頭,做人體檢測(cè)還有手勢(shì)識(shí)別的功能。現(xiàn)在已經(jīng)使用了WTM2101芯片的產(chǎn)品,包括耳機(jī)、模組還有手表,今年預(yù)計(jì)應(yīng)該有8個(gè)產(chǎn)品差不多可以基于這個(gè)芯片實(shí)現(xiàn)量產(chǎn)。
04.預(yù)告未來五年芯片規(guī)劃將擁抱Chiplet生態(tài)
除了WTM2101芯片,我們未來也有對(duì)存內(nèi)計(jì)算全面的規(guī)劃,也希望跟大家共同把存內(nèi)計(jì)算的生態(tài)推向一個(gè)新的階段。這是我們的芯片產(chǎn)品規(guī)劃,2021年是第一代芯片WTM1001,2022年是第二代芯片WTM2101。第一代、第二代芯片的算力提升有接近10倍。我們?cè)诿髂陼?huì)推出8系列芯片,相對(duì)第二代的新品算力,預(yù)計(jì)有800-1000倍的算力提升,算力可以達(dá)到幾十Tops左右,這個(gè)算力已經(jīng)進(jìn)行過流片的驗(yàn)證。我們預(yù)計(jì)在2025年會(huì)推出下一系列C系列的芯片,預(yù)計(jì)會(huì)達(dá)到100Tops級(jí)別,在2026年會(huì)規(guī)劃更高算力的芯片,當(dāng)然它的架構(gòu)還有它的使用材料可能跟現(xiàn)有的8系列、2系列、1系列都會(huì)有很大的不同。這是未來關(guān)于知存存內(nèi)計(jì)算產(chǎn)品發(fā)展的規(guī)劃。除了存內(nèi)計(jì)算的算力,我們更關(guān)注在存內(nèi)計(jì)算的工具鏈、生態(tài)的建設(shè)。知存的團(tuán)隊(duì)正在打造一個(gè)最適合存內(nèi)計(jì)算的工具鏈,更好地開發(fā)存內(nèi)計(jì)算產(chǎn)品。這里面我們總結(jié)出來有幾個(gè)非常重要的部分,做好這3點(diǎn),才能把存算一體真正用好。第一,針對(duì)存內(nèi)計(jì)算芯片進(jìn)行算法自動(dòng)化設(shè)計(jì)。現(xiàn)有的深度學(xué)習(xí)算法很多基于現(xiàn)在CPU,DSP和NPU做了很多優(yōu)化,這種優(yōu)化并不適合存內(nèi)計(jì)算芯片,沒有把存內(nèi)計(jì)算的優(yōu)勢(shì)充分發(fā)揮出來,因?yàn)榇鎯?nèi)計(jì)算適合大規(guī)模并行數(shù)據(jù)的計(jì)算,盡量減少數(shù)據(jù)的流動(dòng)。針對(duì)存內(nèi)計(jì)算它的架構(gòu),芯片的優(yōu)勢(shì)怎么自動(dòng)化設(shè)計(jì)算法,這是一個(gè)很重要的任務(wù)要去完成,我們做了一些這方面的事情。另外我們認(rèn)為一個(gè)很重要的事情,就是存內(nèi)計(jì)算,因?yàn)槔锩媸前M的計(jì)算,它的計(jì)算精度定義跟數(shù)字計(jì)算不一樣。就算模擬計(jì)算的精度可以達(dá)到非常高,比如一個(gè)存儲(chǔ)單元可以存10比特,用10比特可以理解成1024個(gè)值,用1024個(gè)值表示數(shù)據(jù)電路的1比特、2比特結(jié)果也是不一樣的。因?yàn)閿?shù)字信號(hào)的1比特、2比特它是絕對(duì)的1、絕對(duì)的0或絕對(duì)的1、2、3、4。即使模擬的精度更高,但它不是絕對(duì)的量化值。比如表示1,模擬信號(hào)可能是1.001,也可能是0.999,這里面是有差別。模擬的計(jì)算精度可以更高,應(yīng)該更好地被利用起來,這需要新的深度學(xué)習(xí)訓(xùn)練方法。這個(gè)方法或者工具鏈開發(fā)好之后,存內(nèi)計(jì)算的發(fā)展速度,它的應(yīng)用速度、開發(fā)速度都會(huì)大幅度的提高,可能在客戶的開發(fā)時(shí)間會(huì)從原先的1~2個(gè)月節(jié)省到1~2周。第二個(gè)是架構(gòu)和工具鏈。我們現(xiàn)在的芯片是2.0架構(gòu),后面會(huì)做出Memcore3.0的架構(gòu),我們預(yù)計(jì)新的架構(gòu)會(huì)使用超過5年的時(shí)間,它相對(duì)來說更通用、可拓展性更強(qiáng),更穩(wěn)定、高效。我們8系列、未來的C系列產(chǎn)品,在五年內(nèi)都會(huì)去使用這個(gè)新的架構(gòu)。此外還有映射的工具,怎么自動(dòng)化開發(fā)算法、自動(dòng)化訓(xùn)練算法,還有自動(dòng)化把算法移植到芯片上。最重要的是,這個(gè)工具會(huì)兼容歷史的芯片,意味著我們?cè)诶袭a(chǎn)品當(dāng)中開發(fā)的算法可以直接在新的產(chǎn)品中直接應(yīng)用,這可以大幅度節(jié)省客戶開發(fā)產(chǎn)品的時(shí)間。第三,在新的技術(shù)方面我們也投入了很多,包括在工藝方面,我們持續(xù)在研究,未來會(huì)有一個(gè)更好的存儲(chǔ)器件,它更穩(wěn)定,可以做更多比特的存內(nèi)計(jì)算,在計(jì)算能效上也比現(xiàn)有的高出4-8倍。這里面在工藝上做了很多調(diào)整的創(chuàng)新,因?yàn)閭鹘y(tǒng)的存儲(chǔ)器并沒有針對(duì)存內(nèi)計(jì)算做任何的優(yōu)化,所以這里面可優(yōu)化的空間非常多。此外,更高密度的集成,也是未來幾年要探索的事情,嘗試把存內(nèi)計(jì)算的存儲(chǔ)器往更高的三維維度做集成。最后值得一提的是Chiplet,存內(nèi)計(jì)算也要擁抱Chiplet的生態(tài)。我們現(xiàn)在已經(jīng)在做的事情,包括針對(duì)2.5D、3D如何實(shí)現(xiàn)跟CPU、跟存儲(chǔ)器、跟GPU,在不同工藝來混合兼容,這樣可以更好地發(fā)揮存內(nèi)計(jì)算的性能。我認(rèn)為Chiplet生態(tài),包括先進(jìn)封裝的生態(tài)可以把存算一體帶到一個(gè)新的高度,因?yàn)樗尨鎯?chǔ)器的工藝和邏輯工藝以及其他工藝更好,更容易兼容在一起,并且大幅度降低了開發(fā)的成本。這是我今天的報(bào)告。謝謝大家。以上是王紹迪演講內(nèi)容的完整整理。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。