一文抓住AI芯片趨勢(shì)

發(fā)布人：旺材芯片時(shí)間：2024-04-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

目前AI芯片的發(fā)展依然受到制約：第一個(gè)是深度學(xué)習(xí)需要海量數(shù)據(jù)進(jìn)行計(jì)算，內(nèi)存帶寬的制約，已經(jīng)成為整個(gè)系統(tǒng)的性能瓶頸。第二個(gè)就是海量?jī)?nèi)存和計(jì)算單元，訪問頻繁切換，導(dǎo)致整體功耗很難降下去。最后便是隨著AI產(chǎn)業(yè)的快速變化，硬件如何適配算法是個(gè)難題。

這里預(yù)測(cè)一下AI芯片的4****展趨勢(shì)。

未來10年是加速計(jì)算架構(gòu)變革的新十年。在計(jì)算存儲(chǔ)一體化方面，也就是把計(jì)算單元和存儲(chǔ)單元放在一起，使得AI系統(tǒng)的計(jì)算和數(shù)據(jù)吞吐量增大，還能顯著地降低功耗。會(huì)不會(huì)出現(xiàn)一種新型非易失性存儲(chǔ)器件，就是在存儲(chǔ)陣列里面加上AI計(jì)算功能，從而節(jié)省數(shù)據(jù)搬移操作呢？現(xiàn)在硬件計(jì)算能力大于數(shù)據(jù)讀取和訪問性能，當(dāng)計(jì)算單元不在是瓶頸，如何減少存儲(chǔ)器的訪問延時(shí)，將會(huì)成為下一個(gè)研究方向。

通常，離計(jì)算越近的存儲(chǔ)器速度越快，每字節(jié)的成本也越高，同時(shí)容量也越受限，因此新型的存儲(chǔ)結(jié)構(gòu)也將應(yīng)運(yùn)而生。

第二個(gè)趨勢(shì)就是，稀疏化計(jì)算。隨著千億、到萬億網(wǎng)絡(luò)模型提出，模型越來越大，但實(shí)際不是每個(gè)神經(jīng)元，都能有效激活，這個(gè)時(shí)候稀疏計(jì)算，可以高效減少無用能效。特別是在推薦場(chǎng)景和圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用，稀疏已經(jīng)成為常態(tài)。

例如，哈佛大學(xué)提出了優(yōu)化的五級(jí)流水線結(jié)構(gòu)，在最后一級(jí)輸出了觸發(fā)信號(hào)。在Activation層后對(duì)下一次計(jì)算的必要性進(jìn)行預(yù)先判斷，如果發(fā)現(xiàn)這是一個(gè)稀疏節(jié)點(diǎn)，則觸發(fā) SKIP信號(hào)，避免乘法運(yùn)算的功耗，以達(dá)到減少無用功耗的目的。第三個(gè)趨勢(shì)是支持更加復(fù)雜的AI算子。在標(biāo)準(zhǔn)的SIMD基礎(chǔ)上，CNN的特殊結(jié)構(gòu)復(fù)用，可以減少總線的數(shù)據(jù)通訊，Transformer結(jié)構(gòu)對(duì)大數(shù)據(jù)在計(jì)算和存儲(chǔ)之間切換，或者是在NLP和語音領(lǐng)域經(jīng)常需要支持的動(dòng)態(tài)shape，合理地分解、映射這些不同復(fù)雜結(jié)構(gòu)的算子，到有效的硬件上成為了一個(gè)值得研究的方向。

最后一個(gè)是更快的推理時(shí)延和存儲(chǔ)位寬。隨著蘋果、高通、華為都在手機(jī)芯片SoC上面推出AI推理硬件IP，近年來在手機(jī)SoC上，又引入可學(xué)習(xí)功能。未來如何在手機(jī)SoC上執(zhí)行更快是業(yè)界很關(guān)注的一個(gè)點(diǎn)，包括經(jīng)?？匆曨l的抖音、bilibili，都需要對(duì)視頻進(jìn)行AI編解碼，基于ISP進(jìn)行AI影像處理。另外在理論計(jì)算領(lǐng)域，神經(jīng)網(wǎng)絡(luò)計(jì)算的位寬從32bit到16bit，出現(xiàn)了混合精度到目前8bit，甚至更低的比特?cái)?shù)，都開始慢慢進(jìn)入實(shí)踐領(lǐng)域。

來源：芯生代

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

一文抓住AI芯片趨勢(shì)

相關(guān)推薦

技術(shù)專區(qū)