大勢(shì)所趨的芯片異構(gòu)

發(fā)布人：旺材芯片時(shí)間：2022-04-06 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

開放的小芯片生態(tài)系統(tǒng)對(duì)未來(lái)至關(guān)重要。

作者：九林

在摩爾定律驅(qū)使下，芯片發(fā)展的目標(biāo)永遠(yuǎn)是高性能、低成本和高集成。隨著單芯片可集成的晶體管數(shù)量越來(lái)越多，工藝節(jié)點(diǎn)越來(lái)越小，隧穿效應(yīng)逐漸明顯，漏電問(wèn)題越發(fā)凸顯，導(dǎo)致頻率提升接近瓶頸，為進(jìn)一步提升系統(tǒng)性能，芯片由單核向多核系統(tǒng)發(fā)展。

在后摩爾時(shí)代，先進(jìn)工藝的研發(fā)成本過(guò)高，而市場(chǎng)需求變化又太快，導(dǎo)致應(yīng)用碎片化嚴(yán)重，很難確保一顆大而全的芯片可以成功覆蓋所有需求，而過(guò)高的研發(fā)成本和因Die面積過(guò)大造成的良率下降也導(dǎo)致芯片成本大幅飆升。為延續(xù)摩爾定律，采用多芯片異構(gòu)集成的方式取代單一大芯片，以確保在可接受的成本下進(jìn)一步提升集成度和性能，因此芯片系統(tǒng)也逐漸演進(jìn)到眾核異構(gòu)系統(tǒng)。

什么是芯片互聯(lián)技術(shù)

進(jìn)入到眾核時(shí)代，各大廠商不約而同的采用了多Die擴(kuò)展的技術(shù)路線。

一是，有基板封裝技術(shù)（MCM），通過(guò)基板走線的方式進(jìn)行Die間互聯(lián)，例如低功耗超短距離；二是，硅中介層技術(shù)（silicon interposer），在Die的底部加入一層硅，作為中介層連接多個(gè)Die，蘋果就采用此方式；三是，嵌入式多芯互連橋技術(shù)（Embedded Multi-die Interconnect Bridge，EMIB），在基板制作過(guò)程中嵌入具有多個(gè)布線層的電橋，通過(guò)這些橋?qū)崿F(xiàn)多Die間的互連，英特爾就采用此方式。

Arm 高級(jí)副總裁兼基礎(chǔ)設(shè)施總經(jīng)理 Chris Bergey 表示：“CPU 設(shè)計(jì)的未來(lái)正在加速并向多芯片方向發(fā)展，這使得整個(gè)生態(tài)系統(tǒng)必須支持基于小芯片的 SoC?！?/span>

蘋果M1 Ultra Fusion

M1、M1 Pro、M1 Max、M1 Ultra的尺寸比較。管芯面積不斷擴(kuò)大，分別有160億、337億、570億、1140億個(gè)晶體管。M1 Max 是 M1 的 3.5 倍，是 M1 Pro 的 1.7 倍，但 M1 Ultra 是 M1 Max 的兩倍。

蘋果M1 Ultra由 1140 億個(gè)晶體管組成，M1 Ultra 支持高達(dá) 128GB 的高帶寬、低延遲統(tǒng)一內(nèi)存，支持 20 個(gè) CPU 核心、64 個(gè) GPU 核心和 32 核神經(jīng)網(wǎng)絡(luò)引擎，每秒可運(yùn)行高達(dá) 22 萬(wàn)億次運(yùn)算，提供的 GPU 性能是蘋果 M1 芯片的 8 倍，提供的 GPU 性能比最新的 16 核 PC 臺(tái)式機(jī)還高 90%。

如此驚人的芯片，其技術(shù)的關(guān)鍵點(diǎn)在于將兩個(gè) M1 Max 半導(dǎo)體裸片（半導(dǎo)體芯片體）連接在一起，形成一個(gè)兩倍大的 SoC。M1 Ultra，將兩個(gè)M1 Max 芯片拼在一起，使得芯片各項(xiàng)硬件指標(biāo)直接翻倍。

現(xiàn)有的 PC 雙處理器配置通過(guò)主板上的布線連接兩個(gè)處理器。但是，在這種配置中，CPU之間的通信帶寬是有限的，因此會(huì)出現(xiàn)延遲，性能并不是簡(jiǎn)單的翻倍，它還增加了功耗和發(fā)熱。

M1 Ultra 針對(duì)這個(gè)問(wèn)題使用的互連技術(shù)被稱為“UltraFusion”，使用了 10000 多個(gè)硅中介層（連接布線）并按原樣連接半導(dǎo)體管芯，而不通過(guò)外部電路。采用這種設(shè)計(jì)，互連部分的數(shù)據(jù)傳輸速度最高可達(dá) 2.5TB/秒。

最重要的是，內(nèi)置在 M1 Max 中的指令調(diào)度程序?qū)⒅噶罘峙浣o雙倍的處理內(nèi)核，并像單個(gè) SoC 一樣運(yùn)行。由于內(nèi)存控制器也像集成一樣運(yùn)行，因此整個(gè)內(nèi)存通道增加了一倍，內(nèi)存帶寬增加到每秒 800GB。

例如，一個(gè)M1Max中內(nèi)置有10個(gè)核心的CPU，但是在連接兩個(gè)CPU的情況下增加到20個(gè)核心。將程序中的命令用哪個(gè)核心來(lái)處理，由調(diào)度器這個(gè)模塊來(lái)分配，但是M1Max的調(diào)度器假定有20個(gè)核心的CPU，指令緩沖區(qū)的數(shù)量也進(jìn)行了優(yōu)化。

英偉達(dá)、英特爾與AMD的選擇

英偉達(dá)超大規(guī)模計(jì)算副總裁 Ian Buck 表示：“小芯片和異構(gòu)計(jì)算對(duì)于應(yīng)對(duì)摩爾定律放緩至關(guān)重要?！?/span>

英偉達(dá)近日發(fā)布的數(shù)據(jù)中心專屬CPU Grace CPU超級(jí)芯片也采用了類似的方式。

該芯片由兩顆CPU芯片組成，其間通過(guò)NVLink-C2C技術(shù)進(jìn)行互連。其鏈路的能效最多可比英偉達(dá)芯片上的PCIe Gen 5高出25倍，面積效率高出90倍，可實(shí)現(xiàn)每秒900GB乃至更高的帶寬。

NVLink-C2C與近日英特爾和臺(tái)積電、三星等多家科技廠商發(fā)起的UCIe標(biāo)準(zhǔn)有著異曲同工之妙，也是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)，可支持定制裸片與GPU、CPU、DPU、NIC、SoC實(shí)現(xiàn)互連。

此前英特爾在Hotchips芯片上就展示過(guò)EMIB（嵌入式芯片互連橋）技術(shù)，單個(gè)基板中可以有許多嵌入式橋接，根據(jù)需要在多個(gè)裸片之間提供極高的 I/O 和良好控制的電氣互連路徑。

由于芯片不必通過(guò)帶有 TSV 的硅中介層連接到封裝，因此不會(huì)降低其性能。我們將微凸塊用于高密度信號(hào)，使用粗間距、標(biāo)準(zhǔn)倒裝芯片凸塊用于從芯片到封裝的直接電源和接地連接。

為什么用芯片互聯(lián)技術(shù)？

對(duì)于目前的芯片技術(shù)來(lái)說(shuō)，臺(tái)積電5nm的制程工藝是已經(jīng)能夠真正達(dá)到的業(yè)界頂尖工藝。但如果仍想在制程受到約束的情況下，推出性能更強(qiáng)的芯片，有兩種方式：第一，是再設(shè)計(jì)一款面積更大的芯片。第二，是將原來(lái)的芯片組合在一起使用，也就是說(shuō)一次用兩顆。

但更大面積的芯片也是當(dāng)前成電路發(fā)展面臨的困境之一，而當(dāng)裸片面積越大，其良率就會(huì)越低，400平方毫米以上芯片良率降至20-30%，生產(chǎn)大面積裸片就意味著更多的壞點(diǎn)和更低的良率。而從一次用兩顆的方式來(lái)看，目前業(yè)界的主流通過(guò)主板 PCB 連接。

比如像華碩的 WS C621E SAGE 主板就屬于雙路 CPU 主板，在設(shè)計(jì)之初就支持兩塊 CPU 同時(shí)工作。

但這樣做缺點(diǎn)也很明顯，比如兩個(gè) CPU 的插槽以及相應(yīng)連接所需的布線明顯會(huì)占用很大的 PCB 面積，這樣做出來(lái)的產(chǎn)品尺寸會(huì)很大。而且由于兩個(gè) CPU 之間是通過(guò) PCB 走線連接，延遲會(huì)變得很大。

通過(guò)主板 PCB 連接兩塊 CPU 所帶來(lái)的缺點(diǎn)基本都是連線過(guò)長(zhǎng)導(dǎo)致的，這也是為什么蘋果、英偉達(dá)、英特爾都紛紛看向封裝。

業(yè)內(nèi)人士推測(cè)蘋果的UltraFusion 封裝架構(gòu)至少是 InFO_LSI/CoWoS-L 的定制版本。在臺(tái)積電宣布了兩個(gè)版本的硅橋技術(shù)InFO_LSI 和 CoWoS-L中， InFO_LSI 凸塊焊盤間距指定為 25 μm。這與Apple M1 MAX凸塊焊盤間距已壓縮至 25 μm高度重合。

硅橋技術(shù)比較

InFO_LSI 的 RDL（再分布層）線/空間尺寸為 0.4/0.4 μm，這意味著 I/O 密度為 1250/mm/層。鑒于互連側(cè)的芯片邊緣長(zhǎng)度超過(guò) 18 毫米，提供了超過(guò) 20000 個(gè)潛在的 I/O，遠(yuǎn)遠(yuǎn)超過(guò) Srouji 引用的 10000 個(gè)。

2021 年 1 月，臺(tái)積電總裁魏哲家在財(cái)報(bào)會(huì)議上透露：“對(duì)于包括 SoIC、CoWoS 等先進(jìn)封裝技術(shù)，我們觀察到 chiplet 正成為一種行業(yè)趨勢(shì)。臺(tái)積電正與幾位客戶一起，使用 chiplet 架構(gòu)進(jìn)行 3D 封裝研發(fā)。

受限于不同架構(gòu)、不同制造商生產(chǎn)的die（裸片）之間的互連接口和協(xié)議的不同，設(shè)計(jì)者必須考慮到工藝制程、封裝技術(shù)、系統(tǒng)集成、擴(kuò)展等諸多復(fù)雜因素，同時(shí)，還要滿足不同領(lǐng)域、不同場(chǎng)景對(duì)信息傳輸速度、功耗等方面的要求，使得小芯片的設(shè)計(jì)過(guò)程異常艱難。而解決這些問(wèn)題的最大難關(guān)就是沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)協(xié)議。

一片火熱的互聯(lián)聯(lián)盟

英特爾、臺(tái)積電、三星聯(lián)合日月光、AMD、ARM、高通、谷歌、微軟、Meta(Facebook)等十家行業(yè)巨頭共同宣布，成立小芯片（Chiplet）聯(lián)盟，并推出一個(gè)全新的通用芯片互聯(lián)標(biāo)準(zhǔn)——UCIe，以此共同打造小芯片互聯(lián)標(biāo)準(zhǔn)，推動(dòng)開放生態(tài)建設(shè)。

UCIe的魅力在于可以將各個(gè)企業(yè)的Chiplet規(guī)定在統(tǒng)一的標(biāo)準(zhǔn)之下，這樣不同廠商、工藝、架構(gòu)、功能的芯片就可以進(jìn)行混搭，從而輕易地達(dá)到互通，并且還能實(shí)現(xiàn)高帶寬、低延遲、低能耗、低成本。

在UCIe聯(lián)盟當(dāng)中并沒(méi)有英偉達(dá)與蘋果這兩大異構(gòu)集成公司的身影，但從英偉達(dá)的了NVLink-C2C互連技術(shù)以及蘋果UltraFusion的提出可以看出，這兩大公司都不會(huì)缺席。

2022年4月2日，芯原股份宣布正式加入U(xiǎn)CIe產(chǎn)業(yè)聯(lián)盟，成為中國(guó)大陸首批加入該組織的企業(yè)。但目前國(guó)產(chǎn)廠商在UCIe聯(lián)盟中力量仍稍顯薄弱。如果這些行業(yè)大佬有意聯(lián)合起來(lái)，制定“新的游戲規(guī)則”，下游的終端企業(yè)將別無(wú)選擇，只有隨波逐流。但未雨綢繆，國(guó)內(nèi)早已開始構(gòu)建一套原生 Chiplet 標(biāo)準(zhǔn)。

2021 年 5 月，中國(guó)計(jì)算機(jī)互連技術(shù)聯(lián)盟（CCITA）在工信部立項(xiàng)了 Chiplet 標(biāo)準(zhǔn)，即《小芯片接口總線技術(shù)要求》，由中科院計(jì)算所、工信部電子四院和國(guó)內(nèi)多個(gè)芯片廠商合作展開標(biāo)準(zhǔn)制定工作。

如今，距離這個(gè)制定工作已經(jīng)過(guò)去了整整十個(gè)月，目前相關(guān)草案已經(jīng)出爐，即將進(jìn)入征求意見的環(huán)節(jié)，然后再進(jìn)行修訂，在年前完成技術(shù)驗(yàn)證，在今年年底或者明年初再正式發(fā)布。

開放的小芯片生態(tài)系統(tǒng)對(duì)這一未來(lái)至關(guān)重要，主要行業(yè)合作伙伴可在UCIe聯(lián)盟支持下共同努力，實(shí)現(xiàn)改變行業(yè)交付新產(chǎn)品的方式并繼續(xù)兌現(xiàn)摩爾定律承諾的共同目標(biāo)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

大勢(shì)所趨的芯片異構(gòu)

相關(guān)推薦

技術(shù)專區(qū)