Chiplet 技術(shù)取得進(jìn)展

作者：semiengineering 時(shí)間：2024-11-06 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

在互聯(lián)技術(shù)、復(fù)雜分區(qū)技術(shù)以及行業(yè)經(jīng)驗(yàn)的推動(dòng)下，將 SoC 分解成各個(gè)組件，并將這些組件和其他組件組裝成某種類型的異構(gòu)組件已初具雛形。

本文引用地址：http://m.butianyuan.cn/article/202411/464358.htm

雖然即插即用的愿景依然不變，但實(shí)現(xiàn)這一目標(biāo)遠(yuǎn)比最初想象的要復(fù)雜得多。它會(huì)因應(yīng)用和工作負(fù)載的不同而有很大差異，進(jìn)而會(huì)影響時(shí)序、延遲和成本。此外，它還會(huì)因封裝類型、是否包含人工智能、調(diào)度和優(yōu)先級(jí)排序所需軟件的數(shù)量以及所使用的互聯(lián)類型而有所不同。

Arm 系統(tǒng)架構(gòu)師兼研究員羅布·迪蒙德表示，互聯(lián)技術(shù)是粘合劑。它們包括片上網(wǎng)絡(luò)，即位于 Chiplet 上的所有其他互聯(lián)，以及 UCIe 芯片間連接，后者負(fù)責(zé)芯片間數(shù)據(jù)傳輸。互聯(lián)技術(shù)還與其他高速接口協(xié)同工作，將數(shù)據(jù)從一個(gè)邊界傳輸?shù)搅硪粋€(gè)邊界。

Cadence 高級(jí)產(chǎn)品營(yíng)銷集團(tuán)總監(jiān)阿里夫·汗說(shuō)：「芯片組互連的根本挑戰(zhàn)在于了解如何進(jìn)行分解。你正在分割你的計(jì)算和數(shù)據(jù)流問(wèn)題。你的架構(gòu)是怎樣的？你是如何劃分的？你有芯片組內(nèi)的數(shù)據(jù)流，還有跨芯片組的數(shù)據(jù)流。這取決于數(shù)據(jù)的去向和背景。例如，你要解決的問(wèn)題是什么？如果是 GPU 類型的應(yīng)用，那么單個(gè) GPU 將無(wú)法容納如此龐大的語(yǔ)言模型。你需要的是一個(gè)由數(shù)百萬(wàn)個(gè) GPU 組成的人工智能工廠。然后，你會(huì)看到不同的一致性模型。事實(shí)上，即使是標(biāo)準(zhǔn)協(xié)議也無(wú)法滿足要求?！?/p>

目前，這些互聯(lián)通常是導(dǎo)線（盡管未來(lái)在封裝之間甚至封裝內(nèi)部可能會(huì)有光互聯(lián)，或是二者的某種組合）。但并不是所有的導(dǎo)線都有相同的表現(xiàn)。它們可以有不同的直徑，以不同的密度排列，具有不同的絕緣層，甚至使用不同的材料。

Blue Cheetah 首席執(zhí)行官兼聯(lián)合創(chuàng)始人埃拉德·阿隆表示：「你能獲得的導(dǎo)線數(shù)量以及這些導(dǎo)線的特性都大不相同?！高@就是促使你必須以不同方式做事的原因。另一方面，人們通常希望隔離芯片組邊界的時(shí)序接口，這從根本上說(shuō)并不是物理學(xué)驅(qū)動(dòng)的，而更多是實(shí)際工程驅(qū)動(dòng)的。當(dāng) Chiplet 采用 2.5D 或 3D 封裝時(shí)，會(huì)有一些操作空間，但通常的設(shè)計(jì)決定是將這些時(shí)序接口相互隔離。這主要是因?yàn)樾酒谖锢砩媳环指粼诓煌男酒?。我不想做這種多重跨芯片時(shí)序閉合的工作。這并不是說(shuō)不能做，只是出于現(xiàn)實(shí)的原因人們不愿意這么做。這也是芯片組互連與芯片上互連不同的地方。片上互連是在單個(gè)時(shí)鐘域內(nèi)進(jìn)行的，可以由更「標(biāo)準(zhǔn)」的「放置-路由」類型的流程驅(qū)動(dòng)。但是，由于導(dǎo)線數(shù)量較少，因此需要更快地運(yùn)行這些導(dǎo)線。隔離式定時(shí)接口正是模擬人員實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵所在。顯然，它需要盡可能低的面積和功耗?！?/p>

由于 Chiplet 互聯(lián)需要跨芯片傳輸數(shù)據(jù)，因此這些物理接口通常速度非?？斓鄬?duì)較窄。然而，與 SoC 互聯(lián)不同，Chiplet 互聯(lián)通常是像通信協(xié)議一樣進(jìn)行分組化的，而不太像片上總線。

Arteris 產(chǎn)品經(jīng)理阿什利·史蒂文斯解釋道：「Chiplet 互聯(lián)通常允許數(shù)據(jù)以分組化的格式通過(guò)芯片間鏈路在非常寬的接口上發(fā)送，數(shù)據(jù)可以序列化并通過(guò)鏈路發(fā)送。芯片間互聯(lián)需要支持各種旁帶信號(hào)，這在 SoC 中通常通過(guò)點(diǎn)對(duì)點(diǎn)信號(hào)（如中斷和電源管理）來(lái)處理。這些也需要通過(guò)與普通內(nèi)存和外設(shè)事務(wù)相同的鏈路以分組化的格式從芯片傳輸?shù)叫酒?，因此不?yīng)被忽略?！?/p>

這些互聯(lián)還需要與應(yīng)用相匹配?！窩hiplet 需要一種在關(guān)鍵參數(shù)上表現(xiàn)出色的高效芯片間（D2D）互聯(lián)，」Alphawave Semi 產(chǎn)品營(yíng)銷和管理副總裁萊蒂齊亞·朱利亞諾表示。「我們需要為芯片間互聯(lián)的 Chiplet 應(yīng)用進(jìn)行定制，以優(yōu)化給定封裝系統(tǒng)中該接口的總擁有成本。面積效率以帶寬海岸線密度來(lái)衡量，它能使每毫米岸線上的數(shù)據(jù)達(dá)到最高的 Tb/s。功率即能效，并且每比特焦耳需要盡可能低。當(dāng)我們?cè)?Chiplet 中使用 D2D 互聯(lián)時(shí)，會(huì)造成 I/O 電路的重復(fù)。物理層和數(shù)字邏輯都會(huì)增加，它們需要減少對(duì)總體功耗預(yù)算的影響，并符合總體總擁有成本?！?/p>

延遲是一個(gè)關(guān)鍵的性能指標(biāo)，發(fā)射器（TX）加接收器（RX）的傳輸時(shí)間需要最小化?！窪2D 互聯(lián)的設(shè)計(jì)必須在電路復(fù)雜性和 PPA（性能、功耗和面積）之間取得微妙的平衡，做到同類最佳，」朱利亞諾說(shuō)。「這可以確保我們不會(huì)過(guò)度增大電路尺寸而忽略應(yīng)用空間。例如，具有單端架構(gòu)和良好電壓調(diào)節(jié)平衡的簡(jiǎn)單接口有助于提高電源效率。同時(shí)，模擬 TX 和 RX 中的緊湊電路需要對(duì)失配和噪聲進(jìn)行仔細(xì)研究?！?/p>

要最大限度地發(fā)揮異構(gòu)集成的優(yōu)勢(shì)，就必須深入了解終端應(yīng)用和工作負(fù)載，以及如何最好地為特定領(lǐng)域設(shè)計(jì)解決方案?！肝覀儾荒芘c應(yīng)用空間脫節(jié)，也不能將總體擁有成本降至最低，因此 D2D 架構(gòu)需要針對(duì)不同類型的封裝和凸點(diǎn)間距進(jìn)行設(shè)計(jì)。」朱利亞諾指出：「在設(shè)計(jì)系統(tǒng)時(shí)，我們需要考慮所有的電路損傷，以實(shí)現(xiàn)現(xiàn)實(shí)可行的實(shí)施。我們正在從芯片轉(zhuǎn)向封裝。在封裝中的 Chiplet 系統(tǒng)中，將我們的 SoC 裸片自然分解的方式是將我們的 SoC 網(wǎng)絡(luò)傳輸?shù)椒庋b上的芯片上，因此我們正在向標(biāo)稱片上傳輸層添加物理層傳輸?！?/p>

Chiplet 中的數(shù)據(jù)移動(dòng)

有多種競(jìng)爭(zhēng)性的協(xié)議可用于數(shù)據(jù)移動(dòng)。AMBA CHI、UCIe 和 BoW 是最為人所知的。哪一種或哪幾種組合最終勝出尚待觀察。但它們基本上都執(zhí)行相同的功能，即在 Chiplet 之間快速移動(dòng)數(shù)據(jù)。

「AMBA CHI 是分組化的、廣泛使用的且開(kāi)放授權(quán)的，它是 AMBA CHI C2C 的基礎(chǔ)，使其能夠使用合適的芯粒物理和鏈路層在芯粒之間實(shí)現(xiàn)連接，」Arm 公司的迪蒙德介紹道?！笇?duì)于將主板上的組件集成到一個(gè)封裝中，最好在新的針對(duì)芯粒優(yōu)化的物理層上使用已有的互聯(lián)標(biāo)準(zhǔn)。對(duì)于將 SoC 分解為多個(gè)芯粒來(lái)說(shuō)，同樣合理的做法是使用已有的片上互連?！?/p>

Arm 認(rèn)為，Chiplet 互聯(lián)將從現(xiàn)有的板級(jí)或片上互聯(lián)發(fā)展而來(lái)。但是，在 Chiplet 架構(gòu)中，有更多且不同的層需要考慮。

「就物理層而言，芯片之間的互聯(lián)可能會(huì)支持更少的物理連接，運(yùn)行距離更長(zhǎng)，」迪蒙德解釋說(shuō)?！缚赡苄枰薪獯鳎⊿erDes）。在 AMBA CHI C2C 的情況下，該協(xié)議是分組化的，以支持在物理層之上運(yùn)行。協(xié)議層將需要一個(gè)架構(gòu)規(guī)范，以提供所需的長(zhǎng)期穩(wěn)定性，支持隨著時(shí)間的推移重復(fù)使用，并隨著生態(tài)系統(tǒng)的出現(xiàn)，支持價(jià)值鏈中不同參與者之間的潛在重復(fù)使用?！?/p>

在很大程度上，Chiplet 到 Chiplet 的通信是一個(gè)分區(qū)問(wèn)題，而在汽車設(shè)計(jì)中，這個(gè)問(wèn)題尤其具有挑戰(zhàn)性。

「舉個(gè)例子——我可以從 X 公司獲得一個(gè)帶有完美 CPU 復(fù)合體的芯粒，但它沒(méi)有 GPU，」西門(mén)子數(shù)字化工業(yè)軟件公司混合與虛擬系統(tǒng)部門(mén)的副總裁戴維·弗里茨說(shuō)道?！肝艺趪L試為車載信息娛樂(lè)系統(tǒng)（IVI）做些什么，所以我需要一個(gè) GPU 來(lái)進(jìn)行渲染。有些公司會(huì)說(shuō)：要不我把我們的 GPU 拿出來(lái)，單獨(dú)放在一個(gè)芯粒里，然后把這個(gè)芯粒稱為一個(gè)『液滴』怎么樣？但這只是一個(gè)無(wú)法獨(dú)立存在的子系統(tǒng)模塊。人們會(huì)創(chuàng)造這些『液滴』，然后他們會(huì)說(shuō)，：你拿著我們的『液滴』去找其他公司，他們會(huì)圍繞它添加他們需要的東西。所以，實(shí)際上我們又回到了出售硬宏（hard macros）的老路上?！何疫@里有 GPU，但我的內(nèi)存卻在另一個(gè)芯粒上？這行不通，因?yàn)槲覜](méi)有 GPU 所需的高帶寬，無(wú)法支持高分辨率、多顯示屏。』所以，如果你沒(méi)有工具來(lái)探索這個(gè)領(lǐng)域的復(fù)雜性，并推導(dǎo)出那些不直觀或不明顯的更深層次、更硬性的要求，那么你最終只會(huì)做出錯(cuò)誤的決策，而無(wú)法拿出一款有競(jìng)爭(zhēng)力的產(chǎn)品?！?/p>

在異構(gòu)系統(tǒng)中，分區(qū)不僅僅關(guān)乎硬件。軟件也需要在 Chiplet 之間兼容。

「如果你考慮推理，推理通常使用較小的數(shù)據(jù)集并據(jù)此做出決策，」Eliyan 公司戰(zhàn)略營(yíng)銷副總裁凱文·唐納利表示?！柑幚碓乜赡苋堪谝粋€(gè)芯片內(nèi)，而你需要進(jìn)行的互聯(lián)是與外部世界和內(nèi)存之間的。這決定了你擁有什么樣的互聯(lián)，以及你在這些互聯(lián)上需要什么樣的帶寬。這將決定類似推理功能的芯片集的劃分方式。如果是訓(xùn)練，并且像英偉達(dá)那樣處理海量數(shù)據(jù)集，他們關(guān)注的是如何將大量的大型解聚芯片無(wú)縫地整合起來(lái)，使它們看起來(lái)像是更大、更單片的芯片。在這種情況下，他們需要盡可能緊密地互連 GPU 核心，并在芯粒之間獲得盡可能多的帶寬。這種片外互連問(wèn)題正是推動(dòng)他們做出劃分決策的原因，也是他們將其旋轉(zhuǎn) 90 度（與其他人之前的做法相比）的原因，其他人之前的做法是試圖讓兩個(gè)巨大的單片芯片看起來(lái)像是一個(gè)更大、更巨大的單片芯片。然后，芯片外部的連接通向 I/O 世界和其他內(nèi)存。這就是片上互連在他們劃分中所起的作用。在軟件層面，他們能夠使兩個(gè)解耦的處理器看起來(lái)像一個(gè)巨大的處理器，根據(jù)他們公布的信息與之前的可用信息相比，這讓他們獲得了出色的性能基準(zhǔn)?！?/p>

這也可以被稱為橫截面帶寬和能耗?！府?dāng)你將事物從彼此身上分離，從一個(gè)單片芯片分離成兩個(gè)需要重新連接的異質(zhì)部分（或者就此而言，同質(zhì)部分）時(shí)，這是你需要關(guān)注的兩件事，」Eliyan 公司的首席戰(zhàn)略與業(yè)務(wù)官帕特里克·索赫伊利指出。「你正在尋找可以承受更多功耗的區(qū)域，因?yàn)楝F(xiàn)在你可以在芯片外部將它們連接起來(lái)。在芯片內(nèi)部進(jìn)行連接總是更高效的，但如果沒(méi)有空間就別無(wú)選擇。所以，這是由一個(gè)決策決定的。另一個(gè)決策是，一個(gè)芯片需要與另一個(gè)芯片以多快的速度進(jìn)行通信，即橫截面帶寬需要是多少，以及是否能夠承受將它們彼此遠(yuǎn)離放置，而不是放在一個(gè)單片芯片中。這兩點(diǎn)是軟件劃分，以及確保整個(gè)系統(tǒng)將系統(tǒng)級(jí)封裝（SIP）視為一個(gè)整體——這始終是其中的關(guān)鍵部分——與 Chiplet 策略無(wú)關(guān)，只是確保所有部分都能作為一個(gè)子系統(tǒng)協(xié)同工作。」

Chiplet 給互連實(shí)現(xiàn)帶來(lái)了什么

Chiplet 系統(tǒng)的出現(xiàn)帶來(lái)了創(chuàng)建可用于生產(chǎn)實(shí)現(xiàn)的新挑戰(zhàn)?！高@需要使用一種新的方法來(lái)測(cè)試 D2D 接口在不斷提高的數(shù)據(jù)速率下的表現(xiàn)，并允許對(duì)良好的芯片進(jìn)行測(cè)試和篩選，」Alphawave 的朱利亞諾表示?！肝覀?nèi)绾卧诰A或封裝上測(cè)試 D2D 互連的物理層？HBM 學(xué)習(xí)是否適用于此，或者我們需要采用不同的方法？我們現(xiàn)在討論的是以更高的 32Gbps 數(shù)據(jù)速率進(jìn)行連接，并且每個(gè)引腳的數(shù)據(jù)傳輸速率達(dá)到 64Gbps，這將連接越來(lái)越多的 Chiplet。通常，這是在先進(jìn)的凸塊間距中實(shí)現(xiàn)的，而這種間距在晶圓級(jí)別上是不太可能的。在我們的物理層（PHY）內(nèi)部設(shè)計(jì)測(cè)試級(jí)結(jié)構(gòu)至關(guān)重要，這樣可以深入了解硅的健康狀況并隨時(shí)間觀察關(guān)鍵時(shí)序參數(shù)的可觀測(cè)性。」

Alphawave 已經(jīng)實(shí)施了先進(jìn)的測(cè)試和調(diào)試方法，允許其工程團(tuán)隊(duì)使用內(nèi)部回環(huán)和寄存器訪問(wèn)來(lái)測(cè)試鏈路。該公司還在與外包半導(dǎo)體組裝和測(cè)試公司合作，實(shí)施結(jié)構(gòu)測(cè)試，以確保 D2D 結(jié)構(gòu)的全面測(cè)試覆蓋。

另一個(gè)新問(wèn)題源于將來(lái)自不同供應(yīng)商且需要互操作的 D2D 互連和 Chiplet 進(jìn)行集成?！溉缃?，我們部署的大多數(shù)系統(tǒng)都來(lái)自單一供應(yīng)商，但我們正在與生態(tài)系統(tǒng)合作伙伴和客戶合作，為多供應(yīng)商互操作性鋪平道路。我們已經(jīng)創(chuàng)建了測(cè)試載體和發(fā)布版 Chiplet，這些可以與其他方一起使用，以進(jìn)行清晰的電氣互操作性測(cè)試和協(xié)議測(cè)試，」朱利亞諾指出。

系統(tǒng)發(fā)現(xiàn)也是 Chiplet 中需要標(biāo)準(zhǔn)化的另一個(gè)領(lǐng)域，Arteris 的史蒂文斯說(shuō)道。「要?jiǎng)?chuàng)建一個(gè) Chiplet 生態(tài)系統(tǒng)，它們需要能夠『發(fā)現(xiàn)』外部存在什么，并且如果需要支持真正的芯粒混合與匹配，它們需要能夠?qū)R以形成一個(gè)系統(tǒng)。今天，Chiplet 是作為一個(gè)系統(tǒng)進(jìn)行設(shè)計(jì)和驗(yàn)證的，但這缺乏協(xié)同使用的靈活性。驗(yàn)證知識(shí)產(chǎn)權(quán)（IP）對(duì)于 Chiplet 也至關(guān)重要。為了實(shí)現(xiàn)互操作性，必須有行業(yè)內(nèi)信賴的『標(biāo)準(zhǔn)』驗(yàn)證 IP。這使 Chiplet 設(shè)計(jì)可以針對(duì)驗(yàn)證 IP 進(jìn)行驗(yàn)證，而無(wú)需針對(duì)其他 Chiplet 進(jìn)行驗(yàn)證。」

從互連的角度來(lái)看，還必須考慮整體內(nèi)存映射?！竷?nèi)存映射是特定地址訪問(wèn)如何映射到系統(tǒng)中的內(nèi)存控制器，」史蒂文斯說(shuō)道?！冈?Chiplet 系統(tǒng)中，內(nèi)存訪問(wèn)可以跨越 Chiplet。這種映射會(huì)對(duì)性能產(chǎn)生影響。細(xì)粒度的映射會(huì)將訪問(wèn)均勻地分散到各個(gè) Chiplet 上，但可能會(huì)由于遠(yuǎn)程 Chiplet 的較長(zhǎng)延遲而導(dǎo)致性能問(wèn)題。粗粒度的映射可能更好，但訪問(wèn)可能不會(huì)分散得那么均勻，因此存在一個(gè)棘手的權(quán)衡。系統(tǒng)架構(gòu)師應(yīng)該對(duì)此進(jìn)行建模，但另一種方法是使其在引導(dǎo)時(shí)配置，以便在硅調(diào)試之后可以進(jìn)行試驗(yàn)?！?/p>

Chiplet 架構(gòu)的另一個(gè)重要考量是，并非所有 Chiplet 劃分和架構(gòu)都適用 D2D 互連?！噶私?KPI 以便為 D2D 鏈路和 Chiplet 分區(qū)選擇正確的配置，這一點(diǎn)至關(guān)重要，」朱利亞諾指出?！肝覀儜{借自身在 Chiplet 定制硅片和 D2D 互連領(lǐng)域的領(lǐng)先地位，指導(dǎo)客戶正確劃分系統(tǒng)，并在實(shí)現(xiàn) TCO 和上市時(shí)間之間找到最佳平衡點(diǎn)。一個(gè)重要的例子是封裝技術(shù)，以及特定配置所需的 D2D 配置。選擇過(guò)程需要涉及芯粒互連的所有層級(jí)。然后，將電氣物理層（PHY）和封裝類型轉(zhuǎn)移到互連協(xié)議和特定于域架構(gòu)的芯粒劃分上?！?/p>

Alphawave 的多標(biāo)準(zhǔn) I/OChiplet。來(lái)源：Alphawave Semi

在更深入地了解 Chiplet 互連后，一個(gè)關(guān)鍵問(wèn)題浮現(xiàn)：商業(yè) Chiplet 市場(chǎng)何時(shí)能成形。雖然英特爾、AMD、英偉達(dá)和蘋(píng)果等公司已經(jīng)在使用 Chiplet，但這些 Chiplet 是專為它們自己的設(shè)備設(shè)計(jì)的。要實(shí)現(xiàn)基本即插即用的商業(yè) Chiplet，還有很長(zhǎng)的路要走。

「我們將看到的下一個(gè)階段是，當(dāng)前的主要參與者圍繞其知識(shí)產(chǎn)權(quán)開(kāi)放生態(tài)系統(tǒng)，允許配套 Chiplet 的出現(xiàn)，」Synopsys 技術(shù)產(chǎn)品管理高級(jí)總監(jiān)蒂姆·科格爾表示?！高@將需要一套完整的架構(gòu)和協(xié)作工具方法。特別是在汽車行業(yè)，這是一個(gè)非常重要的趨勢(shì)。在歐洲，有 imec 汽車 Chiplet 計(jì)劃（ACP）。日本則有先進(jìn)汽車系統(tǒng)芯片研究（ASRA）聯(lián)盟。有負(fù)責(zé)架構(gòu)協(xié)作和物理方面的工作小組。我們?nèi)绾卧谛盘?hào)層面實(shí)現(xiàn)協(xié)同工作？我們?nèi)绾卧诤暧^架構(gòu)層面實(shí)現(xiàn)協(xié)同工作，以便將各部分整合在一起？特別是在汽車行業(yè)，這一趨勢(shì)尤為強(qiáng)勁，因?yàn)樗麄兦宄乜吹搅耸褂?Chiplet 概念實(shí)現(xiàn)可擴(kuò)展架構(gòu)的好處。他們希望從低端汽車到中端再到高端，只需簡(jiǎn)單地說(shuō)『這是一個(gè)，這是兩個(gè)，這是四個(gè) Chiplet』就能實(shí)現(xiàn)。他們看到了巨大的經(jīng)濟(jì)規(guī)模，并計(jì)劃通過(guò) Chiplet 路徑來(lái)實(shí)現(xiàn)這一點(diǎn)?！?/p>

然而，要實(shí)現(xiàn)這一目標(biāo)，還有很多工作要做。作為一個(gè)行業(yè)，我們?nèi)栽诹私?Chiplet 及其標(biāo)準(zhǔn)，所有這些標(biāo)準(zhǔn)都涉及不同的領(lǐng)域，Keysight 的信號(hào)完整性應(yīng)用科學(xué)家兼高速數(shù)字應(yīng)用產(chǎn)品經(jīng)理表示?！感袠I(yè)面臨的一大挑戰(zhàn)是，要確保所有這些標(biāo)準(zhǔn)都能協(xié)同工作，因?yàn)檫t早它們都需要相互連接并協(xié)同發(fā)揮作用?！?/p>

新聞中心

Chiplet 技術(shù)取得進(jìn)展

Chiplet 中的數(shù)據(jù)移動(dòng)

Chiplet 給互連實(shí)現(xiàn)帶來(lái)了什么

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)