芯片的功耗問題不斷提升
在處理和存儲數(shù)據(jù)方面,功耗至關(guān)重要,而其中許多方面并不理想。與功耗相關(guān)的問題,尤其是熱量問題,如今主導(dǎo)著芯片和系統(tǒng)設(shè)計,而且這些問題在不斷擴大和增多。
本文引用地址:http://m.butianyuan.cn/article/202404/457162.htm隨著晶體管密度的提高,這些微小的數(shù)字開關(guān)產(chǎn)生的熱量無法通過傳統(tǒng)方式消除。盡管這個問題看似可以控制,但這產(chǎn)生了一連串需要整個行業(yè)共同解決的新問題,包括 EDA 公司、制程設(shè)備制造商、晶圓廠、封裝廠、現(xiàn)場監(jiān)測與分析服務(wù)商、材料供應(yīng)商、研究團隊等。
在這些活動的背后,一個持續(xù)的焦點是將更多晶體管集成到固定區(qū)域內(nèi),以及與之密切相關(guān)且不斷加速的功耗泄漏戰(zhàn)斗。FinFET 在 16/14 納米技術(shù)中解決了漏電門問題,但僅在兩個節(jié)點之后問題再次出現(xiàn)。在 3 納米制程中,引入了與眾不同的全包圍柵極場效應(yīng)管(即納米片)結(jié)構(gòu),這使得設(shè)計、計量、檢驗和測試變得更具挑戰(zhàn)性和成本。在 2 納米/18 埃技術(shù)中,為確保向晶體管傳輸足夠的功率并緩解布線問題,會從芯片的正面翻轉(zhuǎn)到背面進行電源傳輸。在更高技術(shù)水平中,行業(yè)可能會再次改變晶體管結(jié)構(gòu),采用復(fù)合場效應(yīng)晶體管(CFET)。在這一短時間窗口中,眾多工藝和結(jié)構(gòu)變化不斷涌現(xiàn),每個新節(jié)點都需要解決更多問題。
例如,隨著高密度芯片和封裝技術(shù)發(fā)展,瞬態(tài)熱梯度問題日益受到關(guān)注。這些熱梯度以不可預(yù)測的方式移動,有時迅速,有時緩慢,并且會隨著工作負載的變化而變化。在 40 納米工藝中,采用較厚的電介質(zhì)、基板和更寬松的間距,這些問題僅被當(dāng)作小麻煩。但在當(dāng)前尖端的制程技術(shù)中,我們需要更認真地對待這些問題。
Cadence 產(chǎn)品管理總監(jiān) Melika Roshandell 表示:「盡管基本漏電較之前的技術(shù)有所降低,但總體功耗卻更高。所以,熱量問題將更加嚴重,因為你在一個集成電路中集成了更多的晶體管,同時不斷提高性能。你希望采用越來越高的頻率,為此需要提高電壓和功耗。現(xiàn)在的總功耗比上一代更高,所以熱量問題將更嚴重。此外,在使用更小節(jié)點時,芯片面積也在減小。面積縮小和總功耗增加有時可能導(dǎo)致熱問題惡化,從而使芯片無法達到
圖 1:運行中的 3D-IC 設(shè)計的熱力學(xué)耦合仿真。來源:Cadence
熱量正成為所有硬件工程師共同的噩夢,并引發(fā)一些難以解決和預(yù)先建模的惡性循環(huán):
熱量加速了用于保護信號的電介質(zhì)薄膜(時間依賴型電介質(zhì)擊穿,或稱 TDDB)的破裂,并增加了機械應(yīng)力,從而導(dǎo)致翹曲。
熱量導(dǎo)致一系列問題:它加速電遷移和其他老化效應(yīng),可能使數(shù)據(jù)通路變窄。這進一步增加了電路阻力產(chǎn)生的熱量以及驅(qū)動信號所需的能量,直至(如果可能的話)信號重新路由。
熱量還會影響存儲器的運行速度,降低系統(tǒng)整體性能。
此外,熱量產(chǎn)生的噪聲對信號完整性造成影響,而且噪聲可能是瞬時的,這使得分區(qū)更加困難。
所有這些因素都可能縮短芯片的壽命,甚至影響芯片的一部分。西門子 EDA 的模擬和混合信號驗證解決方案的首席產(chǎn)品經(jīng)理 Pradeep Thiagarajan 表示:「熱降解晶體管很容易導(dǎo)致芯片或 IP 損壞。幸運的是,大多數(shù)設(shè)備的自熱分析可以通過對每個 MOS 器件進行瞬態(tài)測量來評估局部加熱對設(shè)計的影響,然后加載溫度差數(shù)據(jù)并評估波形影響?,F(xiàn)在,在面臨越來越高的數(shù)據(jù)傳輸速率要求的情況下,各個方面都需要創(chuàng)新。因此,更好地對所有熱界面材料進行建模,就能更有可能解決這些影響,并進行適當(dāng)?shù)脑O(shè)計調(diào)整,避免短期或長期的硬件故障。歸根結(jié)底,我們需要創(chuàng)新的熱解決方案,同時還必須進行正確的建模?!?/span>
功耗問題叢生
許多芯片制造商剛開始應(yīng)對這些問題,因為大部分芯片并未使用最先進的制程開發(fā)。但隨著芯片越來越多地變成由芯片單元組成,所有內(nèi)容都需要在非 40nm 或更高工藝平面芯片開發(fā)的條件下進行特性描述和操作。
值得注意的是,提高晶體管密度,無論是在單個芯片還是高級封裝中,未必是提升性能的最有效途徑。然而,它確實會提高功率密度,限制時鐘頻率。因此,許多顯著進步并非與晶體管本身緊密相關(guān)。這些進步包括硬件-軟件協(xié)同設(shè)計、更快的物理層和互連、新型絕緣和電子遷移材料、具有較高精度和較短恢復(fù)時間的預(yù)取處理、稀疏算法以及新的電源傳輸方案。
Arm 公司高級首席 CPU 架構(gòu)師 Vincent Risson 表示:「理解整個系統(tǒng)堆棧非常重要。當(dāng)然,計算機對功率有重要貢獻,但系統(tǒng)的其他部分也同樣重要。這就是為什么我們有不同級別的緩存,而且緩存的大小也不同。我們在上一代產(chǎn)品中加大了緩存規(guī)模,因為擁有本地緩存能使下游電源將計算視為本地運行。隨著我們擴展到 3D,我們可以設(shè)想使用 3D 堆疊緩存,這將有助于減少數(shù)據(jù)傳輸并提高效率?!?/span>
關(guān)鍵是在設(shè)計周期的每個環(huán)節(jié)提高效率,不僅僅局限于硬件。盡管近幾十年來芯片產(chǎn)業(yè)一直關(guān)注硬件——軟件協(xié)同設(shè)計,但系統(tǒng)公司通過定制化微架構(gòu)優(yōu)先采用這種方法,同時,移動設(shè)備也力求為了競爭優(yōu)勢而大幅延長電池壽命。
Risson 表示:「我們進行許多調(diào)整來充分提升性能,這是 CPU 致力于解決的一個重點問題。例如,我們持續(xù)改進所有預(yù)取引擎,以提高準(zhǔn)確性并降低下游數(shù)據(jù)的流量。因此,我們在保持更好覆蓋的同時,減少了互連上的流量?!?/span>
這僅僅是難題的一部分,我們還需要解決更多方面的問題。例如,隨著時間的流逝,介電膜會逐漸損壞。這種情況會受到不同工作負載或工作條件的加速,尤其是在充滿芯片片制品的封裝內(nèi)部。Ansys 電子、半導(dǎo)體和光學(xué)事業(yè)部的研究員及首席技術(shù)專家 Norman Chang 表示:「由于我們需要處理如此眾多的信號和運行在不同電壓下的多邊形網(wǎng)絡(luò),時變介電擊穿(TDDB)成為一個問題。如果一個網(wǎng)絡(luò)與另一個不同電壓的信號網(wǎng)絡(luò)相鄰,那么介電材料就會感應(yīng)到不同的電壓場。隨著時間的推移,會出現(xiàn)時變的介電擊穿現(xiàn)象。這是一個新問題,我們需要找到針對它的解決辦法?!?/span>
不一致性問題
熱梯度也是一項挑戰(zhàn),特別是當(dāng)它們變化不定且在不同工作負載間有較大差異時。這個問題在 2.5D 設(shè)計中尤為明顯,可能導(dǎo)致變形。而預(yù)期在未來幾年推出的 3D-ICs 中也存在同樣問題。在這兩種情況下,熱量可能會被困住,從而產(chǎn)生滾雪球效應(yīng)。
圖 2:2.5D 集成電路的熱力學(xué)與力學(xué)分析結(jié)果,展示了溫度梯度,包括在 245°C 時的翹曲情況。來源:Ansys
張表示:「在 3D-IC 中,功耗與溫度有很大的關(guān)系。當(dāng)溫度升高時,漏電功耗將增加,熱梯度分布成為 3D-IC 中多物理互動的核心。溫度會影響功耗,同時也會影響電阻。當(dāng)溫度升高時,電阻也會增加,這也將影響介電常數(shù)。這會對信號完整性和功率完整性產(chǎn)生影響,同時還會影響應(yīng)力。在 3D-IC 中混合使用數(shù)字和模擬時,模擬部分對應(yīng)力更敏感。你需要知道熱梯度和熱點的位置,以便將模擬元件遠離熱點。如果你看到模擬元件的熱循環(huán),設(shè)備的老化速度會加快,你會開始看到晶體管失配,模擬電路的效率相較于數(shù)字邏輯會迅速下降?!?/span>
這僅僅只是開始。新思科技(Synopsys)的產(chǎn)品管理高級總監(jiān) Kenneth Larsen 指出,將堆疊芯片中各個元素的位置安排錯誤可能會產(chǎn)生一些意想不到的問題,例如熱交叉干擾,這也可能會降低整體性能?!肝覀円褟膯纹O(shè)計轉(zhuǎn)向基于碎片的設(shè)計,這使得各個設(shè)備之間的距離縮小了,它們可以互相影響。當(dāng)一個設(shè)備堆疊在另一個設(shè)備上時,熱量如何散發(fā)出去?這是一個巨大的挑戰(zhàn)。對于 3D-ICs,第一個問題是能否構(gòu)建具有結(jié)構(gòu)完整性的系統(tǒng)。同時,你還需關(guān)注其他的機械、熱和功耗問題——亟待解決的問題實在太多?!?/span>
在過去,處理熱量的最簡單方法是降低電壓。然而,這種方式已經(jīng)變得不再有效,因為在極低電壓的狀態(tài)下,輕微的異?,F(xiàn)象就可能導(dǎo)致問題。Fraunhofer IIS 自適應(yīng)系統(tǒng)工程部門設(shè)計方法主管 Roland Jancke 說:「對于低功耗技術(shù)(如臨界或亞臨界器件)和高功耗設(shè)備來說,噪聲是一個關(guān)鍵話題。這是一個難以理解的問題,因為在模擬過程中它通常不會出現(xiàn),而是在現(xiàn)實世界中暴露出來。當(dāng)噪聲問題在現(xiàn)實中出現(xiàn)時,你需要了解并應(yīng)對它?!?/span>
以交叉耦合為例,在設(shè)計階段,其在基底中產(chǎn)生的噪聲并不容易察覺。Jancke 表示:「我們在幾年前就開始使用基底模擬器來研究基底內(nèi)的交叉耦合狀況。當(dāng)時關(guān)注的重點是單個設(shè)備及其周圍的設(shè)備。然而,大家往往忽略了通過基底耦合的、距離較遠的輸入階段的交叉耦合問題?!?/span>
此類問題也會導(dǎo)致 DRAM 中出現(xiàn)問題,特別是在比特單元密度增加時,更容易受到噪聲影響。蘇黎世聯(lián)邦理工學(xué)院的計算機科學(xué)教授 Onur Mutlu 表示,「肯定存在熱噪聲。另外,當(dāng)你訪問一個單元時,由于導(dǎo)線切換等原因?qū)е碌碾姼蓴_會在結(jié)構(gòu)中產(chǎn)生噪聲,或者是訪問晶體管。這種激活行為會產(chǎn)生噪聲,導(dǎo)致可靠性問題。我們稱之為單元間干擾。行錘問題是一個例子,激活一行時會干擾相鄰的行。RowPress 是另一個例子,你長時間保持一行打開狀態(tài),這會影響到相鄰的其他行。隨著我們減小每個單元的大小、縮小單元間距并提高密度,這種單元干擾現(xiàn)象變得越來越普遍。這可能會導(dǎo)致無聲的數(shù)據(jù)損壞,而這可能正是現(xiàn)實場景中發(fā)生的情況。」
在功耗方面,總會出現(xiàn)一些意想不到的問題。Movellus 的功耗架構(gòu)師 Barry Pangrle 表示:「不論何種時鐘頻率,都希望在最低電壓下運行,以便用最少的能量。盡管我們可以建立一定程度的模型,但總會遇到一些意外情況??梢詫σ粔K芯片在不同環(huán)境下調(diào)整電壓和頻率來測試其在不同負載下的表現(xiàn)??梢岳眠@些數(shù)據(jù),若要更為謹慎,可以適當(dāng)降低設(shè)置,留出一定的余量。但是人們不可能針對每個芯片都這樣做。那么,你是否要對芯片進行分類,比如『屬于這種類別的芯片將在這個時鐘和這個電壓下運行。』另外,粒度細節(jié)的選擇將取決于銷售該芯片的廠商?!?/span>
其他問題
功耗還涉及到資金方面的問題,包括從創(chuàng)建復(fù)雜設(shè)計所需的資源,到數(shù)據(jù)中心耗電量的多少。晶體管密度越高,服務(wù)器架啟動和降溫所需的能量就越多。在各種類型的人工智能應(yīng)用中,目標(biāo)是最大限度地提高晶體管利用率,這反過來會消耗更多的能量,產(chǎn)生更多的熱量,同時需要更多的冷卻。
proteanTecs 工程解決方案副總裁 Noam Brousard 表示:「這些應(yīng)用需要大量電力,且需求呈指數(shù)級上升。高效的電力消耗最終將為數(shù)據(jù)中心帶來顯著的節(jié)省。這是最重要的。此外,我們還要關(guān)注應(yīng)用對環(huán)境的影響,并希望延長電子產(chǎn)品的使用壽命?!?/span>
圖 3:功耗對芯片的影響。來源:proteanTecs
功耗相關(guān)的影響并不僅限于芯片本身。Cadence 的 Roshandell 表示:「在 2.5D 設(shè)計中,熱應(yīng)力會導(dǎo)致翹曲,從而增加可能會破壞連接基板和 PCB 之間焊球的風(fēng)險。一旦產(chǎn)生裂縫,就會出現(xiàn)短路,從而導(dǎo)致產(chǎn)品無法正常工作。因此,如何解決這個問題以及如何建模至關(guān)重要。必須在設(shè)計的最早階段提前考慮到這一點并采取相應(yīng)措施?!?/span>
在 3D-ICs 中,問題變得更加復(fù)雜。再次強調(diào)在設(shè)計周期早期發(fā)現(xiàn)問題的重要性,但在 3D-ICs 中,存在累加效應(yīng)。Ansys 的張表示:「與 SoC 相比,動態(tài)開關(guān)功率在 3D-ICs 中真的非常棘手。我們必須盡早考慮物理架構(gòu),因為如果你在一個 3D-IC 中有 15 個片上芯片,那么如何在這 15 個片上芯片之間分配功率以適應(yīng)動態(tài)工作流和時間維度呢?在不同的時刻,某個片上芯片可能會有不同的工作負載,這可能會產(chǎn)生熱點。但如果頂部晶片有局部熱點,底部晶片也有局部熱點,當(dāng)兩個局部熱點在某個時間點對齊時,這個熱點將變成全局熱點。如果其他晶片沒有切換,全局熱點可能比局部熱點高出 10 至 15 攝氏度。這讓 3D-IC 電路設(shè)計師完全措手不及,因為當(dāng)你對 3D-IC 中的一個片上芯片進行模擬時,你可能無法以現(xiàn)實的工作流程對整個 3D-IC 進行模擬?!?/span>
問題在于,存在許多相互依賴的因素,需要在某種背景下理解所有事物。是德科技設(shè)計和仿真產(chǎn)品組副總裁兼總經(jīng)理 Niels Faché表示:「你無法獨立優(yōu)化這些設(shè)備。你可能會關(guān)注熱量方面的目標(biāo),比如最高溫度、熱量散發(fā),但你需要在機械應(yīng)力的背景下理解這些問題。你必須建立這些獨立物理效應(yīng)的模型。如果它們之間關(guān)系非常緊密,你需要以聯(lián)合仿真的形式進行。舉個例子,我們采用電熱仿真。所以,當(dāng)觀察流經(jīng)晶體管的電流時,它會對熱量產(chǎn)生影響。接著,熱量會影響電氣特性,進而改變電氣行為,你需要對這些相互作用建模?!?/span>
解決方案
對于與功耗相關(guān)的問題,沒有單一、全面的解決方案,但有很多能解決部分問題的方案。
解決問題的一個方法,也許是最簡單的方法,就是限制過度設(shè)計。Rambus 研究員和杰出發(fā)明家 Steven Woo 表示:「一切都始于關(guān)注目標(biāo)應(yīng)用場景,以及定義解決這些場景所需的功能。試圖增加各種功能來滿足其他潛在市場和使用場景的需求可能很誘人,但這往往會導(dǎo)致芯片面積、功耗和復(fù)雜性的增加,從而影響芯片主要應(yīng)用的性能。我們必須嚴格地審視所有功能,以極具挑戰(zhàn)性地判斷它們是否真正需要整合在芯片中。每一個新功能都會影響到 PPA(功耗、性能和面積),因此始終關(guān)注目標(biāo)市場和使用場景是第一步?!?/span>
這將對整體功耗產(chǎn)生顯著影響,特別是在 AI 領(lǐng)域。Woo 表示:「在 AI 中有許多因素需要考慮,尤其是對于邊緣設(shè)備。一些選擇包括芯片供電方式、散熱限制、是否需要支持訓(xùn)練和/或推理、精度要求、芯片將被部署的環(huán)境以及支持的數(shù)字格式等。支持大量功能集意味著更大的面積和功耗,以及在功能未使用時添加禁止的復(fù)雜性。由于數(shù)據(jù)傳輸影響性能并消耗大量能量預(yù)算,設(shè)計師需要充分了解在開發(fā)能夠最大限度地減少邊緣數(shù)據(jù)傳輸?shù)募軜?gòu)時需要移動多少數(shù)據(jù)?!?/span>
另一種方法是對設(shè)計進行實際工作負載測試。新思科技的低功耗解決方案產(chǎn)品管理高級總監(jiān) William Ruby 表示:「有些客戶正在嘗試讓我們運行代表性的工作負載,因為我們不知道還有什么不知道的事。」這就像是功耗覆蓋?!肝覀冋J為什么樣的情況是持續(xù)的最差情況?我們認為什么樣的空閑負載是好的?」但他們不知道的是,新的軟件更新可能如何改變整個活動特征。希望這種變化是漸進式的,而且他們已經(jīng)為此做了預(yù)算,而不是悲觀地過于保守。但是如何預(yù)測固件更新會發(fā)生什么變化呢?
背面供電是另一個選擇,尤其是在最先進的節(jié)點上。「在某種程度上,你會遇到收益遞減的問題,因為你需要處理從頂層到底層的材料,而頂層往往是供電和接地布線,」Movellus 的 Pangrle 表示,「如果你可以從背面實現(xiàn)供電,而不必穿過頂部的 17 個金屬層,那么你就不需要經(jīng)過很多層了。能夠繞過整個金屬堆棧并從背面接近晶體管,從而不必擔(dān)心穿過所有的過孔,這就像是制造業(yè)的魔法?!?/span>
在芯片和封裝內(nèi)部使用傳感器監(jiān)測與功耗相關(guān)行為的變化是另一種方法。proteanTecs 的 Brousard 表示:「在現(xiàn)實應(yīng)用中,有許多因素會降低性能,因此我們必須預(yù)設(shè)電壓保護帶。我們知道會有噪聲、過度的工作負載以及芯片的老化現(xiàn)象。所有這些因素迫使我們在最佳情況下應(yīng)用大于 VDDmin 的電壓?!?/span>
此外,銅線可以用于傳導(dǎo)熱量至可以散熱的地方。新思科技的 Larsen 表示:「你可以采取簡單措施,比如優(yōu)化堆疊芯片中的 TSV 布局,也可以使用熱過孔。這非常復(fù)雜,但 EDA 領(lǐng)域一直在處理指數(shù)型問題。這是我們需要解決的。但是,當(dāng)你想緩解某些問題時,你需要增加一些東西,雖然可能會影響到某些你期望得到的價值,但這是需要解決的。為了可靠性,你可能會增加冗余,它可能是堆疊中的 TSV 或混合鍵合?!?/span>
結(jié)論
過去幾十年來,功耗一直是頭部芯片制造商的一個問題。智能手機會發(fā)出運行過熱的警告,并在冷卻下來之前關(guān)閉。出于同樣的原因,一個服務(wù)器機架可能會將負載轉(zhuǎn)移到另一個機架。但芯片越來越多地被分解成各種組件并封裝在一起,隨著汽車等行業(yè)開始開發(fā) 5 納米及以下的芯片,功耗問題將在更多領(lǐng)域出現(xiàn)。
架構(gòu)、布局布線、信號完整性、發(fā)熱、可靠性、可制造性和老化都與功耗緊密相關(guān)。隨著芯片行業(yè)繼續(xù)以獨特的方式以及不同的功能來應(yīng)對獨特的市場,整個行業(yè)都需要學(xué)習(xí)如何處理或解決與功耗相關(guān)的影響。在過去,只有產(chǎn)量最高的芯片制造商才關(guān)心功耗,而現(xiàn)在變得不同的是可以忽略功耗設(shè)計的制造商越來越少。
評論