EDA,如何突破功率的瓶頸
要點:
1,雖然每個小組可以優(yōu)化局部功耗,但單個團隊不可能創(chuàng)建出一個低功耗設(shè)計。反之,任何一個小組都可能摧毀這種努力。
2,功率估計是一種精確的科學。但是,只有當你擁有了一個完整設(shè)計和一組正確的矢量后,這種概念才為真。
3,對任何問題而言,處理器通常是能效最低的方法,但因為它們具備了功能多重性,一般可以用最小面積獲得實現(xiàn)。
4,電源分配網(wǎng)絡(luò)應(yīng)能夠在不損及電壓完整性的情況下,維持負載。
過去十年來,功率已經(jīng)成為一個關(guān)鍵的設(shè)計考慮,并在工程師設(shè)計與驗證系統(tǒng)方面帶來了一些巨大的挑戰(zhàn)。物理學不再提供免費便車。
功率是能量被消耗的速率,這在十年前還不是熱門,但今天已是一個重要的設(shè)計考量。系統(tǒng)的能耗會帶來熱量、耗盡電池、增加電能分配網(wǎng)絡(luò)的壓力,并且加大成本。移動計算的發(fā)展最先推動了對降低能耗的期望,但能耗的效應(yīng)現(xiàn)在已遠遠超出這個范圍,可能在業(yè)界帶來一些最大的結(jié)構(gòu)性變化。對于服務(wù)器農(nóng)場、云計算、汽車、芯片,以及依賴于能源獲取的泛在式傳感器網(wǎng)絡(luò),這都是一個關(guān)鍵性問題。
突然改變的原因是,物理學已把工藝技術(shù)帶到了90nm以下尺度。但是,隨著結(jié)點尺寸越來越小,電壓降低,從而造成功率的相應(yīng)下降。通常,即使開發(fā)人員增加了更多功能,功率預(yù)算也會保持不變。在更小尺度下,電壓的縮放更加困難,無法維持。當電壓接近于閾值電壓時,開關(guān)時間就會增加。為補償這一問題,設(shè)計人員會降低閾值電壓,但這樣做顯著增加了泄漏電流和開關(guān)電流。
設(shè)計流程中的每個階段都對功耗有影響,從軟件架構(gòu)到器件物理。雖然每個小組都可以做局部的功耗優(yōu)化工作,但沒有一個團隊可以單獨創(chuàng)建出一個低功耗設(shè)計。反之,任何一個團隊都可能摧毀低功耗的努力。這種狀況就產(chǎn)生了一種對協(xié)同與交叉學科工具的新需求。功率問題不再止于芯片。它們遍及互連結(jié)構(gòu)、電路板與系統(tǒng)設(shè)計、電源控制器等諸方面。當前的EDA工具并非按功率概念而建立,這意味著設(shè)計人員要采用改進型方法,而不是從頭開始的新方法。
物理原理的角色
一只芯片消耗的功率是開關(guān)(或動態(tài))功率和無源(或泄漏)功率之和。功率的動態(tài)成分源于設(shè)計的容性負載。當某個線網(wǎng)從0轉(zhuǎn)換到1時,這個成分通過一個PMOS晶體管充電。從電源獲得的能量等于容性負載與電壓平方的乘積。系統(tǒng)將這個能量的一半存儲在電容中;另一半則耗散在晶體管上。對于從1至0的轉(zhuǎn)換,不會從電源獲得更多能量,但電荷要耗散在NMOS晶體管上。假設(shè)結(jié)點以頻率F變化,則動態(tài)功率為FCLVDD2,其中,CL是容性負載,VDD是電壓。雖然也存在其它形式的動態(tài)功率,但它們要小得多。
由于電壓是平方項,因此降低電壓有相當顯著的效果。不幸的是,性能也與電壓相關(guān),因為增加電壓會增加?xùn)艠O的驅(qū)動VGS-VT,其中VGS是柵源電壓,VT是閾值電壓。使用較陳舊的技術(shù)時,泄漏功率并不明顯。但隨著器件尺度的減小,很多區(qū)域中的泄漏變得更加顯著,包括柵極氧化物隧穿、亞閾值電壓、反偏結(jié)點、柵極導(dǎo)致的漏極泄漏,以及因熱載流子注入而產(chǎn)生的柵極電流等。
二氧化硅是常用的絕緣材料。在低厚度水平下,電子可以隧穿它。這種關(guān)系是指數(shù)型的,意味著厚度減半,泄漏增至四倍,在晶體管尺度降到130nm以下之前,這還不是一個問題。用高k電介質(zhì)代替二氧化硅可以提供相近的器件性能,獲得更厚的柵級絕緣體,從而降低了這個電流。
晶體管有一個柵源閾值電壓,低于這個電壓時,通過器件的亞閾值電流就會呈指數(shù)倍下降。當降低電源電壓以減少動態(tài)功耗時,閾值電壓也減小,從而使柵極電壓擺幅低于器件關(guān)斷的閾值。亞閾值傳導(dǎo)會隨柵極電壓呈指數(shù)式變化。
在擴散區(qū)和阱之間,或在阱與基材之間的一個反偏構(gòu)造,會產(chǎn)生小的反偏結(jié)泄漏。在MOS晶體管漏極結(jié)上的高電場效應(yīng)會產(chǎn)生柵極導(dǎo)致的漏極泄漏,這通常要用制造技術(shù)來處理。柵極電流泄漏的原因是短溝道器件的閾值電壓漂移,并與器件中的高電場有關(guān)。對這個效應(yīng)的控制主要也是靠制造技術(shù)。
設(shè)計人員要在動態(tài)功耗和靜態(tài)功耗之間做一個折中。降低電壓會減小動態(tài)功耗,但增加了靜態(tài)功耗。我們來看一只手機內(nèi)的典型芯片。當器件工作時,泄漏要占所消耗功率的大約10%;其它90%是動態(tài)功耗。但當手機處于待機模式時(可能占到總時間的90%),芯片中的動態(tài)功耗就很少。因此,盡量減小兩種功耗有著相同的重要性。
各種器件的功耗方面在持續(xù)地改進。例如,在相同頻率下,三星的28nm低功耗工藝比45nm低功耗工藝的動態(tài)功耗與待機功耗都減少了35%,與采用45nm低功耗的系統(tǒng)單芯片設(shè)計相比,28nm工藝在相同頻率下的動態(tài)功耗降低了60%.臺積電28nm高性能低功耗工藝的待機功耗要比其40nm低功耗工藝低40%以上。同時GlobalFoundries公司為其28nm結(jié)點提供了三種功率水平(圖1)。
圖1,臺積電的28-HPL工藝待機功耗較40-LP工藝低40%以上。而Global Foundries則為其28nm結(jié)點提供了三種功率水平
摩爾定律繼續(xù)有效,芯片在每個器件中封裝了更多功能。據(jù)Open-Silicon的營銷總監(jiān)Colin Baldwin稱,客戶可以用近似的單位成本和兩倍的性能,設(shè)計出下一代器件,雖然總功耗會增加,但單只器件的功耗是下降的。時鐘頻率是另外一個緩慢上漲的變量,但在很多市場上增速都慢于工藝。Open-Silicon發(fā)現(xiàn),大多數(shù)用戶試圖在略微增加總體功耗的情況下,集成更多的功能。因此,要維持相同的總功耗,就要看設(shè)計流程的其它部分中可以節(jié)省的能耗。
優(yōu)化與比較
設(shè)計包含了估算與優(yōu)化。估算可以對多個可能的實現(xiàn)選擇做出比較。另外,優(yōu)化可以自動完成,或者可以在各種抽象水平上,用工具輔助完成。Apache/Ansys應(yīng)用工程總監(jiān)Arvind Shanmugavel認為,只有當擁有了一個完整設(shè)計和一組正確的矢量時,功率估算才是一種精確的科學。在未完成設(shè)計以前,根據(jù)定義,所有事物都是一種即將在設(shè)計中發(fā)生的估計。在設(shè)計早期的功率預(yù)算階段,應(yīng)著眼于大的和相對的變化,而不是絕對的值。Atrenta公司的工程總監(jiān)Venki Venkatesh認為,可以預(yù)期在RTL(寄存器傳輸級)到硅片之間有20%的偏差,而從門到硅片有10%的偏差。
如果某個工具表示,一種可能的方案會較另一種方案消耗更少的總能量,則這種概述一定是正確的;否則,工具就可能促使選擇了次級的方案。與面積和性能不同,功率是矢量相關(guān)的,因此可能需要運行多次仿真,來獲得有關(guān)設(shè)計活動的一種典型性樣本。例如,考慮兩種選擇,一種是為音頻處理器加隨機數(shù)據(jù),一種是用更多的典型語音數(shù)據(jù)。圖2給出了一個有限脈沖響應(yīng)濾波器中幾個寄存器的轉(zhuǎn)換動作(參考文獻1)。對于一個不會破壞數(shù)據(jù)相關(guān)性的架構(gòu),語音數(shù)據(jù)開關(guān)電容的次數(shù)要比隨機輸入數(shù)據(jù)少80%.由于這些臨時的相關(guān)性,運行順序可能造成切換動作的巨大差異。
圖2,對于一個不會破壞數(shù)據(jù)相關(guān)性的架構(gòu),語音數(shù)據(jù)開關(guān)電容的次數(shù)要比隨機輸入數(shù)據(jù)少80%.由于這些臨時的相關(guān)性,運行順序可能造成切換動作的巨大差異。
不過,有些公司認為可以用統(tǒng)計方法獲得近似值,即采用來自計數(shù)器或其它可識別邏輯片的預(yù)期活動?,F(xiàn)在,功耗優(yōu)化有很多種方式,大多數(shù)為RTL或以下。Shanmugavel稱,時鐘門控是盡量減少動態(tài)功耗的常見技術(shù)。切斷某個電路的時鐘,可阻止一個設(shè)計中時鐘或寄存器的切換動作。另一種技術(shù)是采用電壓島,它降低了設(shè)計的工作電壓,從而使開關(guān)元件的動態(tài)功耗前后比值為電壓前后比值的平方。設(shè)計者將電壓島用于芯片的某些區(qū)域,這些區(qū)域的性能與速度不是關(guān)鍵,這樣可以節(jié)省功耗。
DVFS(動態(tài)電壓/頻率縮放)是迄今最為復(fù)雜的動態(tài)功率控制技術(shù)。這種方法會根據(jù)負載的需求,改變有效工作電壓和頻率。在高負載情況下,電壓與頻率處于額定狀態(tài),芯片或設(shè)備為滿負荷工作。在低負載情況下,電壓或頻率縮減,以低速工作,從而獲得了較低的動態(tài)功耗。設(shè)計者可通過軟硬件方案的組合,實現(xiàn)這種技術(shù)。
片芯上的穩(wěn)壓器滿足了對多種動態(tài)與靜態(tài)功率的需求。各IC通常有片外的穩(wěn)壓模塊,可提供動態(tài)狀態(tài)下需要的電壓與電流。但是,設(shè)計者越來越多地采用片芯上的穩(wěn)壓器,因為電壓域的數(shù)量在增加,這些電壓域更快響應(yīng)需求的要求也在增加。
堆疊IC間的相互通信盡量減少了信號互連,它是低功耗設(shè)計中一種新興的趨勢。Apache的Shanmugavel認為,制造商一般是將處理器和存儲器堆疊在一個硅插入層上,用TSV(硅通孔)做連接。這些插入層提供了片芯之間的低電容信號互連,從而降低了I/O的動態(tài)功耗。隨著3D IC的成本開始下降,以及設(shè)計者對于熱效應(yīng)有了更多的理解,整個行業(yè)都將出現(xiàn)一個向3D IC的遷移。
要盡量減少靜態(tài)功耗,設(shè)計者可以采用電源門控方法,為一個待機狀態(tài)的設(shè)備節(jié)省最多的泄漏功耗。關(guān)閉功能單位的時鐘可降低動態(tài)功耗,但單元仍然有泄漏功耗。設(shè)計者必須在設(shè)計實現(xiàn)以前,了解有關(guān)電源門控的幾個折中問題。
減少泄漏功耗的一種最古老技術(shù)是用高閾值電壓門代換標稱閾值電壓的門。在CMOS中,亞閾值泄漏與閾值電壓成反比。較高閾值電壓器件的泄漏包絡(luò)低于較小閾值電壓的器件,但付出的代價是較大的延遲。設(shè)計者必須做一個仔細的權(quán)衡分析,才能用此技術(shù)獲得最佳的減少泄漏效果。
另外一種降低靜態(tài)功耗的方法是有源反偏,它是增加CMOS門中基材結(jié)點的偏置電壓,從而降低泄漏電流。這種偏置技術(shù)根本上是在待機模式期間增加一個單元或整個芯片的閾值電壓,從而減少泄漏功耗。為了感受一下這些技術(shù)的采納率,Synopsys通過自己的一個“全球用戶調(diào)查”,收集了用戶數(shù)據(jù)(圖3)。
圖3,為了感受一下這些技術(shù)的采納率,Synopsys通過自己的一個“全球用戶調(diào)查”,收集了用戶數(shù)據(jù)。例如,最左上方一欄表示10%的受訪者擁有數(shù)據(jù)中心和網(wǎng)絡(luò),作為采用反偏置或阱極偏置的主要應(yīng)用。注意百分比大于100,因為調(diào)查會收到多個答案。
除RTL優(yōu)化以外,設(shè)計者還在開發(fā)一些能在系統(tǒng)級上做估算和架構(gòu)研究的工具。功率是一個系統(tǒng)級的問題,有些設(shè)計者發(fā)現(xiàn),不能用今天做芯片組裝和驗證的自下而上方法來看待功率問題。過去,設(shè)計者設(shè)計芯片是為了獲得最大的靈活性,以現(xiàn)在設(shè)計芯片的成本,這種靈活性仍是一個重要的考慮方面。但和其它所有方面一樣,靈活性也會帶來成本。對任何問題而言,處理器通常是能效最低的方法,但因為它們具備了功能多重性,一般可以用最小面積獲得實現(xiàn)。
驗證
功率還增加了另一層復(fù)雜性,這就是設(shè)計者必須做驗證。它需要額外的工具支持,制造商們現(xiàn)在正匆忙地在市場上推出這些工具。功率會在設(shè)計中增加一些新的器件,如隔離邏輯、功率開關(guān)、電平轉(zhuǎn)換器以及保持單元等。
不過,Synopsys小功率驗證營銷總監(jiān)Krishna Balachandran認為,功率優(yōu)化也可能牽涉到順序RTL轉(zhuǎn)換,必須用源RTL作驗證。缺少這種驗證可能導(dǎo)致芯片上的系統(tǒng)不工作,或泄漏高于預(yù)期值。仿真方法可能太慢,沒有性價比,且不徹底,從而不能對功率優(yōu)化做完全的驗證覆蓋。傳統(tǒng)形式等效工具的目標通常是組合式變換的驗證,不適合于功率優(yōu)化所需要的那種改變。大多數(shù)商用的形式驗證工具還受制于容量和性能的限制,必須克服這些限制,才能處理低功耗設(shè)計的復(fù)雜電源架構(gòu),以及數(shù)百種電源域。為滿足這些新的要求,必須發(fā)展一類具有大容量和高性能的全新形式等效工具,目標是對順序變換的驗證。
Eve - USA的總經(jīng)理LauroRizzatti表示,功率優(yōu)化也給EDA供應(yīng)商帶來了挑戰(zhàn)。很多低功耗技術(shù)通常都不能取得與RTL仿真或模擬的一致,它抽象了電壓的任何概念。設(shè)計者必須改造這些數(shù)字工具,使其支持功率目標以及低功耗優(yōu)化實現(xiàn)技術(shù)。
電源分配網(wǎng)絡(luò)
Silicon Frontline Technology公司營銷副總裁Dermott Lynch認為,功率器件的典型運行效率在70%~90%,從而有10%~30%的總系統(tǒng)損耗。而Rambus公司半導(dǎo)體業(yè)務(wù)部副總裁兼首席技術(shù)官Ely Tsern補充說,比較積極的功率模式轉(zhuǎn)換配合精細的電源域,會使局部供電電流有更快的轉(zhuǎn)換,從而給敏感的局部電路帶來更大的di/dt電源噪聲,尤其是那些模擬電路。
但Shanmugavel警告說,在任何情況下,電源分配網(wǎng)絡(luò)都應(yīng)能夠在不損及電壓完整性情況下,維持負載的供電。例如,當一個全局時鐘轉(zhuǎn)換和一個功能單元上電去完成某項工作時,就出現(xiàn)了一個瞬態(tài)電流的需求。這種瞬態(tài)電流可能是額定電流的3倍~5倍,具體要看功能模塊情況,這給電源分配網(wǎng)絡(luò)帶來了一個巨大的負荷,必須驗證在這些情況下,網(wǎng)絡(luò)上的瞬態(tài)電壓噪聲。
評論