AMD內(nèi)部資料：如何通過創(chuàng)新架構(gòu)和電源技術(shù)提升處理器能效

作者：時(shí)間：2015-08-21 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　隨著過去20年計(jì)算的突飛猛進(jìn)，及其對(duì)商業(yè)、教育、科研、醫(yī)療機(jī)構(gòu)及其他行業(yè)帶來的社會(huì)效益，計(jì)算的能源和環(huán)境足跡也相應(yīng)地增加。全球30億臺(tái)個(gè)人電腦每年消耗的能量超過總能耗的的1%;全球3，000萬臺(tái)服務(wù)器將再增加1.5%的總用電量，每年耗費(fèi)約140億至180億美元。

本文引用地址：http://m.butianyuan.cn/article/279078.htm

　　由于全球上網(wǎng)用戶越來越多，據(jù)預(yù)測(cè)到2018年，全球數(shù)據(jù)中心的總占地面積將從2013年的15億平方英尺增加到近20億平方英尺。這些計(jì)算中心的服務(wù)器不僅會(huì)連接到個(gè)人電腦、電話和平板電腦，還會(huì)連接到大量新型聯(lián)網(wǎng)設(shè)備和系統(tǒng)。盡管可能會(huì)與預(yù)期有所出入，但保守估計(jì)，到2020年將會(huì)有近260億臺(tái)包含可穿戴計(jì)算機(jī)和工業(yè)傳感器在內(nèi)的各種設(shè)備連接到互聯(lián)網(wǎng)。這就意味著互聯(lián)網(wǎng)流量會(huì)大幅增加，預(yù)計(jì)到2015年將會(huì)從2010年的245EB增加到1，000EB.

　　與用戶對(duì)高能效性能的需求相結(jié)合，智能手機(jī)、平板電腦和游戲機(jī)等將被用于計(jì)算密集型任務(wù)中，比如流媒體、視覺體驗(yàn)效果更豐富的游戲和增強(qiáng)現(xiàn)實(shí)。同時(shí)，在視頻編輯、語音和手勢(shì)識(shí)別及基于生物特征信息的數(shù)據(jù)安全等方面，用戶對(duì)便攜式電腦和臺(tái)式電腦的需求也不斷升溫。這些因素強(qiáng)力推動(dòng)著提高處理器性能同時(shí)降低能耗的技術(shù)創(chuàng)新。

　　能源效率的現(xiàn)狀

　　能源效率是數(shù)字移動(dòng)革命的主要推動(dòng)因素之一。20世紀(jì)40年代至今，計(jì)算效率提高了好幾個(gè)數(shù)量級(jí)，因此筆記本電腦、平板電腦和手機(jī)在電池充滿電的條件下可以持續(xù)工作幾個(gè)小時(shí)。由于電池技術(shù)的發(fā)展速度明顯落后于計(jì)算性能的增長(zhǎng)速度，移動(dòng)設(shè)備制造商只能集成多項(xiàng)技術(shù)來延長(zhǎng)電池的續(xù)航時(shí)間。比如，智能手機(jī)和筆記本電腦在空閑一定時(shí)間后會(huì)自動(dòng)進(jìn)入休眠狀態(tài)。

　　如下這些改進(jìn)將具有深遠(yuǎn)的影響：假如美國(guó)境內(nèi)銷售的計(jì)算機(jī)都通過了能源之星認(rèn)證，那么每年可節(jié)約資金10億美元，同時(shí)溫室氣體排放量也能減少150億磅，這相當(dāng)于140萬臺(tái)汽車一年的排放量。

　　微處理器的電源挑戰(zhàn)

　　20世紀(jì)80年代和90年代是微處理器性能和計(jì)算效率大幅提升的黃金時(shí)代。晶體管越來越小，設(shè)計(jì)人員可以在單個(gè)芯片上集成更多晶體管，處理器的時(shí)鐘頻率同時(shí)得到提高，進(jìn)而用戶計(jì)算機(jī)的性能得到提高。但是晶體管再小，功率密度基本上保持不變—這種現(xiàn)象被稱為登納德縮放比例定律。這就是說每一代新處理器每單位計(jì)算能力的能耗都會(huì)減少至上一代的1/4，同時(shí)電壓和電容也相應(yīng)降低。

　　但是，21世紀(jì)初，晶體管仍越來越小，單個(gè)芯片上可集成的晶體管數(shù)量仍在增加，但能源效益的增速卻在逐漸放緩。主要原因是晶體管的尺寸已接近物理極限。晶體管越小，制造過程中漏電的可能性就越大，因?yàn)榫w管的閾值電壓已經(jīng)降低到器件不完全關(guān)斷的點(diǎn)。登納德縮放比例定律中的這一完結(jié)會(huì)增加消費(fèi)者所期望的高集成度、高性能器件的功耗，從而需要采用更復(fù)雜的散熱技術(shù)和創(chuàng)新的電源管理技術(shù)。

　　這最終導(dǎo)致半導(dǎo)體制造商不能單純依靠工藝的改進(jìn)來提高能源效率。此外，即使工程師保持摩爾定律與其歷史性能軌跡相吻合，也同樣需要探索新技術(shù)，來讓能源效率的增長(zhǎng)速度媲美早期的增長(zhǎng)速度。

　　AMD 25×20計(jì)劃

　　AMD的工程師認(rèn)真研究了上述趨勢(shì)和降低信息技術(shù)對(duì)環(huán)境影響的市場(chǎng)需求，以及延長(zhǎng)電池壽命和提高更加輕薄小巧產(chǎn)品性能的需求。因此，過去幾年他們大大提高了AMD處理器的性能。AMD認(rèn)識(shí)到不能滿足于現(xiàn)狀，因此在2014年6月提出了到2020年實(shí)現(xiàn)加速處理器(APU)能效提高25倍的目標(biāo)，或“25×20”計(jì)劃。

　　AMD使用平臺(tái)性能除以典型應(yīng)用能耗獲得的典型應(yīng)用效率指數(shù)，來實(shí)現(xiàn)每單位能耗執(zhí)行工作的單次測(cè)量。通過使用曲線，可以清楚地看到典型應(yīng)用實(shí)際上是由空閑功耗而非峰值計(jì)算功耗所主導(dǎo)。目前有許多電源相關(guān)的創(chuàng)新技術(shù)，可以在不影響性能的前提下最大限度地增加空閑時(shí)間，降低空閑功耗。當(dāng)然，性能是一個(gè)關(guān)鍵參數(shù)—用戶希望獲得快速響應(yīng)、快速運(yùn)算和無縫視頻回放。他們還希望擁有更長(zhǎng)的電池續(xù)航時(shí)間、更輕薄小巧的尺寸和更小的環(huán)境影響。只要能優(yōu)化典型應(yīng)用的能效，上述問題就可以迎刃而解。

　　要實(shí)現(xiàn)25x20目標(biāo)，就必須通過開使用技術(shù)和新方法大幅提高典型應(yīng)用效率的提升速度。根據(jù)這一目標(biāo)，從2014到2020年，AMD產(chǎn)品功耗的降低至少要比摩爾定律預(yù)測(cè)的歷史效率趨勢(shì)高出70%.這就是說到2020年，一臺(tái)計(jì)算機(jī)完成同一項(xiàng)任務(wù)的用時(shí)將是目前個(gè)人電腦的1/5，而平均用電量也將不到目前個(gè)人電腦的1/5.這就好比僅用六年時(shí)間就將原來100馬力的汽車變身為一輛500馬力的汽車，同時(shí)每加侖燃料的行駛距離也從原來的30英里增加到150英里。

　　實(shí)現(xiàn)25x20目標(biāo)

　　架構(gòu)創(chuàng)新幾十年來，CPU一直用來運(yùn)行一般的編程任務(wù)。它擅長(zhǎng)于利用分支預(yù)測(cè)和亂序執(zhí)行等各種復(fù)雜技術(shù)來串行運(yùn)行計(jì)算指令，從而提高速度。相反，圖形處理器(GPU)是專用加速器，最早是為了在顯示屏上同時(shí)顯示數(shù)百萬個(gè)像素而設(shè)計(jì)的。GPU通過使用較簡(jiǎn)單的執(zhí)行流水線并行執(zhí)行計(jì)算來實(shí)現(xiàn)這個(gè)過程。以前，CPU和GPU雖然集成度越來越高，但卻是相互獨(dú)立運(yùn)行。

　　AMD加速處理器(APU)將CPU和GPU集成配置到同一硅片上。這樣做會(huì)帶來許多優(yōu)勢(shì)，比如可以通過共享內(nèi)存接口、供電和散熱基礎(chǔ)架構(gòu)來提高效率。GPU并行執(zhí)行提高了自然用戶界面和模式識(shí)別等許多工作負(fù)載的處理效率，并且在GPU與CPU協(xié)同使用時(shí)，這些工作負(fù)載的執(zhí)行效率能夠提高數(shù)倍。優(yōu)化GPU和CPU并行操作可以最大限度地提高設(shè)備的性能，縮短任務(wù)用時(shí)，并且提高進(jìn)入節(jié)能模式的頻率。

　　一個(gè)長(zhǎng)期面臨的挑戰(zhàn)是軟件開發(fā)人員難于編寫充分利用CPU和GPU的應(yīng)用程序。傳統(tǒng)上，這兩種處理器分別具備獨(dú)立的內(nèi)存系統(tǒng)。這就是說無論何時(shí)CPU想利用GPU，它都得將數(shù)據(jù)從它的內(nèi)存中復(fù)制到GPU的內(nèi)存中。這使應(yīng)用程序的編寫不僅效率低下而且困難，因此GPU一般只能用于大數(shù)據(jù)集的應(yīng)用中。此外，獨(dú)立內(nèi)存還會(huì)增加用電量，因?yàn)樘幚砥鲿?huì)經(jīng)常將緩存數(shù)據(jù)在CPU和GPU之間轉(zhuǎn)移。

　　通過AMD最新開發(fā)的異構(gòu)統(tǒng)一內(nèi)存訪問(hUMA)，CPU和GPU可以共享同一個(gè)內(nèi)存。二者可以訪問所有的平臺(tái)內(nèi)存，并且還可以將數(shù)據(jù)分配到系統(tǒng)內(nèi)存空間的任意位置。這種共享內(nèi)存架構(gòu)大大降低了編程的復(fù)雜性，其原因是軟件開發(fā)人員不用再指出數(shù)據(jù)的緩存位置，而這個(gè)操作容易出現(xiàn)錯(cuò)誤，進(jìn)而會(huì)導(dǎo)致很難檢測(cè)和修復(fù)的漏洞。

　　統(tǒng)一內(nèi)存架構(gòu)的優(yōu)勢(shì)顯而易見，這使軟件開發(fā)人員可以流暢運(yùn)用Java、C++ AMP和Python等高級(jí)語言來利用GPU的并行處理功能，從而提高性能和效率。最近的一個(gè)主流視頻和圖片編輯程序的運(yùn)行結(jié)果表明，若將GPU的并行處理與CPU相呼應(yīng)，最高可將某些功能的性能提高17倍。然而，由于GPU和CPU共享電源/熱基礎(chǔ)架構(gòu)，電源需求與單獨(dú)使用CPU時(shí)相等。

　　hUMA是AMD異構(gòu)系統(tǒng)架構(gòu)(HSA)實(shí)現(xiàn)的一部分。當(dāng)按照HSA架構(gòu)設(shè)計(jì)和編程時(shí)，這樣的電源和性能提升可以擴(kuò)展到其他的固定功能設(shè)備，比如數(shù)字信號(hào)處理器(DSP)或安全處理器。

　　代號(hào)為“Carrizo”的AMD處理器是行業(yè)內(nèi)第一款符合異構(gòu)系統(tǒng)架構(gòu)基金會(huì)(HSA Foundation)HSA 1.0規(guī)范的處理器。該架構(gòu)大大降低了編程難度，同時(shí)提高了低功耗下的應(yīng)用性能。

　　高電源效率硅技術(shù)計(jì)算機(jī)工作負(fù)載的變化，將會(huì)對(duì)微處理器的用電量產(chǎn)生影響。工作負(fù)載(比如復(fù)雜的服務(wù)器事務(wù)或視頻渲染)需求越大，處理器吸取的電流越大，然后當(dāng)需求減少時(shí)，電流則會(huì)降低。電流突變會(huì)導(dǎo)致芯片供電電壓發(fā)生嚴(yán)重波動(dòng)。為了解決電壓下降的問題，微處理器設(shè)計(jì)人員一般會(huì)提供大約10%～15%的額外電壓，以確保處理器電壓始終充足。但過電壓又會(huì)以能耗為代價(jià)，因?yàn)槠淅速M(fèi)的電力與電壓增長(zhǎng)的平方成正比(即10%的過電壓會(huì)造成20%的電力浪費(fèi))。

　　AMD研發(fā)了多項(xiàng)技術(shù)來優(yōu)化電壓。其最新的處理器配置了電壓跟蹤電路，以納秒級(jí)的精度對(duì)平均電壓與電壓下降進(jìn)行比較。通過在平均電壓下運(yùn)行，然后短暫地快速降頻來抵消供電電壓的驟降，它可以恢復(fù)大部分被浪費(fèi)的電力。由于頻率調(diào)整可以以納秒級(jí)的水平完成，計(jì)算性能幾乎不會(huì)受到影響，而功耗則會(huì)減少10%～20%.從“Carrizo”APU開始，CPU和GPU就都采用了自適應(yīng)電壓運(yùn)算功能。

　　Carrizo首創(chuàng)的另一項(xiàng)電源技術(shù)名為自適應(yīng)電壓與頻率調(diào)節(jié)。除了傳統(tǒng)的溫度和功率傳感器，該技術(shù)實(shí)現(xiàn)了獨(dú)特的專利硅片速度性能傳感器與電壓傳感器。行業(yè)內(nèi)大多數(shù)人都了解，硅片速度性能和電壓控制會(huì)因器件和平臺(tái)的不同而存在明顯差異。這些差異傳統(tǒng)上是通過對(duì)硅片工作增加裕量或“保護(hù)帶”來應(yīng)對(duì)的，因?yàn)闊o法提前得知準(zhǔn)確的運(yùn)行情況。相對(duì)理論上最優(yōu)系統(tǒng)所能實(shí)現(xiàn)的效率，這種保護(hù)帶將會(huì)引起顯著的效率損失。得益于AMD首次引入的最新自適應(yīng)傳感器和相關(guān)的控制算法，大部分的效率損失可以得到減輕。速度與電壓傳感器能夠讓每個(gè)APU適應(yīng)于其硅特性、平臺(tái)運(yùn)行和工作環(huán)境。通過實(shí)時(shí)適配這些參數(shù)，APU可以對(duì)運(yùn)算進(jìn)行動(dòng)態(tài)優(yōu)化，最大限度地提高效率，并且在給定性能水平上最多可節(jié)電20%。

　　最后，為了降低CPU的耗電量，AMD利用了與GPU設(shè)計(jì)方式更接近的高密度庫(kù)。AMD借助這一方案可以在更小的面積內(nèi)集成更多的標(biāo)準(zhǔn)單元(處理器的組成部分)，從而能夠減少面積及單元之間的布線距離，并大幅降低功耗。使用高密度庫(kù)通常意味著在相同的電壓下速度會(huì)稍有些慢，但如果配置合理，可以將功耗和面積減少30%.這就是說，在功率受限的條件下(絕大部分都是這種情況)，實(shí)際的頻率和性能要高于傳統(tǒng)的高性能庫(kù)配置。此外，它還能夠釋放出更多芯片空間，因此AMD可以在同一個(gè)芯片上同時(shí)搭載GPU(多媒體處理器)和系統(tǒng)控制器。

　　電源管理大部分運(yùn)算平臺(tái)僅在一小段時(shí)間內(nèi)以峰值功率運(yùn)行。為了最大限度地降低功耗，同時(shí)又最大限度地提高性能，AMD設(shè)計(jì)了電源管理算法，對(duì)典型應(yīng)用而非峰值計(jì)算周期進(jìn)行優(yōu)化，因?yàn)橹挥行枨笞畲蟮墓ぷ髫?fù)載才會(huì)(短暫)達(dá)到峰值計(jì)算。因此，race-to-idle技術(shù)可以使計(jì)算機(jī)盡可能頻繁地進(jìn)入休眠模式，從而降低平均能耗。

　　AMD在單芯片上集成了各種系統(tǒng)元器件，包括GPU、內(nèi)存控制器、I/O控制器以及外圍總線。這樣可以更精確地對(duì)電源、溫度和所有系統(tǒng)元器件的活動(dòng)進(jìn)行監(jiān)測(cè)和管理。電源控制器可以直接對(duì)CPU和GPU之間的處理進(jìn)行管理，從而優(yōu)化性能和效率。通過這種程度的控制，它能夠像視頻回放的幀與幀之間或打字時(shí)的按鍵之間，或是像網(wǎng)頁(yè)加載完成后那樣，頻繁地讓處理器進(jìn)入空閑模式。由于集成元器件的性能提高了，任務(wù)完成的時(shí)間縮短，因此處理器可以在更多時(shí)間處于空閑模式—這便形成了一個(gè)更高性能和更低功耗協(xié)同提高效率的良性循環(huán)。

　　圖：不同條件下APU的最低功耗。

　　AMD的電源管理還可以監(jiān)控硅片和終端用戶設(shè)備的溫度。根據(jù)系統(tǒng)元器件的活動(dòng)，它可以確定個(gè)人電腦或移動(dòng)設(shè)備的溫度，從而判斷對(duì)終端用戶來說溫度是否過高。因此，在計(jì)算密集型任務(wù)中，APU可以在保證筆記本電腦或變形筆記本溫度不過高的前提下，通過提高處理器頻率暫時(shí)提高輸出功率來提供強(qiáng)大性能。任務(wù)完成后，功耗會(huì)動(dòng)態(tài)降低，因而器件的溫度也會(huì)降低。這一做法可以提高總體能效，因?yàn)槿蝿?wù)執(zhí)行速度提高了，設(shè)備可以迅速切換到空閑模式，同時(shí)又能提供迅速響應(yīng)的體驗(yàn)。

　　此外，電源管理微控制器還可以實(shí)時(shí)追蹤特定應(yīng)用的運(yùn)行狀態(tài)，確定提高處理器頻率可以為其帶來多大幫助。不會(huì)受益于更高頻率(需要更多能量)的應(yīng)用將工作在低于處理器最大性能的頻率，從而避免能量浪費(fèi)。

　　AMD最新的APU中集成的另一項(xiàng)功能是圍繞處理器運(yùn)行時(shí)進(jìn)入極低功耗的S0i3狀態(tài)。該低功耗狀態(tài)的采用因不同的OEM/平臺(tái)而異(即可以是聯(lián)網(wǎng)待機(jī)、現(xiàn)代待機(jī)或掛起到內(nèi)存)，但是這種狀態(tài)會(huì)讓差不多所有的APU硅片的電源關(guān)斷，同時(shí)讓所有相關(guān)的I/O器件也進(jìn)入各自的低功耗狀態(tài)，從而極大地降低平臺(tái)的功耗。圖中展示了在這些條件下APU的電源關(guān)斷。S0i3狀態(tài)使平臺(tái)的功耗水平能夠與傳統(tǒng)的S3狀態(tài)(也就是傳統(tǒng)上所說的“待機(jī)”)相當(dāng)—S3狀態(tài)的進(jìn)入和退出會(huì)比較耗時(shí)，因?yàn)樗枰僮飨到y(tǒng)介入。通過動(dòng)態(tài)實(shí)現(xiàn)這個(gè)過程，在集成電源管理微控制器的控制下，假如系統(tǒng)活動(dòng)水平足夠低，APU就可以以亞秒級(jí)的時(shí)間幀透明實(shí)現(xiàn)與待機(jī)相當(dāng)?shù)墓乃?。這直接意味著可以降低典型應(yīng)用條件下的平均功耗。

　　AMD最新推出的產(chǎn)品還具有許多其他面向效率的功能，比如視頻和音頻加速，AMD開發(fā)路線涵蓋了自適應(yīng)I/O優(yōu)化和壓縮技術(shù)、更精確的電壓管理和基于工作負(fù)載的能耗優(yōu)化等。