谷歌的TPU芯片是如何演進而來的?
Google I/O是由Google舉行的網絡開發(fā)者年會,討論的焦點是用Google和開放網絡技術開發(fā)網絡應用。這個年會自2008年開始舉辦,到今年已經是舉辦的第9屆了。
本文引用地址:http://m.butianyuan.cn/article/201710/366429.htm在今年的年會上,Google主要發(fā)布了以下8種產品:智能助手Google Assistant,與Amazon Echo競爭的無線揚聲器和語音命令設備Google Home,消息應用Allo,視頻呼叫應用Duo,VR平臺Daydream,獨立應用程序的支持Android Wear 2.0,允許不安裝而使用應用的Android Instant Apps,以及允許在Chromebook上使用Android應用Google Play on Chrome OS。
而這8中產品主要都集中在了軟件領域。
?。℅oogle I/O 2016現(xiàn)場圖via:webpronews.com)
在Google I/O 2016的主題演講進入尾聲時,Google的CEO皮采提到了一項他們這段時間在AI和機器學習上取得的成果,一款叫做Tensor Processing Unit(張量處理單元)的處理器,簡稱TPU。在大會上皮采只是介紹了這款TPU的一些性能指標,并在隨后的博客中公布了一些使用場景,并沒有對這款處理器的架構以及內部的運作機制進行詳細闡述,所以我們也許需要從一些常見的處理器的結構出發(fā),試圖猜測與探究下這款用于機器學習的專屬芯片到底有著怎樣的一個面孔。
(Tensor processing unit實物圖 via:cio-today.com)
首先我們先來看看我們最熟悉的中央處理器(Central Processing Unit),簡稱CPU。它是一種超大規(guī)模的集成芯片,而且是一種通用芯片,也就是說,它可以用它來做很多種類的事情。我們日常使用的電腦使用的處理器基本上都是CPU,看個電影、聽個音樂、跑個代碼,都沒啥問題。
| 我們來看看CPU的結構
CPU主要包括運算器(ALU,Arithmetic and Logic Unit)和控制器(CU,Control Unit)兩大部件。此外,還包括若干個寄存器和高速緩沖存儲器及實現(xiàn)它們之間聯(lián)系的數據、控制及狀態(tài)的總線。從上面的敘述我們可以看出,CPU主要包含運算邏輯器件、寄存器部件以及控制部件等。
?。–PU結構簡化圖 via:blog.csdn.net)
從字面上我們也很好理解,運算邏輯器件主要執(zhí)行算術運算、移位等操作,以及地址運算和轉換;寄存器件主要用于保存運算中產生的數據以及指令等;控制器件則是負責對指令譯碼,并且發(fā)出為完成每條指令所要執(zhí)行的各個操作的控制信號。
我們可以運用下面這張圖來說明一條指令在CPU中執(zhí)行的大致過程:
?。–PU執(zhí)行指令圖 via:blog.csdn.net)
CPU從程序計數器取到指令,通過指令總線將指令送至譯碼器,將轉譯后的指令交給時序發(fā)生器與操作控制器,然后運算器對數據進行計算,通過數據總線將數據存至數據緩存寄存器。
我們從CPU的結構以及執(zhí)行過程可以看出,CPU遵循的是馮諾依曼架構,馮諾依曼的核心就是:存儲程序,順序執(zhí)行。
從上面的描述我們可以看出,CPU就像一個有條不紊的管家,我們吩咐的事情總是一步一步來做。但是隨著摩爾定律的推進以及人們對更大規(guī)模與更快處理速度的需求的增加,CPU好像執(zhí)行起任務來就不那么令人滿意了。于是人們就想,我們可不可以把好多個處理器放在同一塊芯片上,讓他們一起來做事,這樣效率是不是就會高很多,這是GPU就誕生了。
| GPU誕生了
GPU全稱為Graphics Processing Unit,中文為圖形處理器,就如它的名字一樣,GPU最初是用在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上運行繪圖運算工作的微處理器。因為對于處理圖像數據來說,圖像上的每一個像素點都有被處理的需要,這是一個相當大的數據,所以對于運算加速的需求圖像處理領域最為強烈,GPU也就應運而生。
(CPU與GPU結構對比示意圖 via:baike.baidu.com)
通過CPU與GPU結構上的對比我們可以看出,CPU功能模塊很多,能適應復雜運算環(huán)境;GPU構成則相對簡單,大部分晶體管主要用于構建控制電路(比如分支預測等)和Cache,只有少部分的晶體管來完成實際的運算工作。而GPU的控制相對簡單,且對Cache的需求小,所以大部分晶體管可以組成各類專用電路、多條流水線,使得GPU的計算速度有了突破性的飛躍,擁有了更強大的處理浮點運算的能力。當前最頂級的CPU只有4核或者6核,模擬出8個或者12個處理線程來進行運算,但是普通級別的GPU就包含了成百上千個處理單元,高端的甚至更多,這對于多媒體計算中大量的重復處理過程有著天生的優(yōu)勢。
這就好比在畫一幅畫的時候CPU是用一支筆一筆一筆的來畫,而GPU則是多支筆對不同的位置同時進行描繪,那自然效率就是突飛猛進的。
?。ㄓ⑻貭朇PU與英偉達GPU浮點運算性能對比圖 via:blog.sina.com.cn)
雖然GPU是為了圖像處理而生的,但是我們通過前面的介紹可以發(fā)現(xiàn),它在結構上并沒有專門為圖像服務的部件,只是對CPU的結構進行了優(yōu)化與調整,所以現(xiàn)在GPU不僅可以在圖像處理領域大顯身手,它還被用來科學計算、密碼破解、數值分析,海量數據處理(排序,Map-Reduce等),金融分析等需要大規(guī)模并行計算的領域。所以GPU也可以認為是一種較通用的芯片。
| FPGA應運而生
隨著人們的計算需求越來越專業(yè)化,人們希望有芯片可以更加符合我們的專業(yè)需求,但是考慮到硬件產品一旦成型便不可再更改這個特點,人們便開始想,我們可不可以生產一種芯片,讓它硬件可編程。也就是說——
這一刻我們需要一個比較適合對圖像進行處理的硬件系統(tǒng),下一刻我們需要一個對科學計算比較適合的硬件系統(tǒng),但是我們又不希望焊兩塊板子,這個時候FPGA便應運而生。
FPGA是Field Programmable Gate Array的簡稱,中文全稱為場效可編程邏輯閘陣列,它是作為專用集成電路領域中的一種半定制電路而出現(xiàn)的,既解決了全定制電路的不足,又克服了原有可編程邏輯器件門電路數有限的缺點。
FPGA運用硬件描述語言(Verilog或VHDL)描述邏輯電路,可以利用邏輯綜合和布局、布線工具軟件,快速地燒錄至FPGA上進行測試。人們可以根據需要,通過可編輯的連接,把FPGA內部的邏輯塊連接起來。這就好像一個電路試驗板被放在了一個芯片里。一個出廠后的成品FPGA的邏輯塊和連接可以按照設計者的需要而改變,所以FPGA可以完成所需要的邏輯功能。
(FPGA結構簡圖 via:dps-az.cz/vyvoj)
FPGA這種硬件可編程的特點使得其一經推出就受到了很大的歡迎,許多ASIC(專用集成電路)就被FPGA所取代。這里需要說明一下ASIC是什么。ASIC是指依產品需求不同而定制化的特殊規(guī)格集成電路,由特定使用者要求和特定電子系統(tǒng)的需要而設計、制造。這里之所以特殊說明是因為我們下面介紹的TPU也算是一種ASIC。
FPGA與ASIC芯片各有缺點,F(xiàn)PGA一般來說比ASIC的速度要慢,而且無法完成更復雜的設計,并且會消耗更多的電能;而ASIC的生產成本很高,如果出貨量較小,則采用ASIC在經濟上不太實惠。但是如果某一種需求開始增大之后, ASIC的出貨量開始增加,那么某一種專用集成電路的誕生也就是一種歷史趨勢了,我認為這也是Google生產Tensor processing unit的一個重要出發(fā)點。至此,TPU便登上歷史舞臺。
隨著機器學習算法越來越多的應用在各個領域并表現(xiàn)出優(yōu)越的性能,例如街景、郵件智能回復、聲音搜索等,對于機器學習算法硬件上的支持也越來越成為一種需要。目前很多的機器學習以及圖像處理算法大部分都跑在GPU與FPGA上面,但是通過上面的講述我們可以知道,這兩種芯片都還是一種通用性芯片,所以在效能與功耗上還是不能更緊密的適配機器學習算法,而且Google一直堅信偉大的軟件將在偉大的硬件的幫助下更加大放異彩,所以Google便在想,我們可不可以做出一款專用機機器學習算法的專用芯片,TPU便誕生了。
?。═PU板卡圖 via:cloudplatform.googleblog.com)
| Google想做一款專用機機器學習算法的專用芯片——TPU
從名字上我們可以看出,TPU的靈感來源于Google開源深度學習框架TensorFlow,所以目前TPU還是只在Google內部使用的一種芯片。
Google其實已經在它內部的數據中心跑TPU跑了一年多了,性能指標杠杠的,大概將硬件性能提升了7年的發(fā)展時間,約為摩爾定律的3代。對于性能來說,限制處理器速度的最大兩個因素是發(fā)熱與邏輯門的延遲,其中發(fā)熱是限制速度最主要的因素?,F(xiàn)在的處理器大部分使用的是CMOS技術,每一個時鐘周期都會產生能量耗散,所以速度越快,熱量就越大。下面是一張CPU時鐘頻率與能量消耗的關系,我們可以看到,增長是指數性的。
?。–PU時鐘頻率與功耗關系圖 via:electronics.stackexchange.com)
從TPU的外觀圖我們可以看出,其中間突出一塊很大的金屬片,這便是為了可以很好地對TPU高速運算是產生大量的熱進行耗散。
TPU的高性能還來源于對于低運算精度的容忍,也就是說每一步操作TPU將會需要更少的晶體管。在晶體管總容量不變的情況下,我們就可以單位時間在這些晶體管上運行更多的操作,這樣我們就可以以更快的速度通過使用更加復雜與強大的機器學習算法得到更加智能的結果。我們在TPU的板子上看到了插條,所以目前Google使用TPU的方式是將載有TPU的板子插在數據中心機柜的硬盤驅動器插槽里來使用。
而且我覺得TPU的高性能還來源于它數據的本地化。對于GPU,從存儲器中取指令與數據將耗費大量的時間,但是機器學習大部分時間并不需要從全局緩存中取數據,所以在結構上設計的更加本地化也加速了TPU的運行速度。
?。ˋlphaGo對戰(zhàn)李世乭比賽中使用的載有TPU的服務器機架,不知道為什么側面貼的圍棋圖有種萌感。via:googleblog.com)
在Google數據中心的這一年來,TPU其實已經干了很多事情了,例如機器學習人工智能系統(tǒng)RankBrain,它是用來幫助Google處理搜索結果并為用戶提供更加相關搜索結果的;還有街景Street View,用來提高地圖與導航的準確性的;當然還有下圍棋的計算機程序AlphaGo,其實這一點上也有個很有趣的地方,我們在描述AlphaGo的那篇Nature文章中看到,AlphaGo只是跑在CPU+GPUs上,文章中說AlphaGo的完整版本使用了40個搜索線程,跑在48塊CPU和8塊GPU上,AlphaGo的分布式版本則利用了更多的機器,40個搜索線程跑在1202個CPU和176塊GPU上。這個配置是和樊麾比賽時使用的,所以當時李世乭看到AlphaGo與樊麾的對弈過程后對人機大戰(zhàn)很有信心。但是就在短短的幾個月時間,Google就把運行AlphaGo的硬件平臺換成了TPU,然后對戰(zhàn)的局勢就艱難了起來。
那么除了TPU可以更好更快地運行機器學習算法,Google發(fā)布它還有什么其他目的。我覺得說的玄幻一些,Google也許在下一盤大棋。
Google說他們的目標是在工業(yè)界的機器學習方面起到先鋒帶頭作用,并使得這種創(chuàng)新的力量惠及每一位用戶,并且讓用戶更好地使用TensorFlow 和 Cloud Machine Learning。其實就像微軟為它的HoloLens增強現(xiàn)實頭顯配備了全息處理單元(holographic processing unit,HPU),像TPU這樣的專業(yè)硬件只是它遠大征程的一小步,不僅僅是想讓自己在公共云領域超過市場老大Amazon Web Services (AWS)。隨著時間的推移,Google會放出更多的機器學習API,現(xiàn)在Google已經推出了云機器學習平臺服務和視覺API,我們可以相信,做機器學習技術與市場的leader才是Google更大的目標。
評論