Facebook透露如何為AI和VR打造硬件
Facebook 正在打造下一代開源硬件,將新技術(shù)融入其數(shù)據(jù)中心平臺(tái),Facebook使用大量強(qiáng)大科技——包括固態(tài)硬盤(SSDs), 圖形處理器(GPUs), 非易失性存儲(chǔ)器(NVM)和閃存簇(JBOFs)——以打造新的服務(wù)器和存儲(chǔ)裝置,加速基礎(chǔ)設(shè)施。
本文引用地址:http://m.butianyuan.cn/article/201604/289129.htm這些升級(jí)是Facebook打造強(qiáng)大數(shù)據(jù)中心網(wǎng)絡(luò)的一部分,這一網(wǎng)絡(luò)將擴(kuò)展互聯(lián)網(wǎng)服務(wù)的邊界。
Facebook CEO 馬克·扎克伯格說(shuō)?!高@對(duì)計(jì)算性能提出了更高要求,通過(guò)開放計(jì)算項(xiàng)目(Open Compute Project,以下簡(jiǎn)稱OCP),我們正在開發(fā)全球性的基礎(chǔ)設(shè)施,讓人人都能享受互聯(lián)網(wǎng)服務(wù)。」
Facebook在開放計(jì)算峰會(huì)(Open Compute Summit,以下簡(jiǎn)稱OCS)上公布了項(xiàng)目進(jìn)展。OCS是不斷擴(kuò)大的開源硬件社區(qū)成員的聚會(huì),他們?cè)O(shè)計(jì)的產(chǎn)品在Facebook的數(shù)據(jù)服務(wù)器上煥發(fā)活力。峰會(huì)展示了許多基礎(chǔ)設(shè)施的升級(jí)。包括:
重新打造的服務(wù)器尺度形態(tài)來(lái)在同等能源消耗數(shù)量下提升性能。
新的高性能數(shù)據(jù)分析服務(wù)器,由GPUs驅(qū)動(dòng),而非CPUs。
改進(jìn)后的存儲(chǔ)設(shè)備分隔單位(storage sled),在這里,最初的JBOD(just a bunch of disks)變成快得多的JBOF(just a bunch of flash)。
改進(jìn)非易失性存儲(chǔ)器(NVM)實(shí)驗(yàn),為存儲(chǔ)分層提供更多選擇。
此次峰會(huì)標(biāo)志著OCP項(xiàng)目成立五周年,也促使人們反思自2011年Facebook為推動(dòng)其發(fā)布的設(shè)計(jì)創(chuàng)新而成立該項(xiàng)目以來(lái),OCP 的發(fā)展情況。
「我們現(xiàn)在取得的進(jìn)步是值得關(guān)注的,」OCP 項(xiàng)目董事長(zhǎng)Jason Taylor 表示,他同時(shí)也是Facebook Infrastructure 部門副總裁之一?!窸CP就是一個(gè)讓工程師聚在一起,創(chuàng)造驚艷產(chǎn)品的地方?!?/p>
「我感受到了巨大的動(dòng)力,因?yàn)槲覀兂搅顺笮椭鳈C(jī)(hyperscale),還進(jìn)入了金融和電信領(lǐng)域,」他說(shuō)。
服務(wù)器:下一代設(shè)計(jì)
Facebook 徹底革新了服務(wù)器設(shè)計(jì)和基礎(chǔ)設(shè)施,從傳統(tǒng)的雙服務(wù)器處理器轉(zhuǎn)為基于單個(gè)英特爾Xeon-D處理器系統(tǒng)芯片(SoC),該處理器耗能更少,還解決了幾個(gè)架構(gòu)問(wèn)題。
The Mono Lacke服務(wù)器的主板裝入到一個(gè)叫Yosemite的組裝單位中,Yosemite的每一個(gè)滑動(dòng)單元底架上可以安裝4個(gè)SoC,即4個(gè)Mono Lake。Facebook 工程師Vijay Rao 和Edwin Smith在Facebook 工程博客上描述了這一新設(shè)計(jì)。
「我們就新處理器的設(shè)計(jì)與英特爾緊密合作,同時(shí)重新設(shè)計(jì)自家的服務(wù)器基礎(chǔ)設(shè)施以打造一個(gè)滿足我們需求的系統(tǒng),也能為行業(yè)其他公司所廣泛采用。」他們?cè)诓┛椭袑懙??!附Y(jié)果表明,配備更低功耗的CPUs 的單處理器服務(wù)器在網(wǎng)絡(luò)負(fù)載上比雙處理器服務(wù)器表現(xiàn)更好,也更適合數(shù)據(jù)中心負(fù)載…與此同時(shí),我們重新設(shè)計(jì)的服務(wù)器基礎(chǔ)設(shè)施,在同等電源基礎(chǔ)上,容納每個(gè)機(jī)架雙倍的CPUs數(shù)量?!?/p>
新的設(shè)計(jì)提升了處理器和處理器之間、處理器和內(nèi)存之間的通信效率。
「我們將CPU簡(jiǎn)化至正好能滿足我們要求,」這兩位工程師表示,「我們移除了QPI鏈接,縮減了英特爾的成本??紤]到我們的服務(wù)器將基于同一的插槽,這也解決了我們NUMA問(wèn)題。我們將其設(shè)計(jì)為整合芯片集的系統(tǒng)芯片,更加簡(jiǎn)單。這種接口一致的CPU散熱設(shè)計(jì)功耗(TDP)更低。與此同時(shí),我們重新設(shè)計(jì)的服務(wù)器基礎(chǔ)設(shè)施,在同等電源條件下,容納每個(gè)機(jī)架雙倍的CPUs數(shù)量?!?/p>
這使得Facebook制造出一個(gè)可以在每個(gè)機(jī)架上獲得更高性能的服務(wù)器體系結(jié)構(gòu),同時(shí)確保每個(gè)機(jī)柜能量消耗密度保持在11千瓦以下。
強(qiáng)大的人工智能數(shù)據(jù)分析服務(wù)器
Facebook 在會(huì)上還分享了GPUs最新進(jìn)展,近年來(lái),GPU在高性能計(jì)算中發(fā)揮了重要作用。GPUs 最初是用于提升桌面PC性能,處理圖形運(yùn)算,但是現(xiàn)在卻幫助提升全球一些性能最強(qiáng)大的超級(jí)計(jì)算機(jī)。
Facebook 使用GPUs給人工智能和機(jī)器學(xué)習(xí)數(shù)據(jù)分析帶來(lái)更強(qiáng)大的計(jì)算能力。其人工智能實(shí)驗(yàn)室訓(xùn)練神經(jīng)網(wǎng)絡(luò)去解決新問(wèn)題。這就需要強(qiáng)大的計(jì)算能力。
「我們已經(jīng)在人工智能技術(shù)方面投入了很多?!笷acebook 工程和基礎(chǔ)設(shè)施(Engineering and Infrastructure)部門 全球老大Jay Parikh說(shuō),「目前,人工智能應(yīng)用于Facebook的Newsfeed,幫助我們提供更好的廣告服務(wù)。也能幫助用戶在日常生活中更安全地使用Facebook?!?/p>
Big Sur 系統(tǒng)使用了英偉達(dá)Tesla 加速計(jì)算平臺(tái),擁有8個(gè)高性能GPUs,每個(gè)功率達(dá)300瓦特,在多個(gè)PCI-e連接之間靈活配置。Facebook已經(jīng)優(yōu)化了這些新型服務(wù)器的發(fā)熱和功耗控制,使其可以與數(shù)據(jù)中心中配備標(biāo)準(zhǔn)CPU的服務(wù)器協(xié)同工作。
Big Sur 系統(tǒng)優(yōu)化了性能和反應(yīng)時(shí)間,幫助Facebook處理更多的數(shù)據(jù),極大地縮短了其訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)間。
「性能有了極大的提升,」Parikh說(shuō),「我們?cè)跀?shù)月間就部署了數(shù)千臺(tái)這種機(jī)器。使得我們有能力將該技術(shù)應(yīng)用于公司更多的產(chǎn)品實(shí)例?!?/p>
評(píng)論