博客專欄

EEPW首頁 > 博客 > AI離全社會普及,只差一個計算中心?

AI離全社會普及,只差一個計算中心?

發(fā)布人:傳感器技術 時間:2021-07-11 來源:工程師 發(fā)布文章
誰成為AI的領導者,誰將統(tǒng)治世界!作 者丨張靜波


過去十年,人工智能(AI)大爆炸,并第一次走進普通人的生活。


但蓬勃發(fā)展的AI卻碰到一個空前棘手的問題:自2012年以來,AI算力需求6年增長30萬倍,遠超摩爾定律!


人類現(xiàn)有的基礎設施,已跟不上AI算力需求的增長。未來,該怎么辦?


一百多年前,人類也曾面臨同樣的難題。


1866年,德國西門子發(fā)明自激發(fā)電機,開啟了人類的電力時代。


此后十幾年,雖然很多企業(yè)紛紛采用電能這種新的動力,但一臺電機只能供應一棟房子或一條街道的現(xiàn)狀,制約了電力的進一步普及。


直到1882年,愛迪生在珍珠街建起了第一個中央發(fā)電廠,照亮了整個曼哈頓。


與一百多年前相比,今天的世界正發(fā)生翻天覆地的變化。


自1946年第一臺計算機誕生以來,算力逐漸成為新的電力,推動人類社會不斷從物理世界向數(shù)字世界遷移。


在此期間,人類對算力的需求不斷增長。尤其2012年以后,隨著深度學習等算法的突破,AI第一次走進普通人的生活。


一方面,AI的應用場景越來越多,從語音、目標識別,到智慧工廠、智慧城市……乃至戰(zhàn)爭中的武器。


另一方面,AI模型的大小、算法參數(shù)也呈幾何級增長,鵬城實驗室最新發(fā)布的“鵬程.盤古”預訓練大模型,擁有驚人的2000億個參數(shù)!


這樣的大模型,以及越來越廣泛的應用場景,對AI算力的需求呈現(xiàn)爆炸式的增長。


幾年前,谷歌AI負責人杰夫·迪恩(Jeff Dean)曾預言:“我們真正需要的是超過現(xiàn)在100萬倍的計算能力,而不僅僅是幾十倍的增長。”


即便如此大膽的預測,也還是顯得太保守。


事實上,從2012年到2019年,短短七年,人類對AI算力的需求增長了30萬倍,平均每100天就會翻倍,遠超摩爾定律。


與此同時,AI算力的實際增長卻有限,需求和供給之間形成一個巨大的鴻溝


為了填補這個鴻溝,一種新的AI基礎設施誕生了,它就是:人工智能計算中心。


在此之前,人類建過許多大型的計算中心。比如,我們熟知的超算中心,集中了一個國家或地區(qū)的最強算力,主要用于科研。


還有阿里、華為等云廠商興建的云計算中心,基于云平臺,向全社會提供大數(shù)據(jù)的計算、存儲等服務。


它們雖然也對外提供AI算力,但畢竟不是主業(yè)。


人工智能計算中心專為AI打造,主要用于AI模型的開發(fā)、訓練和推理,能夠為全社會提供AI所需的專用算力。


這種新的AI基礎設施,自誕生之日起,就成為全球主要AI大國的角力場。


比如,美國投資18億美金,計劃在全國打造三個E級超算,其中一個的算力,超過目前全球十大超算的總和。


德國早在2018年就推出國家級人工智能戰(zhàn)略,并資助一批高校建設人工智能計算中心。


中國也先后建成了深圳鵬城云腦和武漢人工智能計算中心。還有多個城市已開工或者正在籌建人工智能計算中心。


在政府主導下,許多頭部企業(yè)也紛紛下場。谷歌自研AI專用的TPU芯片,并通過云平臺對外輸出AI云服務。


微軟也宣布,斥資10億美元,構建一個AI計算平臺。


在中國,阿里投入重金,建立超大規(guī)模機器學習平臺。而華為,更是鵬城云腦和武漢人工智能計算中心背后的建設主力軍。


蓬勃發(fā)展的AI產(chǎn)業(yè),無限放大了全社會對算力的需求。


為了邁過這道鴻溝,全世界以政府主導、頭部企業(yè)參建的模式,正掀起一場AI算力的軍備競賽。


在人工智能計算中心出現(xiàn)前,人們是如何解決AI算力問題的呢?


除了超算中心和云計算中心“兼職”外,更多靠企業(yè)自建。例如,谷歌早期就用GPU來加速。后來,為了訓練AlphaGo,開發(fā)了TPU芯片。


但像谷歌這樣財大氣粗的企業(yè),畢竟是少數(shù)。更多的企業(yè),缺乏足夠的資金來搭建自己的AI算力。


勉強搭起來,算力也有限。而且不同企業(yè)的算力,還分散在全國,各自為政。


以這樣的算力,很難訓練出大模型,更別提GPT-3這種超級大模型。而后者,是推動AI技術不斷進步、產(chǎn)業(yè)不斷發(fā)展的關鍵。


這有點類似于愛迪生修建珍珠街中央發(fā)電廠之前的情況。


彼時,電力還屬于少數(shù)有錢人或大企業(yè)的奢侈品,門檻高,難普及。直到愛迪生修建中央發(fā)電廠,改變了這一情況。


未來,AI產(chǎn)業(yè)要想****展,同樣需要降低算力門檻。


類似OpenAI那樣,花1200萬美元,訓練一個GPT-3模型的事情,很少有企業(yè)或個人負擔得起。


解決的辦法是,像愛迪生建中央發(fā)電廠一樣,在各地集中建設AI基礎設施,也就是人工智能計算中心,降低AI的算力成本。


一個人工智能計算中心,就像一個電廠,通常包含機房,以及各種軟硬件設施。


比如,鵬城云腦就長這個樣子:


還有大名鼎鼎的谷歌TPU服務器機房:


人工智能計算中心,一改過去AI算力分散的局面。


在地方政府的產(chǎn)業(yè)政策引導下,通過集中建設,這種AI基礎設施可將算力普惠地輸出給全社會,包括企業(yè)、科研機構和高校。


過去,訓練一個大模型,動輒上千萬美元。如今,企業(yè)和開發(fā)者,可按需租用算力,花小錢辦大事,極大地降低了門檻,加速了AI創(chuàng)新。


這一點,對于AI產(chǎn)業(yè)的繁榮,極為關鍵。


就像電廠一樣,人工智能計算中心首先是一個公共算力服務平臺。


但,光有算力還不夠。電廠之所以是社會經(jīng)濟的發(fā)動機,背后是一個生態(tài),包括上下游產(chǎn)業(yè)鏈、設備廠商和終端用戶,等等。


因此,人工智能計算中心除了是一個算力服務平臺,還是一個AI產(chǎn)業(yè)聚集發(fā)展平臺,能夠聚合AI產(chǎn)業(yè)鏈上的各類公司,包括算法公司、數(shù)據(jù)處理公司、行業(yè)集成公司等,形成完整的產(chǎn)業(yè)閉環(huán),促進和推動AI產(chǎn)業(yè)集群發(fā)展。


此外,它還是一個應用創(chuàng)新孵化平臺,通過開發(fā)者AI創(chuàng)新,與本地優(yōu)勢產(chǎn)業(yè)(如制造、醫(yī)療、交通、智能電動車等)相結合,讓技術轉化為產(chǎn)業(yè)價值,帶動當?shù)禺a(chǎn)業(yè)智能化升級。


以武漢為例,庫柏特的智能機器人在武漢人工智能計算中心的支持下,通過視覺處理算法創(chuàng)新,其機械臂每次抓取****盒的拍照時間,從過去200毫秒縮短至50毫秒!


武漢市政府計劃,到2023年孵化60個以上類似的AI深度應用場景,形成AI應用示范項目超過100個。


人工智能計算中心也是一個科研創(chuàng)新和人才培養(yǎng)平臺,為將來儲備技術和人才。


目前,經(jīng)教育部批準設立AI本科專業(yè)的高校已達200余所。有了人工智能計算中心,這些院??陕?lián)合行業(yè)龍頭企業(yè),基于前者充沛的算力,開展技術研發(fā)和關鍵人才的培養(yǎng)。


在深圳,鵬城實驗室就依托“鵬城云腦Ⅱ”,聚集了31位院士和2000多名科研人員,使得深圳一躍成為國內AI人才高地。


今天的中國,正在打造國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)。


人工智能計算中心通過“1個中心+4個平臺”,形成一個完整的算力生態(tài),徹底打通了“產(chǎn)”“學”“研”“用”全產(chǎn)業(yè)鏈,滿足了國家和地方對人工智能產(chǎn)業(yè)發(fā)展的需求。


從這個意義上講,人工智能計算中心是我國發(fā)展人工智能產(chǎn)業(yè)的最佳路徑。


未來,小到手機、人臉識別,大到無人駕駛、工業(yè)機器人……人工智能計算中心將為全社會的智能化,提供源源不斷普惠充沛的AI算力,從而托起中國經(jīng)濟的明天。


先行一步的武漢和深圳,已經(jīng)看到了這種希望。


在武漢,華為助力打造的人工智能計算中心,AI峰值性能可達100PFlops(1P相當于每秒1000萬次浮點運算)。


在深圳,基于華為Atlas 900集群的“鵬城云腦Ⅱ”可提供世界頂級算力,在最新一期IO500榜單中位居榜首,其全系統(tǒng)輸入輸出性能得分是排名第二的近20倍。


武漢和深圳之外,包括成都在內,全國多個城市也在積極籌建人工智能計算中心。


充沛的算力,給當?shù)啬酥寥珖?jīng)濟注入了強勁的動力。


從深圳到武漢,再到已開工的成都,中國在興建人工智能計算中心的路上,再次展現(xiàn)了“基建狂魔”的本色。


但同時,我們也要清醒地看到,在這個事關未來的AI基礎設施建設上,我們還存在短板。


過去十年,中國在目標識別等AI應用上,領先于世界。


可當我們向上捅破天,低下頭來建人工智能計算中心時才發(fā)現(xiàn):與西方先進水平相比,自己在AI根技術上還有不小的差距。


電廠的核心是發(fā)電機組,人工智能計算中心的核心是芯片。


過去,無論超算還是云計算中心,多采用CPU+GPU組合。如今,人工智能計算中心加入了NPU等異架構處理器,以多樣化算力,加速AI計算。


NPU是一種AI專用芯片,可在電路層模擬人類的神經(jīng)元和突觸。與傳統(tǒng)芯片相比,AI算力有數(shù)十上百倍的提升。


下圖對比了CPU、GPU和TPU(谷歌開發(fā)的NPU)的數(shù)據(jù)處理方式。


NPU的這種大吞吐量,對于需要數(shù)據(jù)清洗、模型生成、訓練和推理的AI計算來講,優(yōu)勢尤其明顯。


美國排名第二的打車軟件Lyft,自從用了谷歌Cloud TPU,也就是云上AI算力后,以前幾天才能干完的活,現(xiàn)在幾小時就搞定了。


但無論CPU、GPU,還是NPU,國內企業(yè)在這些底層芯片上的積累,還比較薄弱。


CPU、GPU幾乎被英特爾、AMD和英偉達三家公司壟斷。NPU相對好一些,華為有昇騰系列,寒武紀也開發(fā)了思元系列。


而這,還只是硬件問題。


軟件方面,人工智能計算中心是一個算力多樣化的平臺,如何將眾多異架構芯片放在一起還能相互兼容,需要統(tǒng)一的編程框架。


當年,英偉達為了將圖形處理芯片GPU用在通用計算上,開發(fā)了CUDA。如今,華為為了提高開發(fā)效率,設計了異構計算架構CANN。


算法是AI的核心。


全世界每天都在產(chǎn)生新的算法和模型,開發(fā)者不需要從頭學習,但他們需要一個統(tǒng)一的AI算法平臺和框架。


目前,全球大多數(shù)開發(fā)者都選擇了谷歌的TensorFlow和Facebook的Pytorch。


國內企業(yè)最初在這個領域一片空白,后來才有了華為的MindSpore和百度的飛槳,但在開發(fā)者人數(shù)上,與對手還有不小的差距。


有了芯片,有了編程平臺和AI框架,再往上,就到了AI應用軟件開發(fā)平臺。


在這一層上,國內企業(yè)實力不俗,阿里有PAI,華為有ModelArts,百度有AI Studio。開發(fā)者們在這些平臺上,最終做出賦能千行百業(yè)的APP。


根技術是AI的基石,只有根深,才能葉茂,才能從底層釋放出充沛的算力,支撐起整個AI頂層應用的全面繁榮。


這種從底層算力釋放,到頂層應用使能的AI全棧能力,可以用下圖一覽全貌:


從圖上可知,谷歌無疑是AI能力最強也最全面的科技公司之一。在國內,擁有類似能力的企業(yè)屈指可數(shù),華為算是一家。


2017年,AlphaGo擊敗李世石后不久,俄羅斯總統(tǒng)普京曾告誡國內師生:未來,誰成為AI的領導者,誰就將統(tǒng)治世界!


人工智能(AI),毫無疑問,已成為全球大國角力的主戰(zhàn)場,并在某種程度上,決定了一個國家或地區(qū)未來的命運。


早在2017年就發(fā)布人工智能國家戰(zhàn)略的中國,將AI視為重大的戰(zhàn)略機遇,并希望到2025年成為人工智能的世界領導者。


為了實現(xiàn)這一目標,我們還有很多的事情需要做。這其中,最重要、最緊迫的事情之一,就是興建更多的人工智能計算中心。


從這個意義上講,鵬城云腦和武漢人工智能計算中心的落成,也只是這場世紀大戲的開場白而已。




*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: al

技術專區(qū)

關閉