華為算力最強(qiáng)AI芯片商用:2倍于英偉達(dá)V100!開源AI框架,對(duì)標(biāo)TensorFlow和PyTorch
本文經(jīng)AI新媒體量子位(公眾號(hào) ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
本文引用地址:http://m.butianyuan.cn/article/201908/404121.htm剛剛,華為業(yè)界算力最強(qiáng)的AI芯片正式商用。
并且宣布自研AI框架MindSpore開源,直接對(duì)標(biāo)業(yè)界兩大主流框架——谷歌的Tensor Flow、Facebook的Pytorch。
華為AI芯片昇騰910之前已經(jīng)發(fā)布,現(xiàn)在正式商用,對(duì)標(biāo)英偉達(dá)Tesla V100,主打深度學(xué)習(xí)的訓(xùn)練場(chǎng)景,跑分性能2倍于英偉達(dá)。
華為輪值董事長(zhǎng)徐直軍說,這是華為全棧全場(chǎng)景AI戰(zhàn)略的實(shí)踐體現(xiàn),也希望進(jìn)一步實(shí)現(xiàn)華為新愿景:打造“萬物互聯(lián)的智能世界”。
但毫無疑問,華為入局,自研AI計(jì)算架構(gòu),肯定會(huì)進(jìn)一步影響AI基礎(chǔ)技術(shù)和架構(gòu)格局,特別是美國(guó)公司的壟斷。
MindSpore發(fā)布后,華為已經(jīng)實(shí)現(xiàn)了完整的AI生態(tài)鏈,加上此前發(fā)布的ModelArts開發(fā)平臺(tái)、Atlas計(jì)算平臺(tái),囊括了從芯片、框架、部署平臺(tái)到應(yīng)用產(chǎn)品完整層級(jí)。
在當(dāng)下這個(gè)大環(huán)境中,這些動(dòng)作也具備了自立自強(qiáng)、不受人掣肘的寓寄。
如今現(xiàn)狀,AI領(lǐng)域的關(guān)鍵技術(shù),比如算力、框架、算法等等,主要還是由少數(shù)幾家美國(guó)公司提供。
比如訓(xùn)練芯片,主要由英偉達(dá)(GPU)、Google提供(TPU);框架則是Google的Tensor Flow、Facebook的Pytorch等成主導(dǎo);原創(chuàng)AI算法的發(fā)明,也只是在少數(shù)幾個(gè)廠商或者研究機(jī)構(gòu)手中。
這直接導(dǎo)致一些企業(yè)想要介入AI的時(shí)候,發(fā)現(xiàn)門檻很高,除了需要大量數(shù)據(jù)之外,還需要面臨算力稀缺、硬件昂貴、人才難找等問題。
現(xiàn)在,華為要用實(shí)際行動(dòng)改變這一現(xiàn)狀。
AI領(lǐng)域的“鴻蒙OS”
MindSpore,與其他主流的框架不同,這是一款全場(chǎng)景的AI計(jì)算框架,也是一款“操作平臺(tái)”。
不僅僅可以用于云計(jì)算場(chǎng)景,也能夠應(yīng)用到終端、邊緣計(jì)算場(chǎng)景中。
也不僅僅是一款推理(部署)框架,也可以用來訓(xùn)練模型。
徐直軍表示,這背后可以實(shí)現(xiàn)統(tǒng)一架構(gòu),一次訓(xùn)練,到處部署,可降低部署門檻。
從這個(gè)角度來看,MindSpore也可以視為AI領(lǐng)域的“鴻蒙OS”。
此外,這一框架面相的也不僅僅是開發(fā)者,也面向領(lǐng)域?qū)<?、?shù)學(xué)家、算法專家等等在AI中角色越來越重要的人群。
徐直軍介紹,MindSpore的界面上也更加友好,在表達(dá)AI問題求解的方程式時(shí),更加便利,更易于算法的開放與創(chuàng)新,推動(dòng)AI應(yīng)用的普及。
用MindSpore可降低核心代碼量20%,開發(fā)門檻大大降低,效率整體提升50%以上。
通過MindSpore框架自身的技術(shù)創(chuàng)新及其與昇騰處理器協(xié)同優(yōu)化,有效克服AI計(jì)算的復(fù)雜性和算力的多樣性挑戰(zhàn),實(shí)現(xiàn)了運(yùn)行態(tài)的高效,大大提高了計(jì)算性能。
除了昇騰處理器,MindSpore同時(shí)也支持GPU、CPU等其它處理器。
與此同時(shí),MindSpore也采用新AI編程語言,單機(jī)程序可分布式運(yùn)行,是一個(gè)全場(chǎng)景框架。全場(chǎng)景是指MindSpore可以在包括公有云、私有云、各種邊緣計(jì)算、物聯(lián)網(wǎng)行業(yè)終端以及消費(fèi)類終端等環(huán)境上部署。
而且,這一框架將會(huì)開源開放,可靈活擴(kuò)展第三方框架和芯片平臺(tái)。
當(dāng)然,徐直軍說,如果用華為的昇騰系列芯片,效果會(huì)更好,可進(jìn)行全離線模式執(zhí)行運(yùn)算,充分發(fā)揮神經(jīng)網(wǎng)絡(luò)芯片算力,實(shí)現(xiàn)最佳性能搭配。
畢竟,MindSpore作為華為全棧全場(chǎng)景AI解決方案中的核心步驟,是首個(gè)Ascend Native開源AI計(jì)算框架,會(huì)更適合達(dá)芬奇架構(gòu)的AI芯片,尤其是昇騰910。
而且MindSpore針對(duì)現(xiàn)在越來越大的訓(xùn)練模型做了更多的優(yōu)化,用戶無需了解并行運(yùn)算的細(xì)節(jié),只需了解單芯片部署,就可以在計(jì)算集群上進(jìn)行并行計(jì)算。
徐直軍表示,MindSpore會(huì)在明年第一季度正式開源。
昇騰910正式商用
昇騰910,在2018年10月華為全連接大會(huì)期間曝光,采用華為自研的達(dá)芬奇架構(gòu),號(hào)稱“算力最強(qiáng)的AI處理器”,采用7nm工藝制程,最大功耗為350W,實(shí)測(cè)310W。
此次發(fā)布用于上市商用,直接對(duì)標(biāo)英偉達(dá)Tesla V100,主打深度學(xué)習(xí)的訓(xùn)練場(chǎng)景,主要客戶面向AI數(shù)據(jù)科學(xué)家和工程師。
主要性能數(shù)據(jù)如下:
半精度為(FP 16):256 Tera FLOPS;
整數(shù)精度(INT 8):512 Tera FLOPS,128通道 全高清 視頻解碼器- H.264/265。
在去年全連接大會(huì)上,華為就和友商對(duì)比了一下,battle的參賽選手包括谷歌TPU v2、谷歌TPU v3、英偉達(dá) V100和華為的昇騰910。
“可以達(dá)到256TFLOPS,比英偉達(dá) V100還要高出1倍!”
相同的功耗下,昇騰910的算力是V100的兩倍,訓(xùn)練速度更快,用戶需要得出訓(xùn)練產(chǎn)出的時(shí)間會(huì)更短。在典型案例下,對(duì)比V100,昇騰910的計(jì)算速度可以提升50%-100%。
在典型的ResNet50 網(wǎng)絡(luò)的訓(xùn)練中,昇騰910與MindSpore配合,與現(xiàn)有主流訓(xùn)練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。
而且徐直軍還在會(huì)后明確表示:價(jià)格還沒定,但肯定不會(huì)高!
全球格局下的華為AI進(jìn)展
2018年10月,在華為全連接大會(huì)上,徐直軍公布了華為全棧全場(chǎng)景 AI 戰(zhàn)略計(jì)劃,將數(shù)據(jù)獲取、訓(xùn)練、部署等各個(gè)環(huán)節(jié)囊括在自己的框架之內(nèi),主要目的是提升效率,讓AI應(yīng)用開發(fā)更加容易和便捷。
全場(chǎng)景包括:消費(fèi)終端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、邊緣計(jì)算 (Edge Computing)、IoT行業(yè)終端 (Industrial IoT Device) 這5大類場(chǎng)景。
重點(diǎn)在于全棧,包含基于達(dá)芬奇架構(gòu)的昇騰系列芯片(Max、Lite、Mini、Tiny、Nano)、高度自動(dòng)化的算子開發(fā)工具CANN、MindSpore框架和機(jī)器學(xué)習(xí)PaaS (平臺(tái)即服務(wù)) ModelArts。
隨著昇騰910正式商用以及MindSpore框架正式推出,華為全棧全場(chǎng)景AI解決方案愈發(fā)完善,競(jìng)爭(zhēng)力也會(huì)隨之上升。
而且,華為之AI,也不僅僅是關(guān)乎華為本身業(yè)務(wù),也應(yīng)該從更加宏觀的角度去審視。
當(dāng)下,AI落地已經(jīng)成為無可爭(zhēng)議的大趨勢(shì),大方向。
但中美關(guān)系日趨緊張的情況下,中國(guó)到底如何,也引發(fā)了更多關(guān)注。
近日,Nature最新發(fā)表了一篇,名為“Will China lead the world in AI by 2030?”,提出問題的同時(shí),也審視了中國(guó)AI發(fā)展的現(xiàn)狀。
文章中援引艾倫人工智能研究所數(shù)據(jù)顯示,在最頂級(jí)的10%高引用論文中,中國(guó)作者占比在2018年已經(jīng)達(dá)到26.5%,非常接近美國(guó)的29%。如果這一趨勢(shì)持續(xù)下去,中國(guó)將在今年超過美國(guó)。
需要場(chǎng)景?數(shù)據(jù)?金錢?人才?等等,這些都不差。
但為什么,卡脖子隱憂,AI領(lǐng)域依然存在。
核心還在于算力(芯片)與基礎(chǔ)技術(shù)。
Nature文章就指出,中國(guó)在人工智能的核心技術(shù)工具方面仍然落后。目前全世界的工業(yè)和學(xué)術(shù)界廣泛應(yīng)用的開源AI平臺(tái)TensorFlow和Caffe,由美國(guó)公司和組織開發(fā)。
框架方面,百度的PaddlePaddle飛槳也不斷突破,雖然發(fā)展勢(shì)頭非常好,卻還是顯得勢(shì)單力簿。
更關(guān)鍵的是,中國(guó)在AI硬件方面的落后非常明顯。全球大多數(shù)領(lǐng)先的AI半導(dǎo)體芯片都是由美國(guó)公司制造的,如英偉達(dá)、英特爾、谷歌和AMD等。
中國(guó)工程院院士、西安交通大學(xué)人工智能與機(jī)器人研究所所長(zhǎng)鄭南寧,接受Nature采訪時(shí)說:“我們?cè)谠O(shè)計(jì)可支持高級(jí)AI系統(tǒng)的計(jì)算芯片方面也缺乏專業(yè)知識(shí)。”
雖然國(guó)內(nèi)也有不少公司在努力,比如阿里、百度、依圖、地平線等等,都涉足了AI芯片領(lǐng)域,但大部分都聚焦在終端SoC和推理上面,用于訓(xùn)練的大型算力芯片并不多。
鄭南寧預(yù)計(jì),中國(guó)可能需要5到10年才能達(dá)到美國(guó)和英國(guó)基礎(chǔ)理論和算法的創(chuàng)新水平,但中國(guó)會(huì)實(shí)現(xiàn)這一目標(biāo)。
來自柏林智庫(kù)的政治學(xué)者Kristin Shi-Kupfer也表示,基礎(chǔ)理論和技術(shù)方面的貢獻(xiàn),將是中國(guó)實(shí)現(xiàn)長(zhǎng)期AI目標(biāo)的關(guān)鍵所在。
她同時(shí)強(qiáng)調(diào),如果沒有在機(jī)器學(xué)習(xí)上沒有真正的突破性進(jìn)展,那么中國(guó)在人工智能領(lǐng)域的增長(zhǎng),將面臨發(fā)展上限。
所以,Nature的問題:中國(guó)AI,到2030年能夠領(lǐng)先全球嗎?
今天華為給出一種解法,但一切還只是開始。
你怎么看?
評(píng)論