GPU賽道趨火,AI芯片邁入落地階段。作者 | ZeR0
編輯 | 漠影
芯東西9月3日報道,今日,上海云端AI芯片公司瀚博半導(dǎo)體在其舉辦的人工智能大芯片產(chǎn)業(yè)落地論壇上,預(yù)覽其首款7nm云端GPU芯片SG100,將圖形渲染加入其產(chǎn)品布局。同時,瀚博推出了瀚博統(tǒng)一計算架構(gòu)、全新數(shù)據(jù)中心推理卡載天VA10、邊緣AI推理加速卡載天VE1和瀚博軟件平臺VastStream擴展版。瀚博半導(dǎo)體2018年12月成立于上海,專注于研發(fā)高性能通用加速芯片。其融資情況也很搶眼??焓?、阿里巴巴兩大互聯(lián)網(wǎng)戰(zhàn)略投資方均在其投資陣容。迄今瀚博已完成逾24億元融資。會后,瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍接受芯東西等媒體的采訪。錢軍透露,今日新發(fā)布的兩款加速卡已經(jīng)進入客戶層面測用。錢軍表示,未來瀚博將基于GPU和AI芯片帶來更多產(chǎn)品組合,更好地滿足市場、客戶的需求。
01.預(yù)覽7nm云端GPU,兼具圖顯與AI功能
瀚博半導(dǎo)體的首款7nm云端GPU芯片SG100具備業(yè)界領(lǐng)先的圖形渲染性能,擁有超高吞吐、超高質(zhì)量、低延時編碼等能力,集渲染、AI、視頻于一體,可為云游戲、云手機、云桌面、云計算等元宇宙關(guān)鍵性應(yīng)用場景提供深度優(yōu)化。同時,SG100還提供SR-IOV虛擬化支持,端到端整體提升用戶視覺體驗,能夠滿足市場對智能視頻視覺、圖形圖像處理的算力需求。瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍是美國GPU巨頭AMD中國前高管,曾帶領(lǐng)AMD中國團隊設(shè)計量產(chǎn)了業(yè)界第一顆7nm圖形處理器和第一顆7nm云端GPU架構(gòu)的AI芯片。據(jù)悉,瀚博核心研發(fā)團隊擁有18年以上高端芯片設(shè)計和量產(chǎn)的經(jīng)驗,手上流片出去的GPU有幾十款。錢軍談道,瀚博的初衷是“為像素世界提供浩瀚算力”。考慮到GPU研發(fā)技術(shù)門檻高,瀚博成立之初考慮到硬件、軟件研發(fā)及工程能力等能力都有待加強,因此選擇先面向“AI+視頻”市場做基于領(lǐng)域?qū)S眉軜?gòu)(DSA)架構(gòu)的AI芯片,以發(fā)揮研發(fā)團隊在視頻處理方面的經(jīng)驗。“具有圖形渲染能力的GPU研發(fā)一直在我們的計劃當(dāng)中?!卞X軍說,隨著SG100到來,瀚博正式進入GPU市場。由于瀚博云端GPU和專用AI芯片在目標(biāo)市場上存在重合,當(dāng)芯東西問這兩大產(chǎn)品線如何協(xié)同時,錢軍談到瀚博的做法類似于“中臺”概念,瀚博自主研發(fā)的很多核心技術(shù)與半導(dǎo)體IP,既可以內(nèi)置于GPU,也可以AI芯片工作。未來,瀚博計劃基于GPU、AI和視頻核心技術(shù)帶來更多產(chǎn)品組合。錢軍告訴芯東西,后續(xù)瀚博也會考慮研發(fā)將GPU和AI能力整合在一起的芯片,這將根據(jù)客戶需求來綜合判斷。
02.公布統(tǒng)一計算架構(gòu)全景圖推出兩款A(yù)I推理加速卡
論壇現(xiàn)場,瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍宣布推出由瀚博自主研制的統(tǒng)一計算架構(gòu)(Vastai Unified Compute Architecture)。該架構(gòu)整合了多款高性能計算引擎,擁有高效統(tǒng)一的存儲管理、一致性接口和低鏈接延遲、完整的虛擬化功能、統(tǒng)一的底層軟件設(shè)計、模塊化的上層計算算子庫和功能模塊。瀚博的統(tǒng)一計算架構(gòu),讓計算密集型的AI、視頻、渲染任務(wù)性能得到最大化硬件加速,同時端到端縮小延時,一體化助力云端實時圖形渲染、AI增強處理、視頻編解碼等需求。面向數(shù)據(jù)中心場景,瀚博推出數(shù)據(jù)中心推理卡載天VA10。這款加速卡搭載瀚博自研的超低延時、超高吞吐AI引擎,INT8峰值算力達400TOPS,刷新業(yè)界紀(jì)錄。載天VA10功耗為150瓦,整體最高推理性能達到同功耗主流GPU的2倍以上,且延時低至后者的6%。在低延時場景(低于4毫秒的YoloV3檢測算法場景)下,其推理性能可以達到同功耗市場主流GPU的3倍以上。據(jù)悉,載天VA10適合多種需要高實時性的云端AI應(yīng)用部署,如直播視頻增強、智慧交通管理、實時語義理解等場景。面向邊緣計算場景,瀚博發(fā)布了首款面向邊緣大算力場景推理卡載天VE1系列。載天VE1兼具低功耗、超低時延與超高吞吐率,吞吐率達到主流GPU的2倍,但時延僅為其的1/5。在40~65瓦功耗下,載天VE1的INT8峰值算力達100TOPS。這款加速卡支持60路1080P視頻實時解碼,支持主流AI框架的模型,提供從模型編譯到推理優(yōu)化的全流程低代碼開發(fā)框架VastPipe,軟硬結(jié)合為客戶提供端到端的AI推理解決方案。載天VE1可在眾多關(guān)鍵場景發(fā)揮作用,比如高速公路事件檢測、“人、車、非機動車”視頻結(jié)構(gòu)化、大數(shù)據(jù)研判等超高數(shù)據(jù)量并發(fā)場景;再比如,道路實時動態(tài)信息交互、工業(yè)的缺陷檢測等低延時要求場景。載天VE1非常適用于智慧交通、車路協(xié)同、工業(yè)質(zhì)檢等邊緣大算力場景。硬件要發(fā)揮最佳性能,更需要軟件的同步支持。瀚博的軟件平臺VastStream應(yīng)運而生,可加速各類AI應(yīng)用部署,包括計算機視覺、視頻處理、自然語言處理、搜索與推薦、算子自定義擴展等。VastStream的全新軟件組件,提供系統(tǒng)管理等三大管理工具,方便客戶部署,同時其基礎(chǔ)軟件棧功能更加豐富,特性包括統(tǒng)一接口、靈活調(diào)度、通用AI計算、多路高效視頻轉(zhuǎn)碼+AI增強、易編程快遷移、工具鏈完備等。至此,瀚博已形成一條涵蓋了芯片、推理加速卡、一體機的硬件產(chǎn)品線和軟件整合的系統(tǒng)解決方案。
03.產(chǎn)業(yè)落地屢有進展,宣布與上海交通大學(xué)人工智能研究院合作
在2022世界人工智能大會上,瀚博半導(dǎo)體展出了包括新品在內(nèi)的多款芯片相關(guān)產(chǎn)品,展示其智能視頻視覺、圖形圖像計算產(chǎn)品和算力解決方案。此前,瀚博已推出首款云端AI推理芯片SV102及搭載此芯片的載天系列通用加速卡VA1,其芯片解決方案覆蓋從云端到邊緣的服務(wù)器及一體機市場,并在加速相關(guān)應(yīng)用落地方面屢有進展。2022年以來,瀚博先后與福建大數(shù)據(jù)集團、國寧瑞能,高新興、超聚變等行業(yè)領(lǐng)先企業(yè),在智慧城市、智慧政務(wù)、智慧交通、智慧園區(qū)、智慧能源等多元場景,開展深入合作,為企業(yè)智能化、數(shù)據(jù)化提供國產(chǎn)AI算力解決方案。今年7月,瀚博半導(dǎo)體與高新興簽訂戰(zhàn)略合作協(xié)議,雙方將圍繞車聯(lián)網(wǎng)、車路協(xié)同等智慧交通領(lǐng)域,就芯片解決方案和生態(tài)建設(shè)展開深度合作,助力智慧交通數(shù)字化及智能化轉(zhuǎn)型升級。瀚博的高性能通用智能加速芯片具備大算力、低時延等優(yōu)勢,可滿足車路協(xié)同多傳感器融合數(shù)據(jù)處理的大算力及時延要求。同時瀚博研發(fā)過程利用先進生產(chǎn)工藝以及創(chuàng)新的節(jié)能計算體系結(jié)構(gòu),可以實現(xiàn)更好的能耗比,從而有助于企業(yè)客戶降低算力成本,降低計算能耗。近期,瀚博還與國產(chǎn)主流服務(wù)器廠商超聚變合作共同解決企業(yè)AI應(yīng)用過程中面臨的典型問題,致力于降低AI計算門檻。此外,為了促進技術(shù)生態(tài)的發(fā)展,瀚博也在聯(lián)合全球頂級的技術(shù)、人才、機構(gòu)和高校建立合作。在今日的論壇上,瀚博與上海交通大學(xué)人工智能研究院簽約,開展校企合作。瀚博希望通過產(chǎn)學(xué)研用聯(lián)盟的方式,讓更多優(yōu)秀的人才、資源參與進來,推動技術(shù)進步、人才培養(yǎng)、科研成果轉(zhuǎn)化,建立智能芯片生態(tài)。
04.看好元宇宙國內(nèi)芯片公司彎道超車的機會
作為數(shù)字經(jīng)濟未來發(fā)展的重要領(lǐng)域,元宇宙邁入虛擬和現(xiàn)實融合的3D互聯(lián)網(wǎng)時代,算力需求也更加蓬勃。9月1日,瀚博創(chuàng)始人兼CEO錢軍出席2022世界人工智能大會芯片主題論壇,在圓桌會議環(huán)節(jié)分享了對于芯片元宇宙中應(yīng)用的見解。▲瀚博半導(dǎo)體創(chuàng)始人兼CEO錢軍
錢軍認(rèn)為,元宇宙是國內(nèi)芯片公司彎道超車的機會,“就像油車和電車比起來已經(jīng)落伍了一樣,當(dāng)我們有一個顛覆性的方向,這個過程中會獲得各種超越的機會。”在他看來,元宇宙本身并不是一個顛覆性的技術(shù),而是由多個數(shù)字技術(shù)組合起來的綜合性的應(yīng)用,在這中間會產(chǎn)生AR/VR等各種各樣的交互和感知,并產(chǎn)生海量內(nèi)容,這些內(nèi)容需要實時、強大的視頻處理算力,需要多樣的渲染引擎,還需要綜合5G網(wǎng)絡(luò)、大數(shù)據(jù)、AI、區(qū)塊鏈等數(shù)字技術(shù)來做支撐和管理。因此,元宇宙可以被視作是一個現(xiàn)象級的應(yīng)用,同時要綜合考慮多類型、高復(fù)雜度的計算,所以對未來算力提升的需求空間巨大。以元宇宙的數(shù)字孿生做渲染為例,尤其是沉浸式的渲染,對于GPU的性能的提升需求是巨大的。“GPU一定要上云,只有上了云,才能夠把多顆GPU綜合連接起來,然后用一種集成的方式來做有效的渲染,才能支持元宇宙海量內(nèi)容的產(chǎn)生?!卞X軍說。他相信,現(xiàn)在場景和需求更多樣化,渲染算法不斷迭代,找到這些機會,GPU就有望彎道超車。不過,核心技術(shù)不是一蹴而就的,而是需要長期努力,扎扎實實地把芯片和技術(shù)做出來。
05.芯片如何為AI算力網(wǎng)提供支撐?
在9月2日舉辦的2022世界人工智能大會中國移動主題論壇上,錢軍也探討了對于“AI新基建”的理解。他認(rèn)為,算力網(wǎng)屬于現(xiàn)象級基礎(chǔ)設(shè)施,運用到多種數(shù)字化技術(shù),需要多樣化的算力支撐。芯片部署應(yīng)重點關(guān)注能耗與算力密度。其中算力密度從兩個維度考慮,即每平方毫米芯片提供的算力和每瓦功耗提供的算力。算力網(wǎng)絡(luò)還應(yīng)考慮算力的有效性,能否有效驅(qū)動應(yīng)用。從整體上看,打造算力網(wǎng)和做芯片的思路類似,需要系統(tǒng)地規(guī)劃算力單元、存儲單元、數(shù)據(jù)交互等資源,使每個模塊的能力得到有效發(fā)揮。至于生態(tài)構(gòu)建,錢軍希望未來出現(xiàn)一些領(lǐng)袖型企業(yè),引導(dǎo)整個行業(yè)建立一個開放標(biāo)準(zhǔn)化的生態(tài),將更加有利于行業(yè)內(nèi)的有效競爭和創(chuàng)新,從而更好地支撐AI等行業(yè)的發(fā)展。
06.結(jié)語:云端GPU賽道趨火AI芯片邁入落地階段
工信部數(shù)據(jù)顯示,我國已成為全球第二的“算力大國”:2021年算力核心產(chǎn)業(yè)規(guī)模達到1.5萬億元,近5年平均增速超過30%。未來,誰的計算能力更強,誰能率先在落地進程中獲得客戶認(rèn)可,誰就有望搶占未來制高點、贏得話語權(quán)。本周突發(fā)的美國政府要求英偉達和AMD限制向中國出口用于加速AI計算的高端GPU事件,再度給我們敲響警鐘,美國隨時可能向我國高精尖技術(shù)產(chǎn)業(yè)揮起刀鋒,與其心存僥幸,不如踏踏實實做事,未雨綢繆,將未來主動權(quán)掌握在自己手中。芯片創(chuàng)業(yè)充滿風(fēng)險,過程艱苦,前路難料。但我們看到多家國內(nèi)AI芯片企業(yè)仍在砥礪前行,并陸續(xù)在單卡性能、關(guān)鍵應(yīng)用實測性能及商用落地方面取得一系列新進展。面對接踵而至的機遇與挑戰(zhàn),AI芯片企業(yè)仍需保持定力、練好內(nèi)功,堅持自主創(chuàng)新與理解客戶需求,方能走得長遠。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。