博客專欄

EEPW首頁 > 博客 > AMD王宏強(qiáng):700億參數(shù)大模型單個(gè)GPU部署,做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

AMD王宏強(qiáng):700億參數(shù)大模型單個(gè)GPU部署,做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

發(fā)布人:芯東西 時(shí)間:2023-10-09 來源:工程師 發(fā)布文章
從云到端五大產(chǎn)品線全面擁抱AI,AI正成為AMD的新大招。

編輯 |  GACS9月14日-15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳市南山區(qū)圓滿舉行。在首日主題演講中的AI芯片架構(gòu)創(chuàng)新專場(chǎng),AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng)分享了主題為《AMD Pervasive Al:從數(shù)據(jù)中心、邊緣、客戶端到終端,Al無所不在》的主題演講。AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng)談道,AMD在單個(gè)GPU能做到上千T的浮點(diǎn)算力規(guī)模,通過多節(jié)點(diǎn)橫向擴(kuò)展,更是能達(dá)到每秒百億億次浮點(diǎn)計(jì)算能力(EFLOPS),并提供額外的超大內(nèi)存容量及帶寬,可實(shí)現(xiàn)700億參數(shù)級(jí)大模型在單個(gè)GPU上的部署,并達(dá)到更高的TCO(總擁有成本)。王宏強(qiáng)也特別強(qiáng)調(diào)了AMD AI軟件的易用性以及強(qiáng)大的開放軟件生態(tài)的重要性,它是釋放這些創(chuàng)新硬件性能的關(guān)鍵。AMD通過統(tǒng)一AI軟件實(shí)現(xiàn)跨平臺(tái)AI部署,以開放和模塊化的方式構(gòu)建軟件解決方案,從而擁抱更高層次的抽象,并與最重要的生態(tài)系統(tǒng)(PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等)合作對(duì)接推動(dòng)開箱即用的用戶體驗(yàn)。以下為王宏強(qiáng)的演講實(shí)錄:尊敬的各位嘉賓,各位同行,下午好!我很榮幸今天有機(jī)會(huì)參加芯東西舉辦的AI峰會(huì)上,這也是AMD第一次在線下參加芯東西舉辦的AI峰會(huì)。今天我將與大家分享AI無所不在,無限可能的人工智能變革時(shí)代。人工智能領(lǐng)域正在快速變化。處理如此大量數(shù)據(jù)的計(jì)算能力對(duì)于人工智能的發(fā)揮至關(guān)重要。
01.從云到端,全產(chǎn)品線看向AI,AMD瞄準(zhǔn)1500億美元AI芯片市場(chǎng)


人工智能(AI)正在快速地變化、快速地發(fā)展,特別是隨著ChatGPT的推出。所以要處理如此大量的AI計(jì)算,我們需要有非常強(qiáng)大的AI處理能力硬件平臺(tái)和開放的AI軟件生態(tài)系統(tǒng)。AMD是非常專注于異構(gòu)計(jì)算的一個(gè)公司,我們將很大一部分投入放在研發(fā)處理AI的平臺(tái)上,從數(shù)據(jù)中心,邊緣,到端,這種全產(chǎn)品線的AI加速解決平臺(tái)。同時(shí),我們也非常致力于專注發(fā)展開放的AI軟件生態(tài)系統(tǒng)。在AMD,非常有幸的是我們有很多產(chǎn)品線,我們可以為不同的市場(chǎng)來服務(wù)。比如說,在數(shù)據(jù)中心的云端,我們有強(qiáng)大的EPYC處理器,用我們平常說的最多的一句話是“它是比強(qiáng)者更強(qiáng)的CPU”,從96核到128核的CPU,都已經(jīng)陸續(xù)推出,它們可以用來做通用AI。

同時(shí),我們也有MI GPU,可以用于數(shù)據(jù)中心的AI推理和訓(xùn)練。我們也有用于工業(yè)、醫(yī)療、科學(xué)、自動(dòng)駕駛等應(yīng)用的嵌入式平臺(tái)。我們的客戶群非常地廣泛,有數(shù)千個(gè)嵌入式的客戶使用我們這些產(chǎn)品。我們也推出了消費(fèi)級(jí)的帶有AI功能的Ryzen AI PC端加速平臺(tái)。AMD也正是看到這些傳統(tǒng)的算法和應(yīng)用正在被人工智能所替代,特別是AIGC,它讓AI變得普遍存在,甚至在各個(gè)行業(yè)、各個(gè)應(yīng)用中都可以利用它來為我們?nèi)祟愄峁┮恍└颖憷?、更加豐富的生活,帶來更加安全的駕駛,這些都是需要AI技術(shù)和平臺(tái)來作為支撐。AI最終將變得非常普遍,無所不在,人工智能技術(shù)將會(huì)是在整個(gè)產(chǎn)業(yè)界、行業(yè)一個(gè)絕對(duì)性的大趨勢(shì),引領(lǐng)整個(gè)社會(huì)的變革。整個(gè)AI市場(chǎng),也是極速地在增長(zhǎng),所以它的機(jī)會(huì)是無限可能。預(yù)計(jì)到2027年,在整個(gè)AI市場(chǎng)中,芯片市場(chǎng)就將達(dá)到1500億美元,所以這也是各家企業(yè)逐鹿的一個(gè)戰(zhàn)略重地。
02.AI需求多樣化對(duì)芯片架構(gòu)提出挑戰(zhàn),AMD推出多樣針對(duì)性架構(gòu)創(chuàng)新


隨著這些多樣化的人工智能應(yīng)用的發(fā)展,越來越明顯的是沒有一種單一的架構(gòu)或者產(chǎn)品可以去適應(yīng)所有應(yīng)用的需求。因?yàn)楦鞣N需求不一樣,有的是需要很高的計(jì)算能力,有的需要很大的內(nèi)存,有的可能需要一個(gè)更低的延時(shí)或者是更低的功耗。

比如在筆記本中,功耗就成為一個(gè)非常關(guān)鍵的因素。而在云中,有超高的算力的需求、內(nèi)存的需求,需要數(shù)千萬億次的計(jì)算來滿足計(jì)算負(fù)載。比如訓(xùn)練一些大模型,是需要上千個(gè)GPU節(jié)點(diǎn)才可能完成,這些都是需要我們提供強(qiáng)大的計(jì)算,存儲(chǔ)的支撐來滿足。例如自動(dòng)駕駛,它對(duì)延遲的需求是非常嚴(yán)格的,比如你需要在毫秒級(jí)的時(shí)間范圍里做出一個(gè)響應(yīng),比如對(duì)路況的判斷、有沒有行人、路標(biāo)的檢測(cè)、要做一系列決策來達(dá)到自動(dòng)駕駛的安全性。這些可能需要上百TOPS的算力,同時(shí)還要求一個(gè)相對(duì)比較低的功耗。在端側(cè),像筆記本電腦這些,對(duì)于算力能耗比很關(guān)注,電池的消耗是非常關(guān)鍵的一個(gè)因素。比如我們?cè)赥eams、Zoom上開會(huì),就會(huì)利用筆記本電腦端側(cè)的AI功能,讓會(huì)議系統(tǒng)變得更加智能化。在AMD,我們針對(duì)這些不同的需求進(jìn)行了架構(gòu)的創(chuàng)新。一方面,我們高性能的旗艦CDNA架構(gòu),建立在之前多代GPU的基礎(chǔ)上。業(yè)界有說道:AMD其實(shí)是中國(guó)GPU的“黃埔軍?!?。可見,AMD在GPU上還是有很多技術(shù)上的積累和創(chuàng)新的。為行業(yè)提供最高性能的AI計(jì)算解決方案,并為最大的超級(jí)計(jì)算機(jī)提供支持,以在單個(gè)計(jì)算上適應(yīng)最大的人工智能推理工作負(fù)載。GPU它提供了一個(gè)靈活的編程模型來運(yùn)行通用workloads,單個(gè)計(jì)算節(jié)點(diǎn)或者GPU來算,我們甚至可以做到數(shù)千TOPS的能力。我們也可以橫向的擴(kuò)展,使用多個(gè)節(jié)點(diǎn),達(dá)到千萬億次浮點(diǎn)運(yùn)算的能力。另外一方面,我們有XDNA架構(gòu),它是基于AI引擎的處理架構(gòu),它也是一個(gè)并行的陣列數(shù)據(jù)流處理架構(gòu),我們有可以提供一個(gè)非常高速的、低延時(shí)的實(shí)時(shí)處理,因?yàn)樗捎玫氖菙?shù)據(jù)流的架構(gòu)來優(yōu)化。上午有同行分享到Chiplet,XDNA就是AMD產(chǎn)品線里非常重要的一個(gè)Chiplet,也是重要的一個(gè)計(jì)算單元,因?yàn)樗梢詳U(kuò)展到不同的平臺(tái)里面。比如在終端,邊緣測(cè)嵌入式器件里面,可以集成AI引擎的Chiplet。

這些平臺(tái)是基于Chiplet的架構(gòu),所以可以根據(jù)算力需求去集成相應(yīng)數(shù)量的AI Engine,達(dá)到提供這種可擴(kuò)展計(jì)算的能力。同時(shí),我們可以與CPU、與傳統(tǒng)FPGA還有存儲(chǔ)器集成在一起,做一個(gè)異構(gòu)計(jì)算平臺(tái),來滿足各種計(jì)算的需求。甚至可以在器件里面去集成RDNA架構(gòu)的獨(dú)立的顯卡iGPU,在一個(gè)APU里面。
03.五大產(chǎn)品線多點(diǎn)出擊,700億參數(shù)大模型單個(gè)GPU部署


我們接下來就看一下基于這些架構(gòu)的產(chǎn)品示例。AMD的戰(zhàn)略,是要為業(yè)界、為同行提供最廣泛的計(jì)算產(chǎn)品的組合,以滿足人工智能這種普遍性的、多樣性的需求。在這方面,我們也取得了非常大的進(jìn)展,我們有陸續(xù)的推出這些產(chǎn)品。這些(見PPT),都是我們已經(jīng)推出來的產(chǎn)品。在數(shù)據(jù)中心,我們有基于CDNA架構(gòu)的Instinct數(shù)據(jù)中心GPU,它可以滿足AIGC,這些生成式AI的workload的訓(xùn)練或推理。EPYC處理器,有遠(yuǎn)超于同行的CPU核心數(shù),目前我們可以達(dá)到128個(gè)核心數(shù),這些都為通用AI提供了強(qiáng)大計(jì)算平臺(tái)。基于Radeon架構(gòu)的GPU,它可以通過AI技術(shù)增強(qiáng)游戲體驗(yàn)變得更好。Versal AI Edge產(chǎn)品系列,主要目標(biāo)市場(chǎng)是為嵌入式或者邊緣側(cè)的應(yīng)用。對(duì)端側(cè)的應(yīng)用,今年5月份,我們推出了Ryzen AI,這個(gè)產(chǎn)品是集成了CPU、XDNA AI Engine的IPU,還有RDNA的iGPU集成在一個(gè)異構(gòu)計(jì)算平臺(tái)里,可以用來滿足電腦市場(chǎng)這些AI推理的需求。這個(gè)產(chǎn)品已經(jīng)發(fā)貨,已經(jīng)有超過35個(gè)PC系列里,集成了Ryzen AI這款產(chǎn)品。接下來我們具體看一下,這些產(chǎn)品如何去滿足這些多樣化的AI市場(chǎng)需求。AMD的Instinct GPU主要是用在數(shù)據(jù)中心,它是專為生成式AI而設(shè)計(jì)的GPU。它將CDNA 3與業(yè)界領(lǐng)先的HBM3相結(jié)合,采用業(yè)界領(lǐng)先的2.5D/3D Chiplet結(jié)構(gòu)構(gòu)建,它提供高達(dá)數(shù)千TOPS的計(jì)算能力,并提供額外的,超大的內(nèi)存容量,我們對(duì)大模型有優(yōu)勢(shì),因?yàn)槲覀兛梢灾苯釉趦?nèi)存中運(yùn)行更大的模型,減少所需的GPU數(shù)量顯著提高性能,尤其是推理性能。

這個(gè)產(chǎn)品可以支持700億參數(shù)的模型在單個(gè)GPU上做部署,是因?yàn)樗懈蟮膬?nèi)存容量及帶寬。業(yè)界其他的GPU不能做到700億參數(shù)的模型在同一個(gè)GPU里部署,可能需要兩個(gè)GPU來實(shí)現(xiàn)。請(qǐng)繼續(xù)關(guān)注,我們將在今年晚些時(shí)候分享有關(guān)該產(chǎn)品的更多信息。我們剛剛講的是在數(shù)據(jù)中心這一側(cè)。其實(shí)終端AI也在快速發(fā)生變化。今年早些時(shí)候,我們推出了Ryzen AI系列,這個(gè)產(chǎn)品是基于我們XDNA的核心引擎作為基礎(chǔ)AI推理及運(yùn)算,在一個(gè)APU封裝里面集成了CPU、iGPU。投入到市場(chǎng)以來,其受到業(yè)界ISV,OEM的追捧,有35個(gè)筆記本電腦已經(jīng)利用到這個(gè)產(chǎn)品來提供AI解決方案。

AMD Ryzen AI的專用AI硬件開啟個(gè)人電腦新時(shí)代,電腦首先會(huì)被AI化,Windows12即將發(fā)布,將全面基于AI(ChatGPT)技術(shù)。據(jù)行業(yè)專業(yè)人士分析:“AI將改變電腦的每一個(gè)應(yīng)用、每一個(gè)體驗(yàn)!今天買電腦,推薦買AI電腦!
04.AI不止于硬件,軟件開發(fā)和生態(tài)系統(tǒng)建設(shè)是重中之重


我們剛剛講了很多硬件相關(guān)的,與支持這些創(chuàng)新硬件的架構(gòu)創(chuàng)新一樣,我們需要強(qiáng)大的AI軟件及生態(tài)來使能發(fā)揮這些創(chuàng)新硬件們的性能。

首先AI軟件開發(fā)穩(wěn)步提高了硬件編程的抽象級(jí)別。已經(jīng)從用以前匯編或C編寫的代碼->線性代數(shù)庫(kù)或卷積庫(kù)等庫(kù)->PyTorch/TensorFlow 等框架→轉(zhuǎn)向位于框架之上的更高級(jí)別的API,獲得最佳的開箱即用體驗(yàn)。

隨著AI軟件越來越有能力釋放硬件的巨大進(jìn)步,人工智能創(chuàng)新也出現(xiàn)了巨大的加速。2018年以來,Transformer掀起了一場(chǎng)革命,出現(xiàn)了諸如ChatGPT推出等分水嶺時(shí)刻。開放生態(tài)系統(tǒng)中也發(fā)生了大量此類創(chuàng)新:更大的模型、或更小的模型、模型得到微調(diào)、模型是多模式的、模型之間甚至相互交互,模型變得更加高效、模型與人類目標(biāo)保持一致,模型變得值得信賴可靠。

隨著創(chuàng)新的加速,我們既看到了挑戰(zhàn),也看到了絕佳的機(jī)遇。我們正在以開放和模塊化的方式構(gòu)建我們的軟件解決方案,以擁抱更高層次的抽象并與開放生態(tài)系統(tǒng)緊密協(xié)作。在AMD,我們擁有三個(gè)軟件平臺(tái):用于GPU平臺(tái)的ROCm、用于XDNA AI引擎平臺(tái)的Vitis AI以及用于EPYC CPU平臺(tái)的zenDNN。AMD正在進(jìn)行大量投資,以確保我們的客戶在從更高抽象級(jí)別進(jìn)行編譯時(shí)獲得最佳的開箱即用體驗(yàn) 。AMD也在開發(fā)統(tǒng)一的AI軟件用于AMD所有平臺(tái),從而達(dá)到簡(jiǎn)化使用的用戶體驗(yàn)。

我們正在這樣做,我們正在取得的巨大進(jìn)展,而且還通過與最重要的生態(tài)系統(tǒng)參與者合作,像PyTorch這樣的框架和像Hugging Face這樣的模型中心。舉個(gè)具體的例子,基于我們與PyTorch的廣泛合作,PyTorch 2.0在第0天就支持ROCm 5。與Hugging Face的合作正在幫助我們?cè)谒蠥MD平臺(tái)上運(yùn)行各種AI模型。

這是我們GPU的軟件開發(fā)棧,它是在GPU上做AI開發(fā)、運(yùn)行和調(diào)整 AI模型和算法所需的一整套庫(kù)、編譯器和Runtime工具。AMD ROCm堆棧的很大一部分是開放的。我們的驅(qū)動(dòng)程序、Runtime、調(diào)試器和分析器等工具以及我們的庫(kù)都是開放的。ROCm 5擁有一整套優(yōu)化,可提供具有競(jìng)爭(zhēng)力的性能……算法和內(nèi)核(例如flashattention)、新的降低精度的數(shù)據(jù)類型,以及新興工具(例如Triton)。我們將ROCm連接到開放生態(tài)系統(tǒng)方面取得了重大進(jìn)展,包括PyTorch等框架和Hugging Face等模型中心。以幫助客戶在AMD GPU平臺(tái)上快速移植、優(yōu)化和部署其AI模型。

對(duì)用戶來講,他最關(guān)心的是從不同的GPU平臺(tái)或者說友商的GPU平臺(tái)如何遷移到AMD的GPU上?AMD提供與NVIDIA等效的庫(kù)功能,由框架調(diào)用,在框架層面開發(fā)的用戶可以獲得“即插即用”的兼容軟件體驗(yàn)。像基礎(chǔ)模型構(gòu)建者這樣高度復(fù)雜的用戶通常擁有一定數(shù)量的自定義內(nèi)核代碼,需要與AMD AI軟件工程結(jié)合進(jìn)行聯(lián)合優(yōu)化。HipiFY工具可讓您非??焖俚貙?shí)現(xiàn)功能等效。致力于這些定制內(nèi)核的性能優(yōu)化。AMD已經(jīng)與客戶成功做到了這一點(diǎn),并展示了在聯(lián)合優(yōu)化后達(dá)到與NVIDIA同等性能的能力。與此同時(shí),AMD不斷優(yōu)化和改進(jìn)我們的庫(kù)。

這里是Mosaic實(shí)現(xiàn)無縫遷移至AMD GPU的成功案例,基于PyTorch 2.0和ROCm 5,ROCm直接替代CUDA,RCCL替代NCCL,Infinity Fabric替代節(jié)點(diǎn)內(nèi)的NVSwitch。從而實(shí)現(xiàn)大模型訓(xùn)練在AMD MI250加速器上開箱即用,零代碼更改和高性能。

我們來看一下AMD在的client側(cè)AI軟件解決方案。自從我們今年早些時(shí)候宣布該產(chǎn)品以來,ISV和用戶開發(fā)人員都非常希望在我們的AI平臺(tái)上開發(fā)應(yīng)用的需求為了滿足這一巨大的興趣,我們?cè)诮衲暝缧r(shí)候與 微軟Build活動(dòng)中表示,我們?cè)谖④浀腛NNX Runtime框架下提供我們的工具。這使得開發(fā)人員可以使用ONNX中熟悉的API進(jìn)行模型部署。現(xiàn)在我們眼見為實(shí),我給大家演示一下在AMD GPU平臺(tái),Ryzen AI平臺(tái)上跑各種大模型。

這是在我們MI GPU上實(shí)現(xiàn)一個(gè)Stable Diffusion的推理,可以很快地圖文生成,在毫秒級(jí)里達(dá)到這個(gè)目標(biāo)。

展示我們?cè)赗yzen AI筆記本電腦上實(shí)現(xiàn)多個(gè)AI應(yīng)用時(shí),提供有保證的QoS, 無抖動(dòng)性能。同時(shí)實(shí)現(xiàn)人臉檢測(cè)、深度估計(jì)、場(chǎng)景檢測(cè)。這與其他需要以分時(shí)方式共享AI計(jì)算資源的AI架構(gòu)不同。

另外,我們今天也提到,AI已經(jīng)從云到端,甚至是混合式AI。我們的解決方案,不僅可以在云上去做這些大模型,我們也可以在端側(cè)、在我們的筆記本里面去做這些大模型。這個(gè)例子就是我們用MI系列GPU,實(shí)現(xiàn)了一個(gè)700億參數(shù)的大模型,實(shí)現(xiàn)圖文生成圖文。這個(gè)是讓它寫一個(gè)有關(guān)舊金山的詩(shī)文。在我們端側(cè),我們是跑的是OPT模型,實(shí)現(xiàn)文字生成。

我們基于Radeon架構(gòu),不僅可以實(shí)現(xiàn)3D渲染,同時(shí)可以做AI的訓(xùn)練或者推理,快速平穩(wěn)地進(jìn)行加速。AMD會(huì)繼續(xù)地加大AI的投入,將強(qiáng)大的AI處理能力的產(chǎn)品引入云、邊緣和端,并且我們致力于與廣大AI開發(fā)者,社區(qū)一道提供開放的AI軟件生態(tài)系統(tǒng),與廣大AI開發(fā)者、用戶,同超越,共成就。這就是我今天與各位分享的所有內(nèi)容,感謝大家寶貴的時(shí)間。以上是王宏強(qiáng)演講內(nèi)容的完整整理。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉