新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 干貨分享|NVIDIA GPU應(yīng)用解決方案加速AI應(yīng)用落地

干貨分享|NVIDIA GPU應(yīng)用解決方案加速AI應(yīng)用落地

作者:科技智能加 時間:2023-02-02 來源: 收藏

前言:現(xiàn)今已是2023年了,科技在快速發(fā)展,特別是數(shù)字智能時代的到來,作為核心驅(qū)動力量為醫(yī)療行業(yè)、汽車行業(yè)以及等行業(yè)帶來了巨大轉(zhuǎn)變。

本文引用地址:http://m.butianyuan.cn/article/202302/442943.htm

如在醫(yī)療行業(yè),應(yīng)用認(rèn)知計算技術(shù)能為人們的健康保駕護航,將人工智能應(yīng)用到醫(yī)院平臺,能從各種渠道分析訪問者的健康狀況并提供保健相關(guān)的洞察力,并與訪問者進行雙向互動。對于患者而言,AI可以幫助自己預(yù)知發(fā)病時間,并及時尋求有效的解決方案;

如在汽車行業(yè),可以利用AI技術(shù)進行自動駕駛,改變我們的出行方式,創(chuàng)造更安全、更高效的出行方式;

如在AI行業(yè),人工智能可以自主學(xué)習(xí)大量而深厚的專業(yè)知識,開發(fā)者能通過人工智能對這些大量非結(jié)構(gòu)化數(shù)據(jù)進行訓(xùn)練、推理和學(xué)習(xí)。

……

我們都知道支撐AI應(yīng)用需要完善的基礎(chǔ)架構(gòu),但是在AI解決方案部署過程中,從底層算力平臺到上層資源管理軟件,整個基礎(chǔ)架構(gòu)需要集成CPU、、存儲、網(wǎng)絡(luò)等多種硬件基礎(chǔ)設(shè)施,其中是部署過程中的關(guān)鍵,因為加速計算是近年來集群建設(shè)的主流方案,可以提供卓越的應(yīng)用程序性能,將應(yīng)用程序計算密集部分的工作負(fù)載轉(zhuǎn)移到GPU,同時仍由CPU運行其余程序代碼,可顯著提高應(yīng)用程序的運行速度,建設(shè)一個GPU高性能計算集群可以提供一個GPU加速的人工智能實驗平臺,促進企業(yè)人工智能、大數(shù)據(jù)、深度學(xué)習(xí)、機器學(xué)習(xí)等算法方面的研究和應(yīng)用。


此外,還需要pytorch、Tensorflow等AI框架,AI框架是為了更輕松、高效地研究和應(yīng)用深度學(xué)習(xí),目前主流的深度學(xué)習(xí)框架都很好的支持GPU加速,框架可專門為深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練所需的計算提供支持高度優(yōu)化GPU的代碼的框架經(jīng)過調(diào)優(yōu)和測試,可提供非常出色的GPU性能,借助這些框架,用戶可以通過簡單的命令行或Python等腳本語言接口訪問代碼。許多功能強大的DNN都可通過這些框架來訓(xùn)練和部署,而無需編寫任何GPU或復(fù)雜的編譯代碼。再通過docker容器技術(shù),調(diào)度器等軟件進行統(tǒng)一的計算資源與數(shù)據(jù)庫管理和調(diào)度,可從GPU加速帶來的訓(xùn)練速度提高中受益。

如果將能成功跑起來的AI應(yīng)用比做一輛車,那么算法就是發(fā)動機,大數(shù)據(jù)是油,提供動力,而GPU計算力就是車輪,只有三者相匹配、融為一體,才能跑得快、跑得遠(yuǎn)。

工欲善其事必先利其器, 機房建設(shè)是部署AI應(yīng)用的基礎(chǔ),也是整個基礎(chǔ)架構(gòu)中最底層的部分,合理的機房建設(shè)可以滿足未來計算資源的擴容,可以提高計算資源的利用率,節(jié)省空間與能耗,機房基礎(chǔ)設(shè)施涉及服務(wù)器機柜、KVM切換器、UPS不間斷電源、精密空調(diào)、防靜電地板,新風(fēng)系統(tǒng)、隔音的處理等等,機房基礎(chǔ)建設(shè)要考慮未來算力資源的擴充,提前根據(jù)算力平臺的功耗考慮供電系統(tǒng),根據(jù)設(shè)備的數(shù)量考慮機房空間。

另外機房基礎(chǔ)建設(shè)分為傳統(tǒng)機房模塊化機房,傳統(tǒng)機房一般采用工業(yè)空調(diào)對機房整體空間制冷的方式,或者是采用精密空調(diào)架空地板下送風(fēng)方式制冷方式,模塊化機房與傳統(tǒng)機房最大的區(qū)別在于能夠最大限度的利用制冷功率為設(shè)備散熱。因為其采用封閉冷通道方式,冷氣與熱氣隔離,整體提高制冷效率;空調(diào)與IT機柜并排間隔擺放,采用空調(diào)水平送風(fēng)直接對機柜吹冷風(fēng),滿足其散熱需求,為客戶節(jié)約大量運營成本。其次,模塊化機房能夠快速部署。因其出廠前完成機柜的預(yù)安裝,現(xiàn)場只需接通外部電源,固定機柜等簡單操作即可使用,包頭云計算中心即采用模塊化機房,位于包頭市稀土高新區(qū),總面積2400平米,地板承重800KG/㎡,抗震烈度等級8級,電力方面稀土變+沼潭變,雙市電保障,發(fā)電機冗余,滿負(fù)荷下可運行12小時,并與加油站簽署供油合同,UPS采用采用2N冗余UPS供電,滿載后備120分鐘,空調(diào)方面采用N+1列間精密空調(diào),運營安全方面采用雙冗余華為6680防火墻,開啟IPS/IDS/防病毒功能,采用7x24小時不間斷全方位機房監(jiān)控,采用大數(shù)據(jù)動態(tài)感知系統(tǒng),實時分析預(yù)警。

在解決機房建設(shè)這個基礎(chǔ)問題后,硬件問題亦是重點。

要知道硬件資源層構(gòu)成復(fù)雜,部署AI應(yīng)用需要涉及算力、網(wǎng)絡(luò)、存儲等方面,標(biāo)準(zhǔn)的集群構(gòu)建需要管理節(jié)點、計算節(jié)點、存儲節(jié)點和網(wǎng)絡(luò)節(jié)點、我們一般管理節(jié)點采用普通2U機架式服務(wù)器,顧名思義,它是承擔(dān)集群中管理的角色,計算節(jié)點即我們提供核心算力的部分,通常采用GPU服務(wù)器,為首的有 A40 Tensor Core GPU。

A40是NVIDIA Ampere 架構(gòu)GPU,速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,A40采用第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時運行光線追蹤和著色或降噪功能,從而大幅加快工作負(fù)載的運行速度,A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的訓(xùn)練吞吐量達(dá)到上一代的 5 倍,而且無需更改代碼即可加速 AI 和數(shù)據(jù)科學(xué)模型的訓(xùn)練。從硬件上支持結(jié)構(gòu)稀疏度使推理吞吐量提升一倍;另外,A40具有超高速 GDDR6 顯存,單卡48GB,還可通過 NVLink 擴展到高達(dá) 96 GB,為數(shù)據(jù)科學(xué)家、工程師和創(chuàng)意專業(yè)人士提供所需的大容量顯存,讓他們能夠處理大型數(shù)據(jù)集以及數(shù)據(jù)科學(xué)和模擬等工作負(fù)載,PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍,因而提升了從 CPU 內(nèi)存?zhèn)鬏敂?shù)據(jù)的速度,能更好地支持 AI、數(shù)據(jù)科學(xué)和 3D 設(shè)計等數(shù)據(jù)密集型任務(wù),更快的 PCIe 性能還能加速 GPU 直接顯存訪問 (DMA) 傳輸,A40 向后兼容 PCI Express 第 3 代,這也提供了部署靈活性。

(圖 NVIDIA A40)

*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有

GPU服務(wù)器從2U2卡,2U4卡到4U4卡,4U8卡,4U10卡均有覆蓋,像IW4222-8GR這塊8卡GPU服務(wù)器,就是我們構(gòu)建集群經(jīng)常用到的一款服務(wù)器,它支持2顆第三代Intel? Xeon? Icelake系列可擴展處理器,TDP 270W,提供強大的X86處理平臺針對推理及訓(xùn)練應(yīng)用,帶寬翻倍的PCIe Gen4平臺上可支持8塊雙寬GPU卡,專為高密度GPU計算提供多方位的性能支持,支持高速網(wǎng)絡(luò),存儲和其他IO擴展,8個U.2硬盤。為高端計算平臺提供高速傳輸和數(shù)據(jù)存儲能力。同時進一步優(yōu)化運維效率,擁有專業(yè)管理平臺能夠?qū)崿F(xiàn)對市面主流的各類GPU實現(xiàn)識別,監(jiān)控,風(fēng)扇調(diào)速支持,故障報警等功能;存儲節(jié)點即AI應(yīng)用中存放數(shù)據(jù)的地方,AI應(yīng)用對于數(shù)據(jù)量的需求非常龐大,而且對于讀寫性能、帶寬都要求很高,所以對存儲的容量、性能及安全性都有要求,存儲可以采用分布式存儲系統(tǒng),即數(shù)據(jù)分布到各個存儲節(jié)點上,并行讀寫,提供存儲性能,同時可以采用不同的冗余方式,比如雙副本、多副本、糾刪碼冗余技術(shù)等等,保證數(shù)據(jù)安全性,這塊我司具備4U24盤位、4U36盤位存儲服務(wù)器,也有自己的分布式存儲管理軟件,可提供集性能、容量、安全性與一體的分布式存儲系統(tǒng);網(wǎng)絡(luò)節(jié)點有3套:管理網(wǎng)絡(luò)、計算網(wǎng)絡(luò)和IPMI網(wǎng)絡(luò),這里管理網(wǎng)絡(luò)一般采用千兆以太網(wǎng),計算網(wǎng)絡(luò)一般采用萬兆光纖網(wǎng)絡(luò)或者IB網(wǎng)絡(luò),IPMI網(wǎng)絡(luò)做遠(yuǎn)程管理使用。

(圖 IW4222-8GR )

*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有

NVIDIA A40 GPU 可使數(shù)據(jù)中心的性能和多工作負(fù)載能力獲得進化式飛躍。它集優(yōu)秀的專業(yè)圖形性能與強大的計算和 AI 加速能力于一體,可應(yīng)對當(dāng)今的設(shè)計、創(chuàng)意和科學(xué)挑戰(zhàn)。NVIDIA A40 能驅(qū)動新一代虛擬工作站和基于服務(wù)器的工作負(fù)載,并隨時隨地為專業(yè)人士提供光線追蹤渲染、模擬、虛擬制作等領(lǐng)域的先進功能。NVIDIA A40 對最新 vGPU 軟件的支持使復(fù)雜的圖形工作負(fù)載可以在虛擬環(huán)境中運行,且性能可與裸機媲美。

Citrix 產(chǎn)品管理副總裁 Calvin Hsu 表示:“Citrix Hypervisor8.2 和 Citrix Virtual Desktops 支持 NVIDIA 最新的 vGPU 軟件和 NVIDIA A40 ,盡管客戶需要處理的數(shù)據(jù)和工作負(fù)載不斷增加,我們依然可以繼續(xù)為其提供運行圖形密集型可視化應(yīng)用程序的所需性能。 Citrix 和 NVIDIA 虛擬化技術(shù)的結(jié)合使用戶無論身在何處,都能夠訪問這些應(yīng)用程序,并獲得與物理工作站相媲美的優(yōu)質(zhì)體驗?!?/span>

紅帽產(chǎn)品管理總監(jiān) Steve Gordon 表示:“NVIDIA 最新一代 A40 GPU 和 NVIDIA vGPU 軟件的結(jié)合,以及紅帽企業(yè) Linux 和紅帽虛擬化的支持,能夠為用戶提供一個強大的平臺。無論在石油天然氣還是媒體娛樂行業(yè),都能滿足從 AI/ML 到可視化領(lǐng)域最嚴(yán)苛的工作負(fù)載。隨著組織轉(zhuǎn)型并越來越多地使用 Kubernetes 進行容器設(shè)計并作為其應(yīng)用程序的關(guān)鍵構(gòu)建模塊,我們認(rèn)為紅帽可能是容器化和虛擬化工作負(fù)載的終點?!?/span>

上面介紹了很多關(guān)于硬件資源層的知識,筆者再分享下構(gòu)建好集群硬件后,關(guān)于平臺軟件的部署的問題

我們在開篇講到部署AI應(yīng)用需要pytorch、Tensorflow等AI框架,如果沒有平臺軟件統(tǒng)一管理,就需要使用者自己安裝應(yīng)用環(huán)境,包括CUDA、AI框架、docker等,再進行環(huán)境的調(diào)試,在AI部署中,軟件環(huán)境調(diào)試非常耗費時間,并且不是所有使用者都熟悉各種軟件環(huán)境,此外,沒有軟件平臺做統(tǒng)一管理,會造成資源分配不均,容易產(chǎn)生計算資源的浪費,比如大多數(shù)高校發(fā)現(xiàn)GPU 計算資源被初學(xué)者占用,往往導(dǎo)致真正科研計算任務(wù)匱乏計算資源,基于 Docker 環(huán)境的計算管理環(huán)境常常發(fā)生計算資源搶占現(xiàn)象,讓管理者應(yīng)接不暇各種投訴,這里有自主開發(fā)的SCM人工智能云平臺軟件,集成了主流的AI框架,可實現(xiàn)計算資源池化,按需分配給一個或多個用戶使用。SCM云平臺可對 GPU 高性能計算資源進行統(tǒng)一的管理和調(diào)度,有效滿足用戶在深度學(xué)習(xí)等科研及教學(xué)方面的需求,用戶可以快速的在平臺上進行數(shù)據(jù)處理、算法設(shè)計、模型訓(xùn)練、模型驗證、模型部署等工作,而不用關(guān)心底層復(fù)雜的集群構(gòu)建與調(diào)度機制以及深度學(xué)習(xí)框架的安裝部署、性能調(diào)優(yōu)等問題,在充分簡化深度學(xué)習(xí)訓(xùn)練方面工作的同時有效提高資源利用率。

其實分享到這里,我們的AI應(yīng)用的全套裝備差不多就齊全了,下面以實際案例,讓我們在看看一個AI應(yīng)用究竟是如何落地的。

案例1:國內(nèi)某知名智能汽車設(shè)計及制造商AI駕駛基礎(chǔ)架構(gòu)建設(shè),定位于深圳,成立于2014年,是一家專注未來出行的科技公司。他們一直堅持飽和式研發(fā)投入,構(gòu)建全棧自研的核心能力,如今已經(jīng)成為中國領(lǐng)先的智能電動汽車公司之一。

背景:在研發(fā)的過程中,尤其是深度神經(jīng)網(wǎng)絡(luò)建模及訓(xùn)練,需要大量計算力,因為汽車自動駕駛是需要很多大量數(shù)據(jù)進行訓(xùn)練,讓這個汽車能夠去進行圖象圖形的識別,然后應(yīng)用在汽車當(dāng)中,讓我們的汽車能夠智能化的去自動駕駛。

需求痛點:

1 模型和算法出現(xiàn)算力瓶頸,訓(xùn)練出成熟的模型周期太長;

2 難分配:存在的所有資源都是以物理形式存在,沒有辦法很好的進行合理資源分配,導(dǎo)致算法研究存在一定問題。低效率:正在運行中的項目作業(yè)只能靠人為干預(yù)檢查是否正常運行,費時費力。不靈活:大量的算力資源無法通過軟件進行靈活調(diào)配,無法支撐算力需求極高的任務(wù);

3 難定位:在多個線程的項目同時運行時,一旦有其中之一出錯,難以精準(zhǔn)定位報錯任務(wù)。

解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,使用6節(jié)點思騰合力IW4213-4G,加速計算卡為NVIDIA A40,配合NVIDIA 深度學(xué)習(xí)SDK與NVIDIA DRIVE? 軟件堆棧進行問題的解決。

部署效果:

GPU作為底層平臺,很好的起到了加速應(yīng)用的作用,幫助深度學(xué)習(xí)的研發(fā)人員更快的訓(xùn)練出成熟的模型,其次,用戶可以根據(jù)需求選擇不同的平臺,深度學(xué)習(xí)研發(fā)人員需要在算法、統(tǒng)計方面精益求精,都需要一個生態(tài)環(huán)境的支持,GPU已經(jīng)構(gòu)建了CUDA、cuDNN及DIGITS等工具,支持硬件兼容,GPU高性能解決方案讓研發(fā)人員能夠排除意外干擾,專注于深度學(xué)習(xí)的研究項目中。

案例2:國內(nèi)某知名醫(yī)院AI醫(yī)療算力平臺建設(shè),醫(yī)院位于北京市昌平區(qū),由高校與北京市共建共管的大型綜合性公立醫(yī)院,建設(shè)和運營過程中得到了臺塑企業(yè)的無私捐助和援建。

背景:基于現(xiàn)代先進的醫(yī)療科研發(fā)展趨勢,醫(yī)院作為新型醫(yī)院,對于病例、病因的數(shù)據(jù)處理需求很大?;颊叩尼t(yī)療影像數(shù)據(jù)十分龐大,原有設(shè)備已無法滿足大量的數(shù)據(jù)推理,模型訓(xùn)練,新型醫(yī)院需要對患者肺部的切片醫(yī)療影像進行病理匹配、判斷,減少醫(yī)療事故的發(fā)生。

需求痛點:

1 對于病例、病因的數(shù)據(jù)處理需求很大,很多數(shù)據(jù)沒有及時的建立相應(yīng)的數(shù)據(jù)庫進行存放。

2 設(shè)備數(shù)量不足,無法滿足龐大的醫(yī)療影像數(shù)據(jù)進行數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理與模型訓(xùn)練等。

3 無法對未知的病部切片進行推理分析,無法在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象。

解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,1節(jié)點IW2200-2G計算服務(wù)器,1節(jié)點IW4200-8G計算服務(wù)器,1節(jié)點IR2200推理服務(wù)器,1節(jié)點管理服務(wù)器,1節(jié)點存儲服務(wù)器,加速計算卡為NVIDIA A40,計算網(wǎng)絡(luò)采用萬兆光纖組網(wǎng),軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。

部署效果:

AI與醫(yī)療的融合可以有效的解決資源不均衡的痛點,AI的強大在于可以通過大量的數(shù)據(jù)深度學(xué)習(xí)之后,能夠預(yù)測和看到人類肉眼看不到的東西,比如通過影像切片預(yù)測病變的發(fā)生。通過AI經(jīng)過上千病例的訓(xùn)練,能在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象,從而給出醫(yī)生更精準(zhǔn)的判斷提示,算力平臺的建設(shè)可加快AI模型的訓(xùn)練與推理。

案例3:北京某知名AI科技公司智能視覺處理平臺建設(shè),公司位于北京市海淀區(qū),是一家以圖像處理與智能視覺為核心的AI技術(shù)服務(wù)提供商。

背景:公司是以圖像處理與智能視覺為核心的AI技術(shù)服務(wù)提供商,聚焦活體采集、人臉識別、人形檢索等應(yīng)用,以高性能圖像處理和視頻結(jié)構(gòu)化技術(shù)為基礎(chǔ),整合人、物識別與追跡以及場景感知,需要GPU集群加速數(shù)據(jù)處理過程。

需求痛點:

1.人臉識別、人臉比對云服務(wù)的算法訓(xùn)練周期太長,影響客戶體驗的同時,丟失了部分商業(yè)市場。

2人形檢索與人物追跡、車牌識別等算法精確度不足,時長出現(xiàn)識別錯誤的信息。

3高性能圖像處理和視頻結(jié)構(gòu)化技術(shù)在實際的應(yīng)用場景中,對項目落地的要求太高,端到端的AI算法訓(xùn)練難以開展。

解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,1節(jié)點思騰合力IR2200管理服務(wù)器,2節(jié)點思騰合力IW4200-8G計算服務(wù)器,1節(jié)點思騰合力IS4200-24存儲服務(wù)器,加速計算卡為NVIDIA A40,計算網(wǎng)絡(luò)采用56G Mellanox IB組網(wǎng)與千兆以太網(wǎng)管理,軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。

部署效果:

通過思騰合力搭建的GPU集群環(huán)境,配套云平臺軟件,可實現(xiàn)端到端的AI算法訓(xùn)練,加速了人臉識別、人臉比對云服務(wù)、人形檢索與人物追跡、車牌識別等算法的落地。

NVIDIA GPU應(yīng)用在實際的項目中需要多重因素協(xié)調(diào)配合,對于一些非計算機專業(yè)人員,基礎(chǔ)設(shè)施的開發(fā)、搭建、調(diào)試往往要耗費數(shù)月時間,期間透明性低,測試頻繁,效率低下,嚴(yán)重限制人工智能技術(shù)在行業(yè)中的應(yīng)用,比如Tensorflow、Caffe 等眾多的計算框架以及 CNN、RNN 等復(fù)雜的網(wǎng)絡(luò)模型,即便是資深工程師也需要花費大量的時間成本學(xué)習(xí)和應(yīng)用,主流計算框架采用 CPU+GPU 的異構(gòu)計算平臺,其管理和調(diào)度融合了高性能計算、大數(shù)據(jù)和云計算等多領(lǐng)域技術(shù),實現(xiàn)難度較大,諸如思騰合力這類解決方案提供者,可以幫助大家完成從基礎(chǔ)設(shè)施到云管理平臺的構(gòu)建,通過其研發(fā)的SCM人工智能云平臺軟件,面向大規(guī)模異構(gòu)計算基礎(chǔ)設(shè)施管理,解決上述問題。

這篇文章就暫時先到這里,希望各位開發(fā)者、技術(shù)負(fù)責(zé)人、業(yè)務(wù)管理者們能夠找到適合自身的解決方案,在AI企業(yè),醫(yī)療、金融、教育、汽車等行業(yè)中更好的使用NVIDIA GPU的應(yīng)用,充分提升GPU資源利用效率,降低部署AI應(yīng)用的總體擁有成本,提升AI研發(fā)創(chuàng)新效率!



關(guān)鍵詞: NVIDIA GPU AI 思騰合力

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉