加速云基于FPGA的加速解決方案搞定高算力AI應(yīng)用場(chǎng)景
人工智能(AI)和大數(shù)據(jù)的不斷發(fā)展帶來對(duì)超高計(jì)算力的需求,使得相應(yīng)硬件組成和算法架構(gòu)也在不斷在創(chuàng)新中尋求突破,以達(dá)到新應(yīng)用所需的計(jì)算能力。
本文引用地址:http://m.butianyuan.cn/article/201804/378661.htm就近幾年的發(fā)展來看,高計(jì)算能力的處理器從硬件架構(gòu)上基本可以分為三個(gè)陣營(yíng)——GPU、FPGA和ASIC。相較于GPU、ASIC而言,FPGA的低延時(shí)、確定延時(shí)、高性能功耗比、靈活可配置計(jì)算精度、高速通信互聯(lián)I/O接口等特性,為其在產(chǎn)品設(shè)計(jì)及性能對(duì)比中屢屢拿下可觀戰(zhàn)績(jī)。
近日,致力于異構(gòu)加速和業(yè)務(wù)卸載的方案供應(yīng)商杭州加速云信息技術(shù)有限公司基于FPGA推出兩大系列硬件加速產(chǎn)品——SC-OPS和SC-VPX,兩個(gè)IP庫——FDNN(深度學(xué)習(xí)庫)和FBLAS(數(shù)字加速庫),以及三大解決方案——深度學(xué)習(xí)解決方案、高性能計(jì)算機(jī)數(shù)字信號(hào)處理解決方案和邊緣計(jì)算解決方案。
兩大系列硬件加速產(chǎn)品
SC-OPS是加速云推出的全球首張Intel Stratix 10 FPGA加速卡,采用Intel最新14nm工藝的Stratix10GX2800 FPGA器件,集成了2753K LE和9.2T FLOPS單精度浮點(diǎn)處理能力,板載8組DDR4 2133MHz72bit顆粒,支持ECC,支持32GB內(nèi)存容量和1092Gbps的訪問帶寬。單板支持12個(gè)200維雙精度線性方程求解,運(yùn)算時(shí)間為466μs,其性能是x86系統(tǒng)的60~120倍;采用AlexNet卷積神經(jīng)網(wǎng)絡(luò),單卡可以實(shí)現(xiàn)4500幀/s以上圖像分類,廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、機(jī)器視覺、深度學(xué)習(xí)、高性能計(jì)算、仿真、金融等領(lǐng)域。
SC-VPX是一款超高計(jì)算密度的VPX刀片加速平臺(tái),采用Intel Stratix 10 GX2800器件,兼容GX1650,6U整機(jī)可以支持92T/50TFLOPS單精度浮點(diǎn)運(yùn)算能力,整機(jī)可以通過交互版互聯(lián)構(gòu)筑更大的系統(tǒng),同時(shí)系統(tǒng)可以擴(kuò)展各種接口卡和存儲(chǔ)卡(單卡4TB容量,2GB讀寫性能),可以通過各種卡組合擴(kuò)展各種應(yīng)用?;赟C-VPX加速平臺(tái)可以構(gòu)造業(yè)界先進(jìn)、靈活、高效的信號(hào)處理和深度學(xué)習(xí)架構(gòu),主要定位高校研究所等單位的雷達(dá),通信,深度學(xué)習(xí)相關(guān)領(lǐng)域的產(chǎn)品原型快速搭建和算法開發(fā)與應(yīng)用。
兩大IP庫
深度學(xué)習(xí)加速庫FDNN是國內(nèi)首個(gè)支持通用卷積神經(jīng)網(wǎng)絡(luò)的FPGA加速庫,基于RTL級(jí)代碼,包含卷積、池化、全連接、非線性函數(shù)等參數(shù)可配置的深度學(xué)習(xí)基礎(chǔ)庫,兼容CAFFE/TensorFlow模型數(shù)據(jù)的參數(shù)可配置的CNN/DNN/RNN庫,后向更新算法、隨機(jī)初始化算法及SGD算法的參數(shù)可配置的深度學(xué)習(xí)訓(xùn)練庫,以及VGG 16、GoogleNet、LeNet、YOLO、SSD、ResNet、Faster-RCNN各種常見模型。可以提供很高的性能和靈活配置特性。
而高性能計(jì)算加速庫FBLAS是業(yè)界高性能的RTL級(jí)數(shù)學(xué)加速庫,含有矩陣運(yùn)算、線性方程求解、微分方程求解、傅里葉變換(FFT)、三角函數(shù)、超越函數(shù)等多種運(yùn)算可供直接調(diào)用,同時(shí)兼容OpenBlas庫接口。
三大解決方案
深度學(xué)習(xí)加速解決方案。由于FPGA具有很高的性能功耗比,而且基于門級(jí)電路設(shè)計(jì)使得FPGA是一個(gè)超低延時(shí)和確定延時(shí)的方案,F(xiàn)PGA可編程及動(dòng)態(tài)可重構(gòu)可以適應(yīng)深度學(xué)習(xí)未來算法變化,IO可編程性可以滿足更多業(yè)務(wù)需求。為此,加速云推出一整套基于FPGA的深度學(xué)習(xí)加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速庫,滿足客戶對(duì)深度學(xué)習(xí)高性能、靈活性加速要求。為了方便客戶使用高層語言開發(fā),加速云提供基于FPGA完整的OpenCL異構(gòu)開發(fā)環(huán)境,快速實(shí)現(xiàn)用戶自定義的深度學(xué)習(xí)加速方案。同時(shí)加速云也提供快速深度神經(jīng)網(wǎng)絡(luò)定制加速服務(wù)。如下圖所示為某電商平臺(tái)采用加速云深度學(xué)習(xí)解決方案的OCR(Optical CharacterRecognition,光學(xué)字符識(shí)別)方案。
數(shù)字信號(hào)處理解決方案。加速云的SC-OPS和SC-OPX產(chǎn)品針對(duì)5G通信和雷達(dá)等數(shù)字信號(hào)處理系統(tǒng)的要求,結(jié)合Intel最新14nm工藝的 Stratix10 FPGA系列,提供了一套完整的硬件和軟件相結(jié)合的數(shù)字信號(hào)處理解決方案,借助于自家的FBLAS數(shù)據(jù)加速庫,能夠?qū)崿F(xiàn)高性能矩陣運(yùn)算(矩陣乘、轉(zhuǎn)置、求逆、QR分解)和超高速FFT,以及具有高性能算法參數(shù)可配置的特點(diǎn)實(shí)現(xiàn)了多重信號(hào)分類(MUSIC)和自適應(yīng)數(shù)字波束形成(ADBF)的核心算法,提高了5G通信和雷達(dá)抗干擾能力。另外,為了方便客戶使用高層語言開發(fā),加速云提供基于FPGA完整的OpenCL異構(gòu)開發(fā)環(huán)境,快速實(shí)現(xiàn)用戶自定義的信號(hào)處理加速方案。如下圖為采用加速云數(shù)字信號(hào)解決方案的ADBF(自適應(yīng)數(shù)字波束形成)解決方案的相關(guān)性能。
邊緣計(jì)算解決方案?,F(xiàn)在工業(yè)控制領(lǐng)域面臨著三大趨勢(shì):日益復(fù)雜的控制算法、低延時(shí)和高帶寬的工業(yè)控制總線,以及人工智能的工業(yè)應(yīng)用,這對(duì)工業(yè)控制處理系統(tǒng)提出了包括高計(jì)算性能、強(qiáng)實(shí)時(shí)性、多IO接口能力等更高的要求。針對(duì)此,加速云采用高性能Intel Arria10 GX660器件的智能工控解決方案具有模塊化設(shè)計(jì)、強(qiáng)實(shí)時(shí)特性、高性能的算法IP加速和完整的OpenCL異構(gòu)開發(fā)環(huán)境,可以實(shí)現(xiàn)新一代高性能邊緣計(jì)算網(wǎng)關(guān),應(yīng)用于各種工業(yè)環(huán)境。
基于FPGA的異構(gòu)計(jì)算將是計(jì)算架構(gòu)的未來趨勢(shì)
加速云創(chuàng)始人兼CEO鄔剛表示:“人工智能已經(jīng)進(jìn)入我們的生活,但是未來發(fā)展還存在瓶頸,需要硬件技術(shù)和算法方面的突破。異構(gòu)計(jì)算是計(jì)算架構(gòu)的未來趨勢(shì),而FPGA 是實(shí)現(xiàn)異構(gòu)計(jì)算的完美選擇。加速云創(chuàng)新的異構(gòu)計(jì)算加速平臺(tái)解決方案,具有高性能、高效率、低延時(shí)特性以及可編程性和遠(yuǎn)程可重構(gòu)能力,非常適合云上的彈性業(yè)務(wù)的需求。我們希望能夠通過我們的技術(shù),幫助更多的企業(yè)實(shí)現(xiàn)深度學(xué)習(xí),在大數(shù)據(jù)時(shí)代贏得先機(jī)?!?/p>
評(píng)論