Achronix的FPGA技術可優(yōu)化用于工業(yè)4.0及5.0的人工智能(WP027)
簡介
在過去三百年間,工業(yè)領域取得了長足的進步。機器設備最初于18世紀問世,主要以水和蒸汽為動力,并引發(fā)了18世紀末的工業(yè)革命(通常被稱為工業(yè)1.0)。盡管流水組裝線的概念可以追溯到中國古代的青花瓷制作,但直到19世紀末,亨利·福特才設立了第一條電動流水線,形成了工業(yè)2.0的框架。
自動化和計算機技術于1960年代末期開始嶄露頭角,并構成了工業(yè)3.0的雛形,為如今驅動著工業(yè)4.0的自動化、人工智能(AI)和網絡化解決方案鋪平了道路。雖然這幅圖景中似乎已經看不見人類的身影,但工業(yè)5.0將帶領我們返璞歸真,利用AI驅動的機器人系統(tǒng)所具有的精準和高效,與人類大腦的奇思妙想和實時思考有機結合,創(chuàng)造出更理想的制造環(huán)境。
圖1 工業(yè)技術的演進
人工智能
人工智能(AI)是計算機科學的一個分支,主要專注于開發(fā)能夠模擬人類行為的機器。這類設備的范疇林林總總,從可以簡單地執(zhí)行算法,到可以自主從周邊環(huán)境中學習、無需人類介入便自行調節(jié)算法。機器學習(ML)是人工智能的子集,它通過運用數據集衍生的統(tǒng)計模型來改進特定任務。作為機器學習的子集,深度學習(DL)運用了多層神經網絡,不僅能執(zhí)行基礎的機器學習推理,還能學習新的數據,從而獲得更高層的認知能力(見下圖)。在本篇白皮書中,所有機器學習和深度學習都將被簡稱為ML。
圖2 人工智能/機器學習/深度學習譜圖
人工智能(AI)的常見用例包括先進駕駛輔助系統(tǒng)(ADAS),即自動駕駛汽車的支柱;語音識別及合成(例如華為的Celia);醫(yī)療診斷;數據與網絡安全;金融服務預測性模型(例如電子化交易),或電商與流媒體服務推薦;當然還有工業(yè)制造。
隨著工業(yè)4.0在2010年代早期進一步演進,使得AI在制造環(huán)境中的重要性與日俱增。如今,許多應用都會利用AI來促進制造和業(yè)務經營、流程、安保和供應鏈等更加流暢高效。通過運用預測性算法,AI可以監(jiān)控設備狀況,優(yōu)化維護日程,最終還能預報機械故障。
與制造相關的物料供應鏈管理也可以充分發(fā)揮預測算法的優(yōu)勢,保障流程能夠順利、高效地持續(xù)運作。AI算法還可以參考過往和現(xiàn)在的商業(yè)需求,從而協(xié)助預測未來的業(yè)務。這些AI系統(tǒng)可以與供應鏈和庫存管理系統(tǒng)結合,加快獲利時效,降低間接成本。機器人早在工業(yè)3.0就成為了其中重要的組成部分。而在我們即將迎來工業(yè)5.0之際,這些機器人系統(tǒng)必須擁有適應性的AI算法(主要為DL算法)。它們不僅需要自主學習,還必需能夠解讀人類的實時輸入。低時延的實時適應能力也將成為不可或缺的要素。
AI之外的生態(tài)系統(tǒng)組件
在持續(xù)興旺發(fā)展的工業(yè)4.0和正在演進的工業(yè)5.0中,AI依然是一個重要的組成部分。然而,AI算法的蓬勃發(fā)展離不開實時數據。物聯(lián)網(IoT)是由互聯(lián)的電子設備組成的系統(tǒng),可以從模擬和數字世界中獲取與接收數據。時間、壓力、溫度、速度、角度及視聽數據源必須經過采集,隨后轉換成結構化數據,各類基于AI的系統(tǒng)才能對其進行分析和控制。和4G網絡相比,自2019年起部署的5G網絡(在韓國率先部署)可提供100倍的帶寬(最高可達10 Gbps)和500倍的信道數量。5G網絡與IoT結合之后,海量的輸入數據在計算機領域中引出了一種新范式,即對數據加速器的需求。
數據加速器
在海量的數據面前,數據中心處理數據的負擔以及發(fā)現(xiàn)數據背后的意義這些工作,已經令傳統(tǒng)的計算服務器模式不堪重負。過去應對數據激增的方法就是在數據中心增添服務器。服務器安裝規(guī)模的提升不僅提高了資本性支出,再加上設備的運行和冷卻需要消耗更多能源,營運性支出也隨之水漲船高。
取決于數據加速器的類型與負載,服務器中單個數據加速器的運算能力可以與15臺服務器匹敵,從而大幅削減了資本性支出和營運性支出?;谟布臄祿铀倨鬟€帶來了更多效益,例如較低的時延和更高的穩(wěn)定性,這在車輛自動駕駛、工業(yè)4.0/5.0、金融服務和其他對時延要求較高的用例中效果尤為突出。優(yōu)秀的數據加速器還有最后一項特征,它具備了出色的靈活性,能夠適應ML/DL算法的變化,包括算法本身的調整、負載的變化和/或ML/DL算法數據集的更新。
數據加速的賽場上有三種各異的硬件方式,即GPU、FPGA和定制ASIC。如下圖所示。CPU的靈活性始終是最出色的,但與其他專用數據加速器相比,在能耗、性能和成本方面存在一定的劣勢。其它選項便是GPU、ASIC和FPGA。ASIC的效率與性能最為出色,但功能完全固定,缺乏必需的靈活性,無法適應AI算法的變化、新興技術的參數改動、供應商要求和負載優(yōu)化。GPU是傳統(tǒng)核心數據中心的主力,僅限于純粹運算這樣的使用場景,而不能提供大多數場景中需要利用到的聯(lián)網與存儲加速的能力,并且能耗和成本較高。FPGA可以加速聯(lián)網、運算和存儲,速度與ASIC相仿,也具備了必需的靈活性,能夠為如今的核心與邊緣數據中心提供理想的數據加速。除了數據加速之外,F(xiàn)PGA還將在傳感器融合和傳入數據流合并等領域發(fā)揮關鍵作用,為數據消費打下了堅實的基礎。
圖3 CPU、GPU、FPGA和ASIC的對比
Achronix提供的精選產品
Achronix為AI/ML運算、聯(lián)網和存儲應用開發(fā)了基于FPGA的數據加速產品。與其他高性能FPGA企業(yè)不同,Achronix可同時提供獨立FPGA芯片和嵌入式FPGA半導體知識產權(IP)解決方案。除了獨立的FPGA芯片和eFPGA IP之外,Achronix還提供基于PCIe的加速卡,可用于開發(fā)、實地測試或生產等應用場景。
采用臺積電7納米工藝打造的Speedster?7t系列FPGA擁有業(yè)界最快的輸入/輸出速度,可支持400 GbE、PCIe Gen5和雙存儲接口:標準DDR4和GDDR6存儲接口可以帶來的驚人速度,相較于DDR4提高了600%。如果數據無法輕松通達FPGA邏輯陣列,高速接口便無法發(fā)揮太多作用。
為了避免遇到這一瓶頸,Achronix從架構增加了二維片上網絡(2D NoC),能夠有效充當所有外部輸入/輸出數據的高速通道,增強了FPGA內部的功能單元塊和FPGA邏輯陣列本身。這種2D NoC實現(xiàn)了超過20 Tbps的雙向帶寬,遠遠超過了輸入/輸出和功能塊的總帶寬需求,消除了片內通信的時延問題。
在對成本、性能與能耗有較高敏感度的大批量應用場景中,用戶通常會采用ASIC,但這時又該如何滿足對靈活性的需求呢?無論是算法的演變、需求變化、供應商和經營者的具體要求、協(xié)議適配,還是功能系統(tǒng)單元塊的多樣接口,它們都對靈活性提出了一定程度的要求。
Speedcore? eFPGA IP便是這一問題的最終答案,它可令ASIC能夠具備“恰到好處”的靈活性。其中查找表(LUT)、內存、DSP/MLP和2D NoC的資源量與組合方式可由ASIC開發(fā)者決定,Achronix則會為他們的ASIC或SoC設計提供集成在芯片上的定制IP。
VectorPath?加速卡是采用PCIe外形結構的硬件加速平臺,可以考慮用作評估、開發(fā)與現(xiàn)場測試工具,或也可以用于量產應用。該解決方案也可以根據用戶的具體要求量身定制。
結語
AI、ML和DL將繼續(xù)推動工業(yè)4.0和5.0的發(fā)展,使生產力與效率更上層樓。在IoT和5G技術的協(xié)助下,自動化和機器人將與人類的奇思妙想和創(chuàng)造力融為一體,孕育出人類在10年前未曾想象的制造環(huán)境。FPGA促成了傳感器融合,能夠與眾多物聯(lián)網設備連接,充分把握制造環(huán)境下人工智能系統(tǒng)所需的高性能與靈活性之間的平衡。
評論