大模型市場,不止帶火HBM
近日,HBM 成為芯片行業(yè)的火熱話題。據 TrendForce 預測,2023 年高帶寬內存(HBM)比特量預計將達到 2.9 億 GB,同比增長約 60%,2024 年預計將進一步增長 30%。2008 年被 AMD 提出的 HBM 內存概念,在 2013 年被 SK 海力士通過 TSV 技術得以實現,問世 10 年后 HBM 似乎真的來到了大規(guī)模商業(yè)化的時代。
本文引用地址:http://m.butianyuan.cn/article/202307/448547.htmHBM 的概念的起飛與 AIGC 的火爆有直接關系。AI 服務器對帶寬提出了更高的要求,與 DDR SDRAM 相比,HBM 具有更高的帶寬和更低的能耗。超高的帶寬讓 HBM 成為了高性能 GPU 的核心組件,HBM 基本是 AI 服務器的標配。目前,HBM 成本在 AI 服務器成本中占比排名第三,約占 9%,單機平均售價高達 18,000 美元。
自從去年 ChatGPT 出現以來,大模型市場就開始了高速增長,國內市場方面,百度、阿里、科大訊飛、商湯、華為等科技巨頭接連宣布將訓練自己的 AI 大模型。TrendForce 預測,2025 年將有 5 個相當于 ChatGPT 的大型 AIGC、25 個 Midjourney 的中型 AIGC 產品、80 個小型 AIGC 產品,即使是全球所需的最小計算能力資源也可能需要 145,600 至 233,700 個英偉達 A100 GPU。這些都是 HBM 的潛在增長空間。
2023 年開年以來,三星、SK 海力士 HBM 訂單就快速增加,HBM 的價格也水漲船高,近期 HBM3 規(guī)格 DRAM 價格上漲了 5 倍。三星已收到 AMD 與英偉達的訂單,以增加 HBM 供應。SK 海力士已著手擴建 HBM 產線,目標將 HBM 產能翻倍。韓媒報道,三星計劃投資約 7.6 億美元擴產 HBM,目標明年底之前將 HBM 產能提高一倍,公司已下達主要設備訂單。
HBM 在 AIGC 中的優(yōu)勢
直接地說,HBM 將會讓服務器的計算能力得到提升。由于短時間內處理大量數據,AI 服務器對帶寬提出了更高的要求。HBM 的作用類似于數據的「中轉站」,就是將使用的每一幀、每一幅圖像等圖像數據保存到幀緩存區(qū)中,等待 GPU 調用。與傳統內存技術相比,HBM 具有更高帶寬、更多 I/O 數量、更低功耗、更小尺寸,能夠讓 AI 服務器在數據處理量和傳輸速率有大幅提升。
來源:rambus
可以看到 HBM 在帶寬方面有著「碾壓」級的優(yōu)勢。如果 HBM2E 在 1024 位寬接口上以 3.6Gbps 的速度運行,那么就可以得到每秒 3.7Tb 的帶寬,這是 LPDDR5 或 DDR4 帶寬的 18 倍以上。
除了帶寬優(yōu)勢,HBM 可以節(jié)省面積,進而在系統中安裝更多 GPU。HBM 內存由與 GPU 位于同一物理封裝上的內存堆棧組成。
這樣的架構意味著與傳統的 GDDR5/6 內存設計相比,可節(jié)省大量功耗和面積,從而允許系統中安裝更多 GPU。隨著 HPC、AI 和數據分析數據集的規(guī)模不斷增長,計算問題變得越來越復雜,GPU 內存容量和帶寬也越來越大是一種必需品。H100 SXM5 GPU 通過支持 80 GB(五個堆棧)快速 HBM3 內存,提供超過 3 TB/秒的內存帶寬,是 A100 內存帶寬的 2 倍。
過去對于 HBM 來說,價格是一個限制因素。但現在大模型市場上正處于百家爭鳴時期,對于布局大模型的巨頭們來說時間就是金錢,因此「貴有貴的道理」的 HBM 成為了大模型巨頭的新寵。隨著高端 GPU 需求的逐步提升,HBM 開始成為 AI 服務器的標配。
目前英偉達的 A100 及 H100,各搭載達 80GB 的 HBM2e 及 HBM3,在其最新整合 CPU 及 GPU 的 Grace Hopper 芯片中,單顆芯片 HBM 搭載容量再提升 20%,達 96GB。
AMD 的 MI300 也搭配 HBM3,其中,MI300A 容量與前一代相同為 128GB,更高端 MI300X 則達 192GB,提升了 50%。
預期 Google 將于 2023 年下半年積極擴大與 Broadcom 合作開發(fā) AISC AI 加速芯片 TPU 也計劃搭載 HBM 存儲器,以擴建 AI 基礎設施。
存儲廠商加速布局
這樣的「錢景」讓存儲巨頭們加速對 HBM 內存的布局。目前,全球前三大存儲芯片制造商正將更多產能轉移至生產 HBM,但由于調整產能需要時間,很難迅速增加 HBM 產量,預計未來兩年 HBM 供應仍將緊張。
HBM 的市場主要還是被三大 DRAM 巨頭把握。不過不同于 DRAM 市場被三星領先,SK 海力士在 HBM 市場上發(fā)展的更好。如開頭所說,SK 海力士開發(fā)了第一個 HBM 產品。2023 年 4 月,SK 海力士宣布開發(fā)出首個 24GB HBM3 DRAM 產品,該產品用 TSV 技術將 12 個比現有芯片薄 40% 的單品 DRAM 芯片垂直堆疊,實現了與 16GB 產品相同的高度。同時,SK 海力士計劃在 2023 年下半年準備具備 8Gbps 數據傳輸性能的 HBM3E 樣品,并將于 2024 年投入量產。
國內半導體公司對 HBM 的布局大多圍繞著封裝及接口領域。
國芯科技目前正在研究規(guī)劃合封多 HBM 內存的 2.5D 的芯片封裝技術,積極推進 Chiplet 技術的研發(fā)和應用。
通富微電公司 2.5D/3D 生產線建成后,將實現國內在 HBM 高性能封裝技術領域的突破。
佰維存儲已推出高性能內存芯片和內存模組,將保持對 HBM 技術的持續(xù)關注。
瀾起科技 PCIe 5.0/CXL 2.0 Retimer 芯片實現量產,該芯片是瀾起科技 PCIe 4.0 Retimer 產品的關鍵升級,可為業(yè)界提供穩(wěn)定可靠的高帶寬、低延遲 PCIe 5.0/ CXL 2.0 互連解決方案。
HBM 雖好但仍需冷靜,HBM 現在依舊處于相對早期的階段,其未來還有很長的一段路要走。而可預見的是,隨著越來越多的廠商在 AI 和機器學習等領域不斷發(fā)力,內存產品設計的復雜性正在快速上升,并對帶寬提出了更高的要求,不斷上升的寬帶需求將持續(xù)驅動 HBM 發(fā)展。
HBM 火熱反映了 AIGC 的帶動能力。那么除了 HBM 和 GPU,是否還有別的產品在這波新風潮中能夠順勢發(fā)展?
談談其他被帶火的芯片
FPGA 的優(yōu)勢開始顯現
FPGA(Field Programmable Gate Array,現場可編程門陣列)是一種集成電路,具有可編程的邏輯元件、存儲器和互連資源。不同于 ASIC(專用集成電路),FPGA 具備靈活性、可定制性、并行處理能力、易于升級等優(yōu)勢。
通過編程,用戶可以隨時改變 FPGA 的應用場景,FPGA 可以模擬 CPU、GPU 等硬件的各種并行運算。因此,在業(yè)內也被稱為「萬能芯片」。
FPGA 對底層模型頻繁變化的人工智能推理需求很有意義。FPGA 的可編程性超過了 FPGA 使用的典型經濟性。需要明確的是,FPGA 不會成為使用數千個 GPU 的大規(guī)模人工智能系統的有力競爭對手,但隨著人工智能進一步滲透到電子領域,FPGA 的應用范圍將會擴大。
FPGA 相比 GPU 的優(yōu)勢在于更低的功耗和時延。GPU 無法很好地利用片上內存,需要頻繁讀取片外的 DRAM,因此功耗非常高。FPGA 可以靈活運用片上存儲,因此功耗遠低于 GPU。
6 月 27 日,AMD 宣布推出 AMD Versal Premium VP1902 自適應片上系統(SoC),是基于 FPGA 的自適應 SoC。這是一款仿真級、基于小芯片的設備,能夠簡化日益復雜的半導體設計的驗證。據悉,AMD VP1902 將成為全球最大的 FPGA,對比上一代產品(Xilinx VU19P),新的 VP1902 增加了 Versal 功能,并采用了小芯片設計,使 FPGA 的關鍵性能增加了一倍以上。
東興證券研報認為,FPGA 憑借其架構帶來的時延和功耗優(yōu)勢,在 AI 推理中具有非常大的優(yōu)勢。浙商證券此前研報亦指出,除了 GPU 以外,CPU+FPGA 的方案也能夠滿足 AI 龐大的算力需求。
不同于 HBM 被海外公司壟斷,國內公司 FPGA 芯片已經有所積累。
安路科技主營業(yè)務為 FPGA 芯片和專用 EDA 軟件的研發(fā)、設計和銷售,產品已廣泛應用于工業(yè)控制、網絡通信、消費電子等領域。紫光國微子公司紫光同創(chuàng)是專業(yè)的 FPGA 公司,設計和銷售通用 FPGA 芯片。紫光國微曾在業(yè)績說明會上表示,公司的 FPGA 芯片可以用于 AI 領域。東土科技主要開展 FPGA 芯片的產業(yè)化工作,公司參股公司中科億海微團隊自主開發(fā)了支撐其 FPGA 產品應用開發(fā)的 EDA 軟件。
國產替代新思路:存算一體+Chiplet
能否利用我們現在可用的工藝和技術來開發(fā)在性能上可以跟英偉達對標的 AI 芯片呢?一些「新思路」出現了,例如存算一體+Chiplet。
存算分離會導致算力瓶頸。AI 技術的快速發(fā)展,使得算力需求呈爆炸式增長。在后摩爾時代,存儲帶寬制約了計算系統的有效帶寬,系統算力增長步履維艱。例如,8 塊 1080TI 從頭訓練 BERT 模型需 99 天。存算一體架構沒有深度多層級存儲的概念,所有的計算都放在存儲器內實現,從而消除了因為存算異構帶來的存儲墻及相應的額外開銷;存儲墻的消除可大量減少數據搬運,不但提升了數據傳輸和處理速度,而且能效比得以數倍提升。
一方面,存算一體架構與傳統架構處理器處理同等算力所需的功耗會降低;另一方面,存算一體的數據狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統架構的編譯墻。
美國亞利桑那州立大學的學者于 2021 年發(fā)布了一種基于 Chiplet 的 IMC 架構基準測試仿真器 SIAM, 用于評估這種新型架構在 AI 大模型訓練上的潛力。SIAM 集成了器件、電路、架構、片上網絡 (NoC)、封裝網絡 (NoP) 和 DRAM 訪問模型,以實現一種端到端的高性能計算系統。SIAM 在支持深度神經網絡 (DNN) 方面具有可擴展性,可針對各種網絡結構和配置進行定制。其研究團隊通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數據集對不同的先進 DNN 進行基準測試來展示 SIAM 的靈活性、可擴展性和仿真速度。據稱,相對于英偉達 V100 和 T4 GPU, 通過 SIAM 獲得的 chiplet +IMC 架構顯示 ResNet-50 在 ImageNet 數據集上的能效分別提高了 130 和 72。
這意味著,存算一體 AI 芯片有希望借助 Chiplet 技術和 2.5D / 3D 堆疊封裝技術實現異構集成,從而形成大型計算系統。存算一體 + Chiplet 組合似乎是一種可行的實現方式,據稱億鑄科技正在這條路上探索,其第一代存算一體 AI 大算力商用芯片可實現單卡算力 500T 以上,功耗在 75W 以內。也許這將開啟 AI 算力第二增長曲線的序幕。
結語
世界人工智能大會上,AMD CEO 蘇姿豐表示,未來十年一定會出現一個大型計算超級周期,因此,目前正是一個成為技術供應商的好時機,同時也是與一些將會利用這些技術開發(fā)不同應用的客戶合作的好時機。
沒有人想要一個只有一個主導者的行業(yè)。大模型市場能否讓芯片行業(yè)擁有新的市場格局,能否讓新玩家出現?
「大模型市場對芯片行業(yè)帶來了新的市場格局和機會。通過推動 AI 芯片的發(fā)展、促進云計算和數據中心市場的增長以及引發(fā)競爭格局變化,大模型的興起為芯片行業(yè)帶來了新的發(fā)展方向。
需要注意的是,芯片行業(yè)是一個高度競爭和技術密集的行業(yè)。進入該行業(yè)需要龐大的資金和技術資源,以滿足復雜的制造和研發(fā)要求。盡管大模型市場為新玩家提供了機會,但他們需要克服技術、資金和市場等方面的挑戰(zhàn),才能在競爭激烈的芯片行業(yè)中獲得成功?!笴hatgpt 如是回應。
評論