軟銀計劃以AI供電為突破口，另辟蹊徑能否重新崛起？

作者：陳玲麗時間：2024-07-02 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

孫正義在旗下電信子公司軟銀公司的股東大會上發(fā)表講話稱，目前軟銀旗下的全資子公司SB Energy已經(jīng)在美國經(jīng)營再生能源發(fā)電業(yè)務，并將繼續(xù)在海外物色投資標的，加強發(fā)電業(yè)務，為全球人工智能項目提供電力。

本文引用地址：http://m.butianyuan.cn/article/202407/460561.htm

Part.01 新一波進化的種子

去年9月14日，ARM以當年美股最大的IPO交易登陸納斯達克，最新數(shù)據(jù)顯示，ARM的市值已經(jīng)達到約1664.28億美元（截至2025年7月1日），軟銀則持有ARM約90%左右的股份。同時，OpenAI打造的ChatGPT火遍全球，成為AI領域的現(xiàn)象級應用，引發(fā)了全球互聯(lián)網(wǎng)公司的AIGC“軍備競賽”，ARM也在加強AI芯片方向的布局，計劃在2025年推出首批產(chǎn)品，一旦建立批量生產(chǎn)體系，AI芯片業(yè)務可能會分拆出來置于軟銀旗下。

之前失敗的經(jīng)歷讓孫正義急切地尋找一枚新的種子，“All in AI”的野心證明了人工智能就是這枚種子。現(xiàn)在，孫正義找到了投資更明確的方向 —— AI供電業(yè)務。當前，生成式人工智能技術的基礎就是以數(shù)據(jù)和算力堆疊為標志的大模型，其訓練和應用需要大量的算力支持，算力背后則是算力基礎設施耗電所帶來的巨大電能需求。

AI究竟能消耗多少電量？如果更直觀地去看AI行業(yè)的能源需求，國際能源署今年初發(fā)布的報顯示，一次谷歌搜索平均耗電0.3瓦時，而ChatGPT響應一條請求平均耗電2.9瓦時。以谷歌每天處理90億次搜索計算，換算成ChatGPT處理這些請求，一年將需要多消耗100億千瓦時（1千瓦時相當于1度電）的額外電力。

埃隆·馬斯克表示電力缺口最早可能會在2025年發(fā)生，成為制約AI發(fā)展的主要因素；OpenAl的創(chuàng)始人山姆·奧特曼認為，未來AI技術的發(fā)展將高度依賴于能源，特別是光伏和儲能技術的進步；英偉達CEO黃仁勛也表示，人工智能的未來發(fā)展與狀態(tài)和儲能緊密相連，不應僅僅關注計算力，而是需要更全面地考慮能源消耗問題。

隨著生成式人工智能的廣泛應用，預計到2027年，整個人工智能行業(yè)每年將消耗85至134太瓦時（1太瓦時=10億千瓦時）的電力，這顯示了AI技術對電力資源的巨大需求。有業(yè)內(nèi)人士表示，大模型訓練成本中60%都是電費。

Part.02 AI背后的電力革命

AI大模型對電力的消耗主要體現(xiàn)在模型訓練和推理環(huán)節(jié)：在訓練階段，首先需要收集和預處理大量的文本數(shù)據(jù)用作輸入數(shù)據(jù)，然后在適當?shù)哪Ｐ图軜?gòu)中初始化模型參數(shù)，處理輸入的數(shù)據(jù)，嘗試生成輸出，再根據(jù)輸出與預想之間的差異，反復調(diào)整參數(shù)，直到模型的性能不再顯著提高為止；而在推理階段中，則會先加載已經(jīng)訓練好的模型參數(shù)，預處理需要推理的文本數(shù)據(jù)，再讓模型根據(jù)學習到的語言規(guī)律生成輸出。

無論是訓練還是推理階段，都是一連串信息重組過程，模型的參數(shù)量越大，需要處理的數(shù)據(jù)越多，所需的計算量也就越大，所消耗的能量也就越大，而ChatGPT這樣基于大語言模型的生成式人工智能需要大量的數(shù)據(jù)集。GPT-3模型擁有1750億參數(shù)，而據(jù)推測GPT-4擁有1.8萬億參數(shù)，是GPT-3的十倍。要訓練這種規(guī)模的模型，需要在大規(guī)模數(shù)據(jù)集上反復迭代，每一次迭代都需要計算和調(diào)整其中數(shù)十億、數(shù)百億乃至數(shù)千億個參數(shù)的值。

大模型的參數(shù)和數(shù)據(jù)規(guī)模越大，其智能效果就越好。在大模型中，“Scaling Laws”（規(guī)模效應）意味著當參數(shù)和數(shù)據(jù)規(guī)模大到一定程度時，大模型的智能表現(xiàn)將出現(xiàn)躍升，也就是“智能涌現(xiàn)”。以OpenAI為代表的人工智能公司在“Scaling Laws”的驅(qū)使下，還在持續(xù)增加大模型的參數(shù)和數(shù)據(jù)規(guī)模，以求實現(xiàn)通用人工智能（AGI）的目標，造成短期內(nèi)算力需求和電能需求的巨大提升。

參數(shù)量的激增將導致能耗顯著增加，在OpenAI訓練大語言模型GPT-4時，完成一次訓練需要約三個月時間，使用大約25000塊英偉達A100 GPU。每塊A100 GPU都擁有540億個晶體管，功耗400瓦，每秒鐘可以進行19.5萬億次單精度浮點數(shù)的運算，僅僅是這些GPU一次訓練就用了2.4億度電。

除了模型訓練以外，AI在推理階段的耗能也不容忽視，推理即大模型響應用戶需求的過程，大模型單次響應用戶需求的耗電量并不大，但隨著用戶規(guī)模的增加，耗電量也將不斷累積并增大。在有限時空范圍內(nèi)進行大模型訓練，會給局部電網(wǎng)帶來非常大的用電負荷，如果將10萬塊英偉達H00芯片部署在同一地區(qū)進行模型訓練，會導致電網(wǎng)崩潰。

Part.03 如何解決高耗能問題？

數(shù)據(jù)中心、智算中心等算力基礎設施是人工智能（AI）的數(shù)據(jù)中樞和算力載體，尤其是生成式人工智能（AIGC）和大模型技術的快速發(fā)展，算力需求激增，AI的能耗問題也越來越受到關注。不可否認，未來人工智能需要能源方面的突破，因為人工智能消耗的電力將遠遠超過人們的預期。隨著AI大模型的技術競爭進入縱深階段，行業(yè)開始將注意力轉(zhuǎn)向模型訓練所需的能源領域。

AI熱潮背后的電力短缺風險成為科技圈內(nèi)熱議的焦點，在業(yè)內(nèi)人士看來，這背后核心原因在于AI大模型訓練所消耗的電力主要集中在數(shù)據(jù)中心領域，而當前數(shù)據(jù)中心建設正面臨著供需錯配的結(jié)構(gòu)性難題。而且AI模型的規(guī)模不斷擴大，電力成本也在不斷上升，一些數(shù)據(jù)中心運營商為了應對運行AI應用程序產(chǎn)生的額外成本，已經(jīng)開始提高商業(yè)租賃價格。

于AI巨大的能源需求，當前不少科技巨頭均在“未雨綢繆”，為AI的長遠發(fā)展積蓄電力。當下的重點在于開源，風能、光伏等可再生新能源被視作數(shù)據(jù)中心重要的能量池，核能尤其被寄予厚望。

· 微軟與能源創(chuàng)業(yè)公司Helion Energy簽訂購電協(xié)議，宣布2028年將從Helion Energy構(gòu)建的第一座核聚變發(fā)電廠購買電力。

· OpenAI也開始與Helion Energy接觸，計劃從它的核聚變電廠中采購大量電力用于支持其數(shù)據(jù)中心的運營。值得注意的是，奧特曼自身就向Helion Energy投資了3.75億美元，這也是他有史以來最大的一筆個人出資。

· 亞馬遜云服務公司（AWS）收購美國賓夕法尼亞州一座數(shù)據(jù)中心園區(qū)，據(jù)了解，該園區(qū)就是從鄰近的核電站獲取電力。

由于幾乎無限的燃料供應、環(huán)境友好、能量密度高、安全性高，核聚變被視為解決能源危機和氣候變化問題的關鍵技術。得益于多個國家和私營企業(yè)的積極參與以及技術突破，全球核聚變商業(yè)化的進展正在加速。此外，數(shù)據(jù)中心還可以通過智能算法來優(yōu)化能源使用效率，實現(xiàn)AI與電網(wǎng)的協(xié)同發(fā)展。

面對未來可能發(fā)生AI“缺電”的情況，需要尋找合適的解法，讓有限的電力能源可以容納更大的算力規(guī)模。從需求角度看，優(yōu)化模型本身的算法和架構(gòu)、硬件優(yōu)化、提升芯片效率和算力效率等，被認為是降低AI能耗的有效途徑，是接下來的重點研發(fā)方向。

算法和模型優(yōu)化：通過算法優(yōu)化，如剪枝（pruning）、量化（quantization）、蒸餾（distillation）等技術，以及模型壓縮技術，減少模型的復雜度，同時保持或接近原有的性能。近年來提出的一些輕量級模型（如MobileNet）就是為了低功耗場景而設計的。

硬件優(yōu)化：開發(fā)和使用更高效的AI專用硬件，如英偉達開發(fā)的GPU T4和A100，谷歌開發(fā)的TPU（Tensor Processing Unit），這些硬件專為AI任務設計，能夠在更低的能耗下提供更高的計算效率。

調(diào)整訓練和計算技巧：訓練技巧是一種通過調(diào)整神經(jīng)網(wǎng)絡的訓練過程來優(yōu)化計算資源的方法，例如，分布式訓練技術可以利用多臺計算機分擔大規(guī)模計算的負荷；另外，將AI計算任務從云端轉(zhuǎn)移到邊緣設備，這樣可以減少數(shù)據(jù)傳輸所需的能量，并利用邊緣設備的低功耗特性。

提高數(shù)據(jù)中心的能效：通過優(yōu)化數(shù)據(jù)中心的設計和管理，提高電源使用效率，例如，使用更高效的冷卻系統(tǒng)或者通過AI技術動態(tài)調(diào)整數(shù)據(jù)中心的運行狀態(tài)以降低能耗。

Part.04 AI不僅費電，還費水

AI公司通常依賴數(shù)據(jù)中心來提供必要的計算資源，這些數(shù)據(jù)中心不僅需要電力來運行服務器，還需要大量的電力來維持冷卻系統(tǒng)，以防止設備過熱。除了耗電，算力設備的冷卻需求讓AI的耗水量也讓人瞠目結(jié)舌 —— 服務器消耗的電能絕大部分轉(zhuǎn)化成了熱能，最后通過水冷系統(tǒng)釋放出來，費電的背后還費水。

谷歌發(fā)布的2023年環(huán)境報告顯示，公司前一年的用水量同比顯著增加了20%，達到56億加侖（21198305立方米），而其中絕大部分都被用于為該公司的數(shù)據(jù)中心散熱。而這并不是個例，估算訓練GPT-3所需的清水量相當于填滿一個核反應堆的冷卻塔所需的水量。ChatGPT（在GPT-3推出之后）每與用戶交流25到50個問題，就得“喝下”一瓶500毫升的水來降溫。

當前數(shù)據(jù)中心耗水也成為制約數(shù)據(jù)中心快速發(fā)展的因素之一，很多企業(yè)嘗試用各種方法為數(shù)據(jù)中心散熱，例如，微軟曾嘗試部署海下數(shù)據(jù)中心，F(xiàn)acebook數(shù)據(jù)中心選址北極圈附近，阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷。

在AI快速進步的道路上，對水資源的消耗也不斷加碼升級，要對AI進行大量訓練也就意味著需要更強的算力中心和與之匹配的散熱能力。實際上，AI本質(zhì)上是一種計算機技術和處理信息的技術，背后則需要大量GPU芯片，更底層則是大量電能、水力、風能、資金等資源的支持。