清華大學電子工程系主任汪玉：中國的AI生態(tài)，需要各環(huán)節(jié)全流程優(yōu)化

作者：時間：2024-01-31 來源：AI 先行者沙龍實錄

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

非常榮幸，能夠在這里分享我自己對于大模型這個行業(yè)目前的一些認識。首先說一下我，我是清華大學電子工程系的教授，今天在座各位可能做算法和應用比較多。但我是一位做硬件、芯片和基礎軟件更多的學者，以及有過一定的創(chuàng)業(yè)經(jīng)歷，所以從我的角度來給大家去講一講我怎么去看人工智能，特別是這一波大模型的發(fā)展。

本文引用地址：http://m.butianyuan.cn/article/202401/455247.htm

大模型這一次出來以后對于 AIGC、自動駕駛、科學計算，特別是我最感興趣的機器人方向有著非常大的促進作用，作為電子系的系主任，每年 9 月份我都會在新生的迎新活動上講話。在跟這 200 多名新生去分析未來從事行業(yè)的時候，其中有一個方向就會去講機器人這個方面。這幾年的高考人數(shù)還比較多，競爭是比較激烈的，因為當年是 1800 萬的出生人口，到了去年和前年大概是 800 萬左右的出生人口。我每次問他們說，同學們你們看一看我今年 40 多歲了，為祖國可以健康工作到 50 歲，甚至更多，等我到了七八十歲，也就是 30 年以后誰來照顧我是一個問題。那個時候人不夠了，2050 年贍養(yǎng)老人的壓力是很大的，因為我們的 GDP 要發(fā)展，GDP 等于什么？GDP=人數(shù)×人均 GDP?，F(xiàn)在中國經(jīng)濟發(fā)展的基本特征由高速增長轉向高質量發(fā)展，那就提高人均 GDP，但是如果人口降了，光提高人均 GDP 可能也趕不上，所以我們還是要大力推動機器人這個行業(yè)。

我們可以看見中國服務機器人的產(chǎn)量已經(jīng)在進一步提升，當然目前還是完成一些相對簡單的任務，但已經(jīng)開始深入千家萬戶。我以這個舉例子，我們可以看到在通用機器人，包括人形機器人領域，一方面需要很多決策算法，我們可以看到狀態(tài)空間不斷地增大，用更大的算力和更好的算法能夠解決更復雜的問題。另外一個層面，感知的能力在不斷升級?？梢钥吹轿覀冞@幾年包括像 Google、特斯拉這樣的企業(yè)，實踐過程中都是把感知、決策和控制集合在一起了，這是一個很大的系統(tǒng)。

在這么大的系統(tǒng)里面，要用端到端的大模型，在其中實時進行操作，這對于計算量、響應速度、吞吐量都有很高的要求，所以這一類應用場景就給我們提出了「硬件怎么樣能夠跟上軟件的發(fā)展」，甚至是「支撐軟件的發(fā)展」的更高要求。

從我的角度來看，我覺得主要有三個方面的挑戰(zhàn)：

第一，當然這也是面向中國大陸非常重要的挑戰(zhàn)，從 2022 年到 2023 年兩次的法案對算力的限制、對芯片的限制。

第二，現(xiàn)在推理和包括訓練的成本是非常高的，在座的各位做創(chuàng)業(yè)也好、大公司也好，都會面臨這樣的一個挑戰(zhàn)。

第三，我們中國其實是比較獨特的一類算法和芯片的生態(tài)，怎么樣能夠去更好地推動這樣一個生態(tài)的發(fā)展，其實也是現(xiàn)在面臨的一個很重要的挑戰(zhàn)。

首先，芯片和算力。

芯片是我最了解的東西，從設計、制造，到測試封裝，最后造出來，這里面中國的產(chǎn)業(yè)鏈并不是完全自主可控的，有很多環(huán)節(jié)需要進口，比如說 EDA 的軟件最大的幾家都是美國的，制造生產(chǎn)過程中的一些關鍵的材料、設備，其實中國都還在努力追趕的過程中。

芯片的制造，包括剛才說了 1017 法案限制了我們芯片算力的密度，中國正在討論 1Tops/Watt 的設計（就是每瓦能夠提供 1T 次運算）。人腦的功耗大概是 20 瓦，在有一些任務上我們類比了一下則需要 1000Tops/Watt 這樣的指標，那怎么樣通過芯片做到 Tops，甚至幾百 T 幾千 Tops/Watt？在過去幾年里，計算芯片從大概 1G 次 Tops/Watt 做到了 10Tops、甚至 100Tops，通過尺寸微縮的紅利，實現(xiàn)了各種各樣的專用處理器。現(xiàn)在我們開始關注做近存儲計算和存內計算，因為數(shù)據(jù)搬運比數(shù)據(jù)計算更費電了，搬數(shù)（帶寬）更加復雜；再進一步，我們也在看有沒有不用硅基芯片，不用微電子，而用光電子去做的芯片，這是我們所關注的一系列研究方向。PPT 右側是講機器人領域，機器人是異構的，這里我們不展開?？偟膩碚f，我們有各種各樣的路徑，比如說通過設計新的芯片架構，能夠提高每瓦特的算力。

另外一個方面，其實大模型的發(fā)展需要很高的互聯(lián)的帶寬。從推導出的數(shù)據(jù)中，我希望大家能夠看到很多信息，比如說通信量，根據(jù)實驗室理論計算，GPT-3 所需要的互聯(lián)帶寬是 1380TB/s，一個英偉達的卡它自帶的 600GB/s 互聯(lián)帶寬與這一需求之間的差距是很大的，這也是為什么需要把很多很多塊卡聯(lián)在一起，才能把這個模型訓練出來?，F(xiàn)在計算性能的提升比帶寬的增速要大，目前在中國的互聯(lián)應用場景里，怎么樣把機器連起來是非常費勁的。

算力受限之后，比如訓練 GPT-4 是用到 2.4 萬張 A100 GPU（當我們進口的單卡能力受限了，而且我們自己的芯片能力本身不如 A100 的話），那么我可能需要 10 萬塊算力卡才能完成這些計算工作。但這 10 萬塊卡怎么互聯(lián)在一起做訓練，這件事本身是對中國的 AI 系統(tǒng)能力提出的一個更高的、更難的需求，需要在系統(tǒng)層面進行突破。

大家簡單算一下，哪怕每一個卡或者每一臺機器出錯的概率是萬分之一，但連成十萬次的出錯概率，一定遠大于連成一萬次。出錯的概率如此大，這是一個非常難的課題。

其次，就是成本。

現(xiàn)在我們也看到了很多廠商都在做自己的模型，不管是做基礎模型，還是訓一個自己的垂類模型，成本都是非常不友好的。所以我也很期待看一看張拳石老師（下一位演講者），看看他們是怎么在學校里面做大模型的研究的。同時我們更需要跟工業(yè)界合作，因為訓練的成本確實是一個非常嚴肅的問題。

那么推理會好一些嗎？我們發(fā)現(xiàn)也不會。我們看到一些數(shù)據(jù)：按不同模型的類型、用戶數(shù)來算，算力費用=日活用戶×平均 token 使用數(shù)×單位 token 算力費用，自建算力集群的情況下，每天的費用是 690 萬。如果你要調用現(xiàn)有 API 來運營，費用會更高。所以如果 GPT-4 Turbo 每天服務 10 億的活躍用戶，每年算力成本是兩千多個億，雖然這個數(shù)今天不一定準確，但是數(shù)量級在這。我相信絕大多數(shù)中國的公司，收入是在億這個量級，肯定不是在千億這個量級，所以怎么樣去打平這個成本是非常難的一件事情。同樣，對于一個個體來說，如果一個用戶平均每天瀏覽 10 篇文章，一年的成本可能就是 5000 塊錢，試想誰愿意花 5000 塊錢來使用這樣一個單一功能？一定是不愿意的。

所以我們在思考大模型的成本，舉一些例子，比如《三體 3》全書 40 萬字，如果我用 GPT-4 Turbo 來去做估算，一次就需要大概幾十塊人民幣。這個量級讓我覺得這件事情不是剛需，可能一塊錢、一毛錢甚至一分錢以下才是我可以接受的。還有電商購物，我為了讓大家買一個 100 塊錢以內的東西，要花幾十塊錢勸他買或者幫他買嗎？這是不可能的。成本是大模型推理未來必須要考慮的，降低成本才有希望實現(xiàn)大規(guī)模商業(yè)應用。

我是一個做硬件的，我的角度去看，垂類模型一定是可以做到更小的。不需要千億級別參數(shù)，通過優(yōu)化模型這一側的大小，我們可以通過降低每一次調用的計算次數(shù)或存儲的次數(shù)，進而降低處理器的功耗；此外，我們會發(fā)現(xiàn)還有一些可能的方法，比如算法方面的優(yōu)化、對于模型本身的算子的優(yōu)化；來到云端，我們還可以做錯峰把閑置的算力用起來；以及我自己最擅長的芯片硬件層面，在端側做一類能夠跑大模型的硬件，專用于大模型的高效計算等。

通過這一整套從算法到芯片的協(xié)同優(yōu)化工作，大家想一想如果成本能夠降低 4 個數(shù)量級的話，從 100 塊到 1 分錢級別，我相信很多習以為常的事情就都可以用大模型了。

最后，是生態(tài)。

首先芯片層，絕大多數(shù)的人會直接在英偉達上搭建環(huán)境，很多西方國家也很郁悶，也被英偉達生態(tài)卡著。所以有些人試圖擺脫這種生態(tài)束縛，比如 Google 要做 TPU，以更低的價格來服務更多的用戶，但它的用戶目前還相對少。AMD 最近發(fā)布了一款 MI300，使股價一下子提高了很多，因為它有可能能夠跟英偉達 PK 了。其次是模型層，有很多模型，這一點大家都是一樣的。然后中間層，在美國至少大家會分層去做軟件服務以及一些軟件類的收費，所以在軟件中間層，可以看到已經(jīng)有一批企業(yè)在為這件事情努力，幫助這些模型公司把算力發(fā)揮到極致。

而在中國，模型層我們有「百模大戰(zhàn)」，芯片層是我比較熟悉的，有看到一些芯片廠商，有十家到二十家還不錯的企業(yè)，正在努力突破巨頭的束縛，也有一些初創(chuàng)企業(yè)正在融資。在模型層和芯片層之間，怎么做高效的部署，也是一個非常重要的話題。

我們也在思考，是不是應該有一類相對統(tǒng)一的中間層，能夠支持長文本、能夠做到更高的性價比、能夠做到一鍵部署，并且里面有一些工具可以輔助算法和應用的開發(fā)商們。把算法壓縮、算子優(yōu)化包括自動編譯全都囊括在內，這樣做成的一類中間層，是有望把 M 個大模型和 N 個硬件更好地匹配起來的，這是一個理想，我們做理想的同時就得去找資金，一塊來干這個事情。所以最近我們也在努力地做這樣一個中間層，作為在云端優(yōu)化不同的中國的（當然也有英偉達和 AMD）算力的第一步，以此來支撐更多不同的模型。

中國的大模型生態(tài)，最后是需要應用、模型、算法框架開發(fā)平臺和基礎設施聯(lián)合起來做的，今天我看了看日程，絕大部分不是討論硬件的，所以把我硬件放在第一個，謝謝知乎舉辦了這么好一個活動，將大家匯聚到一起，去思考大模型應該怎么走。

新聞中心

清華大學電子工程系主任汪玉：中國的AI生態(tài)，需要各環(huán)節(jié)全流程優(yōu)化

評論

相關推薦

技術專區(qū)