新聞中心

EEPW首頁 > EDA/PCB > 市場分析 > 人工智能行業(yè)深度報(bào)告:AI下半場,應(yīng)用落地,賦能百業(yè)

人工智能行業(yè)深度報(bào)告:AI下半場,應(yīng)用落地,賦能百業(yè)

作者: 時(shí)間:2023-12-07 來源:未來智庫 收藏

2022 年 11 月底,Open 發(fā)布了人機(jī)對(duì)話模型 ChatGPT,在兩個(gè)月不到的時(shí)間內(nèi)其線上活躍用戶規(guī)模超 過 1 億人,生成式大模型受到越來越廣泛的關(guān)注,人工智能行業(yè)進(jìn)入到以大模型為代表的快速發(fā)展階段,巨量 參數(shù)和智能涌現(xiàn)是這一輪人工智能變革的典型特征。微軟、谷歌、Meta、亞馬遜等全球科技巨頭將大模型視為 重要的發(fā)展機(jī)遇,在生成式大模型領(lǐng)域加速布局,積極投入且成果頻頻。我國的眾多互聯(lián)網(wǎng)廠商和人工智能企 業(yè)也積極投身到大模型領(lǐng)域中,百度、訊飛、阿里、華為、騰訊、商湯等企業(yè)也在快速更迭自己的大模型,同 時(shí)高校、科研院所也積極投身大模型產(chǎn)業(yè),取得了顯著成果。

本文引用地址:http://m.butianyuan.cn/article/202312/453677.htm

1.1.1 國內(nèi)外大模型發(fā)展情況

國外大模型起步相對(duì)較早,2021 年進(jìn)入到快速發(fā)展期。2017 年 Transformer 模型的誕生可以被視為大模型 行業(yè)的開端,谷歌、Open、微軟、英偉達(dá)等大型科技企業(yè)引領(lǐng)了早期的技術(shù)探索,在 2020-2021 年間逐步確 立了大模型的整體技術(shù)路徑,國外大模型行業(yè)開始加速發(fā)展。根據(jù)賽迪顧問數(shù)據(jù),截止 2023 年 7 月底,國外大 模型累計(jì)發(fā)布 138 個(gè),其中美國發(fā)布 114 個(gè),大模型數(shù)量大幅領(lǐng)先。從 2020 年起,更多國家的企業(yè)和科研單位 逐步加入到大模型的研發(fā)中,韓國、日本、法國模型數(shù)量位列美國之后。國外已發(fā)布的大模型主要集中在自然 語言和多模態(tài)兩類,其中自然語言占比 68%,多模態(tài)占比 18%,其他類型大模型合計(jì)占比 14%。


在大模型產(chǎn)業(yè)領(lǐng)域,中國緊跟國際前沿。2021 年起,中國也開啟了大模型的發(fā)布熱潮,涌現(xiàn)出一批有代表 性且具備影響力的大模型。受 ChatGPT 影響,國內(nèi)大模型在 2023 年進(jìn)入到高速發(fā)展階段,一時(shí)間呈現(xiàn)“百模 大戰(zhàn)”局面。根據(jù)賽迪顧問, 截止 2023 年 7 月底,中國累計(jì)發(fā)布了 130 個(gè)大模型,其中 64 個(gè)大模型是在 2023 年年內(nèi)發(fā)布。國內(nèi)大模型技術(shù)分布基本與海外一致,65%的大模型集中在自然語言領(lǐng)域,22%的大模型集中在多 模態(tài)領(lǐng)域。

1.1.2 國外大模型行業(yè)發(fā)展現(xiàn)狀

Open:模型性能一騎絕塵,引領(lǐng)大模型行業(yè)發(fā)展趨勢

2022 年底 ChatGPT 引爆社交網(wǎng)絡(luò),人工智能行業(yè)進(jìn)入到以大模型為主的快速發(fā)展階段。OpenAI 在 GPT-3.5 版本的基礎(chǔ)上,通過 3 個(gè)步驟實(shí)現(xiàn)基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)(RLHF),得到人機(jī)對(duì)話模型 ChatGPT。通過 與人類答案的對(duì)齊過程,顯著提升了大模型的人機(jī)對(duì)話體驗(yàn)。 GPT-4 具備卓越的文本處理能力,初步融合多模態(tài)能力,能力再度升級(jí)。2023 年 3 月 15 日,OpenAI 發(fā)布多模態(tài)預(yù)訓(xùn)練大模型 GPT-4,相較于過去的 GPT 系列模型,提升包括幾個(gè)方面,GPT-4 相較于 ChatGPT 有更強(qiáng) 的高級(jí)推理能力,相較于過去的 GPT 系列模型,GPT-4 在更多應(yīng)用領(lǐng)域成為專家,包括為機(jī)器學(xué)習(xí)模型評(píng)判標(biāo) 準(zhǔn)和為人類設(shè)計(jì)的專業(yè)測試,從“百科全書”逐步成為文理通吃的“專家”。 GPT-4 在可控性和真實(shí)性方面較 ChatGPT 有大幅提升。

2023 年 9 月 25 日,OpenAI 再度開放了帶視覺能力的 GPT-4V,用戶能夠指導(dǎo) GPT-4 分析用戶提供的 圖像。在輸入 GPT-4V 支持格式方面,其支持處理圖像、子圖像、文本、場景文本和視覺指針(visual pointers) 等多種輸入。此外,GPT-4V 還支持 LLMs 中支持的技術(shù),包括指令跟隨、思維鏈和上下文少樣本學(xué)習(xí)等。 GPT-4V 在處理任意交錯(cuò)的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性共同使 GPT-4V 成 為強(qiáng)大的多模態(tài)系統(tǒng)。 11 月 7 日,OpenAI 首次開發(fā)者大會(huì)發(fā)布了最新模型 GPT-4 Turbo,其作為一個(gè)標(biāo)準(zhǔn)化的 AI Agent,初 步具備了規(guī)劃和工具選擇的能力,可以自動(dòng)選擇接入互聯(lián)網(wǎng)、進(jìn)行數(shù)據(jù)分析、圖像生成等諸多功能,真正 進(jìn)化為了統(tǒng)一智能體。除了標(biāo)準(zhǔn)化的 GPT-4 以外,定制版的 GPTs 可以為用戶在日常生活、特定任務(wù)、工 作或家庭中提供幫助,用戶無需編寫代碼就可以創(chuàng)建屬于自己的定制化的智能助理,諸多定制化的 GPTs 的使用體驗(yàn)顯著優(yōu)于 GPT-4,GPTs 開啟了一個(gè)全民定制個(gè)人智能助理的浪潮。OpenAI 同時(shí)還將推出 GPT store 和 Assistants API,不斷打造 GPTs 開發(fā)者生態(tài)。

Google:深度學(xué)習(xí)研究的引領(lǐng)者,AI 技術(shù)產(chǎn)業(yè)落地先行者

在上一輪深度學(xué)習(xí)的 AI 革命中,AI 逐步達(dá)到了與人類媲美、甚至超越人類(部分場景)的水平,逐步走 入大眾視野,而 Google 和 Deepmind 是其中的的引領(lǐng)者。由 Google 和 Deepmind 提出的 Word2Vec、AlphaGo 等模型以及 sequence to sequence、深度強(qiáng)化學(xué)習(xí)等技術(shù)是上一輪 AI 革命乃至這一輪 AI 浪潮的開創(chuàng)性、奠基性 工作,推動(dòng)著 AI 技術(shù)的成熟與發(fā)展。在這一輪預(yù)訓(xùn)練大模型的 AI 浪潮中,AI 展現(xiàn)出在更多具體場景中強(qiáng)大的 應(yīng)用性能,逐步從學(xué)術(shù)研究走向商業(yè)化落地。 Google 在 2022 年 4 月推出了 PaLM 模型,其具有 5400 億參數(shù),基于 Transformer 的 Decoder 設(shè)計(jì),PaLM 模型在多個(gè)下游任務(wù)中具有優(yōu)異性能。5 月 11 日,Google 在最新一屆 I/O 開發(fā)者大會(huì)上官宣大語言模型 PaLM 2,稱其在部分任務(wù)上超越 GPT-4。PaLM 2 在超過 100 種語言的多語言文本上進(jìn)行了訓(xùn)練,這使得它在語言理 解、生成和翻譯上的能力更強(qiáng),并且會(huì)更加擅長常識(shí)推理、數(shù)學(xué)邏輯分析。PaLM 2 在大量公開可用的源代碼 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,這意味著它擅長流行的編程語言,如 Python 和 JavaScript,但也可以用 Prolog,F(xiàn)ortran 和 Verilog 等語言生成專門的代碼。

目前谷歌的聊天機(jī)器人 Bard 以及超過 25 個(gè) AI 產(chǎn)品和功能,都由 PaLM 2 作為底層技術(shù)支持。具體的表現(xiàn) 之一是 Duet AI,一款類似于微軟 365 Copilot 的產(chǎn)品、能夠內(nèi)嵌在各種辦公軟件中的 AI 助手?;?PaLM 2, 谷歌還推出了兩個(gè)專業(yè)領(lǐng)域大模型。一個(gè)是谷歌健康團(tuán)隊(duì)打造的 Med-PaLM 2。另一個(gè)專業(yè)大模型是面向網(wǎng)絡(luò)安 全維護(hù)的 Sec-PaLM 2,它使用人工智能來幫助分析和解釋潛在惡意腳本的行為,并在非常短的時(shí)間內(nèi)檢測哪些 腳本對(duì)個(gè)人和組織構(gòu)成威脅。

META:通過開源 LLaMa 等大模型,引領(lǐng)大模型開源生態(tài)

LLaMA:2023 年 2 月 25 日,Meta 官網(wǎng)公布了一個(gè)新的大型語言模型 LLaMA(Large Language Model Meta AI),從參數(shù)規(guī)模來看,Meta 提供有 70 億、130 億、330 億和 650 億四種參數(shù)規(guī)模的 LLaMA 模型,并用 20 種 語言進(jìn)行訓(xùn)練。Meta 推出的 LLaMA 參數(shù)規(guī)模有 70 億(7B)、130 億(13B)、330 億(33B)和 650 億(65B) 四種。LLaMA-13B 在大多數(shù)基準(zhǔn)測試中,參數(shù)僅為十分之一,但性能優(yōu)于 OpenAI 的 GPT-3(175B),而且能 跑在單個(gè) GPU 上。LLaMA-65B 與 DeepMind 700 億參數(shù)的 Chinchilla-70B 和谷歌 5400 億參數(shù)的 PaLM-540B 不 相上下。

LLaMA2:2023 年 7 月 19 日,Meta 發(fā)布了免費(fèi)商用版開源大模型 LLaMA2,各個(gè)企業(yè)能夠以相對(duì)低廉的 價(jià)格在該模型上開發(fā)應(yīng)用,為客戶提供自主的大模型。Meta 發(fā)布的 LLaMA 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體,訓(xùn)練數(shù)據(jù)采用了更新之后的混合數(shù)據(jù),模型方面采用文本輸入與文本輸出,預(yù)訓(xùn)練模型 在2萬億token上進(jìn)行訓(xùn)練,訓(xùn)練token總數(shù)相較于LLaMA 1增加了40%。LLaMA 2學(xué)術(shù)基準(zhǔn)測試優(yōu)于LLaMA1, 專業(yè)場景中能力進(jìn)一步提升。公布的測評(píng)結(jié)果顯示,LLaMA 2 在包括推理、編碼、精通性和知識(shí)測試等方面均 優(yōu)于相近訓(xùn)練參數(shù)下的 LLaMA 1。LLaMA 2 模型最大的變化除了性能提升,還體現(xiàn)在 B 端可以助力企業(yè)開發(fā)自 己的大模型,C 端可以豐富 AIGC 應(yīng)用,改變了以往大模型由多家科技巨頭壟斷的格局,AI 應(yīng)用實(shí)現(xiàn)加速落地。 目前,用戶已經(jīng)能夠在 Azure 平臺(tái)上微調(diào)和部署 7B、13B 和 70B 參數(shù)的 LLaMA 2 模型。

Meta 與微軟達(dá)成合作,聯(lián)手推動(dòng) AI 應(yīng)用的商業(yè)化落地。Meta 正式開源了 LLaMA 2 版本,可免費(fèi)用于商 業(yè)用途,微軟宣布攜手。最新版本的模型將在微軟的 Azure 和 Windows 平臺(tái)上線并開源,用戶可以在云服務(wù)中 使用 Llama 2 作為基礎(chǔ)模型,快速構(gòu)建適用于自身業(yè)務(wù)的專用大模型。目前,用戶已經(jīng)能夠在 Azure 平臺(tái)上微 調(diào)和部署 7B、13B 和 70B 參數(shù)的 LLaMA 2 模型。未來,LLaMA 將進(jìn)行優(yōu)化,以在 Windows 上本地運(yùn)行。

1.1.3 國內(nèi)大模型發(fā)展現(xiàn)狀

百度

從 2010 年的百度搜索開始,百度成立了自然語言部門,初步研究互聯(lián)網(wǎng)機(jī)器翻譯技術(shù),2013 年推出百度 語音助手,2014 年推出智能搜索小度機(jī)器人,2017 年推出智能客服。在長期的布局和發(fā)展中,百度構(gòu)建了完整 的語言與知識(shí)技術(shù)布局,包括知識(shí)圖譜、語言理解與生成技術(shù),以及上述技術(shù)所支持的包含智能搜索、機(jī)器翻 譯、對(duì)話系統(tǒng)、智能寫作、深度問答等在內(nèi)的的應(yīng)用系統(tǒng)。 2023 年 3 月 16 日,百度發(fā)布了生成式人工智能大模型“文心一言”。作為文心大模型家族的新成員,文心 一言在文心知識(shí)增強(qiáng)大模型 ERNIE 及對(duì)話大模型 PLATO 的基礎(chǔ)上研發(fā)。文心一言包含六大核心技術(shù)模塊,包 括:1)有監(jiān)督精調(diào);2)基于人類反饋的強(qiáng)化學(xué)習(xí);3)提示;4)知識(shí)增強(qiáng);5)檢索增強(qiáng);6)對(duì)話增強(qiáng),前 三類技術(shù)在目前流行的對(duì)話大模型如 ChatGPT 中都有所應(yīng)用,而后三類技術(shù)則是百度基于自身技術(shù)積累的再創(chuàng) 新,它們共同構(gòu)成了模型的技術(shù)基礎(chǔ)。

2023 年 5 月,百度文心大模型 3.5 版本已內(nèi)測可用,在基礎(chǔ)模型升級(jí)、精調(diào)技術(shù)創(chuàng)新、知識(shí)點(diǎn)增強(qiáng)、邏輯 推理增強(qiáng)、插件機(jī)制等方面創(chuàng)新突破,取得效果和效率的提升。2023 年 8 月 31 日,文心一言率先向全社會(huì)全 面開放。9 月 13 日,百度發(fā)布文心一言插件生態(tài)平臺(tái)“靈境矩陣”。文心一言面向全社會(huì)開放至百度世界 2023 大會(huì)召開期間,40 多天的時(shí)間,文心一言用戶規(guī)模已經(jīng)達(dá)到 4500 萬,開發(fā)者 5.4 萬,場景 4300 個(gè),應(yīng)用 825 個(gè),插件超過 500 個(gè)。 2023 年 10 月 17 日,百度世界大會(huì)上正式發(fā)布文心大模型 4.0。與原有的 3.5 版本相比,具有以下優(yōu)勢:1) 更強(qiáng)的模型能力和圖片生成能力。根據(jù)測試,文心大模型 4.0 版本在理解、生成、邏輯、記憶四大功能上都有 明顯提升,具有顯著優(yōu)化的模型性能。2)支持接入豐富的 API 插件,可以實(shí)現(xiàn)撰寫代碼、潤色文案、設(shè)計(jì)與繪 圖等多種功能。

文心一言成為首個(gè)國內(nèi)面向 C 端收費(fèi)的大模型產(chǎn)品。文心一言專業(yè)版的分為單獨(dú)訂閱和聯(lián)合會(huì)員兩種收費(fèi) 模式。單獨(dú)訂閱模式下,會(huì)員月付 59.9 元,選擇連續(xù)包月可以享受 49.9 元的優(yōu)惠價(jià)格;該模式下會(huì)員可以使 用文心一言大模型 3.5 和 4.0 兩個(gè)版本,而非會(huì)員只可使用免費(fèi)的文心大模型 3.5 版本。聯(lián)合模式下,用戶月 付 99 元,可以同時(shí)具有單獨(dú)訂閱模式的全部功能,并獲得文心一格白銀會(huì)員資格,享受 AI 修圖改圖等功能。

科大訊飛

隨著大語言模型爆火網(wǎng)絡(luò),公司自主研發(fā)了對(duì)標(biāo) ChatGPT 的星火大模型。星火大模型是基于深度學(xué)習(xí)、 以中文為核心的自然語言大模型,在跨領(lǐng)域多任務(wù)上具備類人的理解和生成能力,可實(shí)現(xiàn)基于自然對(duì)話方式的 用戶需求理解與任務(wù)執(zhí)行。 公司大模型不斷迭代進(jìn)步,能力實(shí)現(xiàn)全方位提升。2022 年 12 月 15 日,科大訊飛啟動(dòng)了“1+N 認(rèn)知智能大 模型專項(xiàng)攻關(guān)”。2023 年 5 月 6 日,訊飛推出星火認(rèn)知模型的 1.0 版本,七大核心能力發(fā)布,同時(shí)發(fā)布大模型評(píng) 測體系。6 月 9 日,星火升級(jí)至 1.5 版本,突破開放式問答、多輪對(duì)話能力和數(shù)學(xué)能力;8 月發(fā)布 2.0 版本,實(shí) 現(xiàn)多模態(tài)能力,同時(shí)代碼能力顯著提升。

星火 3.0 全面對(duì)標(biāo) ChatGPT。10 月 24 日,星火推出 3.0 版本,在語義理解、時(shí)效把握、代碼生成能力等 基礎(chǔ)功能上都有很大提升;在時(shí)空感知能力上表現(xiàn)突出;專業(yè)性能力基本無實(shí)時(shí)性錯(cuò)誤,尤其醫(yī)療能力水平,可以給出適時(shí)的診療提醒。全面對(duì)標(biāo) chatGPT,中文能力客觀測評(píng)超過 ChatGPT,英文能力對(duì)標(biāo) ChatGPT48 項(xiàng) 任務(wù)結(jié)果相當(dāng)。根據(jù)國務(wù)院發(fā)展研究中心經(jīng)濟(jì)研究院測評(píng)報(bào),星火大模型 3.0 綜合能力達(dá)到國際一流水平,在 醫(yī)療、法律、教育行業(yè)表現(xiàn)突出。訊飛同時(shí)發(fā)布十二個(gè)行業(yè)大模型,涵蓋金融、汽車交互、運(yùn)營商、工業(yè)、傳 媒、法律、政務(wù)、科技文獻(xiàn)、住建、物業(yè)、文旅、水利十二個(gè)領(lǐng)域。訊飛正式啟動(dòng)對(duì)標(biāo) GPT-4 的大模型訓(xùn)練, 2024 年上半年對(duì)標(biāo) GPT-4。

智譜

智譜 AI 致力于打造新一代認(rèn)知智能大模型,專注于做大模型的中國創(chuàng)新,通過認(rèn)知大模型鏈接物理世界的 億級(jí)用戶?;谕暾哪P蜕鷳B(tài)和全流程技術(shù)支持,智譜 AI 一方面重視研發(fā)超大規(guī)模訓(xùn)練模型,并基于此推出 對(duì)話模型 chatGLM;另一方面踐行 Model as a Service(MaaS)的市場理念,推出大模型 MaaS 開放平臺(tái)。 2023 年 3 月 14 日,ChatGLM1.0 開啟邀請(qǐng)制內(nèi)測。ChatGLM 參考 ChatGPT 的設(shè)計(jì)思路,在千億基座模型 GLM-130B 中注入代碼預(yù)訓(xùn)練,通過監(jiān)督微調(diào)等技術(shù)實(shí)現(xiàn)人類意圖對(duì)齊,具有支持雙語、高精度、快速推理、 可復(fù)現(xiàn)性和跨平臺(tái)等優(yōu)勢。同期開源的還有具有 62 億參數(shù)、支持中英文雙語對(duì)話的 ChatGLM-6B,雖然規(guī)模不 及千億模型,但大大降低了推理成本。 2023 年 6 月 27 日,第二代 ChatGLM 正式發(fā)布。在保留初代模型對(duì)話流暢、部署門檻低的基礎(chǔ)上引入更加 強(qiáng)大的性能、允許更多輪次的對(duì)話和更長的上下文、進(jìn)行更高效的推理、允許更開放的協(xié)議。2023 年 7 月 15 日,智譜 AI 宣布 ChatGLM 允許免費(fèi)商用。

商湯科技

商湯科技擁有深厚的學(xué)術(shù)積累,并長期投入于原創(chuàng)技術(shù)研究,不斷增強(qiáng)行業(yè)領(lǐng)先的多模態(tài)、多任務(wù)通用人 工智能能力,涵蓋感知智能、自然語言處理、決策智能、智能內(nèi)容生成等關(guān)鍵技術(shù)領(lǐng)域。2023 年 4 月 10 日, 商湯 SenseTime 舉辦技術(shù)交流日活動(dòng),分享了以“大模型+大算力”推進(jìn) AGI(通用人工智能)發(fā)展的戰(zhàn)略布局, 并公布了商湯在該戰(zhàn)略下的“日日新 SenseNova”大模型體系,推出自然語言處理、內(nèi)容生成、自動(dòng)化數(shù)據(jù)標(biāo) 注、自定義模型訓(xùn)練等多種大模型及能力。 依托自研千億級(jí)參數(shù)自然語言模型,商湯科技 4 月 10 日發(fā)布了中文語言大模型應(yīng)用平臺(tái)“商量 SenseChat”。 "商量SenseChat"是由商湯科技研發(fā)的一款基于自然語言處理技術(shù)的人工智能大語言模型,具備較強(qiáng)的語言理解、 生成能力,可以解決復(fù)雜問題,提供定制化建議,還能輔助創(chuàng)作文本,同時(shí)具備不斷學(xué)習(xí)進(jìn)化的特性。 7 月 7 日,“商量 SenseChat”迭代至 2.0 版本,其基模型為商湯聯(lián)合多家國內(nèi)頂級(jí)科研機(jī)構(gòu)發(fā)布的書生·浦語 InternLM-123B,擁有 1230 億參數(shù),在語言、知識(shí)、理解、推理和學(xué)科五大能力上均處于行業(yè)領(lǐng)先水平。

1.1.4 大模型行業(yè)整體發(fā)展評(píng)述

國外大模型發(fā)展趨勢: 美國人工智能企業(yè)引領(lǐng)行業(yè)發(fā)展。美國 OpenAI 的基礎(chǔ)大模型性能領(lǐng)先,目前已經(jīng)在基礎(chǔ)大模型上開始快 速構(gòu)建開發(fā)生態(tài),Google 也在發(fā)力追趕過程中,Meta 通過開源大模型構(gòu)建開源生態(tài)。美國在研發(fā)能力、人才儲(chǔ) 備、算力支持方面仍然占據(jù)一定優(yōu)勢。我們預(yù)期,海外大模型將沿著多個(gè)維度持續(xù)演進(jìn)。

更大的參數(shù)量、更多的訓(xùn)練文本依舊是大模型的主要發(fā)展路徑。 OpenAI 論文《Scaling Laws for Neural Language Models》中提出著名的縮放法則,縮放法則中提到模型表 現(xiàn)和規(guī)模強(qiáng)相關(guān),和模型的 shape 弱相關(guān):規(guī)模包括模型參數(shù)量 N、數(shù)據(jù)集大小 D 和計(jì)算量 C,模型 shape 指模 型 depth、width、number of self-attention heads。Palm-2 technical report 中提到,訓(xùn)練數(shù)據(jù)量和模型參數(shù)量大小保 持同比例增長是最優(yōu)組合。 目前最先進(jìn)的大模型 GPT-4 仍然高度符合縮放法則,簡而言之,模型越大性能越好,訓(xùn)練的數(shù)據(jù)量越大模 型性能越好,這條法則仍然成立。通過單純的增加模型參數(shù)量和訓(xùn)練數(shù)據(jù)量就可以實(shí)現(xiàn)更好的模型性能,可以 預(yù)期,在短期之內(nèi),不斷增加模型參數(shù)量依舊是提升模型性能的主要手段。

更多的模態(tài)到來,開啟全新的多模態(tài)時(shí)代。 文本、語音、圖片等單模態(tài)人工智能模型已經(jīng)相對(duì)成熟,大模型正在朝著多模態(tài)信息融合的方向快速發(fā)展。 圖文多模態(tài)技術(shù)已經(jīng)取得了顯著的進(jìn)步,未來大模型不止?jié)M足文字和圖像,開始向著音頻、視頻等領(lǐng)域拓展。

大模型的邏輯思維能力可能看到飛躍式提升。 大語言模型在文本的理解和生成上表現(xiàn)出色,但是涉及到數(shù)理邏輯推理時(shí)表現(xiàn)仍然有待提升。通過思維鏈、 思維樹的提示詞工程設(shè)計(jì),大語言模型能夠?qū)⒋笮腿蝿?wù)分解為較小且易于管理的子目標(biāo),內(nèi)部的邏輯一致性顯 著增長,從而高效地處理復(fù)雜任務(wù)。

AI Agent 將成為我們接觸大模型的主要媒介。AI Agent 是有能力主動(dòng)思考和行動(dòng)的智能體,它們能夠使用傳感器感知周圍環(huán)境,做出決策,然后使用執(zhí) 行器采取行動(dòng),甚至與別的 agent 合作實(shí)現(xiàn)任務(wù)。OpenAI 應(yīng)用研究主管 LilianWeng 提出了 AI Agent 的重要組成 公式:Agent =大語言模型(LLM) + 規(guī)劃能力(Planning) + 工具(Tool) + 記憶(Memory)。AI Agent 相 比大語言模型的提升在于:與環(huán)境交互、個(gè)性化記憶、主動(dòng)決策、合作機(jī)制。在生成式 AI 的不同應(yīng)用等級(jí)中, AI Agent 是比聊天機(jī)器人更高層級(jí)的應(yīng)用形態(tài)。

國內(nèi)大模型發(fā)展趨勢: 國內(nèi)大模型行整體依舊處于跟跑狀態(tài),目前國內(nèi)具備代表性的大模型在中文問答表現(xiàn)上已經(jīng)與 ChatGPT 不 相上下,短期之內(nèi)仍然是沿襲海外技術(shù)路線,模型規(guī)模的不斷增加和訓(xùn)練語料的不斷擴(kuò)充是當(dāng)前的主要任務(wù)。 同時(shí)國內(nèi)大模型的多模態(tài)能力仍處在起步發(fā)展階段,短期之內(nèi)有望看到多模態(tài)能力的快速提升。受 ChatGPT 驅(qū) 動(dòng),2023 年國內(nèi)大模型呈現(xiàn)迅猛發(fā)展局面,經(jīng)歷近一年時(shí)間,國內(nèi)大模型實(shí)現(xiàn)能力上的快速進(jìn)步。根據(jù)賽迪顧 問,截至 2023 年 7 月,中國累計(jì)已經(jīng)有 130 個(gè)大模型問世,其中有近一半的大模型在今年年內(nèi)問世。 同時(shí)國內(nèi)大模型的整體競爭格局也日益清晰,大致可以分為三類大模型:具備持續(xù)技術(shù)領(lǐng)先能力的閉源大 模型、具備領(lǐng)跑能力的開源大模型、具備垂類場景優(yōu)勢的垂類大模型。大模型的每一次迭代更新都需要大量的 研發(fā)投入和算力投入,在一年時(shí)間內(nèi)經(jīng)歷多次的迭代更新,如未見顯著的技術(shù)領(lǐng)先優(yōu)勢或特定場景的優(yōu)秀商業(yè) 模式,或?qū)o法維系大模型的持續(xù)投入。我們認(rèn)為,目前國內(nèi)大模型已經(jīng)經(jīng)過了高速發(fā)展的擴(kuò)張階段,預(yù)期將 見到模型擴(kuò)張速度的下降,競爭格局更為集中。

國內(nèi)大模型格局: 具備技術(shù)持續(xù)領(lǐng)先能力的大模型:優(yōu)秀的大模型人才、充足的算力資源、海量的優(yōu)質(zhì)數(shù)據(jù)、足夠的研發(fā)投 入是人工智能企業(yè)具備醞釀大模型的先決條件,在快速的迭代發(fā)展過程中,部分大模型展現(xiàn)出持續(xù)的技術(shù)領(lǐng)先 優(yōu)勢,典型如百度文心一言、科大訊飛星火大模型。具備技術(shù)優(yōu)勢的閉源大模型具備較強(qiáng)的變現(xiàn)能力。 開源大模型:開源大模型與頂尖的閉源大模型相比有一定的技術(shù)差距,其參數(shù)量和上下文窗口長度普遍相 對(duì)較小。但是開源模型借助社區(qū)的創(chuàng)新力量,實(shí)現(xiàn)了技術(shù)的快速迭代和應(yīng)用拓展,成為大模型行業(yè)發(fā)展的重要 支撐。 具備垂類場景優(yōu)勢的大模型:通用大模型可以幫助用戶解決一般性問題,而當(dāng)企業(yè)需要處理其特定行業(yè)的 數(shù)據(jù)和任務(wù)時(shí),往往需要針對(duì)其行業(yè)數(shù)據(jù)庫來對(duì)基本模型進(jìn)行微調(diào),垂直行業(yè)的特性和需求不盡相同,垂類場 景中的垂類數(shù)據(jù)是專業(yè)大模型競爭中的核心要素,專業(yè)數(shù)據(jù)驅(qū)動(dòng)垂類模型百花齊放。

大模型商業(yè)模式: 大模型 C 端商業(yè)模式:1)以純軟件的形態(tài)輸出聊天機(jī)器人、包含大模型能力的各類軟件(例如 copilot)、 AI Agent(GPTs)等產(chǎn)品;2)融合大模型能力的各類智能硬件,例如 AI pin、智能音響、翻譯機(jī)、學(xué)習(xí)機(jī)等。 大模型 B 端商業(yè)模式:1)出售大模型 API 接口,向公司或開發(fā)者按照調(diào)用次數(shù)收費(fèi);2)直接賣大模型 開發(fā)服務(wù),向傳統(tǒng)企業(yè)輸出大模型行業(yè)解決方案獲得收入;3)大模型配合 AI 服務(wù)器形成軟硬一體的產(chǎn)品,打 包向傳統(tǒng)企業(yè)輸出大模型行業(yè)解決方案;4)用大模型改造現(xiàn)有業(yè)務(wù),提高產(chǎn)品的競爭力獲得更多商業(yè)回報(bào),即 Model-As-A-Service (MaaS)模型即服務(wù)。

1.2 AI 前沿技術(shù)趨勢展望

1.2.1 AI Agent(AI 智能體)

AI Agent 指的是人工智能智能體,其能夠使用傳感器感知周圍環(huán)境,做出決策,并使用執(zhí)行器采取行動(dòng)。 OpenAI 應(yīng)用研究主管 LilianWeng 提出了重要公式:Agent = LLM(大型語言模型)+ 記憶 + 規(guī)劃技能 + 工 具使用。 大型語言模型為 AI Agent 帶來了革命性進(jìn)步,經(jīng)過四大發(fā)展階段,逐步具備了高效推理、靈活行動(dòng)、強(qiáng)大 的泛化以及無縫任務(wù)轉(zhuǎn)移的能力。發(fā)展歷程:AI Agent 經(jīng)歷了符號(hào)智能體、反映型智能體、基于強(qiáng)化學(xué)習(xí)的智 能體、具有遷移學(xué)習(xí)和元學(xué)習(xí)功能的智能體四大發(fā)展階段,現(xiàn)在已經(jīng)跨入基于大型語言模型的智能體階段。大 語言模型為 AI Agent 帶來了突破性的進(jìn)展,同時(shí)具備了以上四大發(fā)展階段的優(yōu)勢:1)通過思維鏈(CoT)和問 題分解等技術(shù),基于 LLM 的智能體可以表現(xiàn)出與符號(hào)智能體相當(dāng)?shù)耐评砗鸵?guī)劃能力;2)通過從反饋中學(xué)習(xí)和 執(zhí)行新的行動(dòng),獲得與環(huán)境互動(dòng)的能力,類似于反應(yīng)型智能體;3)大型語言模型在大規(guī)模語料庫中進(jìn)行預(yù)訓(xùn)練, 并顯示出泛化與遷移學(xué)習(xí)的能力;4)從而實(shí)現(xiàn)任務(wù)間的無縫轉(zhuǎn)移,而無需更新參數(shù)。 由于大模型仍存在大量的問題(如幻覺、上下文容量限制等),并且極度依賴于用戶自己給出指令,如果用 戶指令不夠清晰,就會(huì)影響整個(gè)模型的效果。能夠自己獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的 AI Agent 會(huì) 是從大模型通往 AGI 路上的下一個(gè)階段。

AI 智能體已經(jīng)在多個(gè)下游逐步應(yīng)用,包括社會(huì)科學(xué)、自然科學(xué)、工程學(xué)等領(lǐng)域,并表現(xiàn)出過去 AI 無法實(shí) 現(xiàn)的功能和性能。 自然科學(xué)領(lǐng)域中,AI Agent 主要應(yīng)用在科學(xué)教育中,在實(shí)驗(yàn)助理、文獻(xiàn)及數(shù)據(jù)管理方面也有所應(yīng)用。例如 卡耐基梅隆大學(xué)的研究人員在 2023 年 8 月 14 日提出的編程教育 Agent CodeHelp,其提供了設(shè)定課程關(guān)鍵詞、 監(jiān)控學(xué)生查詢以及提供反饋等功能。 工程學(xué)領(lǐng)域中,AI Agent 的應(yīng)用最為廣泛,其中機(jī)器人&具身智能、計(jì)算機(jī)科學(xué)&軟件工程、通用 Agent 是最主要的應(yīng)用場景。AutoGPT 是通用 Agent 的代表,其可以將設(shè)定好的一個(gè)或多個(gè)目標(biāo)分解為相應(yīng)的任務(wù)并 循環(huán)執(zhí)行。自 AutoGPT 引發(fā)廣泛關(guān)注以來,相關(guān)研究持續(xù)推進(jìn),如 MiniAGI、SuperAGI、AutoGen 等。 社會(huì)科學(xué)領(lǐng)域中,AI Agent 應(yīng)用在模擬實(shí)驗(yàn)、心理學(xué)、政治與經(jīng)濟(jì)學(xué)等場景中。例如著名的斯坦福小鎮(zhèn) (Generative Agents),其在虛擬城鎮(zhèn)中構(gòu)建了多個(gè) AI Agent 來模擬人類的日常生活,大大降低了社會(huì)學(xué)實(shí)驗(yàn)的 成本并避免了潛在的道德風(fēng)險(xiǎn)。 大語言模型具有強(qiáng)大的語言理解能力、復(fù)雜任務(wù)推理能力和知識(shí)積累,這些能力讓基于大語言模型的 AI Agent 在多個(gè)下游領(lǐng)域中展現(xiàn)出強(qiáng)大潛力,AI Agent 的發(fā)展也將讓大模型的“智慧”得以應(yīng)用于解決更多現(xiàn)實(shí) 場景的問題,拓寬 AI 應(yīng)用的邊界。目前 AI Agent 的技術(shù)框架已經(jīng)較為清晰,后續(xù)隨各環(huán)節(jié)的技術(shù)革新以及各 場景數(shù)據(jù)收集等的持續(xù)推進(jìn),AI Agent 將加速發(fā)展,值得持續(xù)關(guān)注。

以下舉例幾個(gè)在不同領(lǐng)域應(yīng)用的智能體實(shí)例:

1) 自然科學(xué)領(lǐng)域 AutoGPT&XAgent

AutoGPT 是一種開源的完全自動(dòng)化智能體。AutoGPT 通過 API 結(jié)合了 GPT-3.5 和 GPT-4,允許用戶創(chuàng)建 使用語言模型來生成和改進(jìn)文本。它可以閱讀、寫作和瀏覽網(wǎng)絡(luò),它根據(jù)任務(wù)目標(biāo)自己創(chuàng)建 prompt,然后再完 成這個(gè)任務(wù),接下來重復(fù)這個(gè)過程直到達(dá)到最終目標(biāo)。它還可以使用 GPT-4 編寫自己的代碼,并執(zhí)行 Python 腳 本以遞歸調(diào)試、開發(fā)、構(gòu)建和自我改進(jìn)。目前已開發(fā)的應(yīng)用場景包括:進(jìn)行市場調(diào)研、生成博客大綱、開發(fā)應(yīng) 用程序、搭建網(wǎng)站、為客戶提供服務(wù)、管理社交媒體賬號(hào)、成為財(cái)務(wù)顧問。 但目前 AutoGPT 的缺點(diǎn)也非常明顯,比如 GPT4 費(fèi)用較高,對(duì)于一個(gè)小任務(wù),如果按照平均 50 個(gè)步驟 來算的話,成本大概為 50 * 0.288 = 14.4 美元(約人民幣 98.5 元),此外 GPT 3.5 非常容易逃逸或者陷入死循 環(huán)。

2)工程學(xué)領(lǐng)域 MetaGPT

MetaGPT 是一個(gè)基于 GPT-4 的多智能體合作框架,該框架將人類的 SOP(標(biāo)準(zhǔn)化作業(yè)流程)編碼為 LLM 智能體,并從根本上擴(kuò)展了解決復(fù)雜問題的能力。設(shè)計(jì)了一個(gè)新的元編程機(jī)制,包括角色定義、任務(wù)分解、流 程標(biāo)準(zhǔn)化和其他技術(shù)設(shè)計(jì)。這樣,MetaGPT 能夠使用 SOP 開發(fā)復(fù)雜的軟件。 核心優(yōu)勢:1.引入元編程框架:在構(gòu)建多智能體系統(tǒng)時(shí)具有極高的便利性和靈活性。2.整合人類 SOP 過程 設(shè)計(jì):減少了基于 LLM 的多智能體協(xié)作中的錯(cuò)誤,顯著提高了穩(wěn)健性,使系統(tǒng)具備了系統(tǒng)化工程解決復(fù)雜任務(wù) 的能力。3.實(shí)現(xiàn)最先進(jìn)的性能:經(jīng)過對(duì) python 游戲生成、CRUD2 代碼生成和與 AutoGPT、AgentVerse、LangChain 以及 MetaGPT 一起的簡單數(shù)據(jù)分析任務(wù)進(jìn)行了全面實(shí)驗(yàn)。整體結(jié)果顯示 MetaGPT 在代碼質(zhì)量和預(yù)期工作流的 一致性方面都優(yōu)于其對(duì)手。并且,MetaGPT 有潛力解決 LLM 中的幻覺問題,從而引導(dǎo)協(xié)作的 LLM 系統(tǒng)朝更有 效的設(shè)計(jì)方向發(fā)展。

3)自然科學(xué)領(lǐng)域 Humanoid Agents

以往的 Agents 會(huì)根據(jù)環(huán)境制定嚴(yán)格的計(jì)劃,但事實(shí)上這一過程與人類的思維方式并不完全相似。大多數(shù)人 不會(huì)提前制定計(jì)劃,然后在日常生活中一絲不茍地精確執(zhí)行這些計(jì)劃,原因就在于 Agent 并沒有真正反映出人 類的基本需求、真實(shí)情感及人際間微妙的距離感。 為了減輕這一缺點(diǎn)的影響,研究者基于 ChatGPT 3.5 提出了仿人類機(jī)器人—Humanoid Agents,該模型引入 了基本需求(飽腹感、健康和能量)、情感和關(guān)系親密程度三大概念,來讓 Agent 表現(xiàn)得更像人類。利用這些元 素,Agents 就能調(diào)整自己的日常活動(dòng),以及和其他 Agent 的對(duì)話,而且也會(huì)像人一樣,遵守馬斯洛需求理論。 實(shí)驗(yàn)表明 Humanoid Agents 對(duì)于活動(dòng)是否增加飽腹感和能量;活動(dòng)中表達(dá)的情感;對(duì)話是否拉近了參與者之間 的關(guān)系都能夠進(jìn)行很好的預(yù)測,但是在分類活動(dòng)是否滿足樂趣、健康和社交等基本需求方面略顯吃力。 在陪伴場景下(如虛擬戀人),更了解人類情感的 Agent 可以帶給人更優(yōu)秀的情緒價(jià)值,提出更人性化的 建議,更好得滿足當(dāng)代人的情感需要。

1.2.2 混合專家模型技術(shù)

混合專家模型(MoE)是一種稀疏門控制的深度學(xué)習(xí)模型,主要由一組專家模型和一個(gè)門控模型組成。MoE 的基本理念是將輸入分割成多個(gè)區(qū)域,并對(duì)每個(gè)區(qū)域分配一個(gè)或多個(gè)專家模型。每個(gè)專家模型可以專注于處理輸入的一部分,從而提高模型的整體性能。 門控模型:稀疏門網(wǎng)絡(luò)是混合專家模型的一部分,它接收單個(gè)數(shù)據(jù)元素作為輸入,然后輸出一個(gè)權(quán)重,這 些權(quán)重表示每個(gè)專家模型對(duì)處理輸入數(shù)據(jù)的貢獻(xiàn)。例如,如果模型有兩個(gè)專家,輸出的概率可能為 0.7 和 0.3, 這意味著第一個(gè)專家對(duì)處理此數(shù)據(jù)的貢獻(xiàn)為 70%,第二個(gè)專家為 30%。 專家模型:在訓(xùn)練的過程中,輸入的數(shù)據(jù)被門控模型分配到不同的專家中進(jìn)行處理,如右圖所示,不同的 專家被分配到處理不同種類的輸入數(shù)據(jù);在推理的過程中,被門控選擇的專家會(huì)針對(duì)輸入的數(shù)據(jù),產(chǎn)生相應(yīng)的 輸出。 這些輸出(可以是標(biāo)簽或者數(shù)值) 最后會(huì)和每個(gè)專家模型處理該特征的能力分配的權(quán)重進(jìn)行加權(quán)組合, 形成最終的預(yù)測結(jié)果。 混合專家模型在訓(xùn)練過程中通過門控模型實(shí)現(xiàn)“因材施教”,進(jìn)而在推理過程中實(shí)現(xiàn)專家模型之間的“博 采眾長”。

混合專家模型通過僅激活少數(shù)專家模型處理輸入數(shù)據(jù),提高訓(xùn)練和推理效率。在傳統(tǒng)的密集模型中,對(duì)于 每一個(gè)輸入都需要在完整的模型中進(jìn)行計(jì)算。在稀疏混合專家模型中,處理輸入數(shù)據(jù)時(shí)只有少數(shù)專家模型被激 活或者使用,而大部分專家模型處于未被激活狀態(tài),這種狀態(tài)便是“稀疏”。稀疏性是混合專家模型的重要優(yōu) 點(diǎn),也是提升模型訓(xùn)練和推理過程的效率的關(guān)鍵。 對(duì)于稀疏性的控制,主要通過調(diào)整門控網(wǎng)絡(luò)的設(shè)計(jì)和參數(shù)來實(shí)現(xiàn)。在參數(shù)選擇上,如果門控網(wǎng)絡(luò)單次選擇 的專家模型數(shù)量較多,則模型的稀疏性就會(huì)降低。單次選擇專家的數(shù)量越多, 模型的表現(xiàn)能力可能有所提升, 因?yàn)楦嗟膶<夷P吞幚磔斎霐?shù)據(jù),所以導(dǎo)致稀疏性有所下降,增加計(jì)算的復(fù)雜性和耗時(shí)。因此, MoE 模型 的稀疏性在效率和表現(xiàn)能力之間存在權(quán)衡。根據(jù)不同的應(yīng)用需求和資源限制,需要適當(dāng)調(diào)整門控網(wǎng)絡(luò)的設(shè)計(jì)和 參數(shù),來找到最佳的效率和表現(xiàn)能力之間的平衡。

在自然語言處理領(lǐng)域中,2017 年,谷歌首次將 MoE 引入自然語言處理領(lǐng)域,通過在 LSTM 層之間增加 MoE 實(shí)現(xiàn)了機(jī)器翻譯方面的性能提升。2020 年,Gshard 首次將 MoE 技術(shù)引入 Transformer 架構(gòu)中,并提供了高效的 分布式并行計(jì)算架構(gòu)。而后的 Swtich Transformer 和 GLaM 則進(jìn)一步挖掘 MoE 技術(shù)在自然語言處理領(lǐng)域中的應(yīng) 用潛力,實(shí)現(xiàn)了優(yōu)秀的性能表現(xiàn)。 Switch Transformer:通過 MoE 技術(shù)對(duì)模型進(jìn)行拓展,最大版本的 Switch Transformer 的參數(shù)量高達(dá) 1.6 萬 億。因其優(yōu)秀的稀疏性,在計(jì)算資源相同的情況下,74 億版本的 Switch Transformer 訓(xùn)練速度可以達(dá)到 T5 模型 的 7/2.5 倍(對(duì)應(yīng) T5 模型的不同版本,Large 為 7.7 億,Base 為 2.2 億)。同時(shí)在多任務(wù)的表現(xiàn)上也取得了相比 密集模型更為優(yōu)秀的結(jié)果。 GLaM:最大的 GLaM 擁有 1.2 萬億個(gè)參數(shù),大約是 GPT-3 的 7 倍。然而,它只消耗了訓(xùn)練 GPT-3 所需能 量的 1/3,并在推理時(shí)只需要一半的計(jì)算浮點(diǎn)運(yùn)算量, 計(jì)算效率更高。在零樣本、單樣本和少樣本學(xué)習(xí)任務(wù)上 也實(shí)現(xiàn)了更好的性能,在七個(gè)具體任務(wù)中分別實(shí)現(xiàn)了平均 10.2%、6.3%和 4.4%的性能提升。

在計(jì)算機(jī)視覺領(lǐng)域中,2013 年的 DMoE 便是在 MNIST 數(shù)據(jù)集上使用了密集的 MoE 層,2021 年的 V-MoE 將 MoE 架構(gòu)應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域的 Transformer 架構(gòu)模型中,同時(shí)通過路由算法的改進(jìn)在相關(guān)任務(wù)中實(shí)現(xiàn)了 更高的訓(xùn)練效率和更優(yōu)秀的性能表現(xiàn)。 V-MoE 原理:V-MoE 通過將 ViT 中的一部分密集前饋層替換為稀疏的 MoE 層來實(shí)現(xiàn),每個(gè)圖像塊被“路 由”到一組“專家”(MLPs)中進(jìn)行處理,同時(shí)通過對(duì)圖像中重要信息的優(yōu)先分析(優(yōu)先級(jí)路由),使得模型可 以不需要分析所有信息便可以得到較為準(zhǔn)確的結(jié)果,對(duì)于鴨子的圖片,通過將其中重要的 16 個(gè) token 分配到 4 個(gè)專家處,便可以得到較為正確的分析,提升了模型運(yùn)算效率。 V-MoE 性能:通過使用稀疏的 MoE 層,V-MoE 可以在保持性能的同時(shí)減少計(jì)算資源的使用,從而實(shí)現(xiàn)更 高效的模型訓(xùn)練和推理。在兩個(gè)任務(wù)中,V-MoE 相較于 ViT 模型,達(dá)到相同性能的情況下節(jié)省了 2.5 倍的算力消耗,而在相同的算力消耗下,V-MoE 也實(shí)現(xiàn)了更優(yōu)的性能。 同時(shí),V-MoE 還可以用于其他計(jì)算 機(jī)視覺任務(wù),如目標(biāo)檢測和圖像生成。

在多模態(tài)領(lǐng)域中,2022 年的 LIMoE 是首個(gè)應(yīng)用了稀疏混合專家模型技術(shù)的多模態(tài)模型,模型性能相較于 CLIP 也有所提升。 LIMoE 原理:將輸入的圖像/文本通過門控網(wǎng)絡(luò)分配到不同的專家模型中,鴨子(drake)的圖 片和對(duì)應(yīng)的文字描述的 token 被分配到不同的專家中進(jìn)行處理,每個(gè)專家處理完后通過輸出層為圖像或文本生 成一個(gè)統(tǒng)一的向量表示。 LIMoE 性能:在零樣本和 10 樣本的 ImageNet 分類任務(wù)中,LIMoE 的絕對(duì)平均性能相較于 CLIP 實(shí)現(xiàn)了 10.1 和 12.2%的提升,在 Coco T2I(文本到圖像檢索)任務(wù)上,LIMoE 也實(shí)現(xiàn)了較為明顯的性能提升,其中在小規(guī) 模模型上這一提升更為顯著。

1.2.3 機(jī)器人大模型

1.2.3.1 人工智能模型推動(dòng)機(jī)器人控制革新

機(jī)器人控制系統(tǒng)相當(dāng)于機(jī)器人的大腦,機(jī)器人控制算法則是其中的軟件核心。其核心功能是處理來自傳感 器的檢測信號(hào),給出機(jī)器人下一步應(yīng)該怎么做的指示。與傳統(tǒng)的機(jī)械系統(tǒng)控制算法相比,機(jī)器人控制算法是非 線性、多變量、時(shí)變的,且相較于傳統(tǒng)機(jī)械,機(jī)器人面臨的應(yīng)用環(huán)境也更為復(fù)雜和多樣,這意味著機(jī)器人控制 算法有相當(dāng)高的設(shè)計(jì)難度。 早期機(jī)器人控制算法主要采用 PID 算法,后續(xù)復(fù)雜的運(yùn)動(dòng)控制算法如 MPC 和 WBC 逐漸成為主流。PID 算法早在 1932 年由物理學(xué)家哈利奈奎斯特,而后便被廣泛應(yīng)用在各類控制領(lǐng)域中,包括機(jī)器人控制領(lǐng)域中。但 由于 PID 方法本質(zhì)上是線性控制器,因此無法處理較為復(fù)雜的任務(wù)。而后 1987 年提出的 MPC 算法和 2004 年 提出的 WBC 算法逐漸成為主流,讓更為復(fù)雜任務(wù)的處理成為可能,但同時(shí)也還存在著計(jì)算復(fù)雜度高、算力需 求高的問題。

1.2.3.2 谷歌:機(jī)器人大模型引領(lǐng)者

隨著各項(xiàng)人工智能技術(shù)的不斷發(fā)展,具備與物理世界交互的強(qiáng)大潛力的智能機(jī)器人成為學(xué)界和業(yè)界的重要 研究賽道。其中 Google 依托其在 AI 領(lǐng)域強(qiáng)大的研究團(tuán)隊(duì),豐厚的多領(lǐng)域研究成果,引領(lǐng)著近年來機(jī)器人模型 的發(fā)展。Google Deepmind 在 2023 年 6 月和 7 月發(fā)布了其最新研究成果,具備“自我完善”能力的“RoboCat” 和融合大語言模型能力的 VLA 模型“RT-2”,機(jī)器人智能化進(jìn)一步加速,有望掀起新一輪 AI 革命。 從 Gato 到 RoboCat,更大規(guī)模的訓(xùn)練數(shù)據(jù)集和創(chuàng)新的自我完善方法助力打造更強(qiáng)的機(jī)器人智能體。在 2022 年 5 月提出的 Gato 模型將智能體擴(kuò)展到機(jī)器人控制領(lǐng)域中,但“通用性”和“智能性”仍有較大提升空間,其 模型架構(gòu)和控制任務(wù)數(shù)據(jù)的序列化方式是后續(xù)模型發(fā)展的重要基礎(chǔ)。2023 年 7 月提出的 RoboCat 則基于 Gato 的模型基礎(chǔ),將訓(xùn)練數(shù)據(jù)集擴(kuò)充至 400 萬個(gè)機(jī)器人相關(guān)片段,并創(chuàng)新性的提出“自我完善”的方式來進(jìn)一步豐 富訓(xùn)練數(shù)據(jù),這兩點(diǎn)創(chuàng)新讓 RoboCat 在實(shí)現(xiàn)了訓(xùn)練任務(wù)的性能提升并具備了一定的泛化性能,并且能夠在少量 數(shù)據(jù)微調(diào)的情況下處理未見過的任務(wù)。

1.2.3.3 Meta:持續(xù)探索在有限數(shù)據(jù)集情況下實(shí)現(xiàn)更優(yōu)秀機(jī)器人控制的方法

近年來,Meta 一直是 AI 領(lǐng)域不可忽視的力量,前沿研究如 CV 領(lǐng)域的 SAM 模型,NLP 領(lǐng)域的 LLaMa均是相關(guān)領(lǐng)域的最前沿技術(shù)之一。在機(jī)器人模型領(lǐng)域,Meta 也已經(jīng)展開了較為完善的布局,提出了一些卓有成 效的改進(jìn)策略如數(shù)據(jù)增強(qiáng)、動(dòng)作序列生成等,相關(guān)模型如 R3M、CACTI、ASC、MT-ACT 等,其他領(lǐng)域的核 心突破如 SAM 模型也應(yīng)用到了其中。 從 R3M 到 MT-ACT,Meta 持續(xù)探索如何使用有限的數(shù)據(jù)集實(shí)現(xiàn)更優(yōu)秀的機(jī)器人控制。在 2022 年 3 月推 出的 R3M 模型中,Meta 首次引入人類視頻數(shù)據(jù)作為機(jī)器人控制模型的知識(shí)來源,提升機(jī)器人模型訓(xùn)練效率。 在 2022 年 12 月推出的 CACTI 模型中,使用數(shù)據(jù)增強(qiáng)技術(shù)實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)規(guī)模高效擴(kuò)充。2023 年 8 月推出的 MT-ACT 模型將數(shù)據(jù)增強(qiáng)技術(shù)(基于 SAM 視覺模型)和動(dòng)作序列生成技術(shù)結(jié)合,在 7500 個(gè)原始訓(xùn)練數(shù)據(jù)的情 況下,在不同難度的測試中分別實(shí)現(xiàn)了 81.67%、65.17%、31.33%的成功率,小規(guī)模數(shù)據(jù)表現(xiàn)優(yōu)于其他可比模型。

二、AI 應(yīng)用趨勢展望

2.1 AI+教育是人工智能落地的黃金賽道

教育行業(yè)因?yàn)槠鋫€(gè)性化學(xué)習(xí)訴求強(qiáng)、數(shù)據(jù)豐富度高、付費(fèi)意愿強(qiáng),成為人工智能的優(yōu)質(zhì)落地領(lǐng)域。不同地 區(qū)、學(xué)校和學(xué)生具備“因材施教”強(qiáng)個(gè)性化學(xué)習(xí)需求,教育領(lǐng)域的高數(shù)據(jù)豐富度為垂直大模型的訓(xùn)練提供可能, 同時(shí),教育作為剛需領(lǐng)域,學(xué)生、家長付費(fèi)意愿普遍較強(qiáng)。AI 的發(fā)展使得以低成本的方式建設(shè)自適應(yīng)學(xué)習(xí)系統(tǒng) 成為可能。具備較強(qiáng)理解能力的生成式人工智能可以持續(xù)為學(xué)生提供個(gè)性化教學(xué)服務(wù),且隨著教學(xué)規(guī)模的擴(kuò)大, 其人均成本逐漸下降,顯著降低了個(gè)性化學(xué)習(xí)的成本。

AI+教育主要有以下三點(diǎn)優(yōu)勢: 一、教學(xué)環(huán)境及課程形式的靈活化。AI 技術(shù)的引入使得教學(xué)不再局限于課堂,學(xué)生可以隨時(shí)隨地獲得最新、 優(yōu)質(zhì)的學(xué)習(xí)資源,向 AI 助手請(qǐng)教。利用 AI 的高效多模態(tài)生成力,還可以呈現(xiàn)不同的課程形式營造更多的沉浸 感。 二、學(xué)習(xí)過程的個(gè)性化。AI 教育平臺(tái)往往具有教學(xué)、考試、批改、解答、集錯(cuò)等多重功能,通過分析學(xué)生 在考試過程中的用時(shí)分配、錯(cuò)題分類,發(fā)現(xiàn)學(xué)生薄弱環(huán)節(jié),針對(duì)性提供學(xué)習(xí)資源、個(gè)性化的學(xué)習(xí)方案和改進(jìn)方 案,即時(shí)給予反饋和評(píng)估。借助 AI 技術(shù),針對(duì)性輔導(dǎo)成本大大降低,教育更好地適應(yīng)每個(gè)學(xué)生的獨(dú)特需求和能 力水平。 三、教學(xué)活動(dòng)的降本增效。對(duì)于教育資源有限的地區(qū),相對(duì)較低成本的 AI 教育應(yīng)用使得高質(zhì)量資源更加 觸手可及,進(jìn)一步促進(jìn)教育公平;對(duì)于教學(xué)者,AI 軟件的批閱、評(píng)估功能大大減少了機(jī)械化勞動(dòng),使教師有更 多的精力投入到創(chuàng)造性的教學(xué)活動(dòng)中,提高了教學(xué)效率。 隨著生成式人工智能技術(shù)的爆發(fā),AI+教育邁向全新的發(fā)展階段。根據(jù) Market Research 數(shù)據(jù),生成式人工 智能在教育領(lǐng)域的市場規(guī)模將從 2022 年的 2.15 億美元上升至 2030 年的 27.4 億美元,CAGR 為 37.5%,其中面向?qū)W生端的市場規(guī)模大致占到全部市場規(guī)模的一半。

國家出臺(tái) AI+教育的綱領(lǐng)性文件,頂層規(guī)劃驅(qū)動(dòng)行業(yè)穩(wěn)步發(fā)展。2018 年 4 月,教育部發(fā)布《教育信息化 2.0 行動(dòng)計(jì)劃》,在行動(dòng)規(guī)劃上提出不斷推動(dòng)人工智能與教育深度融合,加快面向下一代網(wǎng)絡(luò)的高校智能學(xué)習(xí)體系建 設(shè)。2022 年 8 月,科技部發(fā)布《支持建設(shè)新一代人工智能示范應(yīng)用場景》,針對(duì)青少年教育中“備、教、練、測、 管”等關(guān)鍵環(huán)節(jié),運(yùn)用學(xué)習(xí)認(rèn)知狀態(tài)感知、無感知異地授課的智慧學(xué)習(xí)和智慧教室等關(guān)鍵技術(shù),構(gòu)建虛實(shí)融合與 跨平臺(tái)支撐的智能教育基礎(chǔ)環(huán)境。2023 年 6 月,教育部發(fā)布《基礎(chǔ)教育課程教學(xué)改革深化行動(dòng)方案》,強(qiáng)調(diào)探 索利用人工智能、虛擬現(xiàn)實(shí)等技術(shù)手段改進(jìn)和強(qiáng)化實(shí)驗(yàn)教學(xué)以及遴選一批富有特色的高水平科學(xué)教育和人工智 能教育中小學(xué)基地。

2.1.1 AI+教育軟件

AI+教育軟件是人工智能落地的重要領(lǐng)域,多鄰國與可汗學(xué)院是全球市場上的領(lǐng)跑者。 自 2021 年起,多鄰國與 Open AI 達(dá)成戰(zhàn)略合作,推動(dòng)了 AI 與教育的深度融合。在最新的 GPT-4 技術(shù)基礎(chǔ) 上,Duolingo 于 2023 年 3 月 14 日推出了家教功能,包括 Explain My Answer 和 Roleplay 兩大功能,并引入了 付費(fèi)層“Duolingo Max”,旨在進(jìn)一步實(shí)現(xiàn)“提供千人千面的個(gè)性化語言學(xué)習(xí)服務(wù)”的目標(biāo)。該付費(fèi)層不僅提供角色 扮演和解釋答案的功能,還新增了課堂教練,為用戶在提交答案之前提供小提示,優(yōu)化學(xué)習(xí)體驗(yàn)。Duolingo 接 入 GPT-4 后,月活用戶數(shù)實(shí)現(xiàn)大幅增長,2023Q3 月活躍用戶數(shù)(MAU)為 8310 萬人,同比增長 47.1%,其中 付費(fèi)訂閱用戶為 580 萬人,同比增長為 56.8%。付費(fèi)用戶數(shù)提升疊加會(huì)員費(fèi)的提升帶來公司盈利能力的不斷增 強(qiáng),公司 2023Q3 營業(yè)收入為 1.38 億美元,凈利潤為 281 萬美元,扭虧為盈。在財(cái)報(bào)電話會(huì)議中,多鄰國管理 層強(qiáng)調(diào)他們正在利用生成式 AI 技術(shù)加速 Stories 腳本的撰寫速度,使得完成任務(wù)更快、成本更低,同時(shí)質(zhì)量也 不會(huì)降低。這一戰(zhàn)略應(yīng)用使得多鄰國在 AI+教育領(lǐng)域具備獨(dú)特的優(yōu)勢:游戲化的語言教學(xué)為其形成了差異化競 爭策略,深厚的技術(shù)積累構(gòu)建了堅(jiān)實(shí)的技術(shù)壁壘,同時(shí)積極將生成式 AI 技術(shù)融入產(chǎn)品中,優(yōu)化用戶的學(xué)習(xí)體驗(yàn)。 至 2023 年 11 月 30 日,公司股價(jià)累計(jì)上漲了 77.4%,凸顯了其在 AI+教育賽道上的卓越表現(xiàn)。進(jìn)一步印證了多 鄰國在創(chuàng)新教育模式、提升用戶體驗(yàn)方面的成功實(shí)踐。

2.1.2 教育信息化

我國教育信息化發(fā)展從 1.0 走向 2.0 時(shí)代。教育信息化 1.0:三通兩平臺(tái)是教育信息化 1.0 核心,教育信息 化 1.0 主要涉及基礎(chǔ)設(shè)施建設(shè)。2007 年 2 月,教育部發(fā)布《教育部關(guān)于做好國家教育考試考務(wù)管理與服務(wù)平臺(tái) 相關(guān)工作的通知》,提出在 2009 年高考前,在全國范圍內(nèi)分批建立全方位發(fā)揮作用的國家教育考試指揮、管理、 監(jiān)控體系,隨后一些列政策逐漸開啟教育信息化 1.0 時(shí)代。教育信息化 2.0:從基礎(chǔ)設(shè)施建設(shè)走向信息融合與應(yīng) 用層面,核心是“三全兩高一大”。2018 年 4 月,教育部發(fā)布《教育信息化 2.0 行動(dòng)計(jì)劃》,提出到 2022 年基本 實(shí)現(xiàn)“三全兩高一大”的發(fā)展目標(biāo),教育信息建設(shè)從注重信息裝備建設(shè)走向信息的深度融合。

財(cái)政在教育信息化領(lǐng)域的經(jīng)費(fèi)投入是中國教育信息化市場發(fā)展的主要?jiǎng)恿?,教育信息化?jīng)費(fèi)占教育經(jīng)費(fèi)不 低于 8%,根據(jù)教育部公布的教育經(jīng)費(fèi)推算,2022 年教育信息化投入約 4908 億元,2014-2021 年中國教育信息 化經(jīng)費(fèi)投入復(fù)合增長率為 8.13%。根據(jù)《基礎(chǔ)教育信息化發(fā)展指數(shù)》,2019 年我國教育信息化經(jīng)費(fèi)投入中有 42.4% 的資金都用于硬件和相關(guān)設(shè)備的購置。海外教育信息化市場屬于后發(fā)市場,智能交互設(shè)備滲透率相對(duì)較低,整 體空間更為廣闊,市場增速相對(duì)更高。

2.1.3 教育智能硬件

智能硬件是指通過將硬件和軟件相結(jié)合對(duì)傳統(tǒng)設(shè)備進(jìn)行智能化改造,對(duì)硬件與軟件的優(yōu)勢進(jìn)行了充分融合。 我國智能硬件在政策加持、技術(shù)賦能、消費(fèi)升級(jí)等因素驅(qū)動(dòng)下,市場規(guī)模以較高增速增長。智能硬件產(chǎn)品廣泛 應(yīng)用于個(gè)人穿戴、養(yǎng)老陪伴、教育娛樂、運(yùn)動(dòng)健康等場景,為人民生活帶來智能化和便利化。智能學(xué)習(xí)設(shè)備服 務(wù)市場指旨在為學(xué)生提供教育服務(wù)的硬件設(shè)備市場,其最重要的特點(diǎn)是在提供教育服務(wù)過程中應(yīng)用智能技術(shù), 如 OCR 技術(shù)、AI 大模型應(yīng)用及信息技術(shù),以向?qū)W生及家長、教師提供更個(gè)性化的教育體驗(yàn)。

從應(yīng)用場景的角度來看,市場可以分類為主要服務(wù)于個(gè)人終端用戶的 To C 市場及提供數(shù)字校園教學(xué)解決方 案的 To B 市場。2021 年,中國的智能學(xué)習(xí)設(shè)備總市場規(guī)模達(dá)到 659 億元,預(yù)計(jì)到 2026 年,中國智能學(xué)習(xí)設(shè)備 的總市場規(guī)模將為 1450 億元,2021 年至 2026 年的復(fù)合年增長率為 17.1%。在政府持續(xù)支持并投入實(shí)現(xiàn)校園數(shù) 字化及智慧課堂升級(jí)的背景下,To B 分部于 2017 年至 2021 年經(jīng)歷高速增長,2021 年我國 B 端市場規(guī)模達(dá)到 330 億,2026 年有望達(dá)到 709 億。相比而言,To C 學(xué)習(xí)市場目標(biāo)人群較多,且輔助教育涵蓋從早教到成人教育, 有龐大及持續(xù)的需求。2021 年 To C 分部的市場規(guī)模為 329 億元,預(yù)計(jì) To C 分部持續(xù)穩(wěn)健增長至 2026 年的 741 億元。

從學(xué)習(xí)機(jī)市場結(jié)構(gòu)來看,以步步高和讀書郎為代表的傳統(tǒng)主流智能教育設(shè)備廠商,仍占據(jù)市場的主要份額。 以科大訊飛和網(wǎng)易有道為代表的新型品牌憑借人工智能技術(shù)的支持和高科技屬性迅速擴(kuò)大了市場規(guī)模。此外, 教育屬性極強(qiáng)的學(xué)而思和有道等轉(zhuǎn)型廠商也加入了市場競爭。根據(jù) IDC 數(shù)據(jù),2021 年國內(nèi)市場占有率最高的步 步高學(xué)習(xí)機(jī)占比高達(dá) 28.9%,第二名讀書郎份額 6.1%,科大訊飛以 4.0%位列第五。

2.2 自動(dòng)駕駛:算法架構(gòu)優(yōu)化,高階輔助駕駛滲透率預(yù)期提升

2.2.1 端到端模型實(shí)現(xiàn)算法架構(gòu)優(yōu)化,自動(dòng)駕駛性能提升

“端到端”架構(gòu)是自動(dòng)駕駛發(fā)展未來主流方向。意為依靠輸入,直接輸出,所以對(duì)輸入內(nèi)容要求較高。激 光雷達(dá)、雷達(dá)、照相機(jī)等都是感知系統(tǒng)的組成部分,其中激光雷達(dá)和雷達(dá)進(jìn)行深度分析,攝像機(jī)進(jìn)行探測,GPS 和里程表傳感器捕獲并繪制車輛的位置、狀態(tài)和相應(yīng)的環(huán)境,進(jìn)而在決策階段進(jìn)一步利用。例如,以典型端到 端模型 TCP 和 UniAD 中,其都是用多種不同感知器一起使用去獲取相關(guān)信息,并生成相應(yīng)的控制動(dòng)作。多模 態(tài)在關(guān)鍵感知領(lǐng)域的性能優(yōu)于單模態(tài),結(jié)合多傳感器服務(wù)自動(dòng)駕駛需求。特斯拉傳統(tǒng)邏輯是簡化輸入,優(yōu)化局 部算法;但為了服務(wù)端到端模型需求,算法框架演變?yōu)樵鰪?qiáng)輸入以優(yōu)化整體算法,強(qiáng)化數(shù)據(jù)精準(zhǔn)度,借助系統(tǒng) 冗余保證可靠性。

2021 年,端到端駕駛算法出現(xiàn)了重要轉(zhuǎn)折點(diǎn)。算法集中在多模態(tài)和 Transformer 等高級(jí)架構(gòu)的結(jié)合,如 TransFuser 和其他變體?;趥鞲衅鲗?duì)環(huán)境的精確捕捉,閉環(huán) CARLA 基準(zhǔn)性能逐步提高;為了提升自動(dòng)駕駛系 統(tǒng)的可解釋性和安全性,NEAT、NMP 和 BDD-X 等方法明確納入了多種輔助模塊。2023 年,研究強(qiáng)調(diào)優(yōu)先生 成關(guān)鍵數(shù)據(jù),即預(yù)先訓(xùn)練一個(gè)大型策略學(xué)習(xí)基礎(chǔ)模型,如 UniAD,同時(shí)引入了新的 CARLA v2 和 nuPlan 基準(zhǔn)。

特斯拉 FSD V12 在算法層面實(shí)現(xiàn)端到端。FSD Beta v12 完全是由神經(jīng)網(wǎng)絡(luò)訓(xùn)練而成,沒有任何一行人工寫 的規(guī)則代碼。馬斯克稱,控制是全自動(dòng)駕駛最后一個(gè)難題,F(xiàn)SD Beta v12 使用 AI 替代傳統(tǒng)控制模塊使得控制代 碼減少約 2 個(gè)數(shù)量級(jí)。特斯拉原先的自動(dòng)駕駛算法 HydraNets,也被成為九頭蛇網(wǎng)絡(luò),是將每一個(gè)任務(wù)劃分為單 獨(dú)模塊,雖然在工程學(xué)上對(duì)每一個(gè)模塊進(jìn)行優(yōu)化,但卻沒法從全局提升汽車自動(dòng)駕駛性能。 我們認(rèn)為端到端將感知、預(yù)測與規(guī)劃集成在同一個(gè)網(wǎng)絡(luò)流程中,將自動(dòng)駕駛建模成一個(gè)神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)任務(wù)。 端到端使得算法中的所有模塊都直接服務(wù)于規(guī)劃,使得最終汽車做出規(guī)劃的效率提高,避免了模塊分散導(dǎo)致的 數(shù)據(jù)重復(fù)流轉(zhuǎn)。馬斯克表示 HW4.0 硬件目前暫時(shí)不受支持,主要原因是兩者數(shù)據(jù)不兼容,未來仍需針對(duì) HW4.0 進(jìn)行重新訓(xùn)練。馬斯克稱目前制約訓(xùn)練的因素不是工程師,而是訓(xùn)練算力。特斯拉在 7 月份投產(chǎn) Dojo,規(guī)劃到 2024 年 100E 算力(相當(dāng)于 30 萬顆 A100 算力),預(yù)計(jì) 2024 年 2 月自身算力規(guī)模將進(jìn)入全球前五;同時(shí)特斯拉 新到一批英偉達(dá)機(jī)器,訓(xùn)練算力將大幅增強(qiáng)。

2.2.2 國內(nèi)自動(dòng)駕駛車廠勢頭依舊,高階輔助駕駛滲透率預(yù)期提升

國內(nèi)自動(dòng)駕駛車廠布局迅速,L3 級(jí)別及以上滲透率有望逐步提升。2023 年 1-10 月,理想、小鵬銷售量持 續(xù)走高,其中理想 10 月交付量達(dá)到 40422 輛,遠(yuǎn)超其他兩家;蔚來自 7 月起回落幅度較大。伴隨智能化策略推 進(jìn)、輔助駕駛功能強(qiáng)化,蔚小理三家英偉達(dá) Orin 芯片占比將持續(xù)提升。在具體配置路線上,理想更為清晰,其 分 Pro 和 Max 兩大車型向下向上滲透市場,其中 Max 車型提供全場景智能駕駛,標(biāo)配英偉達(dá)雙 Orin X 芯片滲 透率將繼續(xù)上升。2023 年交付量預(yù)測方面,理想預(yù)計(jì)全年銷售 30 萬輛,蔚來預(yù)計(jì)全年銷售 24.5 萬輛,小鵬預(yù)計(jì)全年銷售 20 萬輛。

9 月 12 日,華為正式發(fā)布問界新 M7 系列。硬件層面問界新 M7 配備 1 個(gè)頂置激光雷達(dá)、3 個(gè)毫米波雷達(dá)、 11 個(gè)高清視覺感知攝像頭及 12 個(gè)超聲波雷達(dá)等 27 個(gè)感知硬件。問界新 M7 通過搭載 ADS 2.0,汽車感知能力 有明顯提升:通過 GOD2.0 系統(tǒng),對(duì)車外物體進(jìn)行識(shí)別;通過 RCR 網(wǎng)絡(luò),進(jìn)行道路拓?fù)渫评?,擺脫高精度地圖。 問界新 M7 在安全性方面亦有較大提升。根據(jù)發(fā)布會(huì)介紹,主動(dòng)安全方面,問界新 M7 首發(fā)全向防碰撞系統(tǒng), 問界包攬各類主動(dòng)安全評(píng)測第一名;被動(dòng)安全方面,問界新 M7 車身結(jié)構(gòu)匹配開模,重新改造焊裝產(chǎn)線,有效 提高車身剛度和碰撞安全性。ADS 2.0 自 2023 年 4 月發(fā)布以來,在 AI 訓(xùn)練集群上構(gòu)建了豐富的場景庫,每天 深度學(xué)習(xí) 1000 萬+km,持續(xù)優(yōu)化迭代智能駕駛算法和場景策略,模型每五天迭代一次,訓(xùn)練算力達(dá)到 1.8EFlops。 截至 2023 年 9 月數(shù)據(jù),長距離 NCA 領(lǐng)航 MPI 高達(dá) 200km,城市高架匯入?yún)R出成功率高達(dá) 99%+。到 23 年年底, ADS2.0 無圖城區(qū)商用計(jì)劃擴(kuò)展到全國。11 月 9 日,華為宣布其問界新 M7 實(shí)現(xiàn) 86000 大定,其中 70%以上用戶 選擇智駕版,智能駕駛功能已成為消費(fèi)者購車的重要決策因素之一。另外,11 月 15 日,小米汽車第一款車型 SU 7 申報(bào),預(yù)計(jì) 2024 年上半年正式量產(chǎn)。

2.3 AI PC/Phone:端側(cè) AI 發(fā)展,AI PC/Phone 將開啟新時(shí)代

2.3.1 技術(shù)升級(jí)帶動(dòng)端側(cè) AI 發(fā)展,推理精度提升

當(dāng)前云側(cè) AI 呈現(xiàn)向端側(cè) AI 的轉(zhuǎn)型趨勢。端側(cè)智能化的核心在于數(shù)據(jù)、底層軟硬件、智能力三個(gè)方面。端 側(cè)設(shè)備搭載的傳感器、芯片、算法模型賦予其數(shù)據(jù)采集、計(jì)算、分析與推理能力,使其能夠在端側(cè)完成數(shù)據(jù)處 理閉環(huán),形成感知、計(jì)算、推理三個(gè)智能力。 首先,大模型輕量化帶動(dòng)端側(cè) AI 發(fā)展。多個(gè)大模型均已推出“小型化”和“場景化”版本,提供了端側(cè)運(yùn) 行基礎(chǔ)。例如,Google PaLM2 中包含 4 個(gè)大模型,按照參數(shù)規(guī)模,從小到大排列為:獨(dú)角獸(Unicorn)、野牛 (Bison)、水獺(Otter)和壁虎(Gecko)。其中,最輕量的“壁虎”可實(shí)現(xiàn)手機(jī)端運(yùn)行,且速度足夠快,不聯(lián) 網(wǎng)也能正常工作。另一方面,“小型化”大模型加速生成式 AI 垂直方向發(fā)展,加速大模型商業(yè)化場景落地。

其次,支持 INT4、INT8 精度推理,端側(cè) AI 能力進(jìn)一步提升。定點(diǎn)表示和浮點(diǎn)表示是計(jì)算機(jī)中常用的數(shù) 據(jù)格式。其中,定點(diǎn)表示中小數(shù)點(diǎn)位置固定不變,常用的定點(diǎn)表示有 INT4 和 INT8;浮點(diǎn)表示中包括符號(hào)位、 階碼部分、尾數(shù)部分。符號(hào)位決定數(shù)值正負(fù),階碼部分決定數(shù)值表示范圍,尾數(shù)部分決定數(shù)值表示精 FP64(雙 精度)、FP32 (單精度)、FP16(半精度)的數(shù)值表示范圍和表示精度依次下降,運(yùn)算效率依次提升。高通產(chǎn)品管理 副總裁 Asghar 曾表示,如果將 32 位浮點(diǎn)模型轉(zhuǎn)化為 INT4 整數(shù)模型,端側(cè) AI 能效將提升 64 倍。為滿足端側(cè) AI 的計(jì)算需求,業(yè)內(nèi)已有產(chǎn)品支持 AI 模型以 INT 精度推理,例如高通人工智能引擎 AI Engine 支持 INT8 的數(shù) 據(jù)格式。

部分 AI 框架已支持端側(cè)運(yùn)行。在 2023 年 PyTorch 大會(huì)上,Meta AI 與 PyTorch 基金會(huì)合作的 ExecuTorch 模型被宣布可在邊緣和移動(dòng)設(shè)備上實(shí)現(xiàn) AI 推理。隨著 ExecuTorch 的開源,AI 應(yīng)用程序?qū)⒖蓪?shí)現(xiàn)本地運(yùn)行,無 需連接到服務(wù)器或云。ExecuTorch 可被理解成 PyTorch 平臺(tái),提供基礎(chǔ)設(shè)施來運(yùn)行 PyTorch 程序,實(shí)現(xiàn)從 AR/VR 可穿戴設(shè)備到標(biāo)準(zhǔn)的 iOS 和 Android 設(shè)備的移動(dòng)部署。目前,Meta 已將其用于最新一代的雷朋智能眼鏡,成為 Quest 3 VR 頭顯的組成部分。這一變化也預(yù)示將 PyTorch 引入了手機(jī)和可穿戴設(shè)備等邊緣計(jì)算平臺(tái),進(jìn)一步邁 入設(shè)備 AI 推理新時(shí)代。 端側(cè) AI的核心是 AI PC/Phone。一方面,AI PC/Phone主要在于芯片升級(jí)。AI PC/Phone 相對(duì)于原有PC/Phone, 主要差別在搭載了相關(guān)的 AI 芯片。云端在深度學(xué)習(xí)的訓(xùn)練階段需要極大的數(shù)據(jù)量和大運(yùn)算量,為滿足運(yùn)算需求, 云端 AI 芯片采用“CPU+加速芯片”的異構(gòu)計(jì)算模式。不同于數(shù)據(jù)中心 GPU,手機(jī)/電腦端芯片主要要求其體積 小、功耗低等特點(diǎn),往往是采用 ASIC 技術(shù)路線的芯片,這種芯片為專用目的設(shè)計(jì),面向特定用戶需求定制, 在大規(guī)模量產(chǎn)的情況下具備體積更小、功耗更低等優(yōu)點(diǎn)。

手機(jī) AI 芯片主要由“CPU+GPU+NPU”構(gòu)成,通過集成多個(gè)模塊,做到提升芯片性能的同時(shí)能支持相關(guān) AI 應(yīng)用算法。例如,以高通 AI 芯片為例,硬件方面 HEXAGON 向量處理器可以運(yùn)行涉及向量數(shù)學(xué)的應(yīng)用; ADRENO GPU 運(yùn)行對(duì)浮點(diǎn)精度有要求的應(yīng)用;KRYO CPU 支持相對(duì)較少向量處理、非規(guī)則性數(shù)據(jù)結(jié)構(gòu)和/或復(fù) 雜流程。高通公司以近半的市場份額保持 AI 智能手機(jī)處理器出貨量領(lǐng)導(dǎo)地位,遠(yuǎn)超蘋果和聯(lián)發(fā)科等其他公司。 高通驍龍 8 gen3 在手機(jī)芯片性能比較方面超越了蘋果 A17 Pro,其是高通首款專為生成式人工智能而精心設(shè)計(jì) 的移動(dòng)平臺(tái)。該處理器最大的升級(jí)在 AI 引擎,可以在設(shè)備上運(yùn)行生成式 AI 模型,上市初期即支持 20 多種 AI 模型;主打各種 AI 相機(jī)功能,例如從圖像和視頻中刪除對(duì)象、創(chuàng)建假背景、增強(qiáng)照片的某些部分、實(shí)時(shí)拍攝 HDR 照片、創(chuàng)建同時(shí)使用前攝和后攝拍攝的 Vlogger 視圖模式控制的應(yīng)用。

2.3.2 2024 或成 AI PC/Phone 元年,AI PC/Phone 趨勢刺激行業(yè)回暖

端側(cè) AI 核心在于手機(jī)和 PC,AI Phone 和 AI PC 將開啟新時(shí)代。從今年 2 月份舉行的世界移動(dòng)通信大會(huì), 高通展示了其手機(jī)端離線運(yùn)行大模型,到 5 月份微軟開發(fā)者大會(huì)高通展示其 PC 運(yùn)行 AI 大模型,再到近期英特 爾、聯(lián)想等發(fā)布 AI PC 加速計(jì)劃、發(fā)布首款 AI PC 等,可以看出,國內(nèi)外廠商持續(xù)發(fā)力 AI Phone 和 AI PC, 端側(cè) AI 將走入新的時(shí)代。 AI PC 方面,2023 聯(lián)想 Tech World 創(chuàng)新科技大會(huì)進(jìn)行了端側(cè)大模型與云端大模型的比較。兩個(gè)模型同時(shí)進(jìn) 行斯德哥爾摩音樂節(jié)的規(guī)劃,生成速度差異不大。值得注意的是,端側(cè) AI 的規(guī)劃內(nèi)容更加個(gè)性化,可以將家庭 地址、酒店偏好等考慮進(jìn)去;10 月 19 日,英特爾宣布啟動(dòng) AI PC 加速計(jì)劃,該加速計(jì)劃旨在為相關(guān)軟硬件供 應(yīng)商提供英特爾的資源,共同推動(dòng) AI PC 產(chǎn)品、方案落地,具體而言,通過利用 Intel Core Ultra 處理器的技術(shù) 和兼容硬件,圍繞相關(guān)資源,實(shí)現(xiàn) AI 和機(jī)器學(xué)習(xí)(ML)應(yīng)用性能最大化,進(jìn)而催生全新的使用案例,推動(dòng) AI PC 解決方案連接到更廣泛的 PC 產(chǎn)業(yè)。英特爾預(yù)計(jì)其將于包括 Adobe 在內(nèi)的 100 家獨(dú)立軟件供應(yīng)商進(jìn)行合作, 發(fā)展 300 多項(xiàng) AI 加速功能,計(jì)劃將在音頻效果、內(nèi)容創(chuàng)建、游戲、安全、直播、視頻協(xié)作等方面繼續(xù)強(qiáng)化 PC 體驗(yàn)。據(jù)計(jì)劃目標(biāo),其將在 2025 年前為超過 100 萬臺(tái) PC 帶來人工智能(AI)特性。

AI Phone 方面,10 月 4 日,谷歌發(fā)布 Pixel 8 / Pro 系列,搭載了 Tensor G3 和 Titan M2 安全芯片。Tensor G3 AI 芯片可運(yùn)行更復(fù)雜的機(jī)器學(xué)習(xí)模型,強(qiáng)化了 Pixel 8 / Pro 系列的 AI 增強(qiáng)功能,使虛擬助理說話更自然,并有 攔截騷擾電話、轉(zhuǎn)錄語音和緊急服務(wù)功能。Pixel 8 Pro 號(hào)稱是第一款直接在設(shè)備上運(yùn)行谷歌 AI 模型的手機(jī),其 計(jì)算量是 Pixel 7 上最大 ML 模型的 150 倍;10 月 26 日,小米 14 系列發(fā)布,其首發(fā)搭載高通最新一代移動(dòng)芯片 驍龍 8 Gen3,能效比提升顯著,AI 性能提升 98%。通過本地端運(yùn)行大模型,提升了隱私性,并實(shí)現(xiàn) AI 妙畫、 AI 搜圖、AI 寫真和 AI 擴(kuò)圖等一系列功能。其中,AI 寫真功能可通過對(duì)多張照片的學(xué)習(xí),創(chuàng)作出全新的照片 作品;在 14 系列的 WPS 上,也支持輸入主題一鍵生成 PPT 演示文稿,也能進(jìn)一步細(xì)化調(diào)節(jié),例如更改主題風(fēng) 格、單頁美化、更改字體、更改配色、生成演講稿等等,解決了用戶使用 PPT 制作難度大、耗時(shí)長的辦公難題。

疫情以來,由于消費(fèi)需求疲軟和庫存調(diào)整,全球智能手機(jī)出貨量下滑,2023 年前三季度為 8.4 億部,僅為 2022 年同期的 85%,但可以看出,22 年年底以來,全球智能手機(jī)銷量下降幅度開始縮窄,今年三季度,全球 智能手機(jī)銷量重回正增長;另一方面,從微軟財(cái)報(bào)可以看到,其個(gè)人電腦業(yè)務(wù),也在 24 財(cái)年 1 季度(23Q3) 實(shí)現(xiàn)同比正增長,這也是從 23 財(cái)年 2 季度以來微軟個(gè)人電腦業(yè)務(wù)重新回歸正增長??梢钥吹饺蚴謾C(jī)與電腦業(yè) 務(wù)有復(fù)蘇跡象,預(yù)計(jì) AI+Phone/PC 能進(jìn)一步推動(dòng)行業(yè)頹勢逆轉(zhuǎn)的同時(shí)也有助于帶動(dòng)其自身起量。

伴隨 AI PC 逐漸出貨且 PC 換機(jī)周期已至,2024 或成 AI PC 元年。根據(jù)群智咨詢預(yù)測,到 2027 年,AI PC 出貨量將達(dá)到 1.5 億套,市場滲透率達(dá)到 79%,并逐步取代傳統(tǒng) PC。當(dāng)前,各大主要 PC 廠商都對(duì) AI PC 業(yè)態(tài) 進(jìn)行展望,AI PC 將成 PC 行業(yè)拐點(diǎn)成為共識(shí)。戴爾將推出帶有 Copilot 的新版 Windows,聯(lián)想首批搭載英特爾 Meteor Lake 芯片的 AI PC 也已推出。業(yè)界將逐步追加 AI PC 領(lǐng)域投資,重塑 PC 生產(chǎn)力。

我們看好由 AI PC/Phone 帶來的產(chǎn)業(yè)革新。將手機(jī)集成 AI,不僅可以實(shí)現(xiàn)語音助手、智能相機(jī)等基本功 能,還可以通過 AI 算法實(shí)現(xiàn)更加智能化的應(yīng)用,如智能推薦、智能翻譯等,可以極大提升用戶的體驗(yàn),在智 能辦公、智能教育領(lǐng)域預(yù)計(jì)將有廣泛應(yīng)用;AI PC 不僅可以進(jìn)行高效的數(shù)據(jù)處理和計(jì)算,還可以通過機(jī)器學(xué)習(xí) 和深度學(xué)習(xí)等技術(shù)進(jìn)行自我學(xué)習(xí)和優(yōu)化,從而為各種行業(yè)提供更加智能化的解決方案;除此之外,AI PC、AI Phone 通過統(tǒng)一的大模型,實(shí)現(xiàn)全系統(tǒng)互聯(lián),具有主動(dòng)智能、全模態(tài)感知能力,在人機(jī)交互效果上有明顯提升, 將成為人們最直接的 AI 助手。

2.4 AI+工業(yè)是大勢所趨

AI 在垂直領(lǐng)域的落地和應(yīng)用將是 2024 年的主線,我們尤其看好 AI 在工業(yè)場景的落地。一方面在國家戰(zhàn)略 和政策端,智能制造是大勢所趨,“AI+工業(yè)”在國家發(fā)展、技術(shù)架構(gòu)中發(fā)揮重要作用。1)工業(yè)大國向工業(yè)強(qiáng) 國轉(zhuǎn)型,智能制造戰(zhàn)略是必由之路。工業(yè)與制造業(yè)緊密相連,制造業(yè)是工業(yè)的重要組成部分,工業(yè)和制造業(yè)的 發(fā)達(dá)程度將直接影響我國國際競爭力。中國是世界第一工業(yè)大國,具有優(yōu)秀且深厚的工業(yè)基因。從工業(yè)大國向 工業(yè)強(qiáng)國的轉(zhuǎn)型之路是當(dāng)下政策的熱點(diǎn),也是未來重要的發(fā)展趨勢,智能制造戰(zhàn)略是這一路徑上的核心戰(zhàn)略之 一?!丁笆奈濉敝悄苤圃彀l(fā)展規(guī)劃》、《中國制造 2025》等政策進(jìn)一步明確智能制造的發(fā)展目標(biāo)、重點(diǎn)領(lǐng)域、重 大工程、重大項(xiàng)目,為智能制造的發(fā)展提供了政策支撐。2)“AI+工業(yè)”在智能制造系統(tǒng)與技術(shù)架構(gòu)中處于核 心地位,是戰(zhàn)略發(fā)展的大趨勢。從系統(tǒng)架構(gòu)層面看,智能制造系統(tǒng)的架構(gòu)從底層數(shù)字化逐步過渡到網(wǎng)絡(luò)化,最 終目標(biāo)為實(shí)現(xiàn)智能化,“AI+工業(yè)“處于系統(tǒng)架構(gòu)頂層的“智能化”位置,工業(yè)場景下人工智能技術(shù)的應(yīng)用是智 能制造戰(zhàn)略需要實(shí)現(xiàn)的核心課題。從技術(shù)結(jié)構(gòu)層面看,人工智能技術(shù)與工業(yè)大數(shù)據(jù)、工業(yè)軟件、工業(yè)云、邊緣 計(jì)算等其他技術(shù)之間存在聯(lián)動(dòng)效應(yīng)。3)工業(yè) 4.0 時(shí)代到來,“AI+工業(yè)”技術(shù)是國際競爭焦點(diǎn)。工業(yè) 4.0 時(shí)代下, 利用物聯(lián)網(wǎng)、云計(jì)算等多元化先進(jìn)技術(shù)實(shí)現(xiàn)實(shí)體世界與虛擬世界的交互將成為工業(yè)發(fā)展的重要環(huán)節(jié)。目前,全 球主要的工業(yè)國家在先進(jìn)制造/智能制造方面均有布局,且均有涉及“AI+工業(yè)”的具體戰(zhàn)略。我們認(rèn)為,在未 來,AI 技術(shù)與工業(yè)的深度融合仍將是國際競爭的焦點(diǎn),實(shí)現(xiàn) AI+工業(yè)是大勢所趨。

從需求端看,不斷增長的降本增效需求與多變的市場環(huán)境為“AI+工業(yè)”帶來廣闊的市場空間。目前,我 國工業(yè)的大部分行業(yè)仍處于勞動(dòng)密集型發(fā)展階段,較低的智能化滲透率帶來包括誤差率高、生產(chǎn)效率低、生產(chǎn) 成本高等一系列痛點(diǎn)。1)降本增效需求驅(qū)動(dòng)“AI+工業(yè)”需求:中國單位勞動(dòng)產(chǎn)出在國際比較中處于較低水平, 2018 年美國勞動(dòng)生產(chǎn)率為 11.3 萬美元,而中國僅為 1.4 萬美元。且國內(nèi)老齡化趨勢顯著,根據(jù)國務(wù)院《國家人 口發(fā)展規(guī)劃》,2030 年,我國 14-45 歲人口占比將降至 32%,人口規(guī)模的減少將對(duì)企業(yè)生產(chǎn)成本帶來全新挑戰(zhàn), 降本增效需求愈發(fā)成為企業(yè)競爭甚至生存的重要條件之一,在此背景下展望未來,“AI+工業(yè)”這一降本增效的 重要工具將被越來越多工業(yè)企業(yè)使用。2)市場變化大,精準(zhǔn)化生產(chǎn)成為剛需:工業(yè)行業(yè)整體面對(duì)利潤率低,市 場需求變化快的壓力,智能化與精準(zhǔn)化生產(chǎn)將成為未來大趨勢,而這背后離不開人工智能的強(qiáng)大分析能力。根 據(jù)德勤預(yù)測,2018-2025 年中國制造業(yè)人工智能市場有望實(shí)現(xiàn) 51%的 CAGR,并在 2025 年達(dá)到 141 億元規(guī)模。

2.4.1 工業(yè)機(jī)器視覺

2.4.1.1 機(jī)器視覺產(chǎn)業(yè)宏觀分析

工業(yè)機(jī)器視覺是軟硬件一體化的集成系統(tǒng),它的目的是代替人眼對(duì)被測物進(jìn)行觀察和判斷。從組成上,機(jī) 器視覺系統(tǒng)硬件設(shè)備主要包括光源、鏡頭、相機(jī)等,軟件主要包括傳統(tǒng)的數(shù)字圖像處理算法和基于深度學(xué)習(xí)的 圖像處理算法。

成像、算法、算力、應(yīng)用接力驅(qū)動(dòng)機(jī)器視覺行業(yè),AI 算法的發(fā)展有望推動(dòng)行業(yè)進(jìn)入新時(shí)代。每經(jīng)歷約十年, 機(jī)器視覺技術(shù)與應(yīng)用都會(huì)產(chǎn)生一次深刻變革,近年來,AI 算法有望推動(dòng)行業(yè)爆發(fā)式擴(kuò)展。

此外,過去的工業(yè)機(jī)器視覺系統(tǒng)主要針對(duì)垂直場景的少量數(shù)據(jù)進(jìn)行小模型的訓(xùn)練,而大模型的發(fā)展將助力 工業(yè)機(jī)器視覺實(shí)現(xiàn)應(yīng)用性能的提升和應(yīng)用場景的拓寬。以華為盤古大模型在礦山場景的應(yīng)用為例,其建立在 L0 的基礎(chǔ)大模型的技術(shù)上,通過導(dǎo)入海量無標(biāo)注的礦山場景數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,盤古礦山大模型即可進(jìn)行無監(jiān)督自 主學(xué)習(xí),僅一個(gè)大模型就能覆蓋煤礦的采、掘、機(jī)、運(yùn)、通等業(yè)務(wù)流程下的 1000 多個(gè)細(xì)分場景,讓 AI 應(yīng)用在 煤礦普及更容易。在準(zhǔn)確率方面, 基于盤古礦山大模型的掘進(jìn)作業(yè)序列智能監(jiān)測,動(dòng)作規(guī)范識(shí)別準(zhǔn)確率超過 95%,用規(guī)范的 AI 流程來替代不確定的人工流程,讓 AI 成為礦工規(guī)范作業(yè)的好幫手,保障井下作業(yè)安全。 視覺大模型技術(shù)突破,賦能機(jī)器視覺的革新與突破。以近期 Meta 提出的 SAM 模型為例,其在切割任務(wù)的 不同具體場景中展現(xiàn)出了強(qiáng)大的泛化能力,在零樣本(zero-shot)和少量樣本(few-shot)的基礎(chǔ)上便能實(shí)現(xiàn)非 常優(yōu)秀的完成不同的切割任務(wù)。同時(shí),SAM 模型還具備高精度自動(dòng)標(biāo)注的能力,帶來數(shù)據(jù)標(biāo)注成本的下降,相 關(guān)技術(shù)的發(fā)展與突破將從兩個(gè)方向賦能機(jī)器視覺產(chǎn)業(yè)變革:1)過去數(shù)據(jù)成本、訓(xùn)練成本高的場景將有望實(shí)現(xiàn)降 本增效;2)過去因樣本數(shù)量不足而機(jī)器視覺難以應(yīng)用的場景將得以拓展。

除人工智能技術(shù)的變革外,2D 到 3D 的變革同樣帶來技術(shù)能力和應(yīng)用范圍的提升。相較于 2D 機(jī)器視覺, 3D 機(jī)器視覺可以提供三維信息,從而實(shí)現(xiàn)更廣泛、準(zhǔn)確的檢測與分析。3D 機(jī)器視覺可以完成許多 2D 機(jī)器視 覺無法完成的任務(wù)。3D 相機(jī)可以得 到表面凹凸的深度信息,從而準(zhǔn)確的判定劃痕和邊緣的凹陷。 3D 機(jī)器視覺覆蓋場景全面,市場空間廣闊。目前 3D 視覺技術(shù)在高精度檢測、高精度測量(例如彎管、不 規(guī)則件)、智能分揀、裝配(引導(dǎo)機(jī)械臂在三維空間內(nèi)避障和定位)、物流車導(dǎo)航等更多場景中實(shí)現(xiàn)了相較于 2D 機(jī)器視覺更為廣泛的應(yīng)用覆蓋,具有廣泛的市場空間,根據(jù) GGII 測算,中國工業(yè) 3d 視覺 2021 年市場規(guī)模 11.51 億元。隨著我國高端制造業(yè)的發(fā)展,國內(nèi) 3D 視覺的應(yīng)用需求仍將持續(xù)保持高增長勢頭,預(yù)計(jì)到 2025 年達(dá)到 57.52 億的市場規(guī)模。

2.4.1.2 機(jī)器視覺產(chǎn)業(yè)鏈分析

機(jī)器視覺行業(yè)上游環(huán)節(jié)價(jià)值量大。關(guān)鍵零部件和軟件系統(tǒng)約占工業(yè)機(jī)器視覺產(chǎn)品總成本的 80%。工業(yè)相機(jī)、 底層軟件算法等技術(shù)壁壘高,利潤率高。對(duì)機(jī)器視覺上游環(huán)節(jié)的掌握是目前市場競爭的關(guān)鍵。同時(shí),相機(jī)、鏡 頭、光源等核心零部件部件在機(jī)器視覺產(chǎn)品中的占比超過 50%。 國產(chǎn)低端零部件逐步實(shí)現(xiàn)國產(chǎn)替代,高端部件有待突破。技術(shù)門檻相對(duì)較低的零部件如光源,國產(chǎn)廠商憑 借性價(jià)比優(yōu)勢及逐步體現(xiàn)的產(chǎn)能優(yōu)勢在市場競爭中逐漸實(shí)現(xiàn)對(duì)于國外品牌的替代。技術(shù)門檻較高的零部件如光源及相機(jī),我國企業(yè)進(jìn)入較晚,目前產(chǎn)品仍主要布局中低端市場,高端市場仍主要被國外品牌占據(jù)。

機(jī)器視覺上游零部件廠商和中游系統(tǒng)/設(shè)備廠商通過產(chǎn)業(yè)投資/自主研發(fā)等方式逐步拓展產(chǎn)業(yè)鏈上下游布局, 以期進(jìn)一步提升機(jī)器視覺產(chǎn)品性能,同時(shí)在競爭逐漸加劇的機(jī)器視覺行業(yè)中構(gòu)建起更高的技術(shù)護(hù)城河。 奧普特、??禉C(jī)器人通過自主研發(fā)實(shí)現(xiàn)了機(jī)器視覺核心零部件、軟件算法的全覆蓋。凌云光通過產(chǎn)業(yè)投資 方式拓展 CMOS 傳感器芯片(長光辰芯)和工業(yè)鏡頭(長步道光電)布局,并自主開發(fā)特色相機(jī)、特種相機(jī)、 特色專屬光源和圖像采集卡;天準(zhǔn)科技自主開發(fā) 3D 視覺傳感器(線激光傳感器),精密驅(qū)動(dòng)控制器等視覺設(shè)備 上游零部件。 我們認(rèn)為,在機(jī)器視覺相關(guān)的光學(xué)成像、軟件算法、自動(dòng)化與精密控制等核心技術(shù)方面具有更深厚積累的 公司在競爭加劇、上下游互相滲透的發(fā)展格局中具備更強(qiáng)的競爭優(yōu)勢,頭部的國產(chǎn)機(jī)器視覺廠商已經(jīng)具備了和 海外龍頭相當(dāng)?shù)娜a(chǎn)業(yè)鏈技術(shù)。

下游應(yīng)用場景中,機(jī)器視覺在鋰電行業(yè)的滲透率逐步提升。隨著鋰電池制造智能化、自動(dòng)化程度的提升, 機(jī)器視覺產(chǎn)品開始廣泛地應(yīng)用于鋰電池設(shè)備生產(chǎn)的各個(gè)工段。從前段工藝的涂布輥壓,到中段工藝的電芯組裝, 再到后段化成分容之后的檢測以及模組 PACK 段,機(jī)器視覺應(yīng)用滲透率在逐步提升。 品質(zhì)管控需求明確,早期的鋰電行業(yè)擴(kuò)產(chǎn)往往較少考慮質(zhì)量管控,但隨著行業(yè)逐步從高速發(fā)展轉(zhuǎn)向高質(zhì)量 發(fā)展以及用戶對(duì)于鋰電安全的更高需求,機(jī)器視覺已經(jīng)成為鋰電池生產(chǎn)企業(yè)解決質(zhì)量和效率問題的必然選擇, 據(jù) GGII 預(yù)測,鋰電機(jī)器視覺檢測系統(tǒng)市場規(guī)模將保持高速增長,未來 5 年年復(fù)合增長率在 40%。 競爭格局優(yōu)秀,在 3C 電子和汽車等行業(yè)中的機(jī)器視覺中海外巨頭有著更加強(qiáng)的技術(shù)積累和長期合作關(guān)系, 對(duì)于我國機(jī)器視覺企業(yè)的市場拓展產(chǎn)生一定阻礙,但鋰電池行業(yè)是近年來在我國發(fā)展起來的新興產(chǎn)業(yè),因此其 中鋰電企業(yè)與我國機(jī)器視覺企業(yè)協(xié)同配合發(fā)展而來,國產(chǎn)化程度較高。 我們認(rèn)為,鋰電行業(yè)行業(yè)整體增速較快,且鋰電中的機(jī)器視覺具備行業(yè)增速高、需求明確、競爭格局優(yōu)秀 的優(yōu)勢,在未來兩三年內(nèi)有望維持高增速,是最具潛力的下游應(yīng)用市場 。

2.4.2 工業(yè)機(jī)器人

2.4.2.1 移動(dòng)機(jī)器人

AGV(Automated Guided Vehicle),即移動(dòng)機(jī)器人,是工業(yè)機(jī)器人中的重要種類。AGV 可以在沒有人工干 預(yù)的情況下,按照可配置的導(dǎo)引路徑進(jìn)行移動(dòng)和定位;糅合了導(dǎo)航、移動(dòng)、多傳感器控制、網(wǎng)絡(luò)交互等一系列 功能。AGV 在制造業(yè)、倉儲(chǔ)物流等工業(yè)場景有著廣泛的應(yīng)用,可以提高生產(chǎn)效率、降低勞動(dòng)成本、減少產(chǎn)品損 壞、提高安全性。其主要應(yīng)用場景仍然在搬運(yùn)領(lǐng)域。 隨著人工智能技術(shù)發(fā)展,AGV 的環(huán)境感知能力與靈活運(yùn)動(dòng)能力不斷提升,新一代自主移動(dòng)機(jī)器人 AMR (Autonomous Mobile Robot)應(yīng)運(yùn)而生。相比 AGV,AMR 可以融合多重傳感器,具備深度感知能力和強(qiáng)大計(jì) 算能力,安全性和行駛的效率相對(duì)更高。

行業(yè)持續(xù)高速增長,發(fā)展勢頭強(qiáng)勁。從總量來看,2015 年到 2022 年,中國工業(yè)應(yīng)用移動(dòng)機(jī)器人市場規(guī)模 保持 7 年連續(xù)增長,CAGR 為 35.14%,2022 年中國工業(yè)應(yīng)用機(jī)器人市場規(guī)模達(dá)到 76.8 億元。從增量來看,中 國工業(yè)應(yīng)用移動(dòng)機(jī)器人產(chǎn)量逐年增加,2022 年增量為 93000,同比增長 29.17%。

海外銷售規(guī)模不斷增長,中國 AGV/AMR 產(chǎn)品全球影響力進(jìn)一步提升。2022 年,中國 AGV/AMR 企業(yè)在 海外市場的銷售規(guī)模進(jìn)一步提升,2022 年,中國 AGV/AMR 企業(yè)海外銷售規(guī)模為 36 億,同比增長 44%,占比 19%。從 2019 年中國 AGV/AMR 海外銷售額首次突破 10 億人民幣到 2022 年的 36 億人民幣,中國企業(yè)整 體海外銷售占比取得顯著提升。

行業(yè)集中度高,大型企業(yè)占比接近九成,過億企業(yè)數(shù)逐年增長。2022 年度,中國工業(yè)應(yīng)用移動(dòng)機(jī)器人企業(yè) 中,年銷售規(guī)模億元以上的大型企業(yè)占據(jù)了 89.19%的市場份額,行業(yè)集中度高。行業(yè)向上的發(fā)展態(tài)勢帶動(dòng)銷售 過億企業(yè)數(shù)量逐年增長,從 2018 年的 10 家增長至 2022 年的 42 家。截至 2022 年,中共工業(yè)應(yīng)用移動(dòng)機(jī)器人企 業(yè)中,有 4 家越過 10 億門檻,分別是新松機(jī)器人、極智嘉、海康機(jī)器人以及海柔創(chuàng)新。

2.4.2.2 焊接機(jī)器人

焊接機(jī)器人是一種能夠自動(dòng)執(zhí)行焊接(包括切割和噴涂)任務(wù)的工業(yè)機(jī)器人。根據(jù)焊接方式、結(jié)構(gòu)形式、 負(fù)載能力、工作范圍等因素的不同,焊接機(jī)器人業(yè)有不同種類。焊接機(jī)器人廣泛應(yīng)用于鋼結(jié)構(gòu)、航空、造船、 電子、機(jī)械等行業(yè),可以提高焊接質(zhì)量、效率和安全性,涉及的技術(shù)包括焊接電源技術(shù)、傳感器技術(shù)、離線編 程技術(shù)、智能控制技術(shù)、仿真技術(shù)等。

國內(nèi)弧焊焊接機(jī)器人市場由外資主導(dǎo),國產(chǎn)替代需求大。根據(jù)高工機(jī)器人研究所統(tǒng)計(jì),2022 年外資弧焊機(jī) 器人仍占據(jù)主要份額,占比 54.97%,在汽車整車和零部件領(lǐng)域應(yīng)用較多,主要分日系、歐系、國產(chǎn)三大派系。 日系品牌主要有安川、發(fā)那科、OTC、松下、川崎重工等,歐系品牌包括 KUKA、CLOOS 和 ABB 等;而國產(chǎn) 品牌則在程機(jī)械、二三輪車、五金家具、鋼結(jié)構(gòu)等一般工業(yè)行業(yè)應(yīng)用較為廣泛。 國內(nèi)自主品牌弧焊工業(yè)機(jī)器人市場份額逐步提升,與外資品牌差距逐漸縮小。2022 年,國產(chǎn)弧焊機(jī)器人份 額已達(dá) 45.03%,同比增長 23.71%,國產(chǎn)替代速度加快。目前市場上尚未有成熟應(yīng)用于鋼結(jié)構(gòu)行業(yè)領(lǐng)域的智能焊 接機(jī)器人,主要潛在競爭產(chǎn)品為示教焊接機(jī)器人和進(jìn)口智能焊接機(jī)器人。

焊接機(jī)器人銷量持續(xù)增長,鋼構(gòu)行業(yè)市場較為空缺。高工機(jī)器人產(chǎn)業(yè)研究所(GGII)統(tǒng)計(jì)數(shù)據(jù)顯示,2021 年國內(nèi)市場焊接機(jī)器人銷量為 4.16 萬臺(tái),同比增長 21.99%,主要集中應(yīng)用于汽車及 3C 電子領(lǐng)域,鋼結(jié)構(gòu)領(lǐng)域 應(yīng)用程度不高,而鋼結(jié)構(gòu)行業(yè)對(duì)于自動(dòng)化、智能化焊接方案的需求日益迫切。預(yù)計(jì) 2026 年焊接機(jī)器人銷量可達(dá) 到 10.3 萬臺(tái),復(fù)合增長率達(dá) 16.38%。 海外焊接機(jī)器人進(jìn)展迅速,“機(jī)器人四大家族”是行業(yè)龍頭,ABB 集團(tuán)與發(fā)那科公司經(jīng)營業(yè)務(wù)有亮點(diǎn)。1) ABB 集團(tuán):ABB 是工業(yè)機(jī)器人的先行者以及世界領(lǐng)先的機(jī)器人制造廠商,在 1994 年就進(jìn)入了中國市場。經(jīng) 過近 20 年的 發(fā)展,在中國,ABB 先進(jìn)的機(jī)器人自動(dòng)化解決方案和包括白 車身,沖壓自動(dòng)化,動(dòng)力總成和涂 裝自動(dòng)化在內(nèi)的四大系統(tǒng) 正為各大汽車整車廠和零部件供應(yīng)商以及消費(fèi)品、鑄造、塑 料和金屬加工工業(yè)提供 全面完善的服務(wù)。 2021 年,ABB 機(jī)器人為宇通打造一鍵式操作智能焊接工作站,基于本地自主開發(fā)免示教編 程系統(tǒng),無需視覺識(shí)別即可自動(dòng)生成包含有工藝參數(shù)的軌跡程序,完成不同規(guī)格的鋁框的智能化生產(chǎn)。2)FANUC (發(fā)那科): FANUC 公司創(chuàng)建于 1956 年的日本,是當(dāng)今世界上數(shù)控系統(tǒng) 科研、設(shè)計(jì)、制造、銷售實(shí)力強(qiáng)大 的企業(yè)。FANUC 機(jī)器人產(chǎn)品系列多達(dá) 240 種,負(fù)重從 0.5 公斤到 1.35 噸,廣泛應(yīng)用在裝配、搬運(yùn)、焊接、 鑄造、噴涂、碼垛等不同生產(chǎn)環(huán)節(jié),滿足客戶的不同需求。

智能化焊接市場需求迫切。1)鋼構(gòu)產(chǎn)業(yè)焊接技工招工難且成本高,供給需求缺口大,對(duì)自動(dòng)化、智能化 焊接方案的需求迫切。國內(nèi)鋼結(jié)構(gòu)產(chǎn)業(yè)滲透率持續(xù)提高,產(chǎn)品產(chǎn)量增加帶動(dòng)鋼結(jié)構(gòu)焊接市場需求。而鋼結(jié)構(gòu)主 要應(yīng)用于建筑、船舶、重工行業(yè)非標(biāo)小批量工件多的工業(yè)場景中,焊接工序自動(dòng)化程度低,基本大部分依賴大 量焊接工人完成焊接。人工焊接技術(shù)要求高、技工培訓(xùn)周期長、焊接工作環(huán)境惡劣,已成為行業(yè)中最緊缺的勞 動(dòng)力之一,焊接工人缺口量逐年遞增,復(fù)合增長率高達(dá) 50%。2021 年國內(nèi)熟練焊工的年薪已達(dá) 18 萬元,對(duì)企 業(yè)帶來較大的成本壓力。2)智能化焊接可以保證焊接質(zhì)量穩(wěn)定,提高生產(chǎn)效率。傳統(tǒng)人工焊接受人為因素影響 較大,焊接質(zhì)量穩(wěn)定性差,生產(chǎn)效率低,且鋼結(jié)構(gòu)加工涉及組立、矯正、裝配、打磨、拋丸、表面防腐等多道 工序,整個(gè)生產(chǎn)過程不透明,對(duì)生產(chǎn)進(jìn)度、生產(chǎn)質(zhì)量和生產(chǎn)異常的處理缺乏信息化管控,產(chǎn)品交付時(shí)常延期, 實(shí)現(xiàn)智能化焊接是提高生產(chǎn)效率和產(chǎn)品質(zhì)量。

免示教智能焊接機(jī)器人符合鋼結(jié)構(gòu)行業(yè)需求。鋼結(jié)構(gòu)產(chǎn)業(yè)是典型非標(biāo)生產(chǎn)行業(yè),產(chǎn)品基本全為非標(biāo)定制化 生產(chǎn)。鋼結(jié)構(gòu)生產(chǎn)原材料基本為鋼板、 鋼管等,但由于規(guī)格、性能指標(biāo)等因素的存在,原材料種類多,且受到 客戶需求、政策和設(shè)計(jì)師習(xí)慣的影響,每個(gè)部件的加工內(nèi)容、方式及尺寸都有特定的要求。鋼構(gòu)行業(yè)以中厚板 焊接為主,對(duì)設(shè)備精度和機(jī)器人技術(shù)要求高。大多應(yīng)用弧焊機(jī)器人。 免示教機(jī)器人適合鋼構(gòu)行業(yè)小批量非標(biāo)柔性加工場景。傳統(tǒng)示教再現(xiàn)型機(jī)器人通過執(zhí)行示教程序進(jìn)行重復(fù) 性工作,對(duì)焊接工件一致性要求較高,且需要人工引導(dǎo)機(jī)器人進(jìn)行預(yù)期動(dòng)作編輯,多用于重復(fù)、標(biāo)準(zhǔn)化加工中, 如汽車、摩托車加工,對(duì)非標(biāo)產(chǎn)品操作耗時(shí)長、效率低。免示教智能焊接機(jī)器人融合智能感知、智能規(guī)劃、智 能控制等技術(shù),構(gòu)成以知識(shí)和 推理為核心的智能焊接系統(tǒng),通過與智能技術(shù)、工藝數(shù)字化技術(shù)等先進(jìn)技術(shù)融合, 實(shí)現(xiàn)了面向不同作業(yè)場景、作業(yè)任務(wù)、作業(yè)工藝,與鋼構(gòu)行業(yè)焊接需求高度契合。

2.4.3 工業(yè)軟件

2.4.3.1 工業(yè)軟件行業(yè)總覽

工業(yè)軟件是工業(yè)創(chuàng)新知識(shí)長期積累、沉淀并在應(yīng)用中迭代進(jìn)化的軟件產(chǎn)物。工業(yè)軟件的根基仍然是工業(yè)行 業(yè)本身,有賴于正向創(chuàng)新和行業(yè)創(chuàng)新知識(shí)的積累,是一個(gè)長期系統(tǒng)工程。任何工業(yè)知識(shí)都必須先形成完整的體 系,搭建出知識(shí)庫和模型庫,并在實(shí)踐中反復(fù)應(yīng)用、更改,與工程緊密結(jié)合并不斷更新迭代,才有可能形成工 業(yè)軟件。因此,工業(yè)軟件是工業(yè)創(chuàng)新知識(shí)的載體,依靠軟件化這一關(guān)鍵過程,通過強(qiáng)大的軟件工程能力才得以 實(shí)現(xiàn)。軟件平臺(tái)與架構(gòu)將直接決定工業(yè)軟件產(chǎn)品的生命力。 工業(yè)軟件可分為四大類,分別為研發(fā)設(shè)計(jì)軟件、生產(chǎn)控制軟件、信息管理軟件和嵌入式軟件,在工業(yè)生產(chǎn) 流程中發(fā)揮著不同的作用。1)研發(fā)設(shè)計(jì)軟件:面向各類工業(yè)品研發(fā)、設(shè)計(jì)、加工的基礎(chǔ)軟件,提高開發(fā)效率、 降低開發(fā)成本、縮短開發(fā)周期。2)生產(chǎn)控制軟件:基于工業(yè)生產(chǎn)的流程,負(fù)責(zé)生產(chǎn)的流程調(diào)度、流程控制、流 程監(jiān)控,提升產(chǎn)品生產(chǎn)的自動(dòng)化和智能化程度。3)信息管理軟件:服務(wù)于產(chǎn)品的“進(jìn)銷存”環(huán)節(jié)信息以及企業(yè) 整體的業(yè)務(wù)管理信息助力企業(yè)實(shí)現(xiàn)數(shù)字化管理。4)嵌入式軟件:嵌入在硬件中的操作系統(tǒng)或開發(fā)工具軟件,提 高生產(chǎn)裝備智能化水平。

根據(jù)工信部、中國電子信息產(chǎn)業(yè)統(tǒng)計(jì)年鑒數(shù)據(jù),我國工業(yè)軟件增速持續(xù)領(lǐng)先于全球工業(yè)軟件市場。2022 年, 我國工業(yè)軟件產(chǎn)品收入 2407 億元,同比增長 14.29%。2018 年至 2022 年,我國工業(yè)軟件產(chǎn)品收入年復(fù)合增長率 高達(dá) 16%。 目前制造業(yè)企業(yè)信息化率仍較低,未來仍有較大發(fā)展空間。從現(xiàn)階段看,我國制造業(yè)企業(yè)信息化率仍較低, 《2018 年中國制造業(yè)痛點(diǎn)分析報(bào)告》數(shù)據(jù)顯示,制造業(yè)企業(yè)的數(shù)字化設(shè)備聯(lián)網(wǎng)率僅為 39%、MES 普及率只有 18.1%。而《智能制造裝備產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃》指出,到 2020 年,重點(diǎn)領(lǐng)域數(shù)字化研發(fā)設(shè)計(jì)工具普及率 達(dá)到 70%以上,關(guān)鍵工序數(shù)控化率達(dá)到 50%以上,數(shù)字化車間/智能工廠普及率達(dá)到 20%以上,我國工業(yè)軟件行 業(yè)未來仍有較大發(fā)展空間。從 ERP 的普及率來看,Gartner 的數(shù)據(jù)顯示,我國 ERP 的普及率(ERP/GDP)僅為 0.015%,遠(yuǎn)低于美國的 0.059%。目前 3C、汽車、家電、化工、電力等行業(yè)是 IT 投入主要領(lǐng)域。其中,3C 行 業(yè)前五大企業(yè)連續(xù)三年 IT 投入成本最大,達(dá)到 450 億元。

2.4.3.2 工業(yè)軟件行業(yè)聚焦:CAD——計(jì)算機(jī)輔助設(shè)計(jì)

CAD 軟件是工業(yè)軟件中最關(guān)鍵、技術(shù)門檻最高的一類軟件,市場空間廣闊,增長態(tài)勢良好。CAD 軟件承接 產(chǎn)業(yè)鏈上游硬件設(shè)備、操作系統(tǒng)、開發(fā)工具等行業(yè),服務(wù)下游發(fā)電、建材、化工、冶金、煤礦等應(yīng)用領(lǐng)域;涉 及數(shù)學(xué)、物理、計(jì)算機(jī)及工程四大學(xué)科的專業(yè)知識(shí),具備較高的技術(shù)壁壘。從上世紀(jì)五六十年代發(fā)展至今,CAD 從最初的機(jī)械制造逐漸拓展到建筑、電子、汽車、航天、輕工、影視、廣告等諸多行業(yè)領(lǐng)域。Autodesk、Dassault、 Siemens、PTC 等廠商憑借技術(shù)優(yōu)勢和長期的市場積累占據(jù)主導(dǎo)地位,全球 CAD 市場增長趨于穩(wěn)定。 全球工業(yè)軟件及 CAD 行業(yè)發(fā)展態(tài)勢向好,國內(nèi)工業(yè)軟件及 CAD 行業(yè)保持增長態(tài)勢。工業(yè)軟件,特別是 CAD 軟件,具有應(yīng)用廣泛、學(xué)科知識(shí)跨度廣、技術(shù)壁壘高等特點(diǎn),增長態(tài)勢向好。近五年,全球工業(yè)軟件市場 規(guī)模與 CAD 市場規(guī)模保持穩(wěn)定增長,其中全球 2016-2023 年 CAD 市場規(guī)模預(yù)計(jì)將實(shí)現(xiàn) 6.03%的 CAGR;國內(nèi) 得益于數(shù)字經(jīng)濟(jì)東風(fēng)與國產(chǎn)化替代浪潮,工業(yè)軟件與 CAD 行業(yè)向上態(tài)勢明顯。

CAD 發(fā)展有賴于技術(shù)革命,關(guān)鍵技術(shù)的研發(fā)將是未來 CAD 行業(yè)競爭焦點(diǎn),國產(chǎn) CAD 軟件進(jìn)步空間大。 CAD 行業(yè)發(fā)展史也是技術(shù)革命史,從 2-2.5D 模型到三維框線模型,從曲面造型技術(shù)到實(shí)體造型技術(shù),從參數(shù)化 技術(shù)到變量化技術(shù),不同時(shí)點(diǎn)的技術(shù)進(jìn)步既帶來行業(yè)的騰飛,也造就新的行業(yè)龍頭,放眼未來,CAD 行業(yè)的發(fā) 展仍將聚焦于關(guān)鍵技術(shù)的研發(fā)上。

CAD 與 AI 結(jié)合是產(chǎn)業(yè)新趨勢,可以提高設(shè)計(jì)效率、優(yōu)化設(shè)計(jì)質(zhì)量、創(chuàng)造新的設(shè)計(jì)形式。第四范式的“式 說”大模型是一個(gè)基于生成式 AI 的新型開發(fā)平臺(tái),具備文本、語音、圖像、表格、視頻等多模態(tài)交互及企業(yè)級(jí) Copilot 能力,以生成式 AI 重構(gòu)企業(yè)軟件(AI-Generated Software),提升企業(yè)軟件的體驗(yàn)和開發(fā)效率。式說大模 型可以用來輔助或自動(dòng)生成 CAD 3D 模型,用戶通過自然語言交互就可以調(diào)用工業(yè)軟件的功能,輔助完成設(shè)計(jì)。

回望海外 CAD 龍頭的發(fā)展史,可發(fā)現(xiàn)其競爭優(yōu)勢各異,但核心技術(shù)的發(fā)展與對(duì)于用戶使用體驗(yàn)的關(guān)注是 共同主線。海外三大 CAD 巨頭中,達(dá)索系統(tǒng)具有一體化+云化平臺(tái) 3DEXPERIENCE,同時(shí)具有功能各異的幾 何內(nèi)核 CGM+ACIS,由此產(chǎn)生差異化 CAD 產(chǎn)品 CATIA+SOLIDWORKS,共同推動(dòng)其占領(lǐng)不同類型市場,取得 領(lǐng)先地位。Autodesk 公司通過多次技術(shù)轉(zhuǎn)型構(gòu)造競爭壁壘,同時(shí)不斷更新迭代產(chǎn)品應(yīng)對(duì)需求,不斷改革定價(jià)策 略與商業(yè)模式以匹配其戰(zhàn)略,實(shí)現(xiàn)蓬勃發(fā)展。西門子密切關(guān)注云化+平臺(tái)化趨勢,開發(fā) Xcelerator 開放式數(shù)字商 業(yè)平臺(tái),構(gòu)造開放的生態(tài)體系,創(chuàng)建功能完善且用戶體驗(yàn)良好的 CAD 軟件。 海外 CAD 龍頭的并購史遵循三類并購邏輯。1)在技術(shù)層面進(jìn)行第一類并購,針對(duì)突破核心技術(shù)的中小型 公司,獲取核心技術(shù),提高競爭壁壘,進(jìn)一步賦能產(chǎn)品研發(fā)。2)在市場層面進(jìn)行第二類并購,針對(duì)具有垂直行 業(yè)知識(shí)或在某垂直行業(yè)取得領(lǐng)先地位的中小型公司,開拓垂直市場,獲取對(duì)應(yīng)客群,節(jié)省落地成本。3)在生態(tài) 層面進(jìn)行第三類并購,針對(duì)生態(tài)鏈條上缺失的 ERP、MSE 等類型軟件,完善生態(tài)系統(tǒng),實(shí)現(xiàn)應(yīng)用聯(lián)動(dòng)。

CAD 國內(nèi)領(lǐng)先公司發(fā)展態(tài)勢良好,包括中望軟件、浩辰軟件、華天軟件、數(shù)碼大方。1)中望軟件是領(lǐng)先的 All-in-One CAX 解決方案提供商,2D 領(lǐng)域具有自主內(nèi)核產(chǎn)品平臺(tái) ZWCAD。3D 領(lǐng)域具有自主建模內(nèi)核 CAX 一 體化軟件 ZW3D,產(chǎn)品達(dá)到第二陣營技術(shù)指標(biāo)標(biāo)準(zhǔn),處于國內(nèi)領(lǐng)先地位,業(yè)績發(fā)展良好,教育市場收入不斷增 加。2)浩辰軟件具有內(nèi)置協(xié)同設(shè)計(jì),致力于打造一體化國產(chǎn) 2D CAD 解決方案,同時(shí)發(fā)展云端,致力于建設(shè)國 內(nèi)領(lǐng)先的云化 CAD 解決方案。2D CAD 為公司主要營收來源,未來看好云化 CAD 業(yè)務(wù)。3)華天軟件具有完全 自主產(chǎn)權(quán),在模具行業(yè)處于領(lǐng)先地位,目前公司旗下有 CrownCAD、SINOVATION、Sview、SViewVIZ 等一系 列功能強(qiáng)大的軟件產(chǎn)品,營收年化增速達(dá) 11.2%,有望繼續(xù)增長。4)數(shù)碼大方實(shí)現(xiàn)深度產(chǎn)教融合,堅(jiān)持以“企 業(yè)需求為導(dǎo)向,教學(xué)實(shí)訓(xùn)為中心”。

三、國產(chǎn)算力自主可控

隨著大語言模型能力不斷升級(jí),生成式 AI 帶來個(gè)人生產(chǎn)力革命,大語言模型爆發(fā)出巨大的應(yīng)用潛力,模型 參數(shù)持續(xù)提升帶來更高的模型訓(xùn)練算力需求,大模型的商業(yè)化落地催生了更大的推理算力和通信能力需求。從 需求端出發(fā),我們測算了大模型帶來的 GPU 增量空間。 測算原理:從模型的(1)參數(shù)規(guī)模入手,根據(jù)(2)訓(xùn)練大模型所需的 Token 數(shù)量和(3)每 Token 訓(xùn)練成 本與模型參數(shù)量的關(guān)系估算總算力需求,再考慮(4)單張 GPU 算力和(5)GPU 集群的算力利用率推導(dǎo)得出 GPU 總需求。

(1)參數(shù)規(guī)模:過去幾年,大模型的參數(shù)量呈指數(shù)上升,GPT-3 模型參數(shù)量已達(dá)到 1750 億。GPT-4 具有 多模態(tài)能力,其參數(shù)量相比 GPT-3 會(huì)更大。我們?cè)跍y算中假設(shè) 2023 年多模態(tài)大模型的平均參數(shù)量達(dá)到 10000 億個(gè),之后每年保持 20%的增速;普通大模型的平均參數(shù)量達(dá)到 2000 億個(gè),之后每年保持 20%的增速。 (2)訓(xùn)練大模型所需的 Token 數(shù)量:參數(shù)規(guī)模在千億量級(jí)的自然語言大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,訓(xùn)練所需的 Token 數(shù)量在千億量級(jí),而一些多模態(tài)大模型在訓(xùn)練過程中所需 Token 數(shù)據(jù)量也跟隨參 數(shù)量增長而增長,我們?cè)跍y算中假設(shè)多模態(tài)大模型訓(xùn)練所需 Token 數(shù)量達(dá)到萬億級(jí)別,并且 Token 數(shù)量與模型 參數(shù)規(guī)模保持線性增長關(guān)系。 (3)每 Token 訓(xùn)練成本與模型參數(shù)量的關(guān)系:參考 OpenAI 發(fā)布的論文《Scaling Laws for Neural Language Models》中的分析,每個(gè) token 的訓(xùn)練成本通常約為 6N,其中 N 是 LLM 的參數(shù)數(shù)量,我們?cè)跍y算中遵循這一 關(guān)系。 (4)單張 GPU 算力:因?yàn)樵谟?xùn)練大模型時(shí),主要依賴可實(shí)現(xiàn)的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我們?cè)跍y算中選取 A100 SXM 和 H100 SXM 對(duì)應(yīng)的算力 312 TFLOPS 和 990 TFLOPS 作為參數(shù)。 (5)GPU 集群的算力利用率:參考 Google Research 發(fā)布的論文《PaLM: Scaling Language Modeling with Pathways》中的分析,我們?cè)跍y算中假設(shè)算力利用率約為 30%。 其他基本假設(shè)包括多模態(tài)研發(fā)廠商個(gè)數(shù)、普通大模型研發(fā)廠商個(gè)數(shù)等。根據(jù)所有假設(shè)及可以得到,2023 年 -2027 年,全球大模型訓(xùn)練端峰值算力需求量的年復(fù)合增長率為 78.0%。2023 年全球大模型訓(xùn)練端所需全部算 力換算成的 A100 總量超過 200 萬張,新增市場需求空前旺盛。

3.1 國產(chǎn)算力迎來高速發(fā)展期

2023 年 10 月 17 日美國商務(wù)部和安全局(BIS)發(fā)布一攬子規(guī)則,旨在更新對(duì)中國的先進(jìn)計(jì)算芯片的出口 管制。出口管制清單 CCL 中的 ECCN 3A090 修正,該規(guī)則將于 2023 年 11 月 16 日起生效。以下條件,滿足 一個(gè)就受到出口限制: 3A090a:針對(duì)最高性能芯片(1): TPP 超過 4800(2): TPP 超過 1600,且 PD 超過 5.92。 3A090b:針對(duì)次高性能芯片(1): TPP 處于[2400,4800),且 PD 處于[1.6,5.92);(2): TPP 在[1600,+∞) 區(qū)間,且 PD 處于[3.2.5.92)區(qū)間。 其中 TPP 為總算力性能,PD 為性能密度,性能密度定義為:總處理性能/芯片面積。

2023 年 10 月 17 日的芯片出口管制禁令更為嚴(yán)格,雖然消除了之前的帶寬限制,但是算力限制更為嚴(yán)格。 主流的英偉達(dá) H100、H800、A100、A800、L40S、RTX4090 等均在出口管制范圍內(nèi)。

英偉達(dá)和 AMD 是目前全球 GPGPU 的領(lǐng)軍企業(yè)。英偉達(dá)的通用計(jì)算芯片具備優(yōu)秀的硬件設(shè)計(jì),通過 CUDA 架構(gòu)等全棧式軟件布局,實(shí)現(xiàn)了 GPU 并行計(jì)算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應(yīng)用領(lǐng)域 中,均推出了高性能的軟硬件組合,逐步成為全球 AI 芯片領(lǐng)域的主導(dǎo)者。AMD 2018 年發(fā)布用于數(shù)據(jù)中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構(gòu),如 MI250X 采用 CDNA2 架構(gòu),在通用計(jì)算領(lǐng)域 實(shí)現(xiàn)計(jì)算能力和互聯(lián)能力的顯著提升,此外還推出了對(duì)標(biāo)英偉達(dá) CUDA 生態(tài)的 AMD ROCm 開源軟件開發(fā)平臺(tái)。 國內(nèi) AI 芯片廠商正逐步縮小與英偉達(dá)、AMD 的差距,出口管制下國產(chǎn)芯片快速發(fā)展勢在必行。英偉達(dá)憑 借其硬件產(chǎn)品性能的先進(jìn)性和生態(tài)構(gòu)建的完善性處于市場領(lǐng)導(dǎo)地位,國內(nèi)廠商雖然在硬件產(chǎn)品性能和產(chǎn)業(yè)鏈生 態(tài)架構(gòu)方面與前者有所差距,但正在逐步完善產(chǎn)品布局和生態(tài)構(gòu)建,不斷縮小與行業(yè)龍頭廠商的差距。國內(nèi)主 要 AI 芯片包括昇騰、寒武紀(jì)、海光信息、天數(shù)智芯等。

3.2 服務(wù)器:AI 時(shí)代全球服務(wù)器市場高速增長

3.2.1 AI 時(shí)代全球服務(wù)器市場高速增長,AI 服務(wù)器出貨量占比進(jìn)一步提升

AI 服務(wù)器為算力基礎(chǔ)設(shè)施最重要硬件之一,與普通服務(wù)器的絕大多數(shù)空間分配給 CPU 相比,AI 服務(wù)器 采用異構(gòu)形式,可根據(jù)應(yīng)用的范圍采用不同的組合方式,一般采取 CPU+多顆 GPU 的架構(gòu),也有 CPU+TPU、 CPU+其他的加速卡等組合。相較普通服務(wù)器,AI 服務(wù)器更擅長并行運(yùn)算,具有高帶寬、性能優(yōu)越、能耗低等優(yōu)點(diǎn)。對(duì)比 CPU 和 GPU 的內(nèi)部架構(gòu),CPU 采用整塊的 ALU(運(yùn)算單元),且大量空間用于控制單元和緩存,串 行計(jì)算能力強(qiáng);而 GPU 采用分立的大量 ALU,很少空間分配給控制單元和緩存,并行計(jì)算能力強(qiáng)。而由于圖 像識(shí)別、視覺效果處理、虛擬現(xiàn)實(shí)、大模型訓(xùn)練等任務(wù)都包含大量的簡單重復(fù)計(jì)算、矩陣計(jì)算等,更適合用搭 載 GPU 更多的異構(gòu)型 AI 服務(wù)器進(jìn)行處理,而隨著企業(yè)的智能化變革和通用大模型的興起,以 GPU 為核心的異 構(gòu)型 AI 服務(wù)器將在算力基礎(chǔ)設(shè)施建設(shè)中占據(jù)愈發(fā)重要的地位。

IDC 預(yù)計(jì),全球 AI 服務(wù)器市場將從 2022 年的 195 億美元增長到 2026 年的 347 億美元,五年年復(fù)合增長率 達(dá) 17.3%;其中,用于運(yùn)行生成式人能的服務(wù)器市場規(guī)模在整體人工智能服務(wù)器市場的占比將從 2023 年的 11.9% 增長至 2026 年的 31.7%。隨著數(shù)據(jù)量的持續(xù)提升,大模型參與玩家和單個(gè)模型參數(shù)量提升,以及數(shù)字化轉(zhuǎn)型推 進(jìn)等多因素影響,AI 服務(wù)器市場規(guī)模將繼續(xù)保持較快增長;2022 年中國 AI 服務(wù)器市場規(guī)模 67 億美元,同比增 長 24%。其中 GPU 服務(wù)器占據(jù)主導(dǎo)地位,市場份額為 89%至 60 億美元。同時(shí),NPU、ASIC 和 FPGA 等非 GPU 加速服務(wù)器以同比 12%的增速占有了 11%的市場份額,達(dá)到 7 億美元。預(yù)計(jì) 2023 年,中國人工智能服務(wù)器市場 規(guī)模將達(dá) 91 億美元,同比增長 82.5%,2027 年將達(dá)到 134 億美元,五年年復(fù)合增長率為 21.8%。

3.2.2 AI 服務(wù)器市場集中度有望提升,國內(nèi)廠商呈現(xiàn)一超多強(qiáng)格局

據(jù) IDC 數(shù)據(jù),2022 年上半年全球 AI 服務(wù)器市場中,浪潮信息、戴爾、惠普、聯(lián)想、新華三分別以 15.1%、 14.1%、7.7%、5.6%、4.7%的市場份額位居前五位。市場格局相對(duì)分散,龍頭廠商份額較為接近。此外,由于以 北美云廠商為主的需求方偏向于采用 ODM 模式,因此非品牌商份額占比較高,接近 50%。 據(jù) IDC 數(shù)據(jù),2022 年我國 AI 服務(wù)器市場按銷售額統(tǒng)計(jì)市場份額中,浪潮信息、新華三、寧暢位居前三位, 市場份額分別為 47%、11%、9%。市場格局呈現(xiàn)一超多強(qiáng)局面,除浪潮外其與廠商份額相對(duì)接近。由于國內(nèi)頭 部廠商采用類 ODM 模式服務(wù)互聯(lián)網(wǎng)客戶,因此 ODM 廠商份額占比偏低。

四、大模型技術(shù)基座國產(chǎn)化

4.1 算法國產(chǎn)替代

板塊:增速穩(wěn)定、高壁壘、高估值板塊。1)增速穩(wěn)定: 公司商業(yè)模式大多數(shù)為按年付費(fèi),一般 收費(fèi)在 IC 設(shè)計(jì)公司收入的 1%-3%之間,占 IC 公司收入比重較低,并且 EDA 公司議價(jià)權(quán)較高,因此對(duì)于成熟 穩(wěn)定的客戶,每年給 EDA 公司付費(fèi)基本穩(wěn)定或者略有增長,商業(yè)模式和高壁壘決定了 EDA 公司受下游需求波 動(dòng)影響較小。EDA 行業(yè)增長一是受益于 IC 設(shè)計(jì)門檻降低,IC 公司數(shù)量越來越多,二是 IC 品類不斷拓張,比如 第三代半導(dǎo)體的出現(xiàn),三是伴隨著先進(jìn)制程迭代,產(chǎn)品復(fù)雜度提高帶來的單價(jià)提升。加上盜版等因素的存在, 實(shí)際上有部分需求并未體現(xiàn)在 EDA 公司收入中,通過盜版的不斷轉(zhuǎn)化,EDA 龍頭公司中長期均保持穩(wěn)定增長。 2)高壁壘;技術(shù)壁壘本身較高,需要強(qiáng)大的數(shù)學(xué)物理基礎(chǔ)理論支撐,對(duì)算法要求很高。同時(shí)用戶協(xié)同壁壘較高, 制造、設(shè)計(jì)、EDA 廠商三方形成穩(wěn)定的生態(tài)圈,新進(jìn)入者極難打破。因此,高壁壘以及良好的業(yè)務(wù)穩(wěn)定性和成 長性,使得 EDA 公司如新思科技、Cadence 在美股半導(dǎo)體板塊中估值一直相對(duì)較高。

EDA 行業(yè)保持穩(wěn)定增長,國內(nèi)增速更快。根據(jù)賽迪數(shù)據(jù),2020 年全球 EDA 行業(yè)實(shí)現(xiàn)總銷售額 72.3 億美元, 同比增長 10.7%。預(yù)計(jì)至 2024 年,全球市場規(guī)模有望達(dá)到 105 億美元,2020-2024 年復(fù)合年均增長率為 7.8%。 2020 年國內(nèi) EDA 市場規(guī)模為 66.2 億,預(yù)計(jì)至 2024 年,我國 EDA 工具市場規(guī)模有望達(dá)到 115 億元人民幣,2020 至 2024 年的市場規(guī)模符合年均增長率近 17%。

EDA 結(jié)合人工智能是趨勢。EDA 問題具有高維度、不連續(xù)、非線性和高階交互的特性,機(jī)器學(xué)習(xí)等算法 能夠顯著提高 EDA 的自主程度,提升 IC 設(shè)計(jì)效率,縮短研發(fā)周期。人工智能賦能 EDA 主要從 Inside 和 Outside 兩方面實(shí)現(xiàn),從 Inside 方面,通過機(jī)器學(xué)習(xí)對(duì) DRC、能耗、時(shí)序等預(yù)測,在參數(shù)模型建立過程中實(shí)現(xiàn)參數(shù)的優(yōu) 化,同時(shí)實(shí)現(xiàn)更高效的物理空間設(shè)計(jì)。Outside 方面,通過機(jī)器學(xué)習(xí)方式,減少人工干預(yù),極大釋放勞動(dòng)力。

EDA巨頭積極進(jìn)行人工智能與芯片設(shè)計(jì)的深度融合。EDA巨頭Cadence發(fā)布了內(nèi)嵌人工智能算法的Innovus, Project Virtus,Signoff Timing 等工具,實(shí)現(xiàn)了全流程數(shù)字化智能化。Mentor 通過機(jī)器學(xué)習(xí) OPC 將光學(xué)鄰近效應(yīng) 修正(OPC)輸出預(yù)測精度提升到納米級(jí),同時(shí)將執(zhí)行時(shí)間縮短 3 倍。Synopsys 推出業(yè)界首個(gè)用于芯片設(shè)計(jì)的自 主人工智能應(yīng)用程序——DSO.aiTM。英偉達(dá)發(fā)布大語言模型 ChipNeMo,輔助工作人員完成與芯片設(shè)計(jì)相關(guān)的 任務(wù),可以回答有關(guān)芯片設(shè)計(jì)的一般問題、總結(jié) bug 文檔,以及為 EDA 工具編寫腳本等。 國產(chǎn) EDA 產(chǎn)商迎來新戰(zhàn)略機(jī)遇期。目前全球 EDA 工具上大約有近百家,排名前三的公司分別是新思科技 (Synopsys)、鏗騰電子(cadence)和明導(dǎo)(Mentor),三家巨頭占據(jù)著全球近 7 成左右的市場份額,在中國的 市占率更是超過 95%。2022 年 8 月生效的《2022 芯片與科學(xué)法案》對(duì) EDA 軟件進(jìn)行了出口管制,在中美貿(mào)易 戰(zhàn)、科技戰(zhàn)持續(xù)深化的背景下,加強(qiáng)對(duì)卡脖子的關(guān)鍵核心技術(shù)研發(fā)的支持成為半導(dǎo)體領(lǐng)域的重點(diǎn),半導(dǎo)體芯片的軟硬件國產(chǎn)化比例不斷提升,芯片核心技術(shù)自主可控勢在必行,國產(chǎn) EDA 廠商迎來重要的發(fā)展機(jī)遇。




關(guān)鍵詞: EDA AI 晶圓設(shè)計(jì)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉