人工智能行業(yè)深度報告:AI下半場,應用落地,賦能百業(yè)
2022 年 11 月底,OpenAI 發(fā)布了人機對話模型 ChatGPT,在兩個月不到的時間內(nèi)其線上活躍用戶規(guī)模超 過 1 億人,生成式大模型受到越來越廣泛的關注,人工智能行業(yè)進入到以大模型為代表的快速發(fā)展階段,巨量 參數(shù)和智能涌現(xiàn)是這一輪人工智能變革的典型特征。微軟、谷歌、Meta、亞馬遜等全球科技巨頭將大模型視為 重要的發(fā)展機遇,在生成式大模型領域加速布局,積極投入且成果頻頻。我國的眾多互聯(lián)網(wǎng)廠商和人工智能企 業(yè)也積極投身到大模型領域中,百度、訊飛、阿里、華為、騰訊、商湯等企業(yè)也在快速更迭自己的大模型,同 時高校、科研院所也積極投身大模型產(chǎn)業(yè),取得了顯著成果。
本文引用地址:http://m.butianyuan.cn/article/202312/453677.htm1.1.1 國內(nèi)外大模型發(fā)展情況
國外大模型起步相對較早,2021 年進入到快速發(fā)展期。2017 年 Transformer 模型的誕生可以被視為大模型 行業(yè)的開端,谷歌、OpenAI、微軟、英偉達等大型科技企業(yè)引領了早期的技術探索,在 2020-2021 年間逐步確 立了大模型的整體技術路徑,國外大模型行業(yè)開始加速發(fā)展。根據(jù)賽迪顧問數(shù)據(jù),截止 2023 年 7 月底,國外大 模型累計發(fā)布 138 個,其中美國發(fā)布 114 個,大模型數(shù)量大幅領先。從 2020 年起,更多國家的企業(yè)和科研單位 逐步加入到大模型的研發(fā)中,韓國、日本、法國模型數(shù)量位列美國之后。國外已發(fā)布的大模型主要集中在自然 語言和多模態(tài)兩類,其中自然語言占比 68%,多模態(tài)占比 18%,其他類型大模型合計占比 14%。
在大模型產(chǎn)業(yè)領域,中國緊跟國際前沿。2021 年起,中國也開啟了大模型的發(fā)布熱潮,涌現(xiàn)出一批有代表 性且具備影響力的大模型。受 ChatGPT 影響,國內(nèi)大模型在 2023 年進入到高速發(fā)展階段,一時間呈現(xiàn)“百模 大戰(zhàn)”局面。根據(jù)賽迪顧問, 截止 2023 年 7 月底,中國累計發(fā)布了 130 個大模型,其中 64 個大模型是在 2023 年年內(nèi)發(fā)布。國內(nèi)大模型技術分布基本與海外一致,65%的大模型集中在自然語言領域,22%的大模型集中在多 模態(tài)領域。
1.1.2 國外大模型行業(yè)發(fā)展現(xiàn)狀
OpenAI:模型性能一騎絕塵,引領大模型行業(yè)發(fā)展趨勢
2022 年底 ChatGPT 引爆社交網(wǎng)絡,人工智能行業(yè)進入到以大模型為主的快速發(fā)展階段。OpenAI 在 GPT-3.5 版本的基礎上,通過 3 個步驟實現(xiàn)基于人類反饋的強化學習微調(diào)(RLHF),得到人機對話模型 ChatGPT。通過 與人類答案的對齊過程,顯著提升了大模型的人機對話體驗。 GPT-4 具備卓越的文本處理能力,初步融合多模態(tài)能力,能力再度升級。2023 年 3 月 15 日,OpenAI 發(fā)布多模態(tài)預訓練大模型 GPT-4,相較于過去的 GPT 系列模型,提升包括幾個方面,GPT-4 相較于 ChatGPT 有更強 的高級推理能力,相較于過去的 GPT 系列模型,GPT-4 在更多應用領域成為專家,包括為機器學習模型評判標 準和為人類設計的專業(yè)測試,從“百科全書”逐步成為文理通吃的“專家”。 GPT-4 在可控性和真實性方面較 ChatGPT 有大幅提升。
2023 年 9 月 25 日,OpenAI 再度開放了帶視覺能力的 GPT-4V,用戶能夠指導 GPT-4 分析用戶提供的 圖像。在輸入 GPT-4V 支持格式方面,其支持處理圖像、子圖像、文本、場景文本和視覺指針(visual pointers) 等多種輸入。此外,GPT-4V 還支持 LLMs 中支持的技術,包括指令跟隨、思維鏈和上下文少樣本學習等。 GPT-4V 在處理任意交錯的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性共同使 GPT-4V 成 為強大的多模態(tài)系統(tǒng)。 11 月 7 日,OpenAI 首次開發(fā)者大會發(fā)布了最新模型 GPT-4 Turbo,其作為一個標準化的 AI Agent,初 步具備了規(guī)劃和工具選擇的能力,可以自動選擇接入互聯(lián)網(wǎng)、進行數(shù)據(jù)分析、圖像生成等諸多功能,真正 進化為了統(tǒng)一智能體。除了標準化的 GPT-4 以外,定制版的 GPTs 可以為用戶在日常生活、特定任務、工 作或家庭中提供幫助,用戶無需編寫代碼就可以創(chuàng)建屬于自己的定制化的智能助理,諸多定制化的 GPTs 的使用體驗顯著優(yōu)于 GPT-4,GPTs 開啟了一個全民定制個人智能助理的浪潮。OpenAI 同時還將推出 GPT store 和 Assistants API,不斷打造 GPTs 開發(fā)者生態(tài)。
Google:深度學習研究的引領者,AI 技術產(chǎn)業(yè)落地先行者
在上一輪深度學習的 AI 革命中,AI 逐步達到了與人類媲美、甚至超越人類(部分場景)的水平,逐步走 入大眾視野,而 Google 和 Deepmind 是其中的的引領者。由 Google 和 Deepmind 提出的 Word2Vec、AlphaGo 等模型以及 sequence to sequence、深度強化學習等技術是上一輪 AI 革命乃至這一輪 AI 浪潮的開創(chuàng)性、奠基性 工作,推動著 AI 技術的成熟與發(fā)展。在這一輪預訓練大模型的 AI 浪潮中,AI 展現(xiàn)出在更多具體場景中強大的 應用性能,逐步從學術研究走向商業(yè)化落地。 Google 在 2022 年 4 月推出了 PaLM 模型,其具有 5400 億參數(shù),基于 Transformer 的 Decoder 設計,PaLM 模型在多個下游任務中具有優(yōu)異性能。5 月 11 日,Google 在最新一屆 I/O 開發(fā)者大會上官宣大語言模型 PaLM 2,稱其在部分任務上超越 GPT-4。PaLM 2 在超過 100 種語言的多語言文本上進行了訓練,這使得它在語言理 解、生成和翻譯上的能力更強,并且會更加擅長常識推理、數(shù)學邏輯分析。PaLM 2 在大量公開可用的源代碼 數(shù)據(jù)集上進行了預訓練,這意味著它擅長流行的編程語言,如 Python 和 JavaScript,但也可以用 Prolog,F(xiàn)ortran 和 Verilog 等語言生成專門的代碼。
目前谷歌的聊天機器人 Bard 以及超過 25 個 AI 產(chǎn)品和功能,都由 PaLM 2 作為底層技術支持。具體的表現(xiàn) 之一是 Duet AI,一款類似于微軟 365 Copilot 的產(chǎn)品、能夠內(nèi)嵌在各種辦公軟件中的 AI 助手?;?PaLM 2, 谷歌還推出了兩個專業(yè)領域大模型。一個是谷歌健康團隊打造的 Med-PaLM 2。另一個專業(yè)大模型是面向網(wǎng)絡安 全維護的 Sec-PaLM 2,它使用人工智能來幫助分析和解釋潛在惡意腳本的行為,并在非常短的時間內(nèi)檢測哪些 腳本對個人和組織構成威脅。
META:通過開源 LLaMa 等大模型,引領大模型開源生態(tài)
LLaMA:2023 年 2 月 25 日,Meta 官網(wǎng)公布了一個新的大型語言模型 LLaMA(Large Language Model Meta AI),從參數(shù)規(guī)模來看,Meta 提供有 70 億、130 億、330 億和 650 億四種參數(shù)規(guī)模的 LLaMA 模型,并用 20 種 語言進行訓練。Meta 推出的 LLaMA 參數(shù)規(guī)模有 70 億(7B)、130 億(13B)、330 億(33B)和 650 億(65B) 四種。LLaMA-13B 在大多數(shù)基準測試中,參數(shù)僅為十分之一,但性能優(yōu)于 OpenAI 的 GPT-3(175B),而且能 跑在單個 GPU 上。LLaMA-65B 與 DeepMind 700 億參數(shù)的 Chinchilla-70B 和谷歌 5400 億參數(shù)的 PaLM-540B 不 相上下。
LLaMA2:2023 年 7 月 19 日,Meta 發(fā)布了免費商用版開源大模型 LLaMA2,各個企業(yè)能夠以相對低廉的 價格在該模型上開發(fā)應用,為客戶提供自主的大模型。Meta 發(fā)布的 LLaMA 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體,訓練數(shù)據(jù)采用了更新之后的混合數(shù)據(jù),模型方面采用文本輸入與文本輸出,預訓練模型 在2萬億token上進行訓練,訓練token總數(shù)相較于LLaMA 1增加了40%。LLaMA 2學術基準測試優(yōu)于LLaMA1, 專業(yè)場景中能力進一步提升。公布的測評結果顯示,LLaMA 2 在包括推理、編碼、精通性和知識測試等方面均 優(yōu)于相近訓練參數(shù)下的 LLaMA 1。LLaMA 2 模型最大的變化除了性能提升,還體現(xiàn)在 B 端可以助力企業(yè)開發(fā)自 己的大模型,C 端可以豐富 AIGC 應用,改變了以往大模型由多家科技巨頭壟斷的格局,AI 應用實現(xiàn)加速落地。 目前,用戶已經(jīng)能夠在 Azure 平臺上微調(diào)和部署 7B、13B 和 70B 參數(shù)的 LLaMA 2 模型。
Meta 與微軟達成合作,聯(lián)手推動 AI 應用的商業(yè)化落地。Meta 正式開源了 LLaMA 2 版本,可免費用于商 業(yè)用途,微軟宣布攜手。最新版本的模型將在微軟的 Azure 和 Windows 平臺上線并開源,用戶可以在云服務中 使用 Llama 2 作為基礎模型,快速構建適用于自身業(yè)務的專用大模型。目前,用戶已經(jīng)能夠在 Azure 平臺上微 調(diào)和部署 7B、13B 和 70B 參數(shù)的 LLaMA 2 模型。未來,LLaMA 將進行優(yōu)化,以在 Windows 上本地運行。
1.1.3 國內(nèi)大模型發(fā)展現(xiàn)狀
百度
從 2010 年的百度搜索開始,百度成立了自然語言部門,初步研究互聯(lián)網(wǎng)機器翻譯技術,2013 年推出百度 語音助手,2014 年推出智能搜索小度機器人,2017 年推出智能客服。在長期的布局和發(fā)展中,百度構建了完整 的語言與知識技術布局,包括知識圖譜、語言理解與生成技術,以及上述技術所支持的包含智能搜索、機器翻 譯、對話系統(tǒng)、智能寫作、深度問答等在內(nèi)的的應用系統(tǒng)。 2023 年 3 月 16 日,百度發(fā)布了生成式人工智能大模型“文心一言”。作為文心大模型家族的新成員,文心 一言在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發(fā)。文心一言包含六大核心技術模塊,包 括:1)有監(jiān)督精調(diào);2)基于人類反饋的強化學習;3)提示;4)知識增強;5)檢索增強;6)對話增強,前 三類技術在目前流行的對話大模型如 ChatGPT 中都有所應用,而后三類技術則是百度基于自身技術積累的再創(chuàng) 新,它們共同構成了模型的技術基礎。
2023 年 5 月,百度文心大模型 3.5 版本已內(nèi)測可用,在基礎模型升級、精調(diào)技術創(chuàng)新、知識點增強、邏輯 推理增強、插件機制等方面創(chuàng)新突破,取得效果和效率的提升。2023 年 8 月 31 日,文心一言率先向全社會全 面開放。9 月 13 日,百度發(fā)布文心一言插件生態(tài)平臺“靈境矩陣”。文心一言面向全社會開放至百度世界 2023 大會召開期間,40 多天的時間,文心一言用戶規(guī)模已經(jīng)達到 4500 萬,開發(fā)者 5.4 萬,場景 4300 個,應用 825 個,插件超過 500 個。 2023 年 10 月 17 日,百度世界大會上正式發(fā)布文心大模型 4.0。與原有的 3.5 版本相比,具有以下優(yōu)勢:1) 更強的模型能力和圖片生成能力。根據(jù)測試,文心大模型 4.0 版本在理解、生成、邏輯、記憶四大功能上都有 明顯提升,具有顯著優(yōu)化的模型性能。2)支持接入豐富的 API 插件,可以實現(xiàn)撰寫代碼、潤色文案、設計與繪 圖等多種功能。
文心一言成為首個國內(nèi)面向 C 端收費的大模型產(chǎn)品。文心一言專業(yè)版的分為單獨訂閱和聯(lián)合會員兩種收費 模式。單獨訂閱模式下,會員月付 59.9 元,選擇連續(xù)包月可以享受 49.9 元的優(yōu)惠價格;該模式下會員可以使 用文心一言大模型 3.5 和 4.0 兩個版本,而非會員只可使用免費的文心大模型 3.5 版本。聯(lián)合模式下,用戶月 付 99 元,可以同時具有單獨訂閱模式的全部功能,并獲得文心一格白銀會員資格,享受 AI 修圖改圖等功能。
科大訊飛
隨著大語言模型爆火網(wǎng)絡,公司自主研發(fā)了對標 ChatGPT 的星火大模型。星火大模型是基于深度學習、 以中文為核心的自然語言大模型,在跨領域多任務上具備類人的理解和生成能力,可實現(xiàn)基于自然對話方式的 用戶需求理解與任務執(zhí)行。 公司大模型不斷迭代進步,能力實現(xiàn)全方位提升。2022 年 12 月 15 日,科大訊飛啟動了“1+N 認知智能大 模型專項攻關”。2023 年 5 月 6 日,訊飛推出星火認知模型的 1.0 版本,七大核心能力發(fā)布,同時發(fā)布大模型評 測體系。6 月 9 日,星火升級至 1.5 版本,突破開放式問答、多輪對話能力和數(shù)學能力;8 月發(fā)布 2.0 版本,實 現(xiàn)多模態(tài)能力,同時代碼能力顯著提升。
星火 3.0 全面對標 ChatGPT。10 月 24 日,星火推出 3.0 版本,在語義理解、時效把握、代碼生成能力等 基礎功能上都有很大提升;在時空感知能力上表現(xiàn)突出;專業(yè)性能力基本無實時性錯誤,尤其醫(yī)療能力水平,可以給出適時的診療提醒。全面對標 chatGPT,中文能力客觀測評超過 ChatGPT,英文能力對標 ChatGPT48 項 任務結果相當。根據(jù)國務院發(fā)展研究中心經(jīng)濟研究院測評報,星火大模型 3.0 綜合能力達到國際一流水平,在 醫(yī)療、法律、教育行業(yè)表現(xiàn)突出。訊飛同時發(fā)布十二個行業(yè)大模型,涵蓋金融、汽車交互、運營商、工業(yè)、傳 媒、法律、政務、科技文獻、住建、物業(yè)、文旅、水利十二個領域。訊飛正式啟動對標 GPT-4 的大模型訓練, 2024 年上半年對標 GPT-4。
智譜
智譜 AI 致力于打造新一代認知智能大模型,專注于做大模型的中國創(chuàng)新,通過認知大模型鏈接物理世界的 億級用戶。基于完整的模型生態(tài)和全流程技術支持,智譜 AI 一方面重視研發(fā)超大規(guī)模訓練模型,并基于此推出 對話模型 chatGLM;另一方面踐行 Model as a Service(MaaS)的市場理念,推出大模型 MaaS 開放平臺。 2023 年 3 月 14 日,ChatGLM1.0 開啟邀請制內(nèi)測。ChatGLM 參考 ChatGPT 的設計思路,在千億基座模型 GLM-130B 中注入代碼預訓練,通過監(jiān)督微調(diào)等技術實現(xiàn)人類意圖對齊,具有支持雙語、高精度、快速推理、 可復現(xiàn)性和跨平臺等優(yōu)勢。同期開源的還有具有 62 億參數(shù)、支持中英文雙語對話的 ChatGLM-6B,雖然規(guī)模不 及千億模型,但大大降低了推理成本。 2023 年 6 月 27 日,第二代 ChatGLM 正式發(fā)布。在保留初代模型對話流暢、部署門檻低的基礎上引入更加 強大的性能、允許更多輪次的對話和更長的上下文、進行更高效的推理、允許更開放的協(xié)議。2023 年 7 月 15 日,智譜 AI 宣布 ChatGLM 允許免費商用。
商湯科技
商湯科技擁有深厚的學術積累,并長期投入于原創(chuàng)技術研究,不斷增強行業(yè)領先的多模態(tài)、多任務通用人 工智能能力,涵蓋感知智能、自然語言處理、決策智能、智能內(nèi)容生成等關鍵技術領域。2023 年 4 月 10 日, 商湯 SenseTime 舉辦技術交流日活動,分享了以“大模型+大算力”推進 AGI(通用人工智能)發(fā)展的戰(zhàn)略布局, 并公布了商湯在該戰(zhàn)略下的“日日新 SenseNova”大模型體系,推出自然語言處理、內(nèi)容生成、自動化數(shù)據(jù)標 注、自定義模型訓練等多種大模型及能力。 依托自研千億級參數(shù)自然語言模型,商湯科技 4 月 10 日發(fā)布了中文語言大模型應用平臺“商量 SenseChat”。 "商量SenseChat"是由商湯科技研發(fā)的一款基于自然語言處理技術的人工智能大語言模型,具備較強的語言理解、 生成能力,可以解決復雜問題,提供定制化建議,還能輔助創(chuàng)作文本,同時具備不斷學習進化的特性。 7 月 7 日,“商量 SenseChat”迭代至 2.0 版本,其基模型為商湯聯(lián)合多家國內(nèi)頂級科研機構發(fā)布的書生·浦語 InternLM-123B,擁有 1230 億參數(shù),在語言、知識、理解、推理和學科五大能力上均處于行業(yè)領先水平。
1.1.4 大模型行業(yè)整體發(fā)展評述
國外大模型發(fā)展趨勢: 美國人工智能企業(yè)引領行業(yè)發(fā)展。美國 OpenAI 的基礎大模型性能領先,目前已經(jīng)在基礎大模型上開始快 速構建開發(fā)生態(tài),Google 也在發(fā)力追趕過程中,Meta 通過開源大模型構建開源生態(tài)。美國在研發(fā)能力、人才儲 備、算力支持方面仍然占據(jù)一定優(yōu)勢。我們預期,海外大模型將沿著多個維度持續(xù)演進。
更大的參數(shù)量、更多的訓練文本依舊是大模型的主要發(fā)展路徑。 OpenAI 論文《Scaling Laws for Neural Language Models》中提出著名的縮放法則,縮放法則中提到模型表 現(xiàn)和規(guī)模強相關,和模型的 shape 弱相關:規(guī)模包括模型參數(shù)量 N、數(shù)據(jù)集大小 D 和計算量 C,模型 shape 指模 型 depth、width、number of self-attention heads。Palm-2 technical report 中提到,訓練數(shù)據(jù)量和模型參數(shù)量大小保 持同比例增長是最優(yōu)組合。 目前最先進的大模型 GPT-4 仍然高度符合縮放法則,簡而言之,模型越大性能越好,訓練的數(shù)據(jù)量越大模 型性能越好,這條法則仍然成立。通過單純的增加模型參數(shù)量和訓練數(shù)據(jù)量就可以實現(xiàn)更好的模型性能,可以 預期,在短期之內(nèi),不斷增加模型參數(shù)量依舊是提升模型性能的主要手段。
更多的模態(tài)到來,開啟全新的多模態(tài)時代。 文本、語音、圖片等單模態(tài)人工智能模型已經(jīng)相對成熟,大模型正在朝著多模態(tài)信息融合的方向快速發(fā)展。 圖文多模態(tài)技術已經(jīng)取得了顯著的進步,未來大模型不止?jié)M足文字和圖像,開始向著音頻、視頻等領域拓展。
大模型的邏輯思維能力可能看到飛躍式提升。 大語言模型在文本的理解和生成上表現(xiàn)出色,但是涉及到數(shù)理邏輯推理時表現(xiàn)仍然有待提升。通過思維鏈、 思維樹的提示詞工程設計,大語言模型能夠將大型任務分解為較小且易于管理的子目標,內(nèi)部的邏輯一致性顯 著增長,從而高效地處理復雜任務。
AI Agent 將成為我們接觸大模型的主要媒介。AI Agent 是有能力主動思考和行動的智能體,它們能夠使用傳感器感知周圍環(huán)境,做出決策,然后使用執(zhí) 行器采取行動,甚至與別的 agent 合作實現(xiàn)任務。OpenAI 應用研究主管 LilianWeng 提出了 AI Agent 的重要組成 公式:Agent =大語言模型(LLM) + 規(guī)劃能力(Planning) + 工具(Tool) + 記憶(Memory)。AI Agent 相 比大語言模型的提升在于:與環(huán)境交互、個性化記憶、主動決策、合作機制。在生成式 AI 的不同應用等級中, AI Agent 是比聊天機器人更高層級的應用形態(tài)。
國內(nèi)大模型發(fā)展趨勢: 國內(nèi)大模型行整體依舊處于跟跑狀態(tài),目前國內(nèi)具備代表性的大模型在中文問答表現(xiàn)上已經(jīng)與 ChatGPT 不 相上下,短期之內(nèi)仍然是沿襲海外技術路線,模型規(guī)模的不斷增加和訓練語料的不斷擴充是當前的主要任務。 同時國內(nèi)大模型的多模態(tài)能力仍處在起步發(fā)展階段,短期之內(nèi)有望看到多模態(tài)能力的快速提升。受 ChatGPT 驅 動,2023 年國內(nèi)大模型呈現(xiàn)迅猛發(fā)展局面,經(jīng)歷近一年時間,國內(nèi)大模型實現(xiàn)能力上的快速進步。根據(jù)賽迪顧 問,截至 2023 年 7 月,中國累計已經(jīng)有 130 個大模型問世,其中有近一半的大模型在今年年內(nèi)問世。 同時國內(nèi)大模型的整體競爭格局也日益清晰,大致可以分為三類大模型:具備持續(xù)技術領先能力的閉源大 模型、具備領跑能力的開源大模型、具備垂類場景優(yōu)勢的垂類大模型。大模型的每一次迭代更新都需要大量的 研發(fā)投入和算力投入,在一年時間內(nèi)經(jīng)歷多次的迭代更新,如未見顯著的技術領先優(yōu)勢或特定場景的優(yōu)秀商業(yè) 模式,或將無法維系大模型的持續(xù)投入。我們認為,目前國內(nèi)大模型已經(jīng)經(jīng)過了高速發(fā)展的擴張階段,預期將 見到模型擴張速度的下降,競爭格局更為集中。
國內(nèi)大模型格局: 具備技術持續(xù)領先能力的大模型:優(yōu)秀的大模型人才、充足的算力資源、海量的優(yōu)質數(shù)據(jù)、足夠的研發(fā)投 入是人工智能企業(yè)具備醞釀大模型的先決條件,在快速的迭代發(fā)展過程中,部分大模型展現(xiàn)出持續(xù)的技術領先 優(yōu)勢,典型如百度文心一言、科大訊飛星火大模型。具備技術優(yōu)勢的閉源大模型具備較強的變現(xiàn)能力。 開源大模型:開源大模型與頂尖的閉源大模型相比有一定的技術差距,其參數(shù)量和上下文窗口長度普遍相 對較小。但是開源模型借助社區(qū)的創(chuàng)新力量,實現(xiàn)了技術的快速迭代和應用拓展,成為大模型行業(yè)發(fā)展的重要 支撐。 具備垂類場景優(yōu)勢的大模型:通用大模型可以幫助用戶解決一般性問題,而當企業(yè)需要處理其特定行業(yè)的 數(shù)據(jù)和任務時,往往需要針對其行業(yè)數(shù)據(jù)庫來對基本模型進行微調(diào),垂直行業(yè)的特性和需求不盡相同,垂類場 景中的垂類數(shù)據(jù)是專業(yè)大模型競爭中的核心要素,專業(yè)數(shù)據(jù)驅動垂類模型百花齊放。
大模型商業(yè)模式: 大模型 C 端商業(yè)模式:1)以純軟件的形態(tài)輸出聊天機器人、包含大模型能力的各類軟件(例如 copilot)、 AI Agent(GPTs)等產(chǎn)品;2)融合大模型能力的各類智能硬件,例如 AI pin、智能音響、翻譯機、學習機等。 大模型 B 端商業(yè)模式:1)出售大模型 API 接口,向公司或開發(fā)者按照調(diào)用次數(shù)收費;2)直接賣大模型 開發(fā)服務,向傳統(tǒng)企業(yè)輸出大模型行業(yè)解決方案獲得收入;3)大模型配合 AI 服務器形成軟硬一體的產(chǎn)品,打 包向傳統(tǒng)企業(yè)輸出大模型行業(yè)解決方案;4)用大模型改造現(xiàn)有業(yè)務,提高產(chǎn)品的競爭力獲得更多商業(yè)回報,即 Model-As-A-Service (MaaS)模型即服務。
1.2 AI 前沿技術趨勢展望
1.2.1 AI Agent(AI 智能體)
AI Agent 指的是人工智能智能體,其能夠使用傳感器感知周圍環(huán)境,做出決策,并使用執(zhí)行器采取行動。 OpenAI 應用研究主管 LilianWeng 提出了重要公式:Agent = LLM(大型語言模型)+ 記憶 + 規(guī)劃技能 + 工 具使用。 大型語言模型為 AI Agent 帶來了革命性進步,經(jīng)過四大發(fā)展階段,逐步具備了高效推理、靈活行動、強大 的泛化以及無縫任務轉移的能力。發(fā)展歷程:AI Agent 經(jīng)歷了符號智能體、反映型智能體、基于強化學習的智 能體、具有遷移學習和元學習功能的智能體四大發(fā)展階段,現(xiàn)在已經(jīng)跨入基于大型語言模型的智能體階段。大 語言模型為 AI Agent 帶來了突破性的進展,同時具備了以上四大發(fā)展階段的優(yōu)勢:1)通過思維鏈(CoT)和問 題分解等技術,基于 LLM 的智能體可以表現(xiàn)出與符號智能體相當?shù)耐评砗鸵?guī)劃能力;2)通過從反饋中學習和 執(zhí)行新的行動,獲得與環(huán)境互動的能力,類似于反應型智能體;3)大型語言模型在大規(guī)模語料庫中進行預訓練, 并顯示出泛化與遷移學習的能力;4)從而實現(xiàn)任務間的無縫轉移,而無需更新參數(shù)。 由于大模型仍存在大量的問題(如幻覺、上下文容量限制等),并且極度依賴于用戶自己給出指令,如果用 戶指令不夠清晰,就會影響整個模型的效果。能夠自己獨立思考、調(diào)用工具去逐步完成給定目標的 AI Agent 會 是從大模型通往 AGI 路上的下一個階段。
AI 智能體已經(jīng)在多個下游逐步應用,包括社會科學、自然科學、工程學等領域,并表現(xiàn)出過去 AI 無法實 現(xiàn)的功能和性能。 自然科學領域中,AI Agent 主要應用在科學教育中,在實驗助理、文獻及數(shù)據(jù)管理方面也有所應用。例如 卡耐基梅隆大學的研究人員在 2023 年 8 月 14 日提出的編程教育 Agent CodeHelp,其提供了設定課程關鍵詞、 監(jiān)控學生查詢以及提供反饋等功能。 工程學領域中,AI Agent 的應用最為廣泛,其中機器人&具身智能、計算機科學&軟件工程、通用 Agent 是最主要的應用場景。AutoGPT 是通用 Agent 的代表,其可以將設定好的一個或多個目標分解為相應的任務并 循環(huán)執(zhí)行。自 AutoGPT 引發(fā)廣泛關注以來,相關研究持續(xù)推進,如 MiniAGI、SuperAGI、AutoGen 等。 社會科學領域中,AI Agent 應用在模擬實驗、心理學、政治與經(jīng)濟學等場景中。例如著名的斯坦福小鎮(zhèn) (Generative Agents),其在虛擬城鎮(zhèn)中構建了多個 AI Agent 來模擬人類的日常生活,大大降低了社會學實驗的 成本并避免了潛在的道德風險。 大語言模型具有強大的語言理解能力、復雜任務推理能力和知識積累,這些能力讓基于大語言模型的 AI Agent 在多個下游領域中展現(xiàn)出強大潛力,AI Agent 的發(fā)展也將讓大模型的“智慧”得以應用于解決更多現(xiàn)實 場景的問題,拓寬 AI 應用的邊界。目前 AI Agent 的技術框架已經(jīng)較為清晰,后續(xù)隨各環(huán)節(jié)的技術革新以及各 場景數(shù)據(jù)收集等的持續(xù)推進,AI Agent 將加速發(fā)展,值得持續(xù)關注。
以下舉例幾個在不同領域應用的智能體實例:
1) 自然科學領域 AutoGPT&XAgent
AutoGPT 是一種開源的完全自動化智能體。AutoGPT 通過 API 結合了 GPT-3.5 和 GPT-4,允許用戶創(chuàng)建 使用語言模型來生成和改進文本。它可以閱讀、寫作和瀏覽網(wǎng)絡,它根據(jù)任務目標自己創(chuàng)建 prompt,然后再完 成這個任務,接下來重復這個過程直到達到最終目標。它還可以使用 GPT-4 編寫自己的代碼,并執(zhí)行 Python 腳 本以遞歸調(diào)試、開發(fā)、構建和自我改進。目前已開發(fā)的應用場景包括:進行市場調(diào)研、生成博客大綱、開發(fā)應 用程序、搭建網(wǎng)站、為客戶提供服務、管理社交媒體賬號、成為財務顧問。 但目前 AutoGPT 的缺點也非常明顯,比如 GPT4 費用較高,對于一個小任務,如果按照平均 50 個步驟 來算的話,成本大概為 50 * 0.288 = 14.4 美元(約人民幣 98.5 元),此外 GPT 3.5 非常容易逃逸或者陷入死循 環(huán)。
2)工程學領域 MetaGPT
MetaGPT 是一個基于 GPT-4 的多智能體合作框架,該框架將人類的 SOP(標準化作業(yè)流程)編碼為 LLM 智能體,并從根本上擴展了解決復雜問題的能力。設計了一個新的元編程機制,包括角色定義、任務分解、流 程標準化和其他技術設計。這樣,MetaGPT 能夠使用 SOP 開發(fā)復雜的軟件。 核心優(yōu)勢:1.引入元編程框架:在構建多智能體系統(tǒng)時具有極高的便利性和靈活性。2.整合人類 SOP 過程 設計:減少了基于 LLM 的多智能體協(xié)作中的錯誤,顯著提高了穩(wěn)健性,使系統(tǒng)具備了系統(tǒng)化工程解決復雜任務 的能力。3.實現(xiàn)最先進的性能:經(jīng)過對 python 游戲生成、CRUD2 代碼生成和與 AutoGPT、AgentVerse、LangChain 以及 MetaGPT 一起的簡單數(shù)據(jù)分析任務進行了全面實驗。整體結果顯示 MetaGPT 在代碼質量和預期工作流的 一致性方面都優(yōu)于其對手。并且,MetaGPT 有潛力解決 LLM 中的幻覺問題,從而引導協(xié)作的 LLM 系統(tǒng)朝更有 效的設計方向發(fā)展。
3)自然科學領域 Humanoid Agents
以往的 Agents 會根據(jù)環(huán)境制定嚴格的計劃,但事實上這一過程與人類的思維方式并不完全相似。大多數(shù)人 不會提前制定計劃,然后在日常生活中一絲不茍地精確執(zhí)行這些計劃,原因就在于 Agent 并沒有真正反映出人 類的基本需求、真實情感及人際間微妙的距離感。 為了減輕這一缺點的影響,研究者基于 ChatGPT 3.5 提出了仿人類機器人—Humanoid Agents,該模型引入 了基本需求(飽腹感、健康和能量)、情感和關系親密程度三大概念,來讓 Agent 表現(xiàn)得更像人類。利用這些元 素,Agents 就能調(diào)整自己的日常活動,以及和其他 Agent 的對話,而且也會像人一樣,遵守馬斯洛需求理論。 實驗表明 Humanoid Agents 對于活動是否增加飽腹感和能量;活動中表達的情感;對話是否拉近了參與者之間 的關系都能夠進行很好的預測,但是在分類活動是否滿足樂趣、健康和社交等基本需求方面略顯吃力。 在陪伴場景下(如虛擬戀人),更了解人類情感的 Agent 可以帶給人更優(yōu)秀的情緒價值,提出更人性化的 建議,更好得滿足當代人的情感需要。
1.2.2 混合專家模型技術
混合專家模型(MoE)是一種稀疏門控制的深度學習模型,主要由一組專家模型和一個門控模型組成。MoE 的基本理念是將輸入分割成多個區(qū)域,并對每個區(qū)域分配一個或多個專家模型。每個專家模型可以專注于處理輸入的一部分,從而提高模型的整體性能。 門控模型:稀疏門網(wǎng)絡是混合專家模型的一部分,它接收單個數(shù)據(jù)元素作為輸入,然后輸出一個權重,這 些權重表示每個專家模型對處理輸入數(shù)據(jù)的貢獻。例如,如果模型有兩個專家,輸出的概率可能為 0.7 和 0.3, 這意味著第一個專家對處理此數(shù)據(jù)的貢獻為 70%,第二個專家為 30%。 專家模型:在訓練的過程中,輸入的數(shù)據(jù)被門控模型分配到不同的專家中進行處理,如右圖所示,不同的 專家被分配到處理不同種類的輸入數(shù)據(jù);在推理的過程中,被門控選擇的專家會針對輸入的數(shù)據(jù),產(chǎn)生相應的 輸出。 這些輸出(可以是標簽或者數(shù)值) 最后會和每個專家模型處理該特征的能力分配的權重進行加權組合, 形成最終的預測結果。 混合專家模型在訓練過程中通過門控模型實現(xiàn)“因材施教”,進而在推理過程中實現(xiàn)專家模型之間的“博 采眾長”。
混合專家模型通過僅激活少數(shù)專家模型處理輸入數(shù)據(jù),提高訓練和推理效率。在傳統(tǒng)的密集模型中,對于 每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中,處理輸入數(shù)據(jù)時只有少數(shù)專家模型被激 活或者使用,而大部分專家模型處于未被激活狀態(tài),這種狀態(tài)便是“稀疏”。稀疏性是混合專家模型的重要優(yōu) 點,也是提升模型訓練和推理過程的效率的關鍵。 對于稀疏性的控制,主要通過調(diào)整門控網(wǎng)絡的設計和參數(shù)來實現(xiàn)。在參數(shù)選擇上,如果門控網(wǎng)絡單次選擇 的專家模型數(shù)量較多,則模型的稀疏性就會降低。單次選擇專家的數(shù)量越多, 模型的表現(xiàn)能力可能有所提升, 因為更多的專家模型處理輸入數(shù)據(jù),所以導致稀疏性有所下降,增加計算的復雜性和耗時。因此, MoE 模型 的稀疏性在效率和表現(xiàn)能力之間存在權衡。根據(jù)不同的應用需求和資源限制,需要適當調(diào)整門控網(wǎng)絡的設計和 參數(shù),來找到最佳的效率和表現(xiàn)能力之間的平衡。
在自然語言處理領域中,2017 年,谷歌首次將 MoE 引入自然語言處理領域,通過在 LSTM 層之間增加 MoE 實現(xiàn)了機器翻譯方面的性能提升。2020 年,Gshard 首次將 MoE 技術引入 Transformer 架構中,并提供了高效的 分布式并行計算架構。而后的 Swtich Transformer 和 GLaM 則進一步挖掘 MoE 技術在自然語言處理領域中的應 用潛力,實現(xiàn)了優(yōu)秀的性能表現(xiàn)。 Switch Transformer:通過 MoE 技術對模型進行拓展,最大版本的 Switch Transformer 的參數(shù)量高達 1.6 萬 億。因其優(yōu)秀的稀疏性,在計算資源相同的情況下,74 億版本的 Switch Transformer 訓練速度可以達到 T5 模型 的 7/2.5 倍(對應 T5 模型的不同版本,Large 為 7.7 億,Base 為 2.2 億)。同時在多任務的表現(xiàn)上也取得了相比 密集模型更為優(yōu)秀的結果。 GLaM:最大的 GLaM 擁有 1.2 萬億個參數(shù),大約是 GPT-3 的 7 倍。然而,它只消耗了訓練 GPT-3 所需能 量的 1/3,并在推理時只需要一半的計算浮點運算量, 計算效率更高。在零樣本、單樣本和少樣本學習任務上 也實現(xiàn)了更好的性能,在七個具體任務中分別實現(xiàn)了平均 10.2%、6.3%和 4.4%的性能提升。
在計算機視覺領域中,2013 年的 DMoE 便是在 MNIST 數(shù)據(jù)集上使用了密集的 MoE 層,2021 年的 V-MoE 將 MoE 架構應用在計算機視覺領域的 Transformer 架構模型中,同時通過路由算法的改進在相關任務中實現(xiàn)了 更高的訓練效率和更優(yōu)秀的性能表現(xiàn)。 V-MoE 原理:V-MoE 通過將 ViT 中的一部分密集前饋層替換為稀疏的 MoE 層來實現(xiàn),每個圖像塊被“路 由”到一組“專家”(MLPs)中進行處理,同時通過對圖像中重要信息的優(yōu)先分析(優(yōu)先級路由),使得模型可 以不需要分析所有信息便可以得到較為準確的結果,對于鴨子的圖片,通過將其中重要的 16 個 token 分配到 4 個專家處,便可以得到較為正確的分析,提升了模型運算效率。 V-MoE 性能:通過使用稀疏的 MoE 層,V-MoE 可以在保持性能的同時減少計算資源的使用,從而實現(xiàn)更 高效的模型訓練和推理。在兩個任務中,V-MoE 相較于 ViT 模型,達到相同性能的情況下節(jié)省了 2.5 倍的算力消耗,而在相同的算力消耗下,V-MoE 也實現(xiàn)了更優(yōu)的性能。 同時,V-MoE 還可以用于其他計算 機視覺任務,如目標檢測和圖像生成。
在多模態(tài)領域中,2022 年的 LIMoE 是首個應用了稀疏混合專家模型技術的多模態(tài)模型,模型性能相較于 CLIP 也有所提升。 LIMoE 原理:將輸入的圖像/文本通過門控網(wǎng)絡分配到不同的專家模型中,鴨子(drake)的圖 片和對應的文字描述的 token 被分配到不同的專家中進行處理,每個專家處理完后通過輸出層為圖像或文本生 成一個統(tǒng)一的向量表示。 LIMoE 性能:在零樣本和 10 樣本的 ImageNet 分類任務中,LIMoE 的絕對平均性能相較于 CLIP 實現(xiàn)了 10.1 和 12.2%的提升,在 Coco T2I(文本到圖像檢索)任務上,LIMoE 也實現(xiàn)了較為明顯的性能提升,其中在小規(guī) 模模型上這一提升更為顯著。
1.2.3 機器人大模型
1.2.3.1 人工智能模型推動機器人控制革新
機器人控制系統(tǒng)相當于機器人的大腦,機器人控制算法則是其中的軟件核心。其核心功能是處理來自傳感 器的檢測信號,給出機器人下一步應該怎么做的指示。與傳統(tǒng)的機械系統(tǒng)控制算法相比,機器人控制算法是非 線性、多變量、時變的,且相較于傳統(tǒng)機械,機器人面臨的應用環(huán)境也更為復雜和多樣,這意味著機器人控制 算法有相當高的設計難度。 早期機器人控制算法主要采用 PID 算法,后續(xù)復雜的運動控制算法如 MPC 和 WBC 逐漸成為主流。PID 算法早在 1932 年由物理學家哈利奈奎斯特,而后便被廣泛應用在各類控制領域中,包括機器人控制領域中。但 由于 PID 方法本質上是線性控制器,因此無法處理較為復雜的任務。而后 1987 年提出的 MPC 算法和 2004 年 提出的 WBC 算法逐漸成為主流,讓更為復雜任務的處理成為可能,但同時也還存在著計算復雜度高、算力需 求高的問題。
1.2.3.2 谷歌:機器人大模型引領者
隨著各項人工智能技術的不斷發(fā)展,具備與物理世界交互的強大潛力的智能機器人成為學界和業(yè)界的重要 研究賽道。其中 Google 依托其在 AI 領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型 的發(fā)展。Google Deepmind 在 2023 年 6 月和 7 月發(fā)布了其最新研究成果,具備“自我完善”能力的“RoboCat” 和融合大語言模型能力的 VLA 模型“RT-2”,機器人智能化進一步加速,有望掀起新一輪 AI 革命。 從 Gato 到 RoboCat,更大規(guī)模的訓練數(shù)據(jù)集和創(chuàng)新的自我完善方法助力打造更強的機器人智能體。在 2022 年 5 月提出的 Gato 模型將智能體擴展到機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其 模型架構和控制任務數(shù)據(jù)的序列化方式是后續(xù)模型發(fā)展的重要基礎。2023 年 7 月提出的 RoboCat 則基于 Gato 的模型基礎,將訓練數(shù)據(jù)集擴充至 400 萬個機器人相關片段,并創(chuàng)新性的提出“自我完善”的方式來進一步豐 富訓練數(shù)據(jù),這兩點創(chuàng)新讓 RoboCat 在實現(xiàn)了訓練任務的性能提升并具備了一定的泛化性能,并且能夠在少量 數(shù)據(jù)微調(diào)的情況下處理未見過的任務。
1.2.3.3 Meta:持續(xù)探索在有限數(shù)據(jù)集情況下實現(xiàn)更優(yōu)秀機器人控制的方法
近年來,Meta 一直是 AI 領域不可忽視的力量,前沿研究如 CV 領域的 SAM 模型,NLP 領域的 LLaMa均是相關領域的最前沿技術之一。在機器人模型領域,Meta 也已經(jīng)展開了較為完善的布局,提出了一些卓有成 效的改進策略如數(shù)據(jù)增強、動作序列生成等,相關模型如 R3M、CACTI、ASC、MT-ACT 等,其他領域的核 心突破如 SAM 模型也應用到了其中。 從 R3M 到 MT-ACT,Meta 持續(xù)探索如何使用有限的數(shù)據(jù)集實現(xiàn)更優(yōu)秀的機器人控制。在 2022 年 3 月推 出的 R3M 模型中,Meta 首次引入人類視頻數(shù)據(jù)作為機器人控制模型的知識來源,提升機器人模型訓練效率。 在 2022 年 12 月推出的 CACTI 模型中,使用數(shù)據(jù)增強技術實現(xiàn)了訓練數(shù)據(jù)規(guī)模高效擴充。2023 年 8 月推出的 MT-ACT 模型將數(shù)據(jù)增強技術(基于 SAM 視覺模型)和動作序列生成技術結合,在 7500 個原始訓練數(shù)據(jù)的情 況下,在不同難度的測試中分別實現(xiàn)了 81.67%、65.17%、31.33%的成功率,小規(guī)模數(shù)據(jù)表現(xiàn)優(yōu)于其他可比模型。
二、AI 應用趨勢展望
2.1 AI+教育是人工智能落地的黃金賽道
教育行業(yè)因為其個性化學習訴求強、數(shù)據(jù)豐富度高、付費意愿強,成為人工智能的優(yōu)質落地領域。不同地 區(qū)、學校和學生具備“因材施教”強個性化學習需求,教育領域的高數(shù)據(jù)豐富度為垂直大模型的訓練提供可能, 同時,教育作為剛需領域,學生、家長付費意愿普遍較強。AI 的發(fā)展使得以低成本的方式建設自適應學習系統(tǒng) 成為可能。具備較強理解能力的生成式人工智能可以持續(xù)為學生提供個性化教學服務,且隨著教學規(guī)模的擴大, 其人均成本逐漸下降,顯著降低了個性化學習的成本。
AI+教育主要有以下三點優(yōu)勢: 一、教學環(huán)境及課程形式的靈活化。AI 技術的引入使得教學不再局限于課堂,學生可以隨時隨地獲得最新、 優(yōu)質的學習資源,向 AI 助手請教。利用 AI 的高效多模態(tài)生成力,還可以呈現(xiàn)不同的課程形式營造更多的沉浸 感。 二、學習過程的個性化。AI 教育平臺往往具有教學、考試、批改、解答、集錯等多重功能,通過分析學生 在考試過程中的用時分配、錯題分類,發(fā)現(xiàn)學生薄弱環(huán)節(jié),針對性提供學習資源、個性化的學習方案和改進方 案,即時給予反饋和評估。借助 AI 技術,針對性輔導成本大大降低,教育更好地適應每個學生的獨特需求和能 力水平。 三、教學活動的降本增效。對于教育資源有限的地區(qū),相對較低成本的 AI 教育應用使得高質量資源更加 觸手可及,進一步促進教育公平;對于教學者,AI 軟件的批閱、評估功能大大減少了機械化勞動,使教師有更 多的精力投入到創(chuàng)造性的教學活動中,提高了教學效率。 隨著生成式人工智能技術的爆發(fā),AI+教育邁向全新的發(fā)展階段。根據(jù) Market Research 數(shù)據(jù),生成式人工 智能在教育領域的市場規(guī)模將從 2022 年的 2.15 億美元上升至 2030 年的 27.4 億美元,CAGR 為 37.5%,其中面向學生端的市場規(guī)模大致占到全部市場規(guī)模的一半。
國家出臺 AI+教育的綱領性文件,頂層規(guī)劃驅動行業(yè)穩(wěn)步發(fā)展。2018 年 4 月,教育部發(fā)布《教育信息化 2.0 行動計劃》,在行動規(guī)劃上提出不斷推動人工智能與教育深度融合,加快面向下一代網(wǎng)絡的高校智能學習體系建 設。2022 年 8 月,科技部發(fā)布《支持建設新一代人工智能示范應用場景》,針對青少年教育中“備、教、練、測、 管”等關鍵環(huán)節(jié),運用學習認知狀態(tài)感知、無感知異地授課的智慧學習和智慧教室等關鍵技術,構建虛實融合與 跨平臺支撐的智能教育基礎環(huán)境。2023 年 6 月,教育部發(fā)布《基礎教育課程教學改革深化行動方案》,強調(diào)探 索利用人工智能、虛擬現(xiàn)實等技術手段改進和強化實驗教學以及遴選一批富有特色的高水平科學教育和人工智 能教育中小學基地。
2.1.1 AI+教育軟件
AI+教育軟件是人工智能落地的重要領域,多鄰國與可汗學院是全球市場上的領跑者。 自 2021 年起,多鄰國與 Open AI 達成戰(zhàn)略合作,推動了 AI 與教育的深度融合。在最新的 GPT-4 技術基礎 上,Duolingo 于 2023 年 3 月 14 日推出了家教功能,包括 Explain My Answer 和 Roleplay 兩大功能,并引入了 付費層“Duolingo Max”,旨在進一步實現(xiàn)“提供千人千面的個性化語言學習服務”的目標。該付費層不僅提供角色 扮演和解釋答案的功能,還新增了課堂教練,為用戶在提交答案之前提供小提示,優(yōu)化學習體驗。Duolingo 接 入 GPT-4 后,月活用戶數(shù)實現(xiàn)大幅增長,2023Q3 月活躍用戶數(shù)(MAU)為 8310 萬人,同比增長 47.1%,其中 付費訂閱用戶為 580 萬人,同比增長為 56.8%。付費用戶數(shù)提升疊加會員費的提升帶來公司盈利能力的不斷增 強,公司 2023Q3 營業(yè)收入為 1.38 億美元,凈利潤為 281 萬美元,扭虧為盈。在財報電話會議中,多鄰國管理 層強調(diào)他們正在利用生成式 AI 技術加速 Stories 腳本的撰寫速度,使得完成任務更快、成本更低,同時質量也 不會降低。這一戰(zhàn)略應用使得多鄰國在 AI+教育領域具備獨特的優(yōu)勢:游戲化的語言教學為其形成了差異化競 爭策略,深厚的技術積累構建了堅實的技術壁壘,同時積極將生成式 AI 技術融入產(chǎn)品中,優(yōu)化用戶的學習體驗。 至 2023 年 11 月 30 日,公司股價累計上漲了 77.4%,凸顯了其在 AI+教育賽道上的卓越表現(xiàn)。進一步印證了多 鄰國在創(chuàng)新教育模式、提升用戶體驗方面的成功實踐。
2.1.2 教育信息化
我國教育信息化發(fā)展從 1.0 走向 2.0 時代。教育信息化 1.0:三通兩平臺是教育信息化 1.0 核心,教育信息 化 1.0 主要涉及基礎設施建設。2007 年 2 月,教育部發(fā)布《教育部關于做好國家教育考試考務管理與服務平臺 相關工作的通知》,提出在 2009 年高考前,在全國范圍內(nèi)分批建立全方位發(fā)揮作用的國家教育考試指揮、管理、 監(jiān)控體系,隨后一些列政策逐漸開啟教育信息化 1.0 時代。教育信息化 2.0:從基礎設施建設走向信息融合與應 用層面,核心是“三全兩高一大”。2018 年 4 月,教育部發(fā)布《教育信息化 2.0 行動計劃》,提出到 2022 年基本 實現(xiàn)“三全兩高一大”的發(fā)展目標,教育信息建設從注重信息裝備建設走向信息的深度融合。
財政在教育信息化領域的經(jīng)費投入是中國教育信息化市場發(fā)展的主要動力,教育信息化經(jīng)費占教育經(jīng)費不 低于 8%,根據(jù)教育部公布的教育經(jīng)費推算,2022 年教育信息化投入約 4908 億元,2014-2021 年中國教育信息 化經(jīng)費投入復合增長率為 8.13%。根據(jù)《基礎教育信息化發(fā)展指數(shù)》,2019 年我國教育信息化經(jīng)費投入中有 42.4% 的資金都用于硬件和相關設備的購置。海外教育信息化市場屬于后發(fā)市場,智能交互設備滲透率相對較低,整 體空間更為廣闊,市場增速相對更高。
2.1.3 教育智能硬件
智能硬件是指通過將硬件和軟件相結合對傳統(tǒng)設備進行智能化改造,對硬件與軟件的優(yōu)勢進行了充分融合。 我國智能硬件在政策加持、技術賦能、消費升級等因素驅動下,市場規(guī)模以較高增速增長。智能硬件產(chǎn)品廣泛 應用于個人穿戴、養(yǎng)老陪伴、教育娛樂、運動健康等場景,為人民生活帶來智能化和便利化。智能學習設備服 務市場指旨在為學生提供教育服務的硬件設備市場,其最重要的特點是在提供教育服務過程中應用智能技術, 如 OCR 技術、AI 大模型應用及信息技術,以向學生及家長、教師提供更個性化的教育體驗。
從應用場景的角度來看,市場可以分類為主要服務于個人終端用戶的 To C 市場及提供數(shù)字校園教學解決方 案的 To B 市場。2021 年,中國的智能學習設備總市場規(guī)模達到 659 億元,預計到 2026 年,中國智能學習設備 的總市場規(guī)模將為 1450 億元,2021 年至 2026 年的復合年增長率為 17.1%。在政府持續(xù)支持并投入實現(xiàn)校園數(shù) 字化及智慧課堂升級的背景下,To B 分部于 2017 年至 2021 年經(jīng)歷高速增長,2021 年我國 B 端市場規(guī)模達到 330 億,2026 年有望達到 709 億。相比而言,To C 學習市場目標人群較多,且輔助教育涵蓋從早教到成人教育, 有龐大及持續(xù)的需求。2021 年 To C 分部的市場規(guī)模為 329 億元,預計 To C 分部持續(xù)穩(wěn)健增長至 2026 年的 741 億元。
從學習機市場結構來看,以步步高和讀書郎為代表的傳統(tǒng)主流智能教育設備廠商,仍占據(jù)市場的主要份額。 以科大訊飛和網(wǎng)易有道為代表的新型品牌憑借人工智能技術的支持和高科技屬性迅速擴大了市場規(guī)模。此外, 教育屬性極強的學而思和有道等轉型廠商也加入了市場競爭。根據(jù) IDC 數(shù)據(jù),2021 年國內(nèi)市場占有率最高的步 步高學習機占比高達 28.9%,第二名讀書郎份額 6.1%,科大訊飛以 4.0%位列第五。
2.2 自動駕駛:算法架構優(yōu)化,高階輔助駕駛滲透率預期提升
2.2.1 端到端模型實現(xiàn)算法架構優(yōu)化,自動駕駛性能提升
“端到端”架構是自動駕駛發(fā)展未來主流方向。意為依靠輸入,直接輸出,所以對輸入內(nèi)容要求較高。激 光雷達、雷達、照相機等都是感知系統(tǒng)的組成部分,其中激光雷達和雷達進行深度分析,攝像機進行探測,GPS 和里程表傳感器捕獲并繪制車輛的位置、狀態(tài)和相應的環(huán)境,進而在決策階段進一步利用。例如,以典型端到 端模型 TCP 和 UniAD 中,其都是用多種不同感知器一起使用去獲取相關信息,并生成相應的控制動作。多模 態(tài)在關鍵感知領域的性能優(yōu)于單模態(tài),結合多傳感器服務自動駕駛需求。特斯拉傳統(tǒng)邏輯是簡化輸入,優(yōu)化局 部算法;但為了服務端到端模型需求,算法框架演變?yōu)樵鰪娸斎胍詢?yōu)化整體算法,強化數(shù)據(jù)精準度,借助系統(tǒng) 冗余保證可靠性。
2021 年,端到端駕駛算法出現(xiàn)了重要轉折點。算法集中在多模態(tài)和 Transformer 等高級架構的結合,如 TransFuser 和其他變體?;趥鞲衅鲗Νh(huán)境的精確捕捉,閉環(huán) CARLA 基準性能逐步提高;為了提升自動駕駛系 統(tǒng)的可解釋性和安全性,NEAT、NMP 和 BDD-X 等方法明確納入了多種輔助模塊。2023 年,研究強調(diào)優(yōu)先生 成關鍵數(shù)據(jù),即預先訓練一個大型策略學習基礎模型,如 UniAD,同時引入了新的 CARLA v2 和 nuPlan 基準。
特斯拉 FSD V12 在算法層面實現(xiàn)端到端。FSD Beta v12 完全是由神經(jīng)網(wǎng)絡訓練而成,沒有任何一行人工寫 的規(guī)則代碼。馬斯克稱,控制是全自動駕駛最后一個難題,F(xiàn)SD Beta v12 使用 AI 替代傳統(tǒng)控制模塊使得控制代 碼減少約 2 個數(shù)量級。特斯拉原先的自動駕駛算法 HydraNets,也被成為九頭蛇網(wǎng)絡,是將每一個任務劃分為單 獨模塊,雖然在工程學上對每一個模塊進行優(yōu)化,但卻沒法從全局提升汽車自動駕駛性能。 我們認為端到端將感知、預測與規(guī)劃集成在同一個網(wǎng)絡流程中,將自動駕駛建模成一個神經(jīng)網(wǎng)絡驅動任務。 端到端使得算法中的所有模塊都直接服務于規(guī)劃,使得最終汽車做出規(guī)劃的效率提高,避免了模塊分散導致的 數(shù)據(jù)重復流轉。馬斯克表示 HW4.0 硬件目前暫時不受支持,主要原因是兩者數(shù)據(jù)不兼容,未來仍需針對 HW4.0 進行重新訓練。馬斯克稱目前制約訓練的因素不是工程師,而是訓練算力。特斯拉在 7 月份投產(chǎn) Dojo,規(guī)劃到 2024 年 100E 算力(相當于 30 萬顆 A100 算力),預計 2024 年 2 月自身算力規(guī)模將進入全球前五;同時特斯拉 新到一批英偉達機器,訓練算力將大幅增強。
2.2.2 國內(nèi)自動駕駛車廠勢頭依舊,高階輔助駕駛滲透率預期提升
國內(nèi)自動駕駛車廠布局迅速,L3 級別及以上滲透率有望逐步提升。2023 年 1-10 月,理想、小鵬銷售量持 續(xù)走高,其中理想 10 月交付量達到 40422 輛,遠超其他兩家;蔚來自 7 月起回落幅度較大。伴隨智能化策略推 進、輔助駕駛功能強化,蔚小理三家英偉達 Orin 芯片占比將持續(xù)提升。在具體配置路線上,理想更為清晰,其 分 Pro 和 Max 兩大車型向下向上滲透市場,其中 Max 車型提供全場景智能駕駛,標配英偉達雙 Orin X 芯片滲 透率將繼續(xù)上升。2023 年交付量預測方面,理想預計全年銷售 30 萬輛,蔚來預計全年銷售 24.5 萬輛,小鵬預計全年銷售 20 萬輛。
9 月 12 日,華為正式發(fā)布問界新 M7 系列。硬件層面問界新 M7 配備 1 個頂置激光雷達、3 個毫米波雷達、 11 個高清視覺感知攝像頭及 12 個超聲波雷達等 27 個感知硬件。問界新 M7 通過搭載 ADS 2.0,汽車感知能力 有明顯提升:通過 GOD2.0 系統(tǒng),對車外物體進行識別;通過 RCR 網(wǎng)絡,進行道路拓撲推理,擺脫高精度地圖。 問界新 M7 在安全性方面亦有較大提升。根據(jù)發(fā)布會介紹,主動安全方面,問界新 M7 首發(fā)全向防碰撞系統(tǒng), 問界包攬各類主動安全評測第一名;被動安全方面,問界新 M7 車身結構匹配開模,重新改造焊裝產(chǎn)線,有效 提高車身剛度和碰撞安全性。ADS 2.0 自 2023 年 4 月發(fā)布以來,在 AI 訓練集群上構建了豐富的場景庫,每天 深度學習 1000 萬+km,持續(xù)優(yōu)化迭代智能駕駛算法和場景策略,模型每五天迭代一次,訓練算力達到 1.8EFlops。 截至 2023 年 9 月數(shù)據(jù),長距離 NCA 領航 MPI 高達 200km,城市高架匯入?yún)R出成功率高達 99%+。到 23 年年底, ADS2.0 無圖城區(qū)商用計劃擴展到全國。11 月 9 日,華為宣布其問界新 M7 實現(xiàn) 86000 大定,其中 70%以上用戶 選擇智駕版,智能駕駛功能已成為消費者購車的重要決策因素之一。另外,11 月 15 日,小米汽車第一款車型 SU 7 申報,預計 2024 年上半年正式量產(chǎn)。
2.3 AI PC/Phone:端側 AI 發(fā)展,AI PC/Phone 將開啟新時代
2.3.1 技術升級帶動端側 AI 發(fā)展,推理精度提升
當前云側 AI 呈現(xiàn)向端側 AI 的轉型趨勢。端側智能化的核心在于數(shù)據(jù)、底層軟硬件、智能力三個方面。端 側設備搭載的傳感器、芯片、算法模型賦予其數(shù)據(jù)采集、計算、分析與推理能力,使其能夠在端側完成數(shù)據(jù)處 理閉環(huán),形成感知、計算、推理三個智能力。 首先,大模型輕量化帶動端側 AI 發(fā)展。多個大模型均已推出“小型化”和“場景化”版本,提供了端側運 行基礎。例如,Google PaLM2 中包含 4 個大模型,按照參數(shù)規(guī)模,從小到大排列為:獨角獸(Unicorn)、野牛 (Bison)、水獺(Otter)和壁虎(Gecko)。其中,最輕量的“壁虎”可實現(xiàn)手機端運行,且速度足夠快,不聯(lián) 網(wǎng)也能正常工作。另一方面,“小型化”大模型加速生成式 AI 垂直方向發(fā)展,加速大模型商業(yè)化場景落地。
其次,支持 INT4、INT8 精度推理,端側 AI 能力進一步提升。定點表示和浮點表示是計算機中常用的數(shù) 據(jù)格式。其中,定點表示中小數(shù)點位置固定不變,常用的定點表示有 INT4 和 INT8;浮點表示中包括符號位、 階碼部分、尾數(shù)部分。符號位決定數(shù)值正負,階碼部分決定數(shù)值表示范圍,尾數(shù)部分決定數(shù)值表示精 FP64(雙 精度)、FP32 (單精度)、FP16(半精度)的數(shù)值表示范圍和表示精度依次下降,運算效率依次提升。高通產(chǎn)品管理 副總裁 Asghar 曾表示,如果將 32 位浮點模型轉化為 INT4 整數(shù)模型,端側 AI 能效將提升 64 倍。為滿足端側 AI 的計算需求,業(yè)內(nèi)已有產(chǎn)品支持 AI 模型以 INT 精度推理,例如高通人工智能引擎 AI Engine 支持 INT8 的數(shù) 據(jù)格式。
部分 AI 框架已支持端側運行。在 2023 年 PyTorch 大會上,Meta AI 與 PyTorch 基金會合作的 ExecuTorch 模型被宣布可在邊緣和移動設備上實現(xiàn) AI 推理。隨著 ExecuTorch 的開源,AI 應用程序將可實現(xiàn)本地運行,無 需連接到服務器或云。ExecuTorch 可被理解成 PyTorch 平臺,提供基礎設施來運行 PyTorch 程序,實現(xiàn)從 AR/VR 可穿戴設備到標準的 iOS 和 Android 設備的移動部署。目前,Meta 已將其用于最新一代的雷朋智能眼鏡,成為 Quest 3 VR 頭顯的組成部分。這一變化也預示將 PyTorch 引入了手機和可穿戴設備等邊緣計算平臺,進一步邁 入設備 AI 推理新時代。 端側 AI的核心是 AI PC/Phone。一方面,AI PC/Phone主要在于芯片升級。AI PC/Phone 相對于原有PC/Phone, 主要差別在搭載了相關的 AI 芯片。云端在深度學習的訓練階段需要極大的數(shù)據(jù)量和大運算量,為滿足運算需求, 云端 AI 芯片采用“CPU+加速芯片”的異構計算模式。不同于數(shù)據(jù)中心 GPU,手機/電腦端芯片主要要求其體積 小、功耗低等特點,往往是采用 ASIC 技術路線的芯片,這種芯片為專用目的設計,面向特定用戶需求定制, 在大規(guī)模量產(chǎn)的情況下具備體積更小、功耗更低等優(yōu)點。
手機 AI 芯片主要由“CPU+GPU+NPU”構成,通過集成多個模塊,做到提升芯片性能的同時能支持相關 AI 應用算法。例如,以高通 AI 芯片為例,硬件方面 HEXAGON 向量處理器可以運行涉及向量數(shù)學的應用; ADRENO GPU 運行對浮點精度有要求的應用;KRYO CPU 支持相對較少向量處理、非規(guī)則性數(shù)據(jù)結構和/或復 雜流程。高通公司以近半的市場份額保持 AI 智能手機處理器出貨量領導地位,遠超蘋果和聯(lián)發(fā)科等其他公司。 高通驍龍 8 gen3 在手機芯片性能比較方面超越了蘋果 A17 Pro,其是高通首款專為生成式人工智能而精心設計 的移動平臺。該處理器最大的升級在 AI 引擎,可以在設備上運行生成式 AI 模型,上市初期即支持 20 多種 AI 模型;主打各種 AI 相機功能,例如從圖像和視頻中刪除對象、創(chuàng)建假背景、增強照片的某些部分、實時拍攝 HDR 照片、創(chuàng)建同時使用前攝和后攝拍攝的 Vlogger 視圖模式控制的應用。
2.3.2 2024 或成 AI PC/Phone 元年,AI PC/Phone 趨勢刺激行業(yè)回暖
端側 AI 核心在于手機和 PC,AI Phone 和 AI PC 將開啟新時代。從今年 2 月份舉行的世界移動通信大會, 高通展示了其手機端離線運行大模型,到 5 月份微軟開發(fā)者大會高通展示其 PC 運行 AI 大模型,再到近期英特 爾、聯(lián)想等發(fā)布 AI PC 加速計劃、發(fā)布首款 AI PC 等,可以看出,國內(nèi)外廠商持續(xù)發(fā)力 AI Phone 和 AI PC, 端側 AI 將走入新的時代。 AI PC 方面,2023 聯(lián)想 Tech World 創(chuàng)新科技大會進行了端側大模型與云端大模型的比較。兩個模型同時進 行斯德哥爾摩音樂節(jié)的規(guī)劃,生成速度差異不大。值得注意的是,端側 AI 的規(guī)劃內(nèi)容更加個性化,可以將家庭 地址、酒店偏好等考慮進去;10 月 19 日,英特爾宣布啟動 AI PC 加速計劃,該加速計劃旨在為相關軟硬件供 應商提供英特爾的資源,共同推動 AI PC 產(chǎn)品、方案落地,具體而言,通過利用 Intel Core Ultra 處理器的技術 和兼容硬件,圍繞相關資源,實現(xiàn) AI 和機器學習(ML)應用性能最大化,進而催生全新的使用案例,推動 AI PC 解決方案連接到更廣泛的 PC 產(chǎn)業(yè)。英特爾預計其將于包括 Adobe 在內(nèi)的 100 家獨立軟件供應商進行合作, 發(fā)展 300 多項 AI 加速功能,計劃將在音頻效果、內(nèi)容創(chuàng)建、游戲、安全、直播、視頻協(xié)作等方面繼續(xù)強化 PC 體驗。據(jù)計劃目標,其將在 2025 年前為超過 100 萬臺 PC 帶來人工智能(AI)特性。
AI Phone 方面,10 月 4 日,谷歌發(fā)布 Pixel 8 / Pro 系列,搭載了 Tensor G3 和 Titan M2 安全芯片。Tensor G3 AI 芯片可運行更復雜的機器學習模型,強化了 Pixel 8 / Pro 系列的 AI 增強功能,使虛擬助理說話更自然,并有 攔截騷擾電話、轉錄語音和緊急服務功能。Pixel 8 Pro 號稱是第一款直接在設備上運行谷歌 AI 模型的手機,其 計算量是 Pixel 7 上最大 ML 模型的 150 倍;10 月 26 日,小米 14 系列發(fā)布,其首發(fā)搭載高通最新一代移動芯片 驍龍 8 Gen3,能效比提升顯著,AI 性能提升 98%。通過本地端運行大模型,提升了隱私性,并實現(xiàn) AI 妙畫、 AI 搜圖、AI 寫真和 AI 擴圖等一系列功能。其中,AI 寫真功能可通過對多張照片的學習,創(chuàng)作出全新的照片 作品;在 14 系列的 WPS 上,也支持輸入主題一鍵生成 PPT 演示文稿,也能進一步細化調(diào)節(jié),例如更改主題風 格、單頁美化、更改字體、更改配色、生成演講稿等等,解決了用戶使用 PPT 制作難度大、耗時長的辦公難題。
疫情以來,由于消費需求疲軟和庫存調(diào)整,全球智能手機出貨量下滑,2023 年前三季度為 8.4 億部,僅為 2022 年同期的 85%,但可以看出,22 年年底以來,全球智能手機銷量下降幅度開始縮窄,今年三季度,全球 智能手機銷量重回正增長;另一方面,從微軟財報可以看到,其個人電腦業(yè)務,也在 24 財年 1 季度(23Q3) 實現(xiàn)同比正增長,這也是從 23 財年 2 季度以來微軟個人電腦業(yè)務重新回歸正增長??梢钥吹饺蚴謾C與電腦業(yè) 務有復蘇跡象,預計 AI+Phone/PC 能進一步推動行業(yè)頹勢逆轉的同時也有助于帶動其自身起量。
伴隨 AI PC 逐漸出貨且 PC 換機周期已至,2024 或成 AI PC 元年。根據(jù)群智咨詢預測,到 2027 年,AI PC 出貨量將達到 1.5 億套,市場滲透率達到 79%,并逐步取代傳統(tǒng) PC。當前,各大主要 PC 廠商都對 AI PC 業(yè)態(tài) 進行展望,AI PC 將成 PC 行業(yè)拐點成為共識。戴爾將推出帶有 Copilot 的新版 Windows,聯(lián)想首批搭載英特爾 Meteor Lake 芯片的 AI PC 也已推出。業(yè)界將逐步追加 AI PC 領域投資,重塑 PC 生產(chǎn)力。
我們看好由 AI PC/Phone 帶來的產(chǎn)業(yè)革新。將手機集成 AI,不僅可以實現(xiàn)語音助手、智能相機等基本功 能,還可以通過 AI 算法實現(xiàn)更加智能化的應用,如智能推薦、智能翻譯等,可以極大提升用戶的體驗,在智 能辦公、智能教育領域預計將有廣泛應用;AI PC 不僅可以進行高效的數(shù)據(jù)處理和計算,還可以通過機器學習 和深度學習等技術進行自我學習和優(yōu)化,從而為各種行業(yè)提供更加智能化的解決方案;除此之外,AI PC、AI Phone 通過統(tǒng)一的大模型,實現(xiàn)全系統(tǒng)互聯(lián),具有主動智能、全模態(tài)感知能力,在人機交互效果上有明顯提升, 將成為人們最直接的 AI 助手。
2.4 AI+工業(yè)是大勢所趨
AI 在垂直領域的落地和應用將是 2024 年的主線,我們尤其看好 AI 在工業(yè)場景的落地。一方面在國家戰(zhàn)略 和政策端,智能制造是大勢所趨,“AI+工業(yè)”在國家發(fā)展、技術架構中發(fā)揮重要作用。1)工業(yè)大國向工業(yè)強 國轉型,智能制造戰(zhàn)略是必由之路。工業(yè)與制造業(yè)緊密相連,制造業(yè)是工業(yè)的重要組成部分,工業(yè)和制造業(yè)的 發(fā)達程度將直接影響我國國際競爭力。中國是世界第一工業(yè)大國,具有優(yōu)秀且深厚的工業(yè)基因。從工業(yè)大國向 工業(yè)強國的轉型之路是當下政策的熱點,也是未來重要的發(fā)展趨勢,智能制造戰(zhàn)略是這一路徑上的核心戰(zhàn)略之 一?!丁笆奈濉敝悄苤圃彀l(fā)展規(guī)劃》、《中國制造 2025》等政策進一步明確智能制造的發(fā)展目標、重點領域、重 大工程、重大項目,為智能制造的發(fā)展提供了政策支撐。2)“AI+工業(yè)”在智能制造系統(tǒng)與技術架構中處于核 心地位,是戰(zhàn)略發(fā)展的大趨勢。從系統(tǒng)架構層面看,智能制造系統(tǒng)的架構從底層數(shù)字化逐步過渡到網(wǎng)絡化,最 終目標為實現(xiàn)智能化,“AI+工業(yè)“處于系統(tǒng)架構頂層的“智能化”位置,工業(yè)場景下人工智能技術的應用是智 能制造戰(zhàn)略需要實現(xiàn)的核心課題。從技術結構層面看,人工智能技術與工業(yè)大數(shù)據(jù)、工業(yè)軟件、工業(yè)云、邊緣 計算等其他技術之間存在聯(lián)動效應。3)工業(yè) 4.0 時代到來,“AI+工業(yè)”技術是國際競爭焦點。工業(yè) 4.0 時代下, 利用物聯(lián)網(wǎng)、云計算等多元化先進技術實現(xiàn)實體世界與虛擬世界的交互將成為工業(yè)發(fā)展的重要環(huán)節(jié)。目前,全 球主要的工業(yè)國家在先進制造/智能制造方面均有布局,且均有涉及“AI+工業(yè)”的具體戰(zhàn)略。我們認為,在未 來,AI 技術與工業(yè)的深度融合仍將是國際競爭的焦點,實現(xiàn) AI+工業(yè)是大勢所趨。
從需求端看,不斷增長的降本增效需求與多變的市場環(huán)境為“AI+工業(yè)”帶來廣闊的市場空間。目前,我 國工業(yè)的大部分行業(yè)仍處于勞動密集型發(fā)展階段,較低的智能化滲透率帶來包括誤差率高、生產(chǎn)效率低、生產(chǎn) 成本高等一系列痛點。1)降本增效需求驅動“AI+工業(yè)”需求:中國單位勞動產(chǎn)出在國際比較中處于較低水平, 2018 年美國勞動生產(chǎn)率為 11.3 萬美元,而中國僅為 1.4 萬美元。且國內(nèi)老齡化趨勢顯著,根據(jù)國務院《國家人 口發(fā)展規(guī)劃》,2030 年,我國 14-45 歲人口占比將降至 32%,人口規(guī)模的減少將對企業(yè)生產(chǎn)成本帶來全新挑戰(zhàn), 降本增效需求愈發(fā)成為企業(yè)競爭甚至生存的重要條件之一,在此背景下展望未來,“AI+工業(yè)”這一降本增效的 重要工具將被越來越多工業(yè)企業(yè)使用。2)市場變化大,精準化生產(chǎn)成為剛需:工業(yè)行業(yè)整體面對利潤率低,市 場需求變化快的壓力,智能化與精準化生產(chǎn)將成為未來大趨勢,而這背后離不開人工智能的強大分析能力。根 據(jù)德勤預測,2018-2025 年中國制造業(yè)人工智能市場有望實現(xiàn) 51%的 CAGR,并在 2025 年達到 141 億元規(guī)模。
2.4.1 工業(yè)機器視覺
2.4.1.1 機器視覺產(chǎn)業(yè)宏觀分析
工業(yè)機器視覺是軟硬件一體化的集成系統(tǒng),它的目的是代替人眼對被測物進行觀察和判斷。從組成上,機 器視覺系統(tǒng)硬件設備主要包括光源、鏡頭、相機等,軟件主要包括傳統(tǒng)的數(shù)字圖像處理算法和基于深度學習的 圖像處理算法。
成像、算法、算力、應用接力驅動機器視覺行業(yè),AI 算法的發(fā)展有望推動行業(yè)進入新時代。每經(jīng)歷約十年, 機器視覺技術與應用都會產(chǎn)生一次深刻變革,近年來,AI 算法有望推動行業(yè)爆發(fā)式擴展。
此外,過去的工業(yè)機器視覺系統(tǒng)主要針對垂直場景的少量數(shù)據(jù)進行小模型的訓練,而大模型的發(fā)展將助力 工業(yè)機器視覺實現(xiàn)應用性能的提升和應用場景的拓寬。以華為盤古大模型在礦山場景的應用為例,其建立在 L0 的基礎大模型的技術上,通過導入海量無標注的礦山場景數(shù)據(jù)進行預訓練,盤古礦山大模型即可進行無監(jiān)督自 主學習,僅一個大模型就能覆蓋煤礦的采、掘、機、運、通等業(yè)務流程下的 1000 多個細分場景,讓 AI 應用在 煤礦普及更容易。在準確率方面, 基于盤古礦山大模型的掘進作業(yè)序列智能監(jiān)測,動作規(guī)范識別準確率超過 95%,用規(guī)范的 AI 流程來替代不確定的人工流程,讓 AI 成為礦工規(guī)范作業(yè)的好幫手,保障井下作業(yè)安全。 視覺大模型技術突破,賦能機器視覺的革新與突破。以近期 Meta 提出的 SAM 模型為例,其在切割任務的 不同具體場景中展現(xiàn)出了強大的泛化能力,在零樣本(zero-shot)和少量樣本(few-shot)的基礎上便能實現(xiàn)非 常優(yōu)秀的完成不同的切割任務。同時,SAM 模型還具備高精度自動標注的能力,帶來數(shù)據(jù)標注成本的下降,相 關技術的發(fā)展與突破將從兩個方向賦能機器視覺產(chǎn)業(yè)變革:1)過去數(shù)據(jù)成本、訓練成本高的場景將有望實現(xiàn)降 本增效;2)過去因樣本數(shù)量不足而機器視覺難以應用的場景將得以拓展。
除人工智能技術的變革外,2D 到 3D 的變革同樣帶來技術能力和應用范圍的提升。相較于 2D 機器視覺, 3D 機器視覺可以提供三維信息,從而實現(xiàn)更廣泛、準確的檢測與分析。3D 機器視覺可以完成許多 2D 機器視 覺無法完成的任務。3D 相機可以得 到表面凹凸的深度信息,從而準確的判定劃痕和邊緣的凹陷。 3D 機器視覺覆蓋場景全面,市場空間廣闊。目前 3D 視覺技術在高精度檢測、高精度測量(例如彎管、不 規(guī)則件)、智能分揀、裝配(引導機械臂在三維空間內(nèi)避障和定位)、物流車導航等更多場景中實現(xiàn)了相較于 2D 機器視覺更為廣泛的應用覆蓋,具有廣泛的市場空間,根據(jù) GGII 測算,中國工業(yè) 3d 視覺 2021 年市場規(guī)模 11.51 億元。隨著我國高端制造業(yè)的發(fā)展,國內(nèi) 3D 視覺的應用需求仍將持續(xù)保持高增長勢頭,預計到 2025 年達到 57.52 億的市場規(guī)模。
2.4.1.2 機器視覺產(chǎn)業(yè)鏈分析
機器視覺行業(yè)上游環(huán)節(jié)價值量大。關鍵零部件和軟件系統(tǒng)約占工業(yè)機器視覺產(chǎn)品總成本的 80%。工業(yè)相機、 底層軟件算法等技術壁壘高,利潤率高。對機器視覺上游環(huán)節(jié)的掌握是目前市場競爭的關鍵。同時,相機、鏡 頭、光源等核心零部件部件在機器視覺產(chǎn)品中的占比超過 50%。 國產(chǎn)低端零部件逐步實現(xiàn)國產(chǎn)替代,高端部件有待突破。技術門檻相對較低的零部件如光源,國產(chǎn)廠商憑 借性價比優(yōu)勢及逐步體現(xiàn)的產(chǎn)能優(yōu)勢在市場競爭中逐漸實現(xiàn)對于國外品牌的替代。技術門檻較高的零部件如光源及相機,我國企業(yè)進入較晚,目前產(chǎn)品仍主要布局中低端市場,高端市場仍主要被國外品牌占據(jù)。
機器視覺上游零部件廠商和中游系統(tǒng)/設備廠商通過產(chǎn)業(yè)投資/自主研發(fā)等方式逐步拓展產(chǎn)業(yè)鏈上下游布局, 以期進一步提升機器視覺產(chǎn)品性能,同時在競爭逐漸加劇的機器視覺行業(yè)中構建起更高的技術護城河。 奧普特、??禉C器人通過自主研發(fā)實現(xiàn)了機器視覺核心零部件、軟件算法的全覆蓋。凌云光通過產(chǎn)業(yè)投資 方式拓展 CMOS 傳感器芯片(長光辰芯)和工業(yè)鏡頭(長步道光電)布局,并自主開發(fā)特色相機、特種相機、 特色專屬光源和圖像采集卡;天準科技自主開發(fā) 3D 視覺傳感器(線激光傳感器),精密驅動控制器等視覺設備 上游零部件。 我們認為,在機器視覺相關的光學成像、軟件算法、自動化與精密控制等核心技術方面具有更深厚積累的 公司在競爭加劇、上下游互相滲透的發(fā)展格局中具備更強的競爭優(yōu)勢,頭部的國產(chǎn)機器視覺廠商已經(jīng)具備了和 海外龍頭相當?shù)娜a(chǎn)業(yè)鏈技術。
下游應用場景中,機器視覺在鋰電行業(yè)的滲透率逐步提升。隨著鋰電池制造智能化、自動化程度的提升, 機器視覺產(chǎn)品開始廣泛地應用于鋰電池設備生產(chǎn)的各個工段。從前段工藝的涂布輥壓,到中段工藝的電芯組裝, 再到后段化成分容之后的檢測以及模組 PACK 段,機器視覺應用滲透率在逐步提升。 品質管控需求明確,早期的鋰電行業(yè)擴產(chǎn)往往較少考慮質量管控,但隨著行業(yè)逐步從高速發(fā)展轉向高質量 發(fā)展以及用戶對于鋰電安全的更高需求,機器視覺已經(jīng)成為鋰電池生產(chǎn)企業(yè)解決質量和效率問題的必然選擇, 據(jù) GGII 預測,鋰電機器視覺檢測系統(tǒng)市場規(guī)模將保持高速增長,未來 5 年年復合增長率在 40%。 競爭格局優(yōu)秀,在 3C 電子和汽車等行業(yè)中的機器視覺中海外巨頭有著更加強的技術積累和長期合作關系, 對于我國機器視覺企業(yè)的市場拓展產(chǎn)生一定阻礙,但鋰電池行業(yè)是近年來在我國發(fā)展起來的新興產(chǎn)業(yè),因此其 中鋰電企業(yè)與我國機器視覺企業(yè)協(xié)同配合發(fā)展而來,國產(chǎn)化程度較高。 我們認為,鋰電行業(yè)行業(yè)整體增速較快,且鋰電中的機器視覺具備行業(yè)增速高、需求明確、競爭格局優(yōu)秀 的優(yōu)勢,在未來兩三年內(nèi)有望維持高增速,是最具潛力的下游應用市場 。
2.4.2 工業(yè)機器人
2.4.2.1 移動機器人
AGV(Automated Guided Vehicle),即移動機器人,是工業(yè)機器人中的重要種類。AGV 可以在沒有人工干 預的情況下,按照可配置的導引路徑進行移動和定位;糅合了導航、移動、多傳感器控制、網(wǎng)絡交互等一系列 功能。AGV 在制造業(yè)、倉儲物流等工業(yè)場景有著廣泛的應用,可以提高生產(chǎn)效率、降低勞動成本、減少產(chǎn)品損 壞、提高安全性。其主要應用場景仍然在搬運領域。 隨著人工智能技術發(fā)展,AGV 的環(huán)境感知能力與靈活運動能力不斷提升,新一代自主移動機器人 AMR (Autonomous Mobile Robot)應運而生。相比 AGV,AMR 可以融合多重傳感器,具備深度感知能力和強大計 算能力,安全性和行駛的效率相對更高。
行業(yè)持續(xù)高速增長,發(fā)展勢頭強勁。從總量來看,2015 年到 2022 年,中國工業(yè)應用移動機器人市場規(guī)模 保持 7 年連續(xù)增長,CAGR 為 35.14%,2022 年中國工業(yè)應用機器人市場規(guī)模達到 76.8 億元。從增量來看,中 國工業(yè)應用移動機器人產(chǎn)量逐年增加,2022 年增量為 93000,同比增長 29.17%。
海外銷售規(guī)模不斷增長,中國 AGV/AMR 產(chǎn)品全球影響力進一步提升。2022 年,中國 AGV/AMR 企業(yè)在 海外市場的銷售規(guī)模進一步提升,2022 年,中國 AGV/AMR 企業(yè)海外銷售規(guī)模為 36 億,同比增長 44%,占比 19%。從 2019 年中國 AGV/AMR 海外銷售額首次突破 10 億人民幣到 2022 年的 36 億人民幣,中國企業(yè)整 體海外銷售占比取得顯著提升。
行業(yè)集中度高,大型企業(yè)占比接近九成,過億企業(yè)數(shù)逐年增長。2022 年度,中國工業(yè)應用移動機器人企業(yè) 中,年銷售規(guī)模億元以上的大型企業(yè)占據(jù)了 89.19%的市場份額,行業(yè)集中度高。行業(yè)向上的發(fā)展態(tài)勢帶動銷售 過億企業(yè)數(shù)量逐年增長,從 2018 年的 10 家增長至 2022 年的 42 家。截至 2022 年,中共工業(yè)應用移動機器人企 業(yè)中,有 4 家越過 10 億門檻,分別是新松機器人、極智嘉、??禉C器人以及海柔創(chuàng)新。
2.4.2.2 焊接機器人
焊接機器人是一種能夠自動執(zhí)行焊接(包括切割和噴涂)任務的工業(yè)機器人。根據(jù)焊接方式、結構形式、 負載能力、工作范圍等因素的不同,焊接機器人業(yè)有不同種類。焊接機器人廣泛應用于鋼結構、航空、造船、 電子、機械等行業(yè),可以提高焊接質量、效率和安全性,涉及的技術包括焊接電源技術、傳感器技術、離線編 程技術、智能控制技術、仿真技術等。
國內(nèi)弧焊焊接機器人市場由外資主導,國產(chǎn)替代需求大。根據(jù)高工機器人研究所統(tǒng)計,2022 年外資弧焊機 器人仍占據(jù)主要份額,占比 54.97%,在汽車整車和零部件領域應用較多,主要分日系、歐系、國產(chǎn)三大派系。 日系品牌主要有安川、發(fā)那科、OTC、松下、川崎重工等,歐系品牌包括 KUKA、CLOOS 和 ABB 等;而國產(chǎn) 品牌則在程機械、二三輪車、五金家具、鋼結構等一般工業(yè)行業(yè)應用較為廣泛。 國內(nèi)自主品牌弧焊工業(yè)機器人市場份額逐步提升,與外資品牌差距逐漸縮小。2022 年,國產(chǎn)弧焊機器人份 額已達 45.03%,同比增長 23.71%,國產(chǎn)替代速度加快。目前市場上尚未有成熟應用于鋼結構行業(yè)領域的智能焊 接機器人,主要潛在競爭產(chǎn)品為示教焊接機器人和進口智能焊接機器人。
焊接機器人銷量持續(xù)增長,鋼構行業(yè)市場較為空缺。高工機器人產(chǎn)業(yè)研究所(GGII)統(tǒng)計數(shù)據(jù)顯示,2021 年國內(nèi)市場焊接機器人銷量為 4.16 萬臺,同比增長 21.99%,主要集中應用于汽車及 3C 電子領域,鋼結構領域 應用程度不高,而鋼結構行業(yè)對于自動化、智能化焊接方案的需求日益迫切。預計 2026 年焊接機器人銷量可達 到 10.3 萬臺,復合增長率達 16.38%。 海外焊接機器人進展迅速,“機器人四大家族”是行業(yè)龍頭,ABB 集團與發(fā)那科公司經(jīng)營業(yè)務有亮點。1) ABB 集團:ABB 是工業(yè)機器人的先行者以及世界領先的機器人制造廠商,在 1994 年就進入了中國市場。經(jīng) 過近 20 年的 發(fā)展,在中國,ABB 先進的機器人自動化解決方案和包括白 車身,沖壓自動化,動力總成和涂 裝自動化在內(nèi)的四大系統(tǒng) 正為各大汽車整車廠和零部件供應商以及消費品、鑄造、塑 料和金屬加工工業(yè)提供 全面完善的服務。 2021 年,ABB 機器人為宇通打造一鍵式操作智能焊接工作站,基于本地自主開發(fā)免示教編 程系統(tǒng),無需視覺識別即可自動生成包含有工藝參數(shù)的軌跡程序,完成不同規(guī)格的鋁框的智能化生產(chǎn)。2)FANUC (發(fā)那科): FANUC 公司創(chuàng)建于 1956 年的日本,是當今世界上數(shù)控系統(tǒng) 科研、設計、制造、銷售實力強大 的企業(yè)。FANUC 機器人產(chǎn)品系列多達 240 種,負重從 0.5 公斤到 1.35 噸,廣泛應用在裝配、搬運、焊接、 鑄造、噴涂、碼垛等不同生產(chǎn)環(huán)節(jié),滿足客戶的不同需求。
智能化焊接市場需求迫切。1)鋼構產(chǎn)業(yè)焊接技工招工難且成本高,供給需求缺口大,對自動化、智能化 焊接方案的需求迫切。國內(nèi)鋼結構產(chǎn)業(yè)滲透率持續(xù)提高,產(chǎn)品產(chǎn)量增加帶動鋼結構焊接市場需求。而鋼結構主 要應用于建筑、船舶、重工行業(yè)非標小批量工件多的工業(yè)場景中,焊接工序自動化程度低,基本大部分依賴大 量焊接工人完成焊接。人工焊接技術要求高、技工培訓周期長、焊接工作環(huán)境惡劣,已成為行業(yè)中最緊缺的勞 動力之一,焊接工人缺口量逐年遞增,復合增長率高達 50%。2021 年國內(nèi)熟練焊工的年薪已達 18 萬元,對企 業(yè)帶來較大的成本壓力。2)智能化焊接可以保證焊接質量穩(wěn)定,提高生產(chǎn)效率。傳統(tǒng)人工焊接受人為因素影響 較大,焊接質量穩(wěn)定性差,生產(chǎn)效率低,且鋼結構加工涉及組立、矯正、裝配、打磨、拋丸、表面防腐等多道 工序,整個生產(chǎn)過程不透明,對生產(chǎn)進度、生產(chǎn)質量和生產(chǎn)異常的處理缺乏信息化管控,產(chǎn)品交付時常延期, 實現(xiàn)智能化焊接是提高生產(chǎn)效率和產(chǎn)品質量。
免示教智能焊接機器人符合鋼結構行業(yè)需求。鋼結構產(chǎn)業(yè)是典型非標生產(chǎn)行業(yè),產(chǎn)品基本全為非標定制化 生產(chǎn)。鋼結構生產(chǎn)原材料基本為鋼板、 鋼管等,但由于規(guī)格、性能指標等因素的存在,原材料種類多,且受到 客戶需求、政策和設計師習慣的影響,每個部件的加工內(nèi)容、方式及尺寸都有特定的要求。鋼構行業(yè)以中厚板 焊接為主,對設備精度和機器人技術要求高。大多應用弧焊機器人。 免示教機器人適合鋼構行業(yè)小批量非標柔性加工場景。傳統(tǒng)示教再現(xiàn)型機器人通過執(zhí)行示教程序進行重復 性工作,對焊接工件一致性要求較高,且需要人工引導機器人進行預期動作編輯,多用于重復、標準化加工中, 如汽車、摩托車加工,對非標產(chǎn)品操作耗時長、效率低。免示教智能焊接機器人融合智能感知、智能規(guī)劃、智 能控制等技術,構成以知識和 推理為核心的智能焊接系統(tǒng),通過與智能技術、工藝數(shù)字化技術等先進技術融合, 實現(xiàn)了面向不同作業(yè)場景、作業(yè)任務、作業(yè)工藝,與鋼構行業(yè)焊接需求高度契合。
2.4.3 工業(yè)軟件
2.4.3.1 工業(yè)軟件行業(yè)總覽
工業(yè)軟件是工業(yè)創(chuàng)新知識長期積累、沉淀并在應用中迭代進化的軟件產(chǎn)物。工業(yè)軟件的根基仍然是工業(yè)行 業(yè)本身,有賴于正向創(chuàng)新和行業(yè)創(chuàng)新知識的積累,是一個長期系統(tǒng)工程。任何工業(yè)知識都必須先形成完整的體 系,搭建出知識庫和模型庫,并在實踐中反復應用、更改,與工程緊密結合并不斷更新迭代,才有可能形成工 業(yè)軟件。因此,工業(yè)軟件是工業(yè)創(chuàng)新知識的載體,依靠軟件化這一關鍵過程,通過強大的軟件工程能力才得以 實現(xiàn)。軟件平臺與架構將直接決定工業(yè)軟件產(chǎn)品的生命力。 工業(yè)軟件可分為四大類,分別為研發(fā)設計軟件、生產(chǎn)控制軟件、信息管理軟件和嵌入式軟件,在工業(yè)生產(chǎn) 流程中發(fā)揮著不同的作用。1)研發(fā)設計軟件:面向各類工業(yè)品研發(fā)、設計、加工的基礎軟件,提高開發(fā)效率、 降低開發(fā)成本、縮短開發(fā)周期。2)生產(chǎn)控制軟件:基于工業(yè)生產(chǎn)的流程,負責生產(chǎn)的流程調(diào)度、流程控制、流 程監(jiān)控,提升產(chǎn)品生產(chǎn)的自動化和智能化程度。3)信息管理軟件:服務于產(chǎn)品的“進銷存”環(huán)節(jié)信息以及企業(yè) 整體的業(yè)務管理信息助力企業(yè)實現(xiàn)數(shù)字化管理。4)嵌入式軟件:嵌入在硬件中的操作系統(tǒng)或開發(fā)工具軟件,提 高生產(chǎn)裝備智能化水平。
根據(jù)工信部、中國電子信息產(chǎn)業(yè)統(tǒng)計年鑒數(shù)據(jù),我國工業(yè)軟件增速持續(xù)領先于全球工業(yè)軟件市場。2022 年, 我國工業(yè)軟件產(chǎn)品收入 2407 億元,同比增長 14.29%。2018 年至 2022 年,我國工業(yè)軟件產(chǎn)品收入年復合增長率 高達 16%。 目前制造業(yè)企業(yè)信息化率仍較低,未來仍有較大發(fā)展空間。從現(xiàn)階段看,我國制造業(yè)企業(yè)信息化率仍較低, 《2018 年中國制造業(yè)痛點分析報告》數(shù)據(jù)顯示,制造業(yè)企業(yè)的數(shù)字化設備聯(lián)網(wǎng)率僅為 39%、MES 普及率只有 18.1%。而《智能制造裝備產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃》指出,到 2020 年,重點領域數(shù)字化研發(fā)設計工具普及率 達到 70%以上,關鍵工序數(shù)控化率達到 50%以上,數(shù)字化車間/智能工廠普及率達到 20%以上,我國工業(yè)軟件行 業(yè)未來仍有較大發(fā)展空間。從 ERP 的普及率來看,Gartner 的數(shù)據(jù)顯示,我國 ERP 的普及率(ERP/GDP)僅為 0.015%,遠低于美國的 0.059%。目前 3C、汽車、家電、化工、電力等行業(yè)是 IT 投入主要領域。其中,3C 行 業(yè)前五大企業(yè)連續(xù)三年 IT 投入成本最大,達到 450 億元。
2.4.3.2 工業(yè)軟件行業(yè)聚焦:CAD——計算機輔助設計
CAD 軟件是工業(yè)軟件中最關鍵、技術門檻最高的一類軟件,市場空間廣闊,增長態(tài)勢良好。CAD 軟件承接 產(chǎn)業(yè)鏈上游硬件設備、操作系統(tǒng)、開發(fā)工具等行業(yè),服務下游發(fā)電、建材、化工、冶金、煤礦等應用領域;涉 及數(shù)學、物理、計算機及工程四大學科的專業(yè)知識,具備較高的技術壁壘。從上世紀五六十年代發(fā)展至今,CAD 從最初的機械制造逐漸拓展到建筑、電子、汽車、航天、輕工、影視、廣告等諸多行業(yè)領域。Autodesk、Dassault、 Siemens、PTC 等廠商憑借技術優(yōu)勢和長期的市場積累占據(jù)主導地位,全球 CAD 市場增長趨于穩(wěn)定。 全球工業(yè)軟件及 CAD 行業(yè)發(fā)展態(tài)勢向好,國內(nèi)工業(yè)軟件及 CAD 行業(yè)保持增長態(tài)勢。工業(yè)軟件,特別是 CAD 軟件,具有應用廣泛、學科知識跨度廣、技術壁壘高等特點,增長態(tài)勢向好。近五年,全球工業(yè)軟件市場 規(guī)模與 CAD 市場規(guī)模保持穩(wěn)定增長,其中全球 2016-2023 年 CAD 市場規(guī)模預計將實現(xiàn) 6.03%的 CAGR;國內(nèi) 得益于數(shù)字經(jīng)濟東風與國產(chǎn)化替代浪潮,工業(yè)軟件與 CAD 行業(yè)向上態(tài)勢明顯。
CAD 發(fā)展有賴于技術革命,關鍵技術的研發(fā)將是未來 CAD 行業(yè)競爭焦點,國產(chǎn) CAD 軟件進步空間大。 CAD 行業(yè)發(fā)展史也是技術革命史,從 2-2.5D 模型到三維框線模型,從曲面造型技術到實體造型技術,從參數(shù)化 技術到變量化技術,不同時點的技術進步既帶來行業(yè)的騰飛,也造就新的行業(yè)龍頭,放眼未來,CAD 行業(yè)的發(fā) 展仍將聚焦于關鍵技術的研發(fā)上。
CAD 與 AI 結合是產(chǎn)業(yè)新趨勢,可以提高設計效率、優(yōu)化設計質量、創(chuàng)造新的設計形式。第四范式的“式 說”大模型是一個基于生成式 AI 的新型開發(fā)平臺,具備文本、語音、圖像、表格、視頻等多模態(tài)交互及企業(yè)級 Copilot 能力,以生成式 AI 重構企業(yè)軟件(AI-Generated Software),提升企業(yè)軟件的體驗和開發(fā)效率。式說大模 型可以用來輔助或自動生成 CAD 3D 模型,用戶通過自然語言交互就可以調(diào)用工業(yè)軟件的功能,輔助完成設計。
回望海外 CAD 龍頭的發(fā)展史,可發(fā)現(xiàn)其競爭優(yōu)勢各異,但核心技術的發(fā)展與對于用戶使用體驗的關注是 共同主線。海外三大 CAD 巨頭中,達索系統(tǒng)具有一體化+云化平臺 3DEXPERIENCE,同時具有功能各異的幾 何內(nèi)核 CGM+ACIS,由此產(chǎn)生差異化 CAD 產(chǎn)品 CATIA+SOLIDWORKS,共同推動其占領不同類型市場,取得 領先地位。Autodesk 公司通過多次技術轉型構造競爭壁壘,同時不斷更新迭代產(chǎn)品應對需求,不斷改革定價策 略與商業(yè)模式以匹配其戰(zhàn)略,實現(xiàn)蓬勃發(fā)展。西門子密切關注云化+平臺化趨勢,開發(fā) Xcelerator 開放式數(shù)字商 業(yè)平臺,構造開放的生態(tài)體系,創(chuàng)建功能完善且用戶體驗良好的 CAD 軟件。 海外 CAD 龍頭的并購史遵循三類并購邏輯。1)在技術層面進行第一類并購,針對突破核心技術的中小型 公司,獲取核心技術,提高競爭壁壘,進一步賦能產(chǎn)品研發(fā)。2)在市場層面進行第二類并購,針對具有垂直行 業(yè)知識或在某垂直行業(yè)取得領先地位的中小型公司,開拓垂直市場,獲取對應客群,節(jié)省落地成本。3)在生態(tài) 層面進行第三類并購,針對生態(tài)鏈條上缺失的 ERP、MSE 等類型軟件,完善生態(tài)系統(tǒng),實現(xiàn)應用聯(lián)動。
CAD 國內(nèi)領先公司發(fā)展態(tài)勢良好,包括中望軟件、浩辰軟件、華天軟件、數(shù)碼大方。1)中望軟件是領先的 All-in-One CAX 解決方案提供商,2D 領域具有自主內(nèi)核產(chǎn)品平臺 ZWCAD。3D 領域具有自主建模內(nèi)核 CAX 一 體化軟件 ZW3D,產(chǎn)品達到第二陣營技術指標標準,處于國內(nèi)領先地位,業(yè)績發(fā)展良好,教育市場收入不斷增 加。2)浩辰軟件具有內(nèi)置協(xié)同設計,致力于打造一體化國產(chǎn) 2D CAD 解決方案,同時發(fā)展云端,致力于建設國 內(nèi)領先的云化 CAD 解決方案。2D CAD 為公司主要營收來源,未來看好云化 CAD 業(yè)務。3)華天軟件具有完全 自主產(chǎn)權,在模具行業(yè)處于領先地位,目前公司旗下有 CrownCAD、SINOVATION、Sview、SViewVIZ 等一系 列功能強大的軟件產(chǎn)品,營收年化增速達 11.2%,有望繼續(xù)增長。4)數(shù)碼大方實現(xiàn)深度產(chǎn)教融合,堅持以“企 業(yè)需求為導向,教學實訓為中心”。
三、國產(chǎn)算力自主可控
隨著大語言模型能力不斷升級,生成式 AI 帶來個人生產(chǎn)力革命,大語言模型爆發(fā)出巨大的應用潛力,模型 參數(shù)持續(xù)提升帶來更高的模型訓練算力需求,大模型的商業(yè)化落地催生了更大的推理算力和通信能力需求。從 需求端出發(fā),我們測算了大模型帶來的 GPU 增量空間。 測算原理:從模型的(1)參數(shù)規(guī)模入手,根據(jù)(2)訓練大模型所需的 Token 數(shù)量和(3)每 Token 訓練成 本與模型參數(shù)量的關系估算總算力需求,再考慮(4)單張 GPU 算力和(5)GPU 集群的算力利用率推導得出 GPU 總需求。
(1)參數(shù)規(guī)模:過去幾年,大模型的參數(shù)量呈指數(shù)上升,GPT-3 模型參數(shù)量已達到 1750 億。GPT-4 具有 多模態(tài)能力,其參數(shù)量相比 GPT-3 會更大。我們在測算中假設 2023 年多模態(tài)大模型的平均參數(shù)量達到 10000 億個,之后每年保持 20%的增速;普通大模型的平均參數(shù)量達到 2000 億個,之后每年保持 20%的增速。 (2)訓練大模型所需的 Token 數(shù)量:參數(shù)規(guī)模在千億量級的自然語言大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,訓練所需的 Token 數(shù)量在千億量級,而一些多模態(tài)大模型在訓練過程中所需 Token 數(shù)據(jù)量也跟隨參 數(shù)量增長而增長,我們在測算中假設多模態(tài)大模型訓練所需 Token 數(shù)量達到萬億級別,并且 Token 數(shù)量與模型 參數(shù)規(guī)模保持線性增長關系。 (3)每 Token 訓練成本與模型參數(shù)量的關系:參考 OpenAI 發(fā)布的論文《Scaling Laws for Neural Language Models》中的分析,每個 token 的訓練成本通常約為 6N,其中 N 是 LLM 的參數(shù)數(shù)量,我們在測算中遵循這一 關系。 (4)單張 GPU 算力:因為在訓練大模型時,主要依賴可實現(xiàn)的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我們在測算中選取 A100 SXM 和 H100 SXM 對應的算力 312 TFLOPS 和 990 TFLOPS 作為參數(shù)。 (5)GPU 集群的算力利用率:參考 Google Research 發(fā)布的論文《PaLM: Scaling Language Modeling with Pathways》中的分析,我們在測算中假設算力利用率約為 30%。 其他基本假設包括多模態(tài)研發(fā)廠商個數(shù)、普通大模型研發(fā)廠商個數(shù)等。根據(jù)所有假設及可以得到,2023 年 -2027 年,全球大模型訓練端峰值算力需求量的年復合增長率為 78.0%。2023 年全球大模型訓練端所需全部算 力換算成的 A100 總量超過 200 萬張,新增市場需求空前旺盛。
3.1 國產(chǎn)算力迎來高速發(fā)展期
2023 年 10 月 17 日美國商務部和安全局(BIS)發(fā)布一攬子規(guī)則,旨在更新對中國的先進計算芯片的出口 管制。出口管制清單 CCL 中的 ECCN 3A090 修正,該規(guī)則將于 2023 年 11 月 16 日起生效。以下條件,滿足 一個就受到出口限制: 3A090a:針對最高性能芯片(1): TPP 超過 4800(2): TPP 超過 1600,且 PD 超過 5.92。 3A090b:針對次高性能芯片(1): TPP 處于[2400,4800),且 PD 處于[1.6,5.92);(2): TPP 在[1600,+∞) 區(qū)間,且 PD 處于[3.2.5.92)區(qū)間。 其中 TPP 為總算力性能,PD 為性能密度,性能密度定義為:總處理性能/芯片面積。
2023 年 10 月 17 日的芯片出口管制禁令更為嚴格,雖然消除了之前的帶寬限制,但是算力限制更為嚴格。 主流的英偉達 H100、H800、A100、A800、L40S、RTX4090 等均在出口管制范圍內(nèi)。
英偉達和 AMD 是目前全球 GPGPU 的領軍企業(yè)。英偉達的通用計算芯片具備優(yōu)秀的硬件設計,通過 CUDA 架構等全棧式軟件布局,實現(xiàn)了 GPU 并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應用領域 中,均推出了高性能的軟硬件組合,逐步成為全球 AI 芯片領域的主導者。AMD 2018 年發(fā)布用于數(shù)據(jù)中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構,如 MI250X 采用 CDNA2 架構,在通用計算領域 實現(xiàn)計算能力和互聯(lián)能力的顯著提升,此外還推出了對標英偉達 CUDA 生態(tài)的 AMD ROCm 開源軟件開發(fā)平臺。 國內(nèi) AI 芯片廠商正逐步縮小與英偉達、AMD 的差距,出口管制下國產(chǎn)芯片快速發(fā)展勢在必行。英偉達憑 借其硬件產(chǎn)品性能的先進性和生態(tài)構建的完善性處于市場領導地位,國內(nèi)廠商雖然在硬件產(chǎn)品性能和產(chǎn)業(yè)鏈生 態(tài)架構方面與前者有所差距,但正在逐步完善產(chǎn)品布局和生態(tài)構建,不斷縮小與行業(yè)龍頭廠商的差距。國內(nèi)主 要 AI 芯片包括昇騰、寒武紀、海光信息、天數(shù)智芯等。
3.2 服務器:AI 時代全球服務器市場高速增長
3.2.1 AI 時代全球服務器市場高速增長,AI 服務器出貨量占比進一步提升
AI 服務器為算力基礎設施最重要硬件之一,與普通服務器的絕大多數(shù)空間分配給 CPU 相比,AI 服務器 采用異構形式,可根據(jù)應用的范圍采用不同的組合方式,一般采取 CPU+多顆 GPU 的架構,也有 CPU+TPU、 CPU+其他的加速卡等組合。相較普通服務器,AI 服務器更擅長并行運算,具有高帶寬、性能優(yōu)越、能耗低等優(yōu)點。對比 CPU 和 GPU 的內(nèi)部架構,CPU 采用整塊的 ALU(運算單元),且大量空間用于控制單元和緩存,串 行計算能力強;而 GPU 采用分立的大量 ALU,很少空間分配給控制單元和緩存,并行計算能力強。而由于圖 像識別、視覺效果處理、虛擬現(xiàn)實、大模型訓練等任務都包含大量的簡單重復計算、矩陣計算等,更適合用搭 載 GPU 更多的異構型 AI 服務器進行處理,而隨著企業(yè)的智能化變革和通用大模型的興起,以 GPU 為核心的異 構型 AI 服務器將在算力基礎設施建設中占據(jù)愈發(fā)重要的地位。
IDC 預計,全球 AI 服務器市場將從 2022 年的 195 億美元增長到 2026 年的 347 億美元,五年年復合增長率 達 17.3%;其中,用于運行生成式人能的服務器市場規(guī)模在整體人工智能服務器市場的占比將從 2023 年的 11.9% 增長至 2026 年的 31.7%。隨著數(shù)據(jù)量的持續(xù)提升,大模型參與玩家和單個模型參數(shù)量提升,以及數(shù)字化轉型推 進等多因素影響,AI 服務器市場規(guī)模將繼續(xù)保持較快增長;2022 年中國 AI 服務器市場規(guī)模 67 億美元,同比增 長 24%。其中 GPU 服務器占據(jù)主導地位,市場份額為 89%至 60 億美元。同時,NPU、ASIC 和 FPGA 等非 GPU 加速服務器以同比 12%的增速占有了 11%的市場份額,達到 7 億美元。預計 2023 年,中國人工智能服務器市場 規(guī)模將達 91 億美元,同比增長 82.5%,2027 年將達到 134 億美元,五年年復合增長率為 21.8%。
3.2.2 AI 服務器市場集中度有望提升,國內(nèi)廠商呈現(xiàn)一超多強格局
據(jù) IDC 數(shù)據(jù),2022 年上半年全球 AI 服務器市場中,浪潮信息、戴爾、惠普、聯(lián)想、新華三分別以 15.1%、 14.1%、7.7%、5.6%、4.7%的市場份額位居前五位。市場格局相對分散,龍頭廠商份額較為接近。此外,由于以 北美云廠商為主的需求方偏向于采用 ODM 模式,因此非品牌商份額占比較高,接近 50%。 據(jù) IDC 數(shù)據(jù),2022 年我國 AI 服務器市場按銷售額統(tǒng)計市場份額中,浪潮信息、新華三、寧暢位居前三位, 市場份額分別為 47%、11%、9%。市場格局呈現(xiàn)一超多強局面,除浪潮外其與廠商份額相對接近。由于國內(nèi)頭 部廠商采用類 ODM 模式服務互聯(lián)網(wǎng)客戶,因此 ODM 廠商份額占比偏低。
四、大模型技術基座國產(chǎn)化
4.1 EDA 算法國產(chǎn)替代
EDA 板塊:增速穩(wěn)定、高壁壘、高估值板塊。1)增速穩(wěn)定:EDA 公司商業(yè)模式大多數(shù)為按年付費,一般 收費在 IC 設計公司收入的 1%-3%之間,占 IC 公司收入比重較低,并且 EDA 公司議價權較高,因此對于成熟 穩(wěn)定的客戶,每年給 EDA 公司付費基本穩(wěn)定或者略有增長,商業(yè)模式和高壁壘決定了 EDA 公司受下游需求波 動影響較小。EDA 行業(yè)增長一是受益于 IC 設計門檻降低,IC 公司數(shù)量越來越多,二是 IC 品類不斷拓張,比如 第三代半導體的出現(xiàn),三是伴隨著先進制程迭代,產(chǎn)品復雜度提高帶來的單價提升。加上盜版等因素的存在, 實際上有部分需求并未體現(xiàn)在 EDA 公司收入中,通過盜版的不斷轉化,EDA 龍頭公司中長期均保持穩(wěn)定增長。 2)高壁壘;技術壁壘本身較高,需要強大的數(shù)學物理基礎理論支撐,對算法要求很高。同時用戶協(xié)同壁壘較高, 制造、設計、EDA 廠商三方形成穩(wěn)定的生態(tài)圈,新進入者極難打破。因此,高壁壘以及良好的業(yè)務穩(wěn)定性和成 長性,使得 EDA 公司如新思科技、Cadence 在美股半導體板塊中估值一直相對較高。
EDA 行業(yè)保持穩(wěn)定增長,國內(nèi)增速更快。根據(jù)賽迪數(shù)據(jù),2020 年全球 EDA 行業(yè)實現(xiàn)總銷售額 72.3 億美元, 同比增長 10.7%。預計至 2024 年,全球市場規(guī)模有望達到 105 億美元,2020-2024 年復合年均增長率為 7.8%。 2020 年國內(nèi) EDA 市場規(guī)模為 66.2 億,預計至 2024 年,我國 EDA 工具市場規(guī)模有望達到 115 億元人民幣,2020 至 2024 年的市場規(guī)模符合年均增長率近 17%。
EDA 結合人工智能是趨勢。EDA 問題具有高維度、不連續(xù)、非線性和高階交互的特性,機器學習等算法 能夠顯著提高 EDA 的自主程度,提升 IC 設計效率,縮短研發(fā)周期。人工智能賦能 EDA 主要從 Inside 和 Outside 兩方面實現(xiàn),從 Inside 方面,通過機器學習對 DRC、能耗、時序等預測,在參數(shù)模型建立過程中實現(xiàn)參數(shù)的優(yōu) 化,同時實現(xiàn)更高效的物理空間設計。Outside 方面,通過機器學習方式,減少人工干預,極大釋放勞動力。
EDA巨頭積極進行人工智能與芯片設計的深度融合。EDA巨頭Cadence發(fā)布了內(nèi)嵌人工智能算法的Innovus, Project Virtus,Signoff Timing 等工具,實現(xiàn)了全流程數(shù)字化智能化。Mentor 通過機器學習 OPC 將光學鄰近效應 修正(OPC)輸出預測精度提升到納米級,同時將執(zhí)行時間縮短 3 倍。Synopsys 推出業(yè)界首個用于芯片設計的自 主人工智能應用程序——DSO.aiTM。英偉達發(fā)布大語言模型 ChipNeMo,輔助工作人員完成與芯片設計相關的 任務,可以回答有關芯片設計的一般問題、總結 bug 文檔,以及為 EDA 工具編寫腳本等。 國產(chǎn) EDA 產(chǎn)商迎來新戰(zhàn)略機遇期。目前全球 EDA 工具上大約有近百家,排名前三的公司分別是新思科技 (Synopsys)、鏗騰電子(cadence)和明導(Mentor),三家巨頭占據(jù)著全球近 7 成左右的市場份額,在中國的 市占率更是超過 95%。2022 年 8 月生效的《2022 芯片與科學法案》對 EDA 軟件進行了出口管制,在中美貿(mào)易 戰(zhàn)、科技戰(zhàn)持續(xù)深化的背景下,加強對卡脖子的關鍵核心技術研發(fā)的支持成為半導體領域的重點,半導體芯片的軟硬件國產(chǎn)化比例不斷提升,芯片核心技術自主可控勢在必行,國產(chǎn) EDA 廠商迎來重要的發(fā)展機遇。
評論