浪潮之下的大語(yǔ)言模型以及我國(guó)未來(lái)大語(yǔ)言模型的發(fā)展

作者：宗煜時(shí)間：2024-05-09 來(lái)源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

不知不覺(jué)之間，我們已經(jīng)距離ChatGPT引爆全網(wǎng)的爆發(fā)點(diǎn)已經(jīng)過(guò)去了一年多。隨著OpenAI證明了LLM（大語(yǔ)言模型）AI行得通之后，目前市場(chǎng)上的各類(lèi)LLM 已經(jīng)如雨后春筍般爭(zhēng)搶涌出。不言自明，現(xiàn)在的大模型已經(jīng)成為AI領(lǐng)域的一個(gè)重要趨勢(shì)。據(jù)數(shù)據(jù)，2023年，我國(guó)AI大模型行業(yè)市場(chǎng)規(guī)模為147億元，預(yù)計(jì)2024年將增長(zhǎng)至216億元。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展，相信AI大模型將在未來(lái)發(fā)揮更加重要的作用，推動(dòng)中國(guó)人工智能產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新。本篇文章，就重點(diǎn)針對(duì)我國(guó)以及全球的大語(yǔ)言模型的實(shí)力和其市場(chǎng)應(yīng)用情況做一個(gè)相對(duì)全面的梳理和分析，讓我們一起撥云見(jiàn)日，看清這百家爭(zhēng)鳴的大語(yǔ)言模型AI市場(chǎng)。

本文引用地址：http://m.butianyuan.cn/article/202405/458500.htm

大語(yǔ)言模型，是一種基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型，能夠生成自然語(yǔ)言文本，深入理解文本含義，并處理各種自然語(yǔ)言任務(wù)，如文本摘要、問(wèn)答、翻譯等。它的底層使用多個(gè)轉(zhuǎn)換器模型，這些轉(zhuǎn)換器由具有自注意力功能的編碼器和解碼器組成，可以從一系列文本中提取含義，并理解其中的單詞和短語(yǔ)之間的關(guān)系。目前被廣泛應(yīng)用與AI 機(jī)械學(xué)習(xí)領(lǐng)域，就從目前的使用效果上來(lái)看，是智能水平最高的AI 產(chǎn)品之一。

1 浪潮之下，國(guó)內(nèi)外大語(yǔ)言模型的發(fā)展現(xiàn)狀

我們縱觀(guān)全球，目前重要的大語(yǔ)言模型產(chǎn)品有：OpenAI的ChatGPT、百度的文心一言、阿里巴巴Qwen-Max、谷歌的PaLM 2 AI 模型、Meta 的LLaMA模型等等。我國(guó)大語(yǔ)言模型從數(shù)量上看，百家爭(zhēng)鳴，但是對(duì)于大語(yǔ)言模型的性能上來(lái)看，我國(guó)整體上成追趕態(tài)勢(shì)。

根據(jù)上海市人工智能實(shí)驗(yàn)室發(fā)布了2023 年度大模型評(píng)測(cè)榜單。經(jīng)過(guò)大模型開(kāi)源開(kāi)放評(píng)測(cè)體系“司南”（OpenCompass2.0）對(duì)國(guó)內(nèi)外主流大模型的全面評(píng)測(cè)診斷，中英雙語(yǔ)評(píng)測(cè)前十名揭曉：OpenAI 研發(fā)的GPT-4Turbo位居第一，排名第二至第五的依次是：智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0、阿里巴巴Qwen-72B-Chat。

在中英雙語(yǔ)評(píng)測(cè)中，OpenAI的GPT-4 Turbo以顯著優(yōu)勢(shì)位居榜首。這一結(jié)果再次證明了OpenAI在大模型技術(shù)領(lǐng)域的領(lǐng)先地位，也反映出其在復(fù)雜推理和綜合能力方面的卓越表現(xiàn)；而在詳細(xì)分析評(píng)測(cè)結(jié)果時(shí)，我們發(fā)現(xiàn)國(guó)內(nèi)大模型在中文場(chǎng)景下展現(xiàn)出了獨(dú)特優(yōu)勢(shì)。這得益于國(guó)內(nèi)企業(yè)在中文語(yǔ)言理解、中文知識(shí)和中文創(chuàng)作等方面的深厚積累。在一些維度上，國(guó)內(nèi)商業(yè)模型甚至實(shí)現(xiàn)了對(duì)GPT-4 Turbo 的超越，這充分展示了國(guó)內(nèi)大模型在特定領(lǐng)域的競(jìng)爭(zhēng)力。

如果說(shuō)，從國(guó)內(nèi)機(jī)構(gòu)的測(cè)試結(jié)果來(lái)看，我國(guó)的大語(yǔ)言模型的性能似乎“還可以”，但是在剔除了中文優(yōu)勢(shì)等特定的優(yōu)勢(shì)來(lái)綜合評(píng)價(jià)之時(shí)，我國(guó)的大語(yǔ)言模型對(duì)比其他國(guó)外的模型，特別是來(lái)自美國(guó)的同類(lèi)產(chǎn)品之時(shí)，其劣勢(shì)就十分明顯了。

在人工智能和自然語(yǔ)言處理領(lǐng)域，SuperCLUE 基準(zhǔn)測(cè)試是衡量模型性能的重要指標(biāo)之一。在近期的測(cè)試之中，目前世界上最好的大語(yǔ)言模型毫無(wú)爭(zhēng)議的是來(lái)自O(shè)penAI的GPT4，其以高達(dá)87.08 的得分遙遙領(lǐng)先，充分展示了其在自然語(yǔ)言處理領(lǐng)域的強(qiáng)大實(shí)力。Claude2和GPT3.5也分別以72.46和71.12的得分緊隨其后，展現(xiàn)出了不俗的性能。

相比之下，國(guó)內(nèi)代表模型在SuperCLUE基準(zhǔn)測(cè)試中的得分雖然普遍較低，但也取得了一定的成績(jī)。vivoLM和Moonshot分別以70.74和70.42的得分位列國(guó)內(nèi)模型前列，與其他國(guó)內(nèi)模型相比表現(xiàn)出了一定的優(yōu)勢(shì)。文心一言4.0、SenseChat3.0等模型也展現(xiàn)出了良好的性能，但與國(guó)外模型相比仍有一定的差距。

面對(duì)目前的不小差距，筆者借用上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授的話(huà)來(lái)說(shuō)：“大模型評(píng)測(cè)的最大意義并不在于榜單名次，而是通過(guò)評(píng)測(cè)結(jié)果來(lái)指導(dǎo)改進(jìn)工作?！蹦敲唇酉聛?lái)我們就來(lái)進(jìn)一步看看，ChatGPT為什么行？

2 ChatGPT為什么能如此成功？

首先，我們要承認(rèn)，ChatGPT是一次在海量資源加持的前提之下，團(tuán)隊(duì)保持初心，并且嚴(yán)格按照長(zhǎng)期主義思想指導(dǎo)的一次成功。自2015年底OpenAI成立，到2018年初代GPT誕生，再到2022年底GPT-3走向商業(yè)化，OpenAI的幾位創(chuàng)始人，其初心十分明確，他們以造福全人類(lèi)為宗旨，希望能夠研發(fā)出能夠安全可控，人類(lèi)可以放心使用的高水平AI技術(shù)。在這一初心的指引下，OpenAl創(chuàng)始人兼CTO不斷用第一性原理的思維定位研發(fā)方向，走出技術(shù)瓶頸，才讓OpenAI得以成為今天通用AI領(lǐng)域的重要力量。

站在技術(shù)的角度上來(lái)說(shuō)，OpenAI團(tuán)隊(duì)基于Transformer網(wǎng)絡(luò)，使得機(jī)器人能夠更好地模擬人類(lèi)的語(yǔ)言行為，從而提高了交流的流暢性和準(zhǔn)確性。ChatGPT的深度學(xué)習(xí)模型經(jīng)過(guò)大規(guī)模的預(yù)訓(xùn)練，學(xué)習(xí)到了大量的語(yǔ)言模式和語(yǔ)法規(guī)則，我們以GPT-3為例，其訓(xùn)練數(shù)據(jù)達(dá)45TB，相當(dāng)于閱讀了數(shù)千萬(wàn)本文學(xué)巨著，再加上近乎“無(wú)限”的硬件平臺(tái)支持，據(jù)國(guó)盛證券的測(cè)算，在訓(xùn)練階段，微軟Azure就為GPT-3準(zhǔn)備的訓(xùn)練研發(fā)平臺(tái)在2020年時(shí)共部署英偉達(dá)V100超過(guò)1萬(wàn)塊，置換為A100，則所需GPU算力約為3000-5000塊英偉達(dá)A100；而在正式投入運(yùn)營(yíng)之時(shí)，支持每日2500 萬(wàn)人訪(fǎng)問(wèn)量的巨大流量，在考慮算法優(yōu)化后保守估計(jì)在1 萬(wàn)片A100 左右。巨大的資金支持+ 最好的硬件支持+ 優(yōu)秀的人才團(tuán)隊(duì)，這一切造就了如今ChatGPT 的成功，讓它成了AI 領(lǐng)域的“iPhone 時(shí)刻”。

而站在市場(chǎng)化的角度來(lái)說(shuō)，ChatGPT的成功也在于其廣泛的應(yīng)用場(chǎng)景。無(wú)論是作為智能客服解決用戶(hù)問(wèn)題，還是作為個(gè)人助手幫助用戶(hù)管理日程，ChatGPT都能提供精準(zhǔn)、個(gè)性化的服務(wù)。在醫(yī)療、教育、電商、旅游等多個(gè)行業(yè)，ChatGPT 也展現(xiàn)出了巨大的應(yīng)用價(jià)值。例如，在醫(yī)療領(lǐng)域，ChatGPT能夠幫助醫(yī)生進(jìn)行疾病診斷，提供治療建議，提高治療效果；在教育領(lǐng)域，它可以作為學(xué)習(xí)輔助工具，為學(xué)生提供答疑解惑，提高學(xué)習(xí)效率。這些廣泛的應(yīng)用場(chǎng)景，不僅使得ChatGPT 得到了市場(chǎng)的廣泛認(rèn)可，也為其帶來(lái)了持續(xù)的發(fā)展動(dòng)力。

根據(jù)國(guó)外Business.com 網(wǎng)站所發(fā)起的一次“您在工作中如何使用 chatGPT ？”調(diào)查顯示，ChatGPT 在工作之中幾乎被廣泛的應(yīng)用，書(shū)面溝通是ChatGPT 在工作場(chǎng)所中最流行的用途，占據(jù)了23% 的比例；創(chuàng)意幫助、研究和數(shù)據(jù)分析、內(nèi)容創(chuàng)作和行政支持也是較為常見(jiàn)的使用場(chǎng)景，分別占據(jù)了18%、17%、13% 和13% 的比例。這些統(tǒng)計(jì)足見(jiàn)大語(yǔ)言模型無(wú)限的發(fā)展空間和潛力。

而另一項(xiàng)調(diào)查之中，也顯示了大部分美國(guó)人對(duì)于ChatGPT 持十分樂(lè)于接受的積極態(tài)度。參加這項(xiàng)調(diào)查的人群一共1000 人，平均年齡37 歲，年收入中位數(shù)在70000~79999 美元之間。45% 的受訪(fǎng)者是女性，55%是男性。其中白人占75%，7% 亞裔，9% 黑人，剩下的是其他種族背景。

使用ChatGPT 是一種懶惰的行為：14% 的人這么認(rèn)為，73% 的人不這么認(rèn)為;

工作中使用ChatGPT 是一種欺騙，并不是真正工作：16% 的人這么認(rèn)為，71% 的人反對(duì)這個(gè)觀(guān)點(diǎn)；

在工作中使用ChatGPT 將帶來(lái)低質(zhì)量的工作績(jī)效：13% 的人這么認(rèn)為，60% 的人反對(duì)這個(gè)觀(guān)點(diǎn):ChatGPT 搶走了老實(shí)人的工作：19% 的人這么認(rèn)為，58% 的人反對(duì)這個(gè)觀(guān)點(diǎn)；

使用ChatGPT 的工作者更聰明地工作，而不是更辛苦地工作：74% 的人認(rèn)可這個(gè)觀(guān)點(diǎn)，10% 的人反對(duì)這個(gè)觀(guān)點(diǎn)。

我們最后總結(jié)一下，ChatGPT 的成功是技術(shù)、人才與應(yīng)用共同推動(dòng)的結(jié)果。它不僅在技術(shù)上實(shí)現(xiàn)了重大突破，也在應(yīng)用上展現(xiàn)出了巨大的潛力。而OpenAI 團(tuán)隊(duì)也即使抓住了機(jī)會(huì)，就目前ChatGPT 的商業(yè)模式來(lái)看，其已經(jīng)清晰地確定了API、訂閱制和戰(zhàn)略合作（如嵌入微軟Bing、Office 等軟件）三種營(yíng)收方式，并在用戶(hù)數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)方面取得了顯著領(lǐng)先。

3 我國(guó)大語(yǔ)言模型能否追趕？

上文提到，我國(guó)國(guó)內(nèi)目前存在著許許多多的大語(yǔ)言模型，呈現(xiàn)百花齊放的態(tài)勢(shì)。百度首發(fā)了“文心一言”，360、阿里和商湯等公司也相繼發(fā)布了自己的大語(yǔ)言模型，如360 的大語(yǔ)言模型、阿里的“通義千問(wèn)”和商湯的“商量”。盡管在對(duì)話(huà)和文本生成的直觀(guān)體驗(yàn)上，ChatGPT表現(xiàn)出色，但Google等國(guó)外大廠(chǎng)克隆ChatGPT的技術(shù)壁壘并不高。目前，它們的暫時(shí)落后主要源于公司戰(zhàn)略和技術(shù)理念的差異，選擇了不同的技術(shù)路線(xiàn)。然而，隨著各家在技術(shù)探索和新方法應(yīng)用上的不斷進(jìn)步，對(duì)GPT 系列模型實(shí)現(xiàn)趕超的可能性仍然存在。對(duì)于百度等國(guó)內(nèi)大廠(chǎng)來(lái)說(shuō)，數(shù)據(jù)、算力和工程化能力等方面的不足是當(dāng)前的短板，因此在短期內(nèi)難以趕超國(guó)外領(lǐng)先的大模型，更多地扮演著跟隨者的角色。但從長(zhǎng)遠(yuǎn)來(lái)看，國(guó)內(nèi)AI 全產(chǎn)業(yè)鏈的整體進(jìn)化將是實(shí)現(xiàn)趕超的關(guān)鍵。

從國(guó)家層面來(lái)說(shuō)，我國(guó)也有充足的動(dòng)力去推動(dòng)大語(yǔ)言模型領(lǐng)域的發(fā)展。就目前來(lái)看，我國(guó)高度強(qiáng)調(diào)自主可控，這是保障網(wǎng)絡(luò)安全、信息安全的前提，自研基石模型具有高度戰(zhàn)略意義。

技術(shù)上壁壘并不高、國(guó)內(nèi)也有推動(dòng)其發(fā)展的重要力量。有行業(yè)專(zhuān)家預(yù)測(cè)，到2027 年，中國(guó)的語(yǔ)言大模型市場(chǎng)規(guī)模有望達(dá)到600 億元。此外，生成式人工智能的企業(yè)采用率也呈現(xiàn)出強(qiáng)勁的增長(zhǎng)勢(shì)頭。筆者認(rèn)為，未來(lái)的國(guó)內(nèi)大語(yǔ)言模型市場(chǎng)，將分化為通用基礎(chǔ)大模型、垂直基礎(chǔ)大模型、應(yīng)用開(kāi)發(fā)和工具層廠(chǎng)商四大類(lèi)。由于上文提到，資金、人才、數(shù)據(jù)、算力等等的客觀(guān)條件的存在，通用基礎(chǔ)大模型是只有少數(shù)廠(chǎng)商才有資格入場(chǎng)的游戲，而其他更多的大語(yǔ)言模型產(chǎn)品，不是在大浪淘沙之中被篩選淘汰，就只能退而求其次，深耕垂直基礎(chǔ)大模型領(lǐng)域。而在可以預(yù)見(jiàn)的未來(lái)，隨著大模型的通用和泛化性提高，掌握通用基礎(chǔ)大模型的巨頭企業(yè)可能會(huì)逐步侵占垂直領(lǐng)域廠(chǎng)商的市場(chǎng)份額。這種競(jìng)爭(zhēng)壓力從長(zhǎng)期來(lái)看確實(shí)不容忽視。然而，大模型與產(chǎn)品的結(jié)合，特別是在非檢索或開(kāi)放域交互等復(fù)雜場(chǎng)景中，并非簡(jiǎn)單的技術(shù)疊加。它需要深度融合垂直領(lǐng)域的數(shù)據(jù)、應(yīng)用場(chǎng)景和用戶(hù)反饋，以及強(qiáng)大的端到端工程化能力。這意味著，垂直領(lǐng)域與應(yīng)用層的廠(chǎng)商在面臨巨頭挑戰(zhàn)的同時(shí)，也擁有獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)和發(fā)展空間。因此，最終，市場(chǎng)之中還將催生出一批專(zhuān)注于提供開(kāi)發(fā)平臺(tái)服務(wù)的工具型或平臺(tái)型廠(chǎng)商。這些廠(chǎng)商將幫助客戶(hù)更便捷地實(shí)現(xiàn)AIGC 應(yīng)用的開(kāi)發(fā)與落地，進(jìn)一步推動(dòng)整個(gè)產(chǎn)業(yè)的繁榮與發(fā)展。

（本文來(lái)源于《EEPW》2024.5）

新聞中心

浪潮之下的大語(yǔ)言模型以及我國(guó)未來(lái)大語(yǔ)言模型的發(fā)展

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)