浪潮之下的大語(yǔ)言模型以及我國(guó)未來(lái)大語(yǔ)言模型的發(fā)展
不知不覺(jué)之間,我們已經(jīng)距離ChatGPT引爆全網(wǎng)的爆發(fā)點(diǎn)已經(jīng)過(guò)去了一年多。隨著OpenAI證明了LLM(大語(yǔ)言模型)AI行得通之后,目前市場(chǎng)上的各類(lèi)LLM 已經(jīng)如雨后春筍般爭(zhēng)搶涌出。不言自明,現(xiàn)在的大模型已經(jīng)成為AI領(lǐng)域的一個(gè)重要趨勢(shì)。據(jù)數(shù)據(jù),2023年,我國(guó)AI大模型行業(yè)市場(chǎng)規(guī)模為147億元,預(yù)計(jì)2024年將增長(zhǎng)至216億元。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展,相信AI大模型將在未來(lái)發(fā)揮更加重要的作用,推動(dòng)中國(guó)人工智能產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新。本篇文章,就重點(diǎn)針對(duì)我國(guó)以及全球的大語(yǔ)言模型的實(shí)力和其市場(chǎng)應(yīng)用情況做一個(gè)相對(duì)全面的梳理和分析,讓我們一起撥云見(jiàn)日,看清這百家爭(zhēng)鳴的大語(yǔ)言模型AI市場(chǎng)。
本文引用地址:http://m.butianyuan.cn/article/202405/458500.htm大語(yǔ)言模型,是一種基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,能夠生成自然語(yǔ)言文本,深入理解文本含義,并處理各種自然語(yǔ)言任務(wù),如文本摘要、問(wèn)答、翻譯等。它的底層使用多個(gè)轉(zhuǎn)換器模型,這些轉(zhuǎn)換器由具有自注意力功能的編碼器和解碼器組成,可以從一系列文本中提取含義,并理解其中的單詞和短語(yǔ)之間的關(guān)系。目前被廣泛應(yīng)用與AI 機(jī)械學(xué)習(xí)領(lǐng)域,就從目前的使用效果上來(lái)看,是智能水平最高的AI 產(chǎn)品之一。
1 浪潮之下,國(guó)內(nèi)外大語(yǔ)言模型的發(fā)展現(xiàn)狀
我們縱觀(guān)全球,目前重要的大語(yǔ)言模型產(chǎn)品有:OpenAI的ChatGPT、百度的文心一言、阿里巴巴Qwen-Max、谷歌的PaLM 2 AI 模型、Meta 的LLaMA模型等等。我國(guó)大語(yǔ)言模型從數(shù)量上看,百家爭(zhēng)鳴,但是對(duì)于大語(yǔ)言模型的性能上來(lái)看,我國(guó)整體上成追趕態(tài)勢(shì)。
根據(jù)上海市人工智能實(shí)驗(yàn)室發(fā)布了2023 年度大模型評(píng)測(cè)榜單。經(jīng)過(guò)大模型開(kāi)源開(kāi)放評(píng)測(cè)體系“司南”(OpenCompass2.0)對(duì)國(guó)內(nèi)外主流大模型的全面評(píng)測(cè)診斷,中英雙語(yǔ)評(píng)測(cè)前十名揭曉:OpenAI 研發(fā)的GPT-4Turbo位居第一,排名第二至第五的依次是:智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0、阿里巴巴Qwen-72B-Chat。
在中英雙語(yǔ)評(píng)測(cè)中,OpenAI的GPT-4 Turbo以顯著優(yōu)勢(shì)位居榜首。這一結(jié)果再次證明了OpenAI在大模型技術(shù)領(lǐng)域的領(lǐng)先地位,也反映出其在復(fù)雜推理和綜合能力方面的卓越表現(xiàn);而在詳細(xì)分析評(píng)測(cè)結(jié)果時(shí),我們發(fā)現(xiàn)國(guó)內(nèi)大模型在中文場(chǎng)景下展現(xiàn)出了獨(dú)特優(yōu)勢(shì)。這得益于國(guó)內(nèi)企業(yè)在中文語(yǔ)言理解、中文知識(shí)和中文創(chuàng)作等方面的深厚積累。在一些維度上,國(guó)內(nèi)商業(yè)模型甚至實(shí)現(xiàn)了對(duì)GPT-4 Turbo 的超越,這充分展示了國(guó)內(nèi)大模型在特定領(lǐng)域的競(jìng)爭(zhēng)力。
如果說(shuō),從國(guó)內(nèi)機(jī)構(gòu)的測(cè)試結(jié)果來(lái)看,我國(guó)的大語(yǔ)言模型的性能似乎“還可以”,但是在剔除了中文優(yōu)勢(shì)等特定的優(yōu)勢(shì)來(lái)綜合評(píng)價(jià)之時(shí),我國(guó)的大語(yǔ)言模型對(duì)比其他國(guó)外的模型,特別是來(lái)自美國(guó)的同類(lèi)產(chǎn)品之時(shí),其劣勢(shì)就十分明顯了。
在人工智能和自然語(yǔ)言處理領(lǐng)域,SuperCLUE 基準(zhǔn)測(cè)試是衡量模型性能的重要指標(biāo)之一。在近期的測(cè)試之中,目前世界上最好的大語(yǔ)言模型毫無(wú)爭(zhēng)議的是來(lái)自O(shè)penAI的GPT4,其以高達(dá)87.08 的得分遙遙領(lǐng)先,充分展示了其在自然語(yǔ)言處理領(lǐng)域的強(qiáng)大實(shí)力。Claude2和GPT3.5也分別以72.46和71.12的得分緊隨其后,展現(xiàn)出了不俗的性能。
相比之下, 國(guó)內(nèi)代表模型在SuperCLUE基準(zhǔn)測(cè)試中的得分雖然普遍較低,但也取得了一定的成績(jī)。vivoLM和Moonshot分別以70.74和70.42的得分位列國(guó)內(nèi)模型前列,與其他國(guó)內(nèi)模型相比表現(xiàn)出了一定的優(yōu)勢(shì)。文心一言4.0、SenseChat3.0等模型也展現(xiàn)出了良好的性能,但與國(guó)外模型相比仍有一定的差距。
面對(duì)目前的不小差距,筆者借用上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授的話(huà)來(lái)說(shuō):“大模型評(píng)測(cè)的最大意義并不在于榜單名次,而是通過(guò)評(píng)測(cè)結(jié)果來(lái)指導(dǎo)改進(jìn)工作?!蹦敲唇酉聛?lái)我們就來(lái)進(jìn)一步看看,ChatGPT為什么行?
2 ChatGPT為什么能如此成功?
首先,我們要承認(rèn),ChatGPT是一次在海量資源加持的前提之下,團(tuán)隊(duì)保持初心,并且嚴(yán)格按照長(zhǎng)期主義思想指導(dǎo)的一次成功。自2015年底OpenAI成立,到2018年初代GPT誕生,再到2022年底GPT-3走向商業(yè)化,OpenAI的幾位創(chuàng)始人,其初心十分明確,他們以造福全人類(lèi)為宗旨,希望能夠研發(fā)出能夠安全可控,人類(lèi)可以放心使用的高水平AI技術(shù)。在這一初心的指引下,OpenAl創(chuàng)始人兼CTO不斷用第一性原理的思維定位研發(fā)方向,走出技術(shù)瓶頸,才讓OpenAI得以成為今天通用AI領(lǐng)域的重要力量。
站在技術(shù)的角度上來(lái)說(shuō),OpenAI團(tuán)隊(duì)基于Transformer網(wǎng)絡(luò),使得機(jī)器人能夠更好地模擬人類(lèi)的語(yǔ)言行為,從而提高了交流的流暢性和準(zhǔn)確性。ChatGPT的深度學(xué)習(xí)模型經(jīng)過(guò)大規(guī)模的預(yù)訓(xùn)練,學(xué)習(xí)到了大量的語(yǔ)言模式和語(yǔ)法規(guī)則,我們以GPT-3為例,其訓(xùn)練數(shù)據(jù)達(dá)45TB,相當(dāng)于閱讀了數(shù)千萬(wàn)本文學(xué)巨著,再加上近乎“無(wú)限”的硬件平臺(tái)支持,據(jù)國(guó)盛證券的測(cè)算,在訓(xùn)練階段,微軟Azure就為GPT-3準(zhǔn)備的訓(xùn)練研發(fā)平臺(tái)在2020年時(shí)共部署英偉達(dá)V100超過(guò)1萬(wàn)塊,置換為A100,則所需GPU算力約為3000-5000塊英偉達(dá)A100;而在正式投入運(yùn)營(yíng)之時(shí),支持每日2500 萬(wàn)人訪(fǎng)問(wèn)量的巨大流量,在考慮算法優(yōu)化后保守估計(jì)在1 萬(wàn)片A100 左右。巨大的資金支持+ 最好的硬件支持+ 優(yōu)秀的人才團(tuán)隊(duì),這一切造就了如今ChatGPT 的成功,讓它成了AI 領(lǐng)域的“iPhone 時(shí)刻”。
而站在市場(chǎng)化的角度來(lái)說(shuō),ChatGPT的成功也在于其廣泛的應(yīng)用場(chǎng)景。無(wú)論是作為智能客服解決用戶(hù)問(wèn)題,還是作為個(gè)人助手幫助用戶(hù)管理日程,ChatGPT都能提供精準(zhǔn)、個(gè)性化的服務(wù)。在醫(yī)療、教育、電商、旅游等多個(gè)行業(yè),ChatGPT 也展現(xiàn)出了巨大的應(yīng)用價(jià)值。例如,在醫(yī)療領(lǐng)域,ChatGPT能夠幫助醫(yī)生進(jìn)行疾病診斷,提供治療建議,提高治療效果;在教育領(lǐng)域,它可以作為學(xué)習(xí)輔助工具,為學(xué)生提供答疑解惑,提高學(xué)習(xí)效率。這些廣泛的應(yīng)用場(chǎng)景,不僅使得ChatGPT 得到了市場(chǎng)的廣泛認(rèn)可,也為其帶來(lái)了持續(xù)的發(fā)展動(dòng)力。
根據(jù)國(guó)外Business.com 網(wǎng)站所發(fā)起的一次“您在工作中如何使用 chatGPT ?”調(diào)查顯示,ChatGPT 在工作之中幾乎被廣泛的應(yīng)用,書(shū)面溝通是ChatGPT 在工作場(chǎng)所中最流行的用途,占據(jù)了23% 的比例;創(chuàng)意幫助、研究和數(shù)據(jù)分析、內(nèi)容創(chuàng)作和行政支持也是較為常見(jiàn)的使用場(chǎng)景,分別占據(jù)了18%、17%、13% 和13% 的比例。這些統(tǒng)計(jì)足見(jiàn)大語(yǔ)言模型無(wú)限的發(fā)展空間和潛力。
而另一項(xiàng)調(diào)查之中,也顯示了大部分美國(guó)人對(duì)于ChatGPT 持十分樂(lè)于接受的積極態(tài)度。參加這項(xiàng)調(diào)查的人群一共1000 人,平均年齡37 歲,年收入中位數(shù)在70000~79999 美元之間。45% 的受訪(fǎng)者是女性,55%是男性。其中白人占75%,7% 亞裔,9% 黑人,剩下的是其他種族背景。
使用ChatGPT 是一種懶惰的行為:14% 的人這么認(rèn)為,73% 的人不這么認(rèn)為;
工作中使用ChatGPT 是一種欺騙,并不是真正工作:16% 的人這么認(rèn)為,71% 的人反對(duì)這個(gè)觀(guān)點(diǎn);
在工作中使用ChatGPT 將帶來(lái)低質(zhì)量的工作績(jī)效:13% 的人這么認(rèn)為,60% 的人反對(duì)這個(gè)觀(guān)點(diǎn):ChatGPT 搶走了老實(shí)人的工作:19% 的人這么認(rèn)為,58% 的人反對(duì)這個(gè)觀(guān)點(diǎn);
使用ChatGPT 的工作者更聰明地工作,而不是更辛苦地工作:74% 的人認(rèn)可這個(gè)觀(guān)點(diǎn),10% 的人反對(duì)這個(gè)觀(guān)點(diǎn)。
我們最后總結(jié)一下,ChatGPT 的成功是技術(shù)、人才與應(yīng)用共同推動(dòng)的結(jié)果。它不僅在技術(shù)上實(shí)現(xiàn)了重大突破,也在應(yīng)用上展現(xiàn)出了巨大的潛力。而OpenAI 團(tuán)隊(duì)也即使抓住了機(jī)會(huì),就目前ChatGPT 的商業(yè)模式來(lái)看,其已經(jīng)清晰地確定了API、訂閱制和戰(zhàn)略合作(如嵌入微軟Bing、Office 等軟件)三種營(yíng)收方式,并在用戶(hù)數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)方面取得了顯著領(lǐng)先。
3 我國(guó)大語(yǔ)言模型能否追趕?
上文提到,我國(guó)國(guó)內(nèi)目前存在著許許多多的大語(yǔ)言模型,呈現(xiàn)百花齊放的態(tài)勢(shì)。百度首發(fā)了“文心一言”,360、阿里和商湯等公司也相繼發(fā)布了自己的大語(yǔ)言模型,如360 的大語(yǔ)言模型、阿里的“通義千問(wèn)”和商湯的“商量”。盡管在對(duì)話(huà)和文本生成的直觀(guān)體驗(yàn)上,ChatGPT表現(xiàn)出色, 但Google等國(guó)外大廠(chǎng)克隆ChatGPT的技術(shù)壁壘并不高。目前,它們的暫時(shí)落后主要源于公司戰(zhàn)略和技術(shù)理念的差異,選擇了不同的技術(shù)路線(xiàn)。然而,隨著各家在技術(shù)探索和新方法應(yīng)用上的不斷進(jìn)步,對(duì)GPT 系列模型實(shí)現(xiàn)趕超的可能性仍然存在。對(duì)于百度等國(guó)內(nèi)大廠(chǎng)來(lái)說(shuō),數(shù)據(jù)、算力和工程化能力等方面的不足是當(dāng)前的短板,因此在短期內(nèi)難以趕超國(guó)外領(lǐng)先的大模型,更多地扮演著跟隨者的角色。但從長(zhǎng)遠(yuǎn)來(lái)看,國(guó)內(nèi)AI 全產(chǎn)業(yè)鏈的整體進(jìn)化將是實(shí)現(xiàn)趕超的關(guān)鍵。
從國(guó)家層面來(lái)說(shuō),我國(guó)也有充足的動(dòng)力去推動(dòng)大語(yǔ)言模型領(lǐng)域的發(fā)展。就目前來(lái)看,我國(guó)高度強(qiáng)調(diào)自主可控,這是保障網(wǎng)絡(luò)安全、信息安全的前提,自研基石模型具有高度戰(zhàn)略意義。
技術(shù)上壁壘并不高、國(guó)內(nèi)也有推動(dòng)其發(fā)展的重要力量。有行業(yè)專(zhuān)家預(yù)測(cè),到2027 年,中國(guó)的語(yǔ)言大模型市場(chǎng)規(guī)模有望達(dá)到600 億元。此外,生成式人工智能的企業(yè)采用率也呈現(xiàn)出強(qiáng)勁的增長(zhǎng)勢(shì)頭。筆者認(rèn)為,未來(lái)的國(guó)內(nèi)大語(yǔ)言模型市場(chǎng),將分化為通用基礎(chǔ)大模型、垂直基礎(chǔ)大模型、應(yīng)用開(kāi)發(fā)和工具層廠(chǎng)商四大類(lèi)。由于上文提到,資金、人才、數(shù)據(jù)、算力等等的客觀(guān)條件的存在,通用基礎(chǔ)大模型是只有少數(shù)廠(chǎng)商才有資格入場(chǎng)的游戲,而其他更多的大語(yǔ)言模型產(chǎn)品,不是在大浪淘沙之中被篩選淘汰,就只能退而求其次,深耕垂直基礎(chǔ)大模型領(lǐng)域。而在可以預(yù)見(jiàn)的未來(lái),隨著大模型的通用和泛化性提高,掌握通用基礎(chǔ)大模型的巨頭企業(yè)可能會(huì)逐步侵占垂直領(lǐng)域廠(chǎng)商的市場(chǎng)份額。這種競(jìng)爭(zhēng)壓力從長(zhǎng)期來(lái)看確實(shí)不容忽視。然而,大模型與產(chǎn)品的結(jié)合,特別是在非檢索或開(kāi)放域交互等復(fù)雜場(chǎng)景中,并非簡(jiǎn)單的技術(shù)疊加。它需要深度融合垂直領(lǐng)域的數(shù)據(jù)、應(yīng)用場(chǎng)景和用戶(hù)反饋,以及強(qiáng)大的端到端工程化能力。這意味著,垂直領(lǐng)域與應(yīng)用層的廠(chǎng)商在面臨巨頭挑戰(zhàn)的同時(shí),也擁有獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)和發(fā)展空間。因此,最終,市場(chǎng)之中還將催生出一批專(zhuān)注于提供開(kāi)發(fā)平臺(tái)服務(wù)的工具型或平臺(tái)型廠(chǎng)商。這些廠(chǎng)商將幫助客戶(hù)更便捷地實(shí)現(xiàn)AIGC 應(yīng)用的開(kāi)發(fā)與落地,進(jìn)一步推動(dòng)整個(gè)產(chǎn)業(yè)的繁榮與發(fā)展。
(本文來(lái)源于《EEPW》2024.5)
評(píng)論