GPT國(guó)內(nèi)的一些產(chǎn)品真的比國(guó)外的差嗎?(1)
本次討論的話(huà)題僅限于計(jì)算機(jī)視覺(jué)研究院個(gè)人觀點(diǎn),若有說(shuō)的不對(duì)的地方勿噴,有興趣的也可以加入我們ChatGPT討論興趣小組。
一、背景
ChatGPT到底是個(gè)啥?對(duì)于小白或者不知情的人士,其實(shí)對(duì)其還是很不了解,并且通過(guò)各種媒體報(bào)道,覺(jué)得它是一個(gè)神乎其神的產(chǎn)品,也是未來(lái)可替代部分勞動(dòng)力的源頭。那今天我們來(lái)聊聊這個(gè)GPT,并說(shuō)說(shuō)國(guó)內(nèi)發(fā)布的情況以及未來(lái)發(fā)展,真的國(guó)內(nèi)會(huì)比國(guó)外差嗎?——這個(gè)問(wèn)題是開(kāi)放性問(wèn)題,大家可以一起討論。
ChatGPT的橫空出世拉開(kāi)了大語(yǔ)言模型(LLM)產(chǎn)業(yè)和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。今天我們先分析“OpenAI ChatGPT的成功之路”、“國(guó)內(nèi)ChatGPT產(chǎn)業(yè)發(fā)展趨勢(shì)”、“ChatGPT應(yīng)用場(chǎng)景”、“ChatGPT風(fēng)波下的‘?!c‘機(jī)’”四個(gè)問(wèn)題。聚焦國(guó)內(nèi)市場(chǎng),辨析中國(guó)自研通用基礎(chǔ)大語(yǔ)言模型的重要意義、分析中國(guó)大語(yǔ)言模型產(chǎn)業(yè)參與角色分化路徑及原因、梳理呈現(xiàn)中國(guó)大語(yǔ)言模型產(chǎn)業(yè)受益鏈圖譜。
大模型(以LLM為主,包含多模態(tài)模型等)產(chǎn)業(yè)的蓬勃發(fā)展將改變數(shù)字產(chǎn)業(yè)生態(tài),助力AI工業(yè)化進(jìn)程、變革交互方式、創(chuàng)造數(shù)字產(chǎn)業(yè)新的增長(zhǎng)空間。
二、分析
OpenAI ChatGPT的成功之路
ChatGPT的發(fā)展史可以追溯到2015年,美國(guó)OpenAI公司由特斯拉創(chuàng)始人馬斯克等硅谷大亨創(chuàng)立。2017年,OpenAI推出了基于Transformer模型的GPT-1,隨后于2018年推出了具有1.17億個(gè)參數(shù)的GPT-1模型。2019年,OpenAI公布了GPT-2,具有15億個(gè)參數(shù),該模型架構(gòu)與GPT-1原理相同,主要區(qū)別是比GPT-1的規(guī)模更大。2020年,OpenAI推出了最新的GPT-3模型,具有1750億個(gè)參數(shù)。GPT-3模型的訓(xùn)練規(guī)模比GPT-2更大,使用了更大量的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,從而可以生成更加準(zhǔn)確和有用的文本。2022年3月,OpenAI推出了InstructGPT模型,該模型為GPT-3的微調(diào)版,以教人為目的而訓(xùn)練的 language model。2022年11月底,人工智能對(duì)話(huà)聊天機(jī)器人ChatGPT推出,短短幾個(gè)月時(shí)間,ChatGPT在2023年1月份的月活躍用戶(hù)數(shù)已達(dá)1億,這使其成為史上用戶(hù)數(shù)增長(zhǎng)最快的消費(fèi)者應(yīng)用。
總的來(lái)說(shuō),ChatGPT的發(fā)展歷程曲折而精彩,OpenAI公司在人工智能領(lǐng)域持續(xù)探索,不斷推出新的模型和產(chǎn)品,旨在讓人工智能技術(shù)更好地服務(wù)于人類(lèi)。
- ChatGPT與InstructGPT
談到Chatgpt,就要聊聊它的“前身”InstructGPT。2022年初,OpenAI發(fā)布了InstructGPT;在這項(xiàng)研究中,相比 GPT-3 而言,OpenAI 采用對(duì)齊研究(alignment research),訓(xùn)練出更真實(shí)、更無(wú)害,而且更好地遵循用戶(hù)意圖的語(yǔ)言模型 InstructGPT,InstructGPT是一個(gè)經(jīng)過(guò)微調(diào)的新版本GPT-3,可以將有害的、不真實(shí)的和有偏差的輸出最小化。
- InstructGPT的工作原理是什么?
開(kāi)發(fā)人員通過(guò)結(jié)合監(jiān)督學(xué)習(xí)+從人類(lèi)反饋中獲得的強(qiáng)化學(xué)習(xí)。來(lái)提高GPT-3的輸出質(zhì)量。在這種學(xué)習(xí)中,人類(lèi)對(duì)模型的潛在輸出進(jìn)行排序;強(qiáng)化學(xué)習(xí)算法則對(duì)產(chǎn)生類(lèi)似于高級(jí)輸出材料的模型進(jìn)行獎(jiǎng)勵(lì)。訓(xùn)練數(shù)據(jù)集以創(chuàng)建提示開(kāi)始,其中一些提示是基于GPT-3用戶(hù)的輸入,比如“給我講一個(gè)關(guān)于青蛙的故事”或“用幾句話(huà)給一個(gè)6歲的孩子解釋一下登月”。開(kāi)發(fā)人員將提示分為三個(gè)部分,并以不同的方式為每個(gè)部分創(chuàng)建響應(yīng):人類(lèi)作家會(huì)對(duì)第一組提示做出響應(yīng)。開(kāi)發(fā)人員微調(diào)了一個(gè)經(jīng)過(guò)訓(xùn)練的GPT-3,將它變成InstructGPT以生成每個(gè)提示的現(xiàn)有響應(yīng)。下一步是訓(xùn)練一個(gè)模型,使其對(duì)更好的響應(yīng)做出更高的獎(jiǎng)勵(lì)。對(duì)于第二組提示,經(jīng)過(guò)優(yōu)化的模型會(huì)生成多個(gè)響應(yīng)。人工評(píng)分者會(huì)對(duì)每個(gè)回復(fù)進(jìn)行排名。在給出一個(gè)提示和兩個(gè)響應(yīng)后,一個(gè)獎(jiǎng)勵(lì)模型(另一個(gè)預(yù)先訓(xùn)練的GPT-3)學(xué)會(huì)了為評(píng)分高的響應(yīng)計(jì)算更高的獎(jiǎng)勵(lì),為評(píng)分低的回答計(jì)算更低的獎(jiǎng)勵(lì)。
開(kāi)發(fā)人員使用第三組提示和強(qiáng)化學(xué)習(xí)方法近端策略?xún)?yōu)化(Proximal Policy Optimization, PPO)進(jìn)一步微調(diào)了語(yǔ)言模型。給出提示后,語(yǔ)言模型會(huì)生成響應(yīng),而獎(jiǎng)勵(lì)模型會(huì)給予相應(yīng)獎(jiǎng)勵(lì)。PPO使用獎(jiǎng)勵(lì)來(lái)更新語(yǔ)言模型。重要在何處?核心在于——人工智能需要是能夠負(fù)責(zé)任的人工智能OpenAI的語(yǔ)言模型可以助力教育領(lǐng)域、虛擬治療師、寫(xiě)作輔助工具、角色扮演游戲等,在這些領(lǐng)域,社會(huì)偏見(jiàn)、錯(cuò)誤信息和毒害信息存在都是比較麻煩的,能夠避免這些缺陷的系統(tǒng)才能更具備有用性。
- Chatgpt與InstructGPT的訓(xùn)練過(guò)程有哪些不同?
總體來(lái)說(shuō),Chatgpt和上文的InstructGPT一樣,是使用RLHF(從人類(lèi)反饋中強(qiáng)化學(xué)習(xí))訓(xùn)練的。不同之處在于數(shù)據(jù)是如何設(shè)置用于訓(xùn)練(以及收集)的。(注解:之前的InstructGPT模型,是給一個(gè)輸入就給一個(gè)輸出,再跟訓(xùn)練數(shù)據(jù)對(duì)比,對(duì)了有獎(jiǎng)勵(lì)不對(duì)有懲罰;現(xiàn)在的Chatgpt是一個(gè)輸入,模型給出多個(gè)輸出,然后人給這個(gè)輸出結(jié)果排序,讓模型去給這些結(jié)果從“更像人話(huà)”到“狗屁不通”排序,讓模型學(xué)習(xí)人類(lèi)排序的方式,這種策略叫做supervised learning。
國(guó)內(nèi)外競(jìng)品分析
國(guó)內(nèi)外主要LLMs研發(fā)路徑與技術(shù)對(duì)比(轉(zhuǎn)自艾瑞咨詢(xún))
(轉(zhuǎn)自艾瑞咨詢(xún))
- 國(guó)內(nèi)外LLMs產(chǎn)商商業(yè)路徑對(duì)比
a、研究方向:
國(guó)外:谷歌、微軟、臉書(shū)等大型語(yǔ)言模型公司主要研究方向?yàn)樽匀徽Z(yǔ)言處理技術(shù)(NLP)和人工智能(AI),致力于開(kāi)發(fā)更為智能、更具有交互性的語(yǔ)言模型。他們將大語(yǔ)言模型視為未來(lái)數(shù)字世界與人類(lèi)之間溝通的橋梁,以此為出發(fā)點(diǎn)不斷拓展技術(shù)邊界。
國(guó)內(nèi):國(guó)內(nèi)公司在確保技術(shù)領(lǐng)先的基礎(chǔ)上,更加關(guān)注產(chǎn)業(yè)鏈的整合和布局。中國(guó)大型語(yǔ)言模型公司傾向于在多個(gè)領(lǐng)域同時(shí)發(fā)力,包括基礎(chǔ)層(芯片、算法、云計(jì)算)、技術(shù)層(語(yǔ)言模型、預(yù)訓(xùn)練模型)和應(yīng)用層(智能手機(jī)、智能汽車(chē)、智能家居等),旨在打造更加全面和具有綜合競(jìng)爭(zhēng)力的產(chǎn)業(yè)生態(tài)。
b、商業(yè)變現(xiàn):
國(guó)外:國(guó)外公司主要通過(guò)向企業(yè)出售大型語(yǔ)言模型提供的API服務(wù)接口來(lái)實(shí)現(xiàn)商業(yè)變現(xiàn),或者通過(guò)將廣告投放至模型輸出結(jié)果界面等方式獲得營(yíng)收。
(轉(zhuǎn)自艾瑞咨詢(xún))
國(guó)內(nèi):國(guó)內(nèi)公司則主要依靠向企業(yè)提供定制化的AI能力輸出、技術(shù)賦能和解決方案,從而實(shí)現(xiàn)收益。同時(shí),基于大語(yǔ)言模型的AI 2.0技術(shù)也在逐步拓展到智能手機(jī)、智能汽車(chē)、智能家居等領(lǐng)域,通過(guò)與移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等產(chǎn)業(yè)結(jié)合,實(shí)現(xiàn)更為豐富的應(yīng)用場(chǎng)景和商業(yè)模式。
(轉(zhuǎn)自艾瑞咨詢(xún))
c、未來(lái)展望:
國(guó)外:未來(lái),國(guó)外公司將繼續(xù)深耕自然語(yǔ)言處理技術(shù)和人工智能領(lǐng)域,致力于打造更為智能、更為人性化的大語(yǔ)言模型。同時(shí),國(guó)外公司也將拓展更多元化的應(yīng)用場(chǎng)景,例如醫(yī)療、教育等領(lǐng)域,通過(guò)大語(yǔ)言模型技術(shù)的不斷升級(jí)和進(jìn)步,為用戶(hù)帶來(lái)更多便利和價(jià)值。
國(guó)內(nèi):國(guó)內(nèi)公司將繼續(xù)在基礎(chǔ)研究和應(yīng)用場(chǎng)景方面取得平衡發(fā)展,注重提升大語(yǔ)言模型的智能性和可用性。同時(shí),隨著中國(guó)產(chǎn)業(yè)升級(jí)和消費(fèi)升級(jí)的推進(jìn),大語(yǔ)言模型技術(shù)將被廣泛應(yīng)用于智能制造、智慧城市、智能金融等領(lǐng)域,為中國(guó)經(jīng)濟(jì)的數(shù)字化轉(zhuǎn)型和升級(jí)提供強(qiáng)有力的支撐。
總體來(lái)說(shuō),國(guó)內(nèi)外大語(yǔ)言模型產(chǎn)商的商業(yè)路徑存在一定差異,但都在不斷拓展技術(shù)邊界,以更好地適應(yīng)市場(chǎng)需求和變化。隨著大語(yǔ)言模型技術(shù)的不斷發(fā)展和成熟,這些差異可能會(huì)逐漸縮小,而更加注重發(fā)掘模型的商業(yè)價(jià)值和技術(shù)實(shí)用性。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。