綜合實(shí)力已超ChatGPT!文心大模型3.5勇奪國(guó)際權(quán)威測(cè)評(píng)第一名,7項(xiàng)指標(biāo)均為滿分
內(nèi)容創(chuàng)作、圖片生成、智能編程、對(duì)話問(wèn)答……如今,AI 大模型已然具備諸多通用能力。它的誕生,讓人類(lèi)通過(guò)自然語(yǔ)言就能與其進(jìn)行交互,極大程度地促進(jìn)了社會(huì)生產(chǎn)力的釋放。
以 AI 驅(qū)動(dòng)的大模型技術(shù)突破,也被看作是人工智能發(fā)展的一個(gè)重要里程碑。目前,市場(chǎng)上已經(jīng)出現(xiàn)各式各樣的大模型,與之同時(shí)產(chǎn)生的,是各類(lèi)大模型評(píng)測(cè)標(biāo)準(zhǔn)和評(píng)估報(bào)告?!禔I 大模型技術(shù)能力評(píng)估報(bào)告,2023》,就是 IDC 面向 AI 領(lǐng)域推出的一項(xiàng)權(quán)威報(bào)告。據(jù)悉,本次評(píng)估涉及 9 家大模型技術(shù)廠商。其中,由百度開(kāi)發(fā)的文心大模型 3.5 取得 12 項(xiàng)指標(biāo)的 7 項(xiàng)滿分,獲得綜合評(píng)分第一、算法模型唯一滿分和行業(yè)覆蓋唯一滿分的佳績(jī)。 圖丨IDC《AI 大模型技術(shù)能力評(píng)估報(bào)告,2023》:百度 7 項(xiàng)滿分、綜合評(píng)分第一(來(lái)源:資料圖)
百度文心大模型 3.5 拿下 IDC 技術(shù)評(píng)估 7 項(xiàng)滿分
IT 市場(chǎng)研究和咨詢(xún)公司 IDC 在分析咨詢(xún)領(lǐng)域深耕了五六十年,對(duì)信息技術(shù)和高科技行業(yè)發(fā)展趨勢(shì)的跟蹤覆蓋全球 110 多個(gè)國(guó)家。目前,其所發(fā)布的數(shù)據(jù)和指標(biāo),已經(jīng)成為諸多行業(yè)和企業(yè)的重要參考依據(jù)。
2023 年 3 月,IDC 正式啟動(dòng)《AI 大模型技術(shù)能力評(píng)估報(bào)告》項(xiàng)目。據(jù)了解,該報(bào)告與其他機(jī)構(gòu)發(fā)布的同類(lèi)報(bào)告存在幾點(diǎn)不同。首先,其是國(guó)內(nèi)最早啟動(dòng)的大模型評(píng)估報(bào)告。其次,研究周期持續(xù) 4 個(gè)月,在對(duì)不同類(lèi)型的不同廠商進(jìn)行全面覆蓋的同時(shí),也保持對(duì)大模型能力迭代與演進(jìn)的持續(xù)跟蹤。同時(shí),評(píng)估范圍非常全面,涵蓋產(chǎn)品、服務(wù)、行業(yè)這三大維度和算法模型、通用能力、創(chuàng)新能力等十多項(xiàng)指標(biāo)。此外,其首次提出的一套行業(yè)認(rèn)可的技術(shù)評(píng)估標(biāo)準(zhǔn),對(duì)發(fā)展大模型過(guò)程中的去偽存真也有一定借鑒意義。
如上所述,百度文心大模型 3.5 在 7 項(xiàng)指標(biāo)中獲得滿分。具體來(lái)說(shuō),這 7 項(xiàng)指標(biāo)分別是算法模型、通用能力、創(chuàng)新能力、平臺(tái)能力、行業(yè)覆蓋、能源和生態(tài)合作。
圖丨IDC《AI 大模型技術(shù)能力評(píng)估報(bào)告,2023》:百度獲算法模型、行業(yè)覆蓋唯一滿分(來(lái)源:資料圖)
其中,算法模型是衡量產(chǎn)品能力的核心要素,涉及大模型訓(xùn)練的數(shù)據(jù)集來(lái)源、算法結(jié)構(gòu)、模型的預(yù)測(cè)和推理等方面,扮演著驅(qū)動(dòng)大模型綜合效果實(shí)現(xiàn)的底座角色。百度文心大模型 3.5 獲得該指標(biāo)下的唯一滿分,足以說(shuō)明其算法模型的先進(jìn)性和優(yōu)越性,以及具備支撐更為全面的行業(yè)覆蓋的能力。
行業(yè)覆蓋考察的則是大模型的企業(yè)級(jí)客戶(hù)數(shù)量,以及落地的具體行業(yè)數(shù)。由于實(shí)現(xiàn)大模型應(yīng)用落地是大模型發(fā)展的“最后一公里”,因此該指標(biāo)不僅是當(dāng)下大模型廠商的關(guān)注重點(diǎn),也已經(jīng)成為衡量大模型產(chǎn)業(yè)落地的重要環(huán)節(jié)。那么,顯而易見(jiàn),在這方面獲得唯一滿分的百度文心大模型 3.5,有望在不遠(yuǎn)的未來(lái)實(shí)現(xiàn)千行百業(yè)落地應(yīng)用,并助力 AI 普惠化發(fā)展。
需要說(shuō)明的是,文心大模型不是只有一個(gè)模型,其包含 30 多個(gè)大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型三級(jí)體系。
圖丨百度文心大模型全景圖(來(lái)源:資料圖)
此外,大模型出現(xiàn)以后,傳統(tǒng)上以“芯片-OS-應(yīng)用”為主要架構(gòu)的 IT 技術(shù)棧也在發(fā)生改變。在這方面,百度提出“芯片-框架-模型-應(yīng)用”四層技術(shù)棧,每一層都包括百度自研的多個(gè)代表性技術(shù)。比如,在芯片層,開(kāi)發(fā)通用人工智能芯片“昆侖芯”,在框架層,開(kāi)發(fā)深度學(xué)習(xí)平臺(tái)飛槳,在模型層,有自研文心大模型,在應(yīng)用層,則有相應(yīng)的模型應(yīng)用生態(tài)。這些都是百度 AI 大模型具備的優(yōu)勢(shì),也是 IDC 重點(diǎn)關(guān)注的內(nèi)容。
那么,百度之所以能夠取得此次的好成績(jī),主要得益于其產(chǎn)品技術(shù)能力和行業(yè)應(yīng)用能力。
新版文心一言以文心大模型 3.5 為基礎(chǔ)模型,綜合實(shí)力已超 ChatGPT
早在 2018 年,百度就開(kāi)始布局文心大模型。2023 年 3 月,依托文心大模型的技術(shù)積累,發(fā)布全新一代知識(shí)增強(qiáng)大語(yǔ)言模型文心一言。
如今,以文心大模型 3.5 為基礎(chǔ)模型的新版文心一言,能力較今年 3 月又實(shí)現(xiàn)極大提升。據(jù)多個(gè)公開(kāi)測(cè)評(píng)結(jié)果,新版文心一言的綜合能力已超過(guò) ChatGPT,并在某些方面具備超出 GPT-4 的表現(xiàn)。
整體來(lái)看,文心一言基于預(yù)訓(xùn)練大模型即文心大模型 3.5,持續(xù)從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)特色。
如果將預(yù)訓(xùn)練大模型與人類(lèi)比,其就像已經(jīng)閱讀過(guò)許多書(shū)籍的孩子。為了使其智力水平更加完整全面,百度在建設(shè)過(guò)程中投入高達(dá) 90% 的時(shí)間和精力。不過(guò),在這基礎(chǔ)上,還需要對(duì)其進(jìn)行一系列人為指導(dǎo),讓模型在通過(guò)不斷的練習(xí)提升效果的同時(shí),也能按照人類(lèi)希望的方式回答問(wèn)題。這些工作完成后,一個(gè)基礎(chǔ)的大語(yǔ)言模型才得以形成。
為了提高大模型的實(shí)用性,使其在事實(shí)準(zhǔn)確性、時(shí)效性等方面更上一層樓,百度還開(kāi)發(fā)了三大增強(qiáng)技術(shù)。
知識(shí)增強(qiáng)技術(shù)是讓大模型類(lèi)比人類(lèi)采用知識(shí)體系的方式進(jìn)行學(xué)習(xí)的技術(shù),通過(guò)內(nèi)化學(xué)習(xí)和知識(shí)外用的方式,幫助模型取得更好的學(xué)習(xí)效果。檢索增強(qiáng)技術(shù)是一種以搜索方式滿足新數(shù)據(jù)獲取的技術(shù)。文心一言采用新一代端到端檢索架構(gòu),能夠很好地解決信息時(shí)效性問(wèn)題。對(duì)話增強(qiáng)技術(shù)是通過(guò)上下文理解、記憶機(jī)制等技術(shù),進(jìn)一步提升大模型生成回答的連貫性和邏輯性。
在基本技術(shù)框架之外,文心大模型 3.5 也在以下五個(gè)方面實(shí)現(xiàn)新的技術(shù)突破。
第一,基于飛槳最先進(jìn)的技術(shù),如自適應(yīng)混合并行訓(xùn)練技術(shù)、混合精度計(jì)算等,加快模型迭代,實(shí)現(xiàn)基礎(chǔ)模型的升級(jí)。
第二,在精調(diào)技術(shù)上實(shí)現(xiàn)創(chuàng)新,通過(guò)多類(lèi)型多階段有監(jiān)督精調(diào)、多層次多粒度獎(jiǎng)勵(lì)模型、多損失函數(shù)混合優(yōu)化和雙飛輪結(jié)合的模型優(yōu)化,進(jìn)一步提升模型的效果和場(chǎng)景適配能力。
第三,理解并提取用戶(hù)提示和需求輸入中涵蓋的知識(shí)點(diǎn),并將其變成指導(dǎo)大模型生成工作后的指引,進(jìn)而提升大模型對(duì)世界知識(shí)的掌握和運(yùn)用能力。
第四,綜合多種方法,構(gòu)建大量邏輯知識(shí),提高模型的邏輯推理能力。
第五,在大模型上建立插件機(jī)制,進(jìn)一步拓展大模型能力。據(jù)介紹,目前百度搜索和 ChatFile 這兩個(gè)插件已經(jīng)應(yīng)用于文心一言。
上述技術(shù)的協(xié)同發(fā)展,讓文心大模型 3.5 的效果實(shí)現(xiàn)很好的提升。據(jù)悉,目前文心大模型 3.5 的訓(xùn)練速度和推理速度,相較之前分別提升 2 倍和 30 倍,整體模型效果提升 50%,成本也實(shí)現(xiàn)大幅下降。
下面就讓我們通過(guò)一些測(cè)評(píng),來(lái)實(shí)際地體驗(yàn)下文心大模型 3.5 的能力。
對(duì)于新聞從業(yè)者來(lái)說(shuō),撰寫(xiě)新聞稿的能力是必須具備的。但在新聞點(diǎn)眾多、重要新聞事件頻發(fā)的情況下,新聞工作者的時(shí)間和精力有限,常常無(wú)法完成所有新聞報(bào)道的撰寫(xiě)。如果能有一個(gè)可以生成新聞稿的 AI 工具,就能在一定程度上助力新聞工作者解決上述問(wèn)題。下面,筆者使用文心一言新聞稿生成的功能,測(cè)試一下具體的效果。
我們都知道,7 月 20 日 21 時(shí) 40 分,神舟十六號(hào)乘組圓滿完成了出艙活動(dòng)。那就讓文心一言以該事件為主題,生成一篇新聞稿。
圖丨實(shí)際測(cè)評(píng)(來(lái)源:測(cè)評(píng)截圖)
可以看出,由文心一言生成的新聞稿,行文規(guī)范、語(yǔ)句流暢、邏輯性強(qiáng),已經(jīng)能夠基本滿足工作需求。
試想一下,如果新聞工作者有文心一言的加持,就能極大程度地減輕工作負(fù)擔(dān),提升工作效率。
如上所說(shuō),ChatFile 插件已經(jīng)應(yīng)用于文心一言上,我們可以利用該插件來(lái)測(cè)試一下文心一言在長(zhǎng)文檔摘要、問(wèn)答、潤(rùn)色等功能上的效果。
2022 年 8 月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布了第 50 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。該報(bào)告都有哪些核心內(nèi)容呢?讓文心一言來(lái)幫我們做下總結(jié)吧。
圖丨實(shí)際測(cè)評(píng)(來(lái)源:測(cè)評(píng)截圖)
除了全局性總結(jié)以外,我們還可以就報(bào)告的局部?jī)?nèi)容,讓文心一言幫我們做個(gè)總結(jié)。比如,當(dāng)我們向文心一言輸入:5G+ 工業(yè)互聯(lián)網(wǎng)應(yīng)用主要在哪幾個(gè)行業(yè)落地?
圖丨實(shí)際測(cè)評(píng)(來(lái)源:測(cè)評(píng)截圖)
通過(guò)上述測(cè)評(píng)我們可以看出,基于 ChatFile 插件,以后用戶(hù)可以方便快捷地掌握長(zhǎng)文檔的主要內(nèi)容,并進(jìn)行有針對(duì)性的學(xué)習(xí)。
聯(lián)合企業(yè)發(fā)布行業(yè)大模型,朝著大規(guī)模產(chǎn)業(yè)化落地方向邁進(jìn)
現(xiàn)如今,AI 大模型已經(jīng)處在向大規(guī)模產(chǎn)業(yè)落地邁進(jìn)的階段。
就文心大模型而言,其以“源于產(chǎn)業(yè)實(shí)踐、服務(wù)于產(chǎn)業(yè)實(shí)踐”為發(fā)展定位,形成支撐大模型產(chǎn)業(yè)落地的關(guān)鍵路徑,并在能源、醫(yī)療、工業(yè)、金融等領(lǐng)域開(kāi)展了廣泛全面的業(yè)務(wù)場(chǎng)景探索。
具體來(lái)說(shuō),百度在去年已經(jīng)與國(guó)家電網(wǎng)、深圳燃?xì)獾绕髽I(yè)單位聯(lián)合發(fā)布 11 個(gè)行業(yè)大模型。這些行業(yè)大模型是在通用大模型的基礎(chǔ)上、加入行業(yè)自有數(shù)據(jù)和經(jīng)驗(yàn)搭建而成的,可以更加精準(zhǔn)地適配各行業(yè)的應(yīng)用需求。比如,百度和深圳燃?xì)馔瞥龅娜細(xì)庑袠I(yè)大模型,就能有效地解決風(fēng)險(xiǎn)識(shí)別、運(yùn)營(yíng)繁雜等難題。
另外,據(jù)了解,與同類(lèi)大模型相比,文心大模型的產(chǎn)業(yè)應(yīng)用規(guī)模已位居中國(guó)首位,有 15 萬(wàn)家企業(yè)申請(qǐng)接入文心一言系統(tǒng)。
有數(shù)據(jù)統(tǒng)計(jì),自去年年末 ChatGPT 發(fā)布至今,國(guó)內(nèi)各大企業(yè)已經(jīng)先后發(fā)布超過(guò) 90 個(gè) 10 億規(guī)模以上的大模型。從中不難看出,我們已然進(jìn)入大模型時(shí)代,生成式 AI 的發(fā)展,或?qū)⒔o我們的產(chǎn)業(yè)結(jié)構(gòu),甚至于整個(gè)社會(huì)都帶來(lái)深刻的影響。
百度表示,從大模型產(chǎn)業(yè)化來(lái)看,目前有三個(gè)層面的挑戰(zhàn)亟待解決:首先是模型訓(xùn)練難度大、成本高;其次是對(duì)算力規(guī)模和性能要求高;同時(shí)對(duì)海量數(shù)據(jù)進(jìn)行收集、挖掘、建設(shè)和篩選,也是十分浩瀚的工程。
其認(rèn)為,如今大量大模型蓬勃發(fā)展的態(tài)勢(shì)只是一個(gè)階段性現(xiàn)象,各企業(yè)機(jī)構(gòu)在未來(lái)攻克上述挑戰(zhàn)和不斷迭代大模型的過(guò)程中,會(huì)逐漸找到自己的定位,并走向更為細(xì)分的發(fā)展方向。也就是說(shuō),今后大模型將呈現(xiàn)少量集中的發(fā)展趨勢(shì),既不需要大量大模型的存在,也不需要將每個(gè)應(yīng)用都進(jìn)行大模型開(kāi)發(fā)??梢酝ㄟ^(guò)封裝大數(shù)據(jù)、大算力和大算法,建設(shè)自動(dòng)化、數(shù)字化和標(biāo)準(zhǔn)化的生產(chǎn)模式,為千行百業(yè)的應(yīng)用提供高效支撐。對(duì)于百度來(lái)說(shuō),其正在堅(jiān)持不懈地朝著這條路徑邁進(jìn)。
來(lái)源:DeepTech深科技
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。