百度CTO王海峰:飛槳及文心大模型構(gòu)建智能時(shí)代新基礎(chǔ)設(shè)施,助力AI普惠
作為AI工業(yè)大生產(chǎn)的基礎(chǔ)平臺(tái),深度學(xué)習(xí)平臺(tái)下接芯片,上承應(yīng)用,被視為“智能時(shí)代的操作系統(tǒng)”。作為我國(guó)首個(gè)自主研發(fā)的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái),飛槳致力于解決深度學(xué)習(xí)技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化中的諸多難題,降低AI開(kāi)發(fā)和應(yīng)用的門(mén)檻,助力AI普惠。
6月9日晚,北京信息科學(xué)與技術(shù)國(guó)家研究中心系列交叉論壇(第45期)線(xiàn)上舉行,論壇由中國(guó)工程院院士、清華大學(xué)信息學(xué)院院長(zhǎng)、信息國(guó)家研究中心主任戴瓊海主持,百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰博士作了以“飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)發(fā)平臺(tái)”為主題的報(bào)告。
飛槳多年來(lái)堅(jiān)持研發(fā)核心技術(shù)、打造功能豐富的平臺(tái)、建設(shè)兼容并包的生態(tài)等,已凝聚477萬(wàn)開(kāi)發(fā)者,服務(wù)18萬(wàn)企事業(yè)單位,得到社會(huì)各界廣泛認(rèn)可。王海峰在報(bào)告中闡釋了深度學(xué)習(xí)平臺(tái)對(duì)人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化的意義,分享了飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái)最新進(jìn)展,包括技術(shù)與平臺(tái)的創(chuàng)新成果、文心產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型、飛槳生態(tài)建設(shè),以及飛槳平臺(tái)在各行各業(yè)的應(yīng)用等,并與院士專(zhuān)家共同探討了中國(guó)深度學(xué)習(xí)平臺(tái)在產(chǎn)業(yè)、科研、教育中的落地實(shí)踐。王海峰表示,基于飛槳平臺(tái),AI開(kāi)發(fā)和應(yīng)用門(mén)檻不斷降低,人人都可以成為智能應(yīng)用的開(kāi)發(fā)者。飛槳平臺(tái)及文心大模型正在賦能千行百業(yè),惠及千家萬(wàn)戶(hù)。
以下根據(jù)王海峰博士報(bào)告整理:
報(bào)告的題目是《飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái)》,分為五個(gè)部分:引言;飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái);飛槳模型庫(kù)中的文心大模型;飛槳生態(tài);飛槳助力AI普惠。
深度學(xué)習(xí)平臺(tái)相當(dāng)于智能時(shí)代的操作系統(tǒng)
人工智能已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。人類(lèi)歷史上過(guò)去200多年已經(jīng)歷三次工業(yè)革命,每一次工業(yè)革命的核心驅(qū)動(dòng)科技,無(wú)論是機(jī)械技術(shù)、電氣技術(shù)還是信息技術(shù),都具有很強(qiáng)的通用性,而且進(jìn)入工業(yè)大生產(chǎn)階段以后,也體現(xiàn)出標(biāo)準(zhǔn)化、自動(dòng)化和模塊化的工業(yè)大生產(chǎn)特征,可以應(yīng)用于各行各業(yè),為人類(lèi)帶來(lái)了非常大的產(chǎn)業(yè)變革。
以深度學(xué)習(xí)為關(guān)鍵核心技術(shù)的新一代人工智能如同前三次工業(yè)革命的核心驅(qū)動(dòng)科技一樣,已經(jīng)具備了非常強(qiáng)的通用性,并呈現(xiàn)出標(biāo)準(zhǔn)化、自動(dòng)化、模塊化的工業(yè)大生產(chǎn)特征。
深度學(xué)習(xí)技術(shù)研發(fā)周期很長(zhǎng),應(yīng)用落地的流程也非常復(fù)雜,例如,在開(kāi)發(fā)階段,模型的實(shí)現(xiàn)復(fù)雜,要同時(shí)兼顧靈活和高效難度很大;模型訓(xùn)練階段,隨著模型越來(lái)越大,效率如何提升、模型結(jié)構(gòu)如何與硬件匹配降低訓(xùn)練成本等;推理部署階段,應(yīng)用環(huán)境復(fù)雜多樣,如何高效適配多端、多平臺(tái)、多硬件,如何實(shí)現(xiàn)高性能推理,等等。深度學(xué)習(xí)技術(shù)的發(fā)展和大規(guī)模產(chǎn)業(yè)化面臨諸多難題。
典型的深度學(xué)習(xí)平臺(tái)具備基礎(chǔ)的深度學(xué)習(xí)框架,包括開(kāi)發(fā)、訓(xùn)練、推理等等,同時(shí)也包括各種模型庫(kù)和輔助工具,形成一個(gè)完整的平臺(tái),能夠有效解決上述問(wèn)題。深度學(xué)習(xí)平臺(tái)下接芯片,上承應(yīng)用,相當(dāng)于智能時(shí)代的“操作系統(tǒng)”。
飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái),大幅降低應(yīng)用門(mén)檻
飛槳平臺(tái)是我國(guó)首個(gè)自主研發(fā)、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),具備顯著的標(biāo)準(zhǔn)化、自動(dòng)化和模塊化特征,是人工智能工業(yè)大生產(chǎn)的基礎(chǔ)平臺(tái),促進(jìn)我國(guó)人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)應(yīng)用。
飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái)集核心框架、基礎(chǔ)模型庫(kù)、開(kāi)發(fā)套件和工具組件于一體。核心框架包括既有動(dòng)態(tài)圖,也有靜態(tài)圖的便捷開(kāi)發(fā)、具備大規(guī)模分布式訓(xùn)練技術(shù)及產(chǎn)業(yè)級(jí)數(shù)據(jù)處理等訓(xùn)練,以及端邊云深度優(yōu)化的高性能推理;基礎(chǔ)模型庫(kù)包含經(jīng)典的自然語(yǔ)言PaddleNLP、計(jì)算機(jī)視覺(jué)PaddleCV、語(yǔ)音技術(shù)PaddleSpeech和推薦技術(shù)PaddleRec等,也包含文心大模型;端到端開(kāi)發(fā)套件,如語(yǔ)義理解、圖像分類(lèi)、目標(biāo)檢測(cè)等開(kāi)發(fā)套件,以及包含強(qiáng)化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),和很受關(guān)注的科學(xué)計(jì)算、量子機(jī)器學(xué)習(xí)、生物計(jì)算的工具組件,同時(shí)也有預(yù)訓(xùn)練模型應(yīng)用工具、全流程開(kāi)發(fā)工具、可視化分析工具以及安全隱私工具、資源管理與調(diào)度等等,能夠讓科技工作者和開(kāi)發(fā)者簡(jiǎn)潔快速地進(jìn)行技術(shù)創(chuàng)新和應(yīng)用實(shí)踐。此外,飛槳也建設(shè)了AI Studio學(xué)習(xí)與實(shí)訓(xùn)社區(qū),支撐AI人才的學(xué)習(xí)和實(shí)踐訓(xùn)練。
飛槳平臺(tái)從以下四個(gè)方面持續(xù)積累和突破,成為大幅降低AI應(yīng)用門(mén)檻的全棧平臺(tái),包括開(kāi)發(fā)便捷的深度學(xué)習(xí)框架、超大規(guī)模訓(xùn)練技術(shù)、多端多平臺(tái)高性能推理和產(chǎn)業(yè)級(jí)模型庫(kù)。
在開(kāi)發(fā)環(huán)節(jié),需兼顧靈活和高效。動(dòng)態(tài)圖更靈活,靜態(tài)圖更高效。飛槳實(shí)現(xiàn)了動(dòng)靜統(tǒng)一的開(kāi)發(fā)體驗(yàn),用動(dòng)態(tài)圖進(jìn)行開(kāi)發(fā),自動(dòng)轉(zhuǎn)成靜態(tài)圖部署。利用飛槳簡(jiǎn)潔易用的API,10行代碼即可實(shí)現(xiàn)模型訓(xùn)練。動(dòng)靜統(tǒng)一、高低融合的API體系可以大幅降低模型的開(kāi)發(fā)成本。
在核心的訓(xùn)練環(huán)節(jié),飛槳研制了通用異構(gòu)參數(shù)服務(wù)器技術(shù),可以進(jìn)行高效混布異構(gòu)計(jì)算、存儲(chǔ)、通信,突破單一硬件制約;以及端到端自適應(yīng)分布式訓(xùn)練技術(shù),能夠自動(dòng)感知硬件環(huán)境、實(shí)行多維混合的并行策略,以及做異步流水線(xiàn)的執(zhí)行等等,支持大規(guī)模高效訓(xùn)練,降低訓(xùn)練成本。
在推理部署環(huán)節(jié),飛槳研制了訓(xùn)推一體工具鏈,支持從模型訓(xùn)練到模型優(yōu)化,再到推理部署的全流程效率提升。在模型壓縮中,實(shí)現(xiàn)了自動(dòng)化壓縮技術(shù),在精度和性能無(wú)損情況下,開(kāi)發(fā)代碼量大幅降低。對(duì)于端、邊、云全場(chǎng)景的推理引擎,通過(guò)數(shù)據(jù)處理加速、計(jì)算圖優(yōu)化、執(zhí)行調(diào)度開(kāi)銷(xiāo)降低等方式,深度優(yōu)化性能,大幅降低推理時(shí)延,實(shí)現(xiàn)了多端多平臺(tái)的高性能推理。
壓縮完成之后,硬件會(huì)統(tǒng)一接入,全面降低硬件適配成本。飛槳硬件適配統(tǒng)一方案,最底層是芯片,然后是飛槳框架硬件適配層,可在算子、子圖、整圖、深度學(xué)習(xí)編譯器、神經(jīng)網(wǎng)絡(luò)交換格式等進(jìn)行不同的適配。飛槳已經(jīng)適配了國(guó)內(nèi)外的各類(lèi)主流芯片/IP超過(guò)30種。
面對(duì)AI模型開(kāi)發(fā)、訓(xùn)練和推理部署的復(fù)雜流程,飛槳提供訓(xùn)推一體導(dǎo)航圖,可以讓開(kāi)發(fā)者基于導(dǎo)航圖,找到最適合自己應(yīng)用的訓(xùn)練模式、推理部署的工具等等,進(jìn)而可以非常便捷快速地開(kāi)發(fā)自己的應(yīng)用。
產(chǎn)業(yè)級(jí)模型庫(kù)方面,如今飛槳開(kāi)源的模型數(shù)量已超過(guò)500個(gè),涵蓋不同層面,既有基礎(chǔ)的自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦、語(yǔ)音等,也包括各種工具組件,可以讓開(kāi)發(fā)者便捷調(diào)用。此外,飛槳還提供了產(chǎn)業(yè)模型的選型工具,為應(yīng)用場(chǎng)景自動(dòng)選擇最佳模型,更好地匹配產(chǎn)業(yè)落地的訴求,提供全流程的選型建議以及配套范例的教程。
飛槳模型庫(kù):知識(shí)增強(qiáng)的產(chǎn)業(yè)級(jí)文心大模型
文心大模型是飛槳模型庫(kù)的重要組成部分,包含基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型等產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型體系,以及工具平臺(tái)、API和創(chuàng)意社區(qū)助力大模型的高效應(yīng)用。
文心知識(shí)增強(qiáng)大模型從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),效率更高,效果更好,理解和生成能力顯著提升。
2022年高考期間,文心大模型加持的AI數(shù)字人度曉曉挑戰(zhàn)高考作文,圍繞“本手、妙手、俗手”, 秒級(jí)成文,寫(xiě)出了題為《苦練本手,方能妙手隨成》的作文。根據(jù)歷年情況,度曉曉的作文得分超過(guò)75%的高考考生。
文心知識(shí)增強(qiáng)大模型在國(guó)際排行榜SuperGLUE上奪冠,以相對(duì)更小的參數(shù)規(guī)模取得更好的效果。傳統(tǒng)方法針對(duì)不同的自然語(yǔ)言處理任務(wù),比如信息抽取、情感分析、問(wèn)答等等,需要訓(xùn)練不同的模型,是一種分散化的模型開(kāi)發(fā)模式;知識(shí)增強(qiáng)大模型可以同時(shí)實(shí)現(xiàn)多任務(wù)的訓(xùn)練,是集約化的模型開(kāi)發(fā)模式。在基礎(chǔ)大模型的基礎(chǔ)上,面向不同任務(wù)、不同場(chǎng)景做精調(diào),可以得到非常好的效果。因此,知識(shí)增強(qiáng)大模型具有很好的通用性和泛化性,配置相應(yīng)的工具平臺(tái),可以大幅降低AI開(kāi)發(fā)與應(yīng)用門(mén)檻。
在文心的基礎(chǔ)大模型中,鵬城-百度·文心是百度和鵬城實(shí)驗(yàn)室聯(lián)合研發(fā)的全球首個(gè)知識(shí)增強(qiáng)千億大模型,在60多項(xiàng)任務(wù)取得了最好效果。
任務(wù)知識(shí)增強(qiáng)大模型ERNIE 3.0 Zeus,從海量文本數(shù)據(jù)、大規(guī)模知識(shí)圖譜和不同任務(wù)中融合學(xué)習(xí),針對(duì)不同的任務(wù)做知識(shí)增強(qiáng),效果大幅提升。
計(jì)算機(jī)視覺(jué)領(lǐng)域,多任務(wù)統(tǒng)一的視覺(jué)大模型,在分類(lèi)、檢索、分割、檢測(cè)等20多項(xiàng)視覺(jué)任務(wù)上取得了很好的效果。
知識(shí)增強(qiáng)的跨模態(tài)大模型,實(shí)現(xiàn)了跨模態(tài)語(yǔ)義的統(tǒng)一表示與關(guān)聯(lián),進(jìn)行跨模態(tài)語(yǔ)義的理解與生成,如ERNIE-VilG能夠進(jìn)行圖文雙向生成,ERNIE-GeoL融合“地理-語(yǔ)言”關(guān)聯(lián)知識(shí),大幅提升地理位置相關(guān)任務(wù)效果等。
除了跨模態(tài),還有跨領(lǐng)域大模型,如生物計(jì)算大模型,化合物表征學(xué)習(xí)HELIX-GEM,是首個(gè)幾何構(gòu)象增強(qiáng)的化合物表征模型,在14項(xiàng)****物相關(guān)的任務(wù)上取得良好效果;蛋白質(zhì)結(jié)構(gòu)分析 HELIX-Fold模型,全面適配國(guó)產(chǎn)軟硬件環(huán)境,在國(guó)產(chǎn)硬件上訓(xùn)練千萬(wàn)級(jí)別蛋白效率更高。
文心大模型也積極與產(chǎn)業(yè)合作,促進(jìn)大模型在行業(yè)中的應(yīng)用。在能源電力行業(yè),百度和國(guó)網(wǎng)聯(lián)合研發(fā)了國(guó)網(wǎng)-百度·文心大模型。基于通用文心大模型,在海量數(shù)據(jù)中挖掘電力行業(yè)數(shù)據(jù),與國(guó)網(wǎng)專(zhuān)家們一起,引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識(shí)。訓(xùn)練中,結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗(yàn),設(shè)計(jì)電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù),讓文心大模型深入學(xué)習(xí)電力專(zhuān)業(yè)知識(shí),在國(guó)網(wǎng)場(chǎng)景任務(wù)應(yīng)用效果提升。相似的思路,在金融領(lǐng)域,百度和浦發(fā)也聯(lián)合研發(fā)了浦發(fā)-百度·文心大模型,效果顯著。
協(xié)同共建生態(tài),飛槳平臺(tái)已凝聚477萬(wàn)開(kāi)發(fā)者
飛槳多年來(lái)堅(jiān)持研發(fā)核心技術(shù)、打造功能豐富的平臺(tái)、建設(shè)兼容并包的生態(tài)等,已凝聚477萬(wàn)開(kāi)發(fā)者,服務(wù)了18萬(wàn)企事業(yè)單位,創(chuàng)建了56萬(wàn)個(gè)模型,得到社會(huì)各界廣泛認(rèn)可。
人才培養(yǎng)方面,飛槳與高校、科研院所等合作,助力復(fù)合型的AI人才培養(yǎng)。飛槳已經(jīng)為700多所高校培養(yǎng)了3000多名教師,合作出版了系列基于產(chǎn)業(yè)實(shí)踐的AI教輔書(shū),組織國(guó)內(nèi)外系列AI技術(shù)競(jìng)賽等。
硬件生態(tài)方面,飛槳與硬件伙伴的合作不斷深化。2020年,與硬件伙伴聯(lián)合發(fā)起飛槳硬件生態(tài)圈,促進(jìn)AI產(chǎn)業(yè)鏈的適配升級(jí);2021年,飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化,適配飛槳的芯片/IP超過(guò)30種;2022年,合作進(jìn)一步深化,全面共創(chuàng),協(xié)同推出廠商版飛槳框架、建設(shè)模型庫(kù)、開(kāi)發(fā)課程,更好地服務(wù)開(kāi)發(fā)者,促進(jìn)生態(tài)繁榮共贏。
飛槳及文心大模型賦能千行百業(yè),助力AI普惠
飛槳平臺(tái)及文心大模型的創(chuàng)新發(fā)展,不斷降低AI開(kāi)發(fā)和應(yīng)用的門(mén)檻,越來(lái)越多的人都可以成為智能應(yīng)用的開(kāi)發(fā)者。如10歲小學(xué)生開(kāi)發(fā)了檢測(cè)水果新鮮度的應(yīng)用;鐵路鉗工開(kāi)發(fā)了火車(chē)車(chē)身字符及標(biāo)識(shí)檢測(cè)的應(yīng)用;大學(xué)老師開(kāi)發(fā)了花樣滑冰的人體動(dòng)作分析的應(yīng)用等等。
基于飛槳平臺(tái),人工智能技術(shù)已在制造、城市、能源、金融、媒體等行業(yè)廣泛應(yīng)用,并催生了AI訓(xùn)練師、5G云代駕等新業(yè)態(tài)、新模式。
飛槳平臺(tái)及文心大模型正在賦能千行百業(yè),惠及千家萬(wàn)戶(hù)。
轉(zhuǎn)自《新聞助手》
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。