曠視張祥雨：從基礎(chǔ)科研的「大」和「統(tǒng)一」，看視覺AI研究新趨勢(shì)

發(fā)布人：機(jī)器之心時(shí)間：2022-07-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

在 MegTech 2022 上，曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨表示：“大”和 “統(tǒng)一” 是視覺 AI 基礎(chǔ)研究的新趨勢(shì)。

基礎(chǔ)模型科研是 AI 創(chuàng)新突破的基石，每一代基礎(chǔ)模型的突破都極大程度地促進(jìn)了視覺 AI 的發(fā)展。7 月 15 日，2022 曠視技術(shù)開放日（MegTech 2022）在京舉行，曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨在會(huì)上分享了他對(duì)基礎(chǔ)模型科研的深入思考及基礎(chǔ)模型組的最新科研成果。
張祥雨表示，「“大”和 “統(tǒng)一” 是當(dāng)今視覺 AI 基礎(chǔ)研究的新趨勢(shì)。同時(shí)，“在致力于解決人工智能最本質(zhì)難題的道路上，曠視將秉持原創(chuàng)、實(shí)用和本質(zhì)的科研價(jià)值觀，重點(diǎn)深耕通用圖像大模型、視頻理解大模型等四個(gè)主要方向?！?/span>

曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨在曠視技術(shù)開放日上發(fā)表演講
發(fā)揮 “大” 的威力，推進(jìn)大模型、大算法與大應(yīng)用協(xié)同發(fā)展
“大”主要指 AI 大模型，即利用大數(shù)據(jù)、大算力和大參數(shù)量，提高模型的表達(dá)能力，使得 AI 模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場(chǎng)景。張祥雨指出，「“大”是提高 AI 系統(tǒng)性能的最重要捷徑之一。這主要是因?yàn)?，AI 視覺系統(tǒng)通常要面對(duì)復(fù)雜的應(yīng)用場(chǎng)景和多種任務(wù)，提高模型性能的最直接途徑就是提高模型本身的表達(dá)能力，也就是所謂的“大”。」
但在做 “大” 的過(guò)程中，隨著模型參數(shù)量和數(shù)據(jù)量的增多，邊際效應(yīng)遞減情形卻時(shí)有發(fā)生。如張祥雨所言，“大并不一定代表著好，更大的模型會(huì)帶來(lái)更大的計(jì)算開銷，我們的收益將會(huì)非常有限?！?換言之，片面追求大參數(shù)量、大計(jì)算量和大數(shù)據(jù)量，并不一定能夠得到性能更強(qiáng)的模型。視覺 AI 基礎(chǔ)研究不僅需往 “大” 的方向努力，更要讓 “大” 模型的優(yōu)勢(shì)能發(fā)揮出來(lái)，這是當(dāng)今 AI 視覺研究主要的趨勢(shì)和挑戰(zhàn)之一。

AI 視覺研究面對(duì)著如何讓 “大” 模型優(yōu)勢(shì)發(fā)揮出來(lái)的挑戰(zhàn)
為此，曠視以創(chuàng)新算法充分發(fā)揮大數(shù)據(jù)、大算力威力，持續(xù)拓展 AI 認(rèn)知邊界，重新定義 “大” 的內(nèi)涵：即大模型、大算法與大應(yīng)用。

大模型。要研究的不僅是如何實(shí)現(xiàn)“大”，更重要的是如何發(fā)揮大模型背后的威力；
大算法。大模型需要大量基礎(chǔ)設(shè)施、算法、算力做支持，要成功地將這些大模型、大算法、大算力及大數(shù)據(jù)整合起來(lái)，就要求研究者提出創(chuàng)新算法以充分發(fā)揮大模型的作用；
大應(yīng)用。大模型做出來(lái)以后，究竟能干什么？如何提高 AI 模型的生產(chǎn)效率？提高模型性能？

“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì)，打造簡(jiǎn)單、強(qiáng)大、通用系統(tǒng)
近年來(lái)，包括基礎(chǔ)模型研發(fā)、視覺基礎(chǔ)應(yīng)用、AI 算法演化等在內(nèi)的研究領(lǐng)域都衍生出一系列算法，而這些算法正在底層走向統(tǒng)一。例如，在基礎(chǔ)模型方面，過(guò)去有各種各樣的 CNN 和 ViT 被提出來(lái)。但近年的研究表明，通過(guò)特定的優(yōu)化算法能夠在訓(xùn)練過(guò)程中增加先驗(yàn)，使得 CNN、ViT、MLP 都取得相似的性能，這就為“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì)奠定了基礎(chǔ)。
“統(tǒng)一”的好處是顯而易見的。如果能用統(tǒng)一算法、統(tǒng)一模型來(lái)表示和建模各種數(shù)據(jù)、各種任務(wù)，研究界將可以得到簡(jiǎn)單、強(qiáng)大且通用的系統(tǒng)。張祥雨解釋稱，「一旦模型統(tǒng)一，AI 加速器的設(shè)計(jì)就會(huì)非常簡(jiǎn)單，一個(gè)模型可以適用于各種設(shè)備和各種任務(wù)，這可以極大地節(jié)省模型適配成本，且硬件計(jì)算平臺(tái)廠商只用支持少量算子就能把大部分任務(wù)跑起來(lái)?！?/span>
但實(shí)現(xiàn) “統(tǒng)一” 的挑戰(zhàn)亦是顯著的。比如，要實(shí)現(xiàn)在多個(gè)任務(wù)上共享一個(gè)模型、一個(gè)算法，就必須加深對(duì)系統(tǒng)及模型的認(rèn)識(shí)以抽象出共性，才能使 “統(tǒng)一” 模型達(dá)到專為所有系統(tǒng)單獨(dú)設(shè)計(jì)的模型所具有的性能。
為此，曠視認(rèn)為“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì)要從以下三方面著手：

要統(tǒng)一架構(gòu)。主要是指基礎(chǔ)模型架構(gòu)，也包括基本的計(jì)算架構(gòu)；
要統(tǒng)一算法。用盡可能統(tǒng)一的算法來(lái)支持各種任務(wù)、數(shù)據(jù)和平臺(tái)，從紛繁的 AI 調(diào)參中解放出來(lái)；
要統(tǒng)一認(rèn)知。唯有從算法中抽取共性，理解本質(zhì)，才能構(gòu)建統(tǒng)一的、高性能的視覺 AI 系統(tǒng)。

立足四大重點(diǎn)方向，曠視秉持原創(chuàng)、實(shí)用與本質(zhì)科研價(jià)值觀
基于 “大” 和“統(tǒng)一”是當(dāng)今視覺 AI 基礎(chǔ)研究新趨勢(shì)的判斷，張祥雨在演講中指出，曠視基礎(chǔ)模型科研工作重點(diǎn)關(guān)注如下四個(gè)主要方向：
通用圖像大模型。在這項(xiàng)研究中，曠視主要著眼于構(gòu)建通用、統(tǒng)一、高性能的圖像視覺大模型，解決如何高效變 “大” 的問(wèn)題。如上所述，“大”不意味著好，故需要研究讓 “大” 真正服務(wù)于 “性能提升、孵化應(yīng)用” 的創(chuàng)新方法。
視頻理解大模型。基于此方向，曠視期望在視頻理解與視頻建模問(wèn)題上攻克困擾業(yè)界已久的長(zhǎng)序列建模問(wèn)題，并找到更高效的視頻模型訓(xùn)練、監(jiān)督和應(yīng)用方法。
計(jì)算攝影大模型。當(dāng)前，計(jì)算攝影常通過(guò)圖像退化模式進(jìn)行建模，實(shí)現(xiàn)高質(zhì)量圖像生成。這種建模思路不能使用、整合大數(shù)據(jù)的威力，也無(wú)法實(shí)現(xiàn)多模組、多設(shè)備、多數(shù)據(jù)之間的通用。因此，曠視希望找到計(jì)算攝影大模型研究的新范式，從大數(shù)據(jù)中找到充分的真實(shí)圖像先驗(yàn)信息，進(jìn)而指導(dǎo)我們生成更加高清、高質(zhì)量的圖像。

基礎(chǔ)模型科研需要堅(jiān)持長(zhǎng)期主義
自動(dòng)駕駛感知大模型。在這項(xiàng)研究中，曠視主要著眼于研究簡(jiǎn)單、高效、統(tǒng)一且易于使用的自動(dòng)駕駛模型的優(yōu)化、訓(xùn)練和部署方法。
演講尾聲，張祥雨再次闡釋了曠視基礎(chǔ)模型科研始終秉持的科研價(jià)值觀，“堅(jiān)持長(zhǎng)期主義，堅(jiān)持原創(chuàng)、實(shí)用和本質(zhì)的價(jià)值觀?！彼J(rèn)為，只有立足原創(chuàng)，才能突破現(xiàn)有技術(shù)的認(rèn)知邊界；只有做到實(shí)用，才能把科研成果真正轉(zhuǎn)化為產(chǎn)品，轉(zhuǎn)化為實(shí)際可以落地的價(jià)值；只有發(fā)現(xiàn)本質(zhì)，才能從紛繁的表象中看到模型背后的創(chuàng)新點(diǎn)，更好地實(shí)現(xiàn) “大” 且“統(tǒng)一”的基礎(chǔ)模型研發(fā)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

曠視張祥雨：從基礎(chǔ)科研的「大」和「統(tǒng)一」，看視覺AI研究新趨勢(shì)

相關(guān)推薦

技術(shù)專區(qū)