Multi-modal Multi-task Masked Autoencoder:一種簡單、靈活且有效的 ViT 預(yù)訓(xùn)練策略
來源:Deephub Imba
MAE是一種使用自監(jiān)督預(yù)訓(xùn)練策略的ViT,通過遮蔽輸入圖像中的補丁,然后預(yù)測缺失區(qū)域進行子監(jiān)督與訓(xùn)練。盡管該方法既簡單又有效,但 MAE 預(yù)訓(xùn)練目標(biāo)目前僅限于單一模態(tài)——RGB 圖像——限制了在通常呈現(xiàn)多模態(tài)信息的實際場景中的應(yīng)用和性能。
在新論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中,來自瑞士洛桑聯(lián)邦理工學(xué)院 (EPFL) 的團隊提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE),也是一種預(yù)訓(xùn)練策略,可以對掩碼進行自動編碼處理并執(zhí)行多模態(tài)和多任務(wù)的訓(xùn)練。MultiMAE 使用偽標(biāo)簽進行訓(xùn)練,使該框架適用于任何 RGB 數(shù)據(jù)集。
MultiMAE 的設(shè)計基于傳統(tǒng)的 Masked Autoencoding,但在兩個關(guān)鍵方面有所不同:
1、除了 RGB 圖像,它還可以選擇接受輸入中的附加模態(tài)信息(因此是“多模態(tài)”)2、其訓(xùn)練目標(biāo)相應(yīng)地包括 預(yù)測除 RGB 圖像之外的多個輸出(因此稱為“多任務(wù)”)。
從架構(gòu)上看,MultiMAE 的編碼器是一個 ViT,但每個額外的輸入模態(tài)都有補丁的投影層和一個帶有可學(xué)習(xí)的額外全局令牌嵌入,類似于 ViT 的類令牌。所以僅加載所需的輸入投影并忽略所有其他投影的MultiMAE 預(yù)訓(xùn)練權(quán)重可以直接用于標(biāo)準(zhǔn)單模態(tài) ViT。
為了執(zhí)行語義分割補丁投影,論文的作者用學(xué)習(xí)的 64 維的類嵌入替換每個類索引。并且僅對可見標(biāo)記的隨機子集進行編碼,這樣可以顯著的加速計算和減少內(nèi)存使用,并且使用了具有三種密集輸入模態(tài)的 MultiMAE 多模態(tài)預(yù)訓(xùn)練。每個任務(wù)使用一個單獨的****,因此****的計算隨著任務(wù)的數(shù)量線性擴展,并且只增加了最小的成本。
在他們的研究中,圖像分類、語義分割和深度估計這三個任務(wù)上對 MultiMAE 進行了預(yù)訓(xùn)練,并在 ImageNet-1K 上進行偽標(biāo)記,然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 數(shù)據(jù)集上進行微調(diào)。
結(jié)果表明,當(dāng) 只使用RGB 進行微調(diào)時,MultiMAE 保留了常規(guī) MAE 的優(yōu)勢,并且它還可以利用深度等其他模態(tài),例如使用偽標(biāo)記深度或語義分割來提高性能。MultiMAE 預(yù)訓(xùn)練策略可以顯著提高遷移性能。
該項目的在 GitHub 上也公開了代碼、預(yù)訓(xùn)練模型和交互式可視化。論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公開資料匯總地址如下:https://multimae.epfl.ch/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
分頻器相關(guān)文章:分頻器原理