Multi-modal Multi-task Masked Autoencoder：一種簡單、靈活且有效的 ViT 預(yù)訓(xùn)練策略

發(fā)布人：數(shù)據(jù)派THU 時間：2022-05-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：Deephub Imba

MAE是一種使用自監(jiān)督預(yù)訓(xùn)練策略的ViT，通過遮蔽輸入圖像中的補丁，然后預(yù)測缺失區(qū)域進行子監(jiān)督與訓(xùn)練。盡管該方法既簡單又有效，但 MAE 預(yù)訓(xùn)練目標(biāo)目前僅限于單一模態(tài)——RGB 圖像——限制了在通常呈現(xiàn)多模態(tài)信息的實際場景中的應(yīng)用和性能。

在新論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中，來自瑞士洛桑聯(lián)邦理工學(xué)院 (EPFL) 的團隊提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE)，也是一種預(yù)訓(xùn)練策略，可以對掩碼進行自動編碼處理并執(zhí)行多模態(tài)和多任務(wù)的訓(xùn)練。MultiMAE 使用偽標(biāo)簽進行訓(xùn)練，使該框架適用于任何 RGB 數(shù)據(jù)集。

MultiMAE 的設(shè)計基于傳統(tǒng)的 Masked Autoencoding，但在兩個關(guān)鍵方面有所不同：

1、除了 RGB 圖像，它還可以選擇接受輸入中的附加模態(tài)信息（因此是“多模態(tài)”）2、其訓(xùn)練目標(biāo)相應(yīng)地包括預(yù)測除 RGB 圖像之外的多個輸出（因此稱為“多任務(wù)”）。
從架構(gòu)上看，MultiMAE 的編碼器是一個 ViT，但每個額外的輸入模態(tài)都有補丁的投影層和一個帶有可學(xué)習(xí)的額外全局令牌嵌入，類似于 ViT 的類令牌。所以僅加載所需的輸入投影并忽略所有其他投影的MultiMAE 預(yù)訓(xùn)練權(quán)重可以直接用于標(biāo)準(zhǔn)單模態(tài) ViT。

為了執(zhí)行語義分割補丁投影，論文的作者用學(xué)習(xí)的 64 維的類嵌入替換每個類索引。并且僅對可見標(biāo)記的隨機子集進行編碼，這樣可以顯著的加速計算和減少內(nèi)存使用，并且使用了具有三種密集輸入模態(tài)的 MultiMAE 多模態(tài)預(yù)訓(xùn)練。每個任務(wù)使用一個單獨的****，因此****的計算隨著任務(wù)的數(shù)量線性擴展，并且只增加了最小的成本。

在他們的研究中，圖像分類、語義分割和深度估計這三個任務(wù)上對 MultiMAE 進行了預(yù)訓(xùn)練，并在 ImageNet-1K 上進行偽標(biāo)記，然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 數(shù)據(jù)集上進行微調(diào)。

結(jié)果表明，當(dāng) 只使用RGB 進行微調(diào)時，MultiMAE 保留了常規(guī) MAE 的優(yōu)勢，并且它還可以利用深度等其他模態(tài)，例如使用偽標(biāo)記深度或語義分割來提高性能。MultiMAE 預(yù)訓(xùn)練策略可以顯著提高遷移性能。

該項目的在 GitHub 上也公開了代碼、預(yù)訓(xùn)練模型和交互式可視化。論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公開資料匯總地址如下：https://multimae.epfl.ch/