訓(xùn)練開銷驟減,10%成本定制專屬類GPT-4多模態(tài)大模型(2)
3.1 加速比
表 1:我們的 VPGTrans 的相比于從頭訓(xùn)練在各個數(shù)據(jù)集的加速比
如表 1 所示,我們測試了在不同遷移類型下,VPGTrans 在不同數(shù)據(jù)集上的加速比。VPGTrans 在某指定數(shù)據(jù)集 A 上的加速比是通過從頭訓(xùn)練達到 A 上最佳效果 a 的輪數(shù)除以 VPGTrans 在 A 上效果超過 a 的最小訓(xùn)練輪數(shù)得到。比如,從頭在 OPT-2.7B 上訓(xùn)練 VPG,在 COCO caption 達到最佳效果需要 10 個 epoch,但從 OPT-125M 遷移 VPG 到 OPT-2.7B,僅需 1 個 epoch 就能達到該最佳效果。則加速比為 10/1=10 倍。我們可以看到,無論是在 TaS 還是在 TaT 場景下,我們的 VPGTrans 都可以實現(xiàn)穩(wěn)定的加速。
3.2 有趣的發(fā)現(xiàn)
我們選取了一個比較有趣的發(fā)現(xiàn)進行了說明,其他更多更有意思的發(fā)現(xiàn)請參照我們的論文。
TaS 場景下,越小的語言模型上訓(xùn)練的 VPG,遷移起來效率越高,最后模型效果越好。參考表 1,我們可以發(fā)現(xiàn) OPT-1.3B 到 OPT-2.7B 的加速比要遠小于 OPT-125M、OPT-350M 到 OPT-2.7b 的加速比。我們嘗試提供了一個解釋:一般越大的語言模型,由于其文本空間的維度更高,會更容易損害 VPG (VPG 一般都是類似于 CLIP 的預(yù)訓(xùn)練模型) 本身的視覺感知能力。我們通過類似于 linear probing 的方式進行了驗證:
圖 8:僅訓(xùn)練 linear projector 層的跨 LLM 大小遷移 (模擬 linear probing)
如圖 8 所示,我們進行了 OPT-125M,350M,1.3B,2.7B 之間的跨 LLM 大小的遷移。在實驗中,為了公平對比不同模型大小下訓(xùn)練過的 VPG 的視覺感知能力,我們固定住 VPG 的參數(shù)僅僅訓(xùn)練 linear projector 層。我們選取了 COCO Caption 上的 SPICE 指標作為視覺感知能力的衡量手段。不難發(fā)現(xiàn),對于每一個給定的 ,幾乎都符合 越小,最終 SPICE 越高的一個現(xiàn)象。
3.3 大規(guī)模實驗
前文實驗主要是在小規(guī)模場景下驗證猜想。為了證明我們方法的有效性,我們模擬 BLIP-2 的預(yù)訓(xùn)練過程進行了大規(guī)模實驗:
表 2:真實場景下的大規(guī)模實驗結(jié)果
如表 2 所示,我們的 VPGTrans 在大規(guī)模場景下依然有效。通過 OPT-2.7B 到 OPT-6.7B 的遷移,我們僅用 10.8% 的數(shù)據(jù)和不到 10% 的訓(xùn)練時長達到了相似或更優(yōu)的效果。尤其是,我們的方法在 BLIP-2 以 FlanT5XXL 為基座 LLM 下實現(xiàn)了 5% 左右的訓(xùn)練成本控制。
四、定制自己的 VL-LLMs
我們的 VPGTrans 可以快速為任意新的 LLMs 添加視覺感知模塊,從而得到一個全新的高質(zhì)量 VL-LLM。在本工作,我們額外訓(xùn)練了一個 VL-LLaMA 和一個 VL-Vicuna。其中 VL-LLaMA 的效果如下:
表3:VL-LLaMA 的效果展示
同時,我們的 VL-Vicuna 可以進行多模態(tài)對話。我們和 MiniGPT-4 進行了簡單的比較:
五、總結(jié)
在這項工作中,我們對 VPG 在 LLM 之間的可遷移性問題進行了全面調(diào)查。我們首先探討了最大化遷移效率的關(guān)鍵因素?;陉P(guān)鍵觀察,我們提出了一種新穎的兩階段遷移框架,即 VPGTrans。它可以在顯著降低訓(xùn)練成本的同時,實現(xiàn)相當或更好的性能。通過 VPGTrans,我們實現(xiàn)了從 BLIP-2 OPT-2.7B 到 BLIP-2 OPT-6.7B 的 VPG 遷移。相較于從零開始連接 VPG 到 OPT 6.7B,VPGTrans 僅需 10.7% 訓(xùn)練數(shù)據(jù)和不到 10% 的訓(xùn)練時長。此外,我們展示并討論了一系列有趣發(fā)現(xiàn)及其背后的可能原因。最后,我們通過訓(xùn)練 VL-LLaMA 和 LL-Vicuna,展示了我們的 VPGTrans 在定制新的 VL-LLM 方面的實際價值。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。