密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型,能用于可穿戴設(shè)備和具身AI智能體
但是,人類依靠自己的大腦不僅僅可以讀寫(xiě)文字,還可以看圖、看視頻、聽(tīng)音樂(lè)等。所以,為了讓 AI 更接近真實(shí)世界,將額外的模態(tài)比如圖像輸入,融入大語(yǔ)言模型從而打造多模態(tài)大模型(MLLMs,Multi-modal LLMs),被認(rèn)為是 AI 發(fā)展的一個(gè)關(guān)鍵新領(lǐng)域。相比純文本數(shù)據(jù),多模態(tài)數(shù)據(jù)更加難以獲取,而從零開(kāi)始直接訓(xùn)練多模態(tài)模型也比較困難。因此,目前的主流方法是基于預(yù)訓(xùn)練好的大語(yǔ)言模型,為其配備一個(gè)視覺(jué)感知模塊,來(lái)獲取多模態(tài)感知能力。典型的該類模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。這些模型可以處理圖片輸入,根據(jù)用戶的問(wèn)題生成相應(yīng)的文本回復(fù)。然而,研究發(fā)現(xiàn)盡管這些模型表現(xiàn)出不錯(cuò)的多模態(tài)理解能力,但是存在嚴(yán)重的視覺(jué)幻覺(jué)問(wèn)題。具體表現(xiàn)為:幻想圖片中不存在的物體、回答中對(duì)圖片內(nèi)容的描述與事實(shí)嚴(yán)重不符等。該問(wèn)題的本質(zhì)其實(shí)是:現(xiàn)有模型在細(xì)粒度文本圖像匹配能力上存在缺失。近期,Kosmos、Shikra 和 Ferret 等模型,將 Grounding 能力引入了 MLLM(即 Grounding MLLM)。它指的是當(dāng)模型在輸出文本時(shí),可以同時(shí)輸出名詞短語(yǔ)所對(duì)應(yīng)物體的邊界框坐標(biāo),以表示該物體在圖片中的位置。實(shí)驗(yàn)結(jié)果證明,此類模型具備更可靠的性能,能顯著減少視覺(jué)幻覺(jué)的發(fā)生。此外,由于模型可以更全面地呈現(xiàn)輸出文本和文本所指物體在圖片中的位置關(guān)系,因此可以給用戶提供信息量更多、也更容易理解的內(nèi)容輸出。然而,目前基于邊界框的 Grounded MLLM 模型仍然存在幾個(gè)問(wèn)題:首先,受限于長(zhǎng)方形物體邊界框的表達(dá)能力,現(xiàn)有模型無(wú)法進(jìn)行更精細(xì)的文本實(shí)體定位。例如,當(dāng)文本所指物體是不規(guī)則的背景形狀(如天空、樹(shù)林)時(shí),或者和其他物體有部分重疊或位置交錯(cuò)等,邊界框無(wú)法準(zhǔn)確表達(dá)所表示物體的位置,以至于容易產(chǎn)生歧義。其次,受限于模型訓(xùn)練數(shù)據(jù)的多樣性,現(xiàn)有模型僅限于指代單個(gè)物體,而很難生成物體局部區(qū)域、多個(gè)物體組成的整體、以及圖片中文本的指代。最后,現(xiàn)有模型是基于圖像的隱式特征,來(lái)直接預(yù)測(cè)物體的邊界框坐標(biāo)。而這一過(guò)程并不透明,當(dāng)出現(xiàn)物體指代錯(cuò)誤時(shí),很難診斷問(wèn)題是出在檢測(cè)上——即沒(méi)有成功檢測(cè)到目標(biāo)物體,還是出在識(shí)別上——即成功檢測(cè)到物體但是識(shí)別錯(cuò)誤。圖 | GROUNDHOG 支持的任務(wù)示例(來(lái)源:arXiv)針對(duì)這些問(wèn)題,美國(guó)密歇根大學(xué)博士生張亦弛和所在團(tuán)隊(duì)提出了 GROUNDHOG,這是一個(gè)可以支持大型語(yǔ)言模型與視覺(jué)實(shí)體進(jìn)行像素級(jí)語(yǔ)義對(duì)齊的 Grounded MLLM 模型。圖 | 張亦弛(來(lái)源:張亦弛)對(duì)于已有的 MLLM 模型來(lái)說(shuō),其采用輸入 patch-level 視覺(jué)特征后直接輸出定位坐標(biāo)的黑盒架構(gòu)。而 GROUNDHOG 的關(guān)鍵思想是將 Language Grounding(語(yǔ)言接地)解藕成兩個(gè)階段:定位和識(shí)別。在定位階段:首先,由一個(gè)可以提出各種不同實(shí)體區(qū)域分割的專家模型,提供圖像中所有實(shí)體的分割。然后,通過(guò)一個(gè)掩碼特征提取器,提取每個(gè)實(shí)體的視覺(jué)特征,以此作為多模態(tài)語(yǔ)言模型的輸入。在識(shí)別階段:當(dāng)大語(yǔ)言模型解碼出可進(jìn)行視覺(jué)錨定的短語(yǔ)時(shí),就會(huì)從輸入的所有實(shí)體中,選擇相應(yīng)的實(shí)體分割進(jìn)行融合,借此得到文本對(duì)應(yīng)的視覺(jué)分割區(qū)域。這種分離的設(shè)計(jì)不僅允許獨(dú)立優(yōu)化實(shí)體分割模型和多模態(tài)語(yǔ)言模型,還提高了錯(cuò)誤分析的可解釋性,并允許 MLLM 與多種視覺(jué)專家模型靈活結(jié)合,從而提高整體性能。圖 | GROUNDHOG 架構(gòu)(來(lái)源:arXiv)此外,GROUNDHOG 的這種設(shè)計(jì)模式可以自然拓展到區(qū)域級(jí)的圖像理解任務(wù),能夠靈活地接受任何圖像中的位置和區(qū)域指代方式來(lái)作為輸入。另?yè)?jù)悉,不同于 GPT4ROI、Ferret 等現(xiàn)有模型需要引入額外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等預(yù)訓(xùn)練專家模型結(jié)合,從而處理位置的指代輸入,進(jìn)而極大拓展應(yīng)用場(chǎng)景。圖 | 與 SAM 無(wú)縫銜接處理各種形式的位置提示輸入(來(lái)源:arXiv)據(jù)了解,為了訓(xùn)練 GROUNDHOG,課題組整合了 27 個(gè)現(xiàn)有數(shù)據(jù)集的 2.5M 文本-圖像對(duì),并進(jìn)行了衍生和增強(qiáng)。通過(guò)此,他們組成一個(gè)名為 M3G2 的新數(shù)據(jù)集,以便用于學(xué)習(xí)多模態(tài)多粒度的視覺(jué)文本對(duì)齊能力。M3G2 包括圖文錨定描述、指代物體分割、圖文錨定問(wèn)答、視覺(jué)指代對(duì)話 4 大類任務(wù),涵蓋 36 種子任務(wù),具備豐富的視覺(jué)文本對(duì)齊標(biāo)注能力。圖 | M3G2 數(shù)據(jù)集的 4 種任務(wù)示例及數(shù)據(jù)統(tǒng)計(jì)(來(lái)源:arXiv)通過(guò)相關(guān)實(shí)驗(yàn),該團(tuán)隊(duì)證明 GROUNDHOG 在各種視覺(jué)文本對(duì)齊任務(wù)上,都能達(dá)到很好的性能,且無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。此外,GROUNDHOG 能顯著減少視覺(jué)幻覺(jué)現(xiàn)象的出現(xiàn),并在失敗案例中提供了易于理解的診斷信息,為需要精確視覺(jué)理解和自然語(yǔ)言處理的領(lǐng)域的發(fā)展奠定了一定基礎(chǔ)。(來(lái)源:arXiv)GROUNDHOG 模型的一個(gè)典型應(yīng)用場(chǎng)景,便是在可穿戴設(shè)備中,推動(dòng)多模態(tài) AI 助手的發(fā)展。試想這樣一個(gè)情境:當(dāng)顧客佩戴智能眼鏡在商場(chǎng)購(gòu)物時(shí),對(duì)著某個(gè)品牌的商品詢問(wèn) AI 助手:“這個(gè)商品好嗎,有更好評(píng)價(jià)的嗎?”AI 助手不僅能精確地識(shí)別顧客所指商品并能提供相關(guān)評(píng)價(jià)信息,還能智能推薦貨架上其他評(píng)價(jià)更高的商品。以及能在眼鏡屏幕上通過(guò)增強(qiáng)現(xiàn)實(shí)技術(shù),高亮地顯示這些商品,便于顧客查找和比較。在顧客與多模態(tài) AI 助手的互動(dòng)中,這種結(jié)合視線追蹤理解用戶意圖的能力,加上視覺(jué)錨定增強(qiáng)輸出文本的效果,不僅可以提升交互的自然性,也能極大增強(qiáng)用戶體驗(yàn)。“也就是說(shuō),GROUNDHOG 模型正是在這兩個(gè)關(guān)鍵能力上表現(xiàn)出色,從而能為推動(dòng)下一代多模態(tài) AI 助手的革新奠定基礎(chǔ)?!毖芯咳藛T表示。GROUNDHOG 的另一個(gè)應(yīng)用前景,在于能夠驅(qū)動(dòng)具身 AI 智能體。比如,可以設(shè)計(jì)一個(gè)網(wǎng)絡(luò)瀏覽機(jī)器人,它通過(guò)接收網(wǎng)頁(yè)截圖和用戶意圖描述作為輸入,并輸出相應(yīng)的鼠標(biāo)操作或鍵盤(pán)操作。在這個(gè)場(chǎng)景中,點(diǎn)擊網(wǎng)頁(yè)元素——可被視作結(jié)合輸出文本(動(dòng)作)和網(wǎng)頁(yè)交互元素位置的交互行為。比如,智能體輸出的動(dòng)作為“點(diǎn)擊‘提交’按鈕”,然后識(shí)別并定位到截圖中的“提交”按鈕,并執(zhí)行實(shí)際的點(diǎn)擊操作。研究人員表示:“GROUNDHOG 所提供的 Grounding 能力在這種視覺(jué)語(yǔ)言理解與動(dòng)作執(zhí)行相結(jié)合的應(yīng)用場(chǎng)景中至關(guān)重要,進(jìn)一步拓寬了多模態(tài)語(yǔ)言模型在用于 AI 智能體決策中的應(yīng)用范圍?!?/span>事實(shí)上,該團(tuán)隊(duì)最開(kāi)始的研究動(dòng)機(jī)是因?yàn)橛^察到了多模態(tài)大語(yǔ)言模型中普遍存在的視覺(jué)幻覺(jué)現(xiàn)象,希望探索緩解這個(gè)問(wèn)題的解決方案。經(jīng)過(guò)深入思考之后,他們認(rèn)為幻覺(jué)現(xiàn)象出現(xiàn)的根源還是在于模型視覺(jué)文本對(duì)齊能力的缺失。而現(xiàn)有模型由于架構(gòu)上的限制,很難支持精細(xì)的像素級(jí)文本對(duì)齊。由此便想到:為何不打造一款新模型去解決這個(gè)問(wèn)題呢?于是研究重心就從緩解視覺(jué)幻覺(jué)轉(zhuǎn)移到開(kāi)發(fā)一款具備較強(qiáng)像素級(jí)視覺(jué)文本對(duì)齊能力的模型。幸運(yùn)的是,當(dāng)他們的架構(gòu)能夠運(yùn)營(yíng)之后,該團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)確實(shí)極大緩解了大模型的視覺(jué)幻覺(jué)問(wèn)題,因此也算完成了他們的初衷。與此同時(shí),在確定研究問(wèn)題之后,很快他們就發(fā)現(xiàn)了現(xiàn)有模型存在可解釋性較差的問(wèn)題,于是便確定了“先定位后識(shí)別”的主要框架。隨后,課題組開(kāi)始尋找具體的實(shí)體分割模型。期間遇到了一些困難:其希望這個(gè)實(shí)體分割模型可以提供語(yǔ)義豐富、粒度多樣、高質(zhì)量的實(shí)體分割圖片標(biāo)簽。然而,在已有的預(yù)訓(xùn)練分割模型中,要么只能給出有限的實(shí)體類別,要么無(wú)法很好地支持他們想要的多粒度分割。總之,并沒(méi)有可以滿足研究人員全部需求的模型。因此,他們通過(guò)整合 COCO、LVIS、PACO、Entity-V2、TextOCR 等現(xiàn)有的分割數(shù)據(jù)集,基于一個(gè)修改后的 Mask2Former 架構(gòu)自行訓(xùn)練了一個(gè)支持多樣、全面分割的模型 Mask2Former+,以此作為他們的實(shí)體分割模型。而在當(dāng)時(shí),另一個(gè)重要問(wèn)題就是構(gòu)建訓(xùn)練模型的數(shù)據(jù)集。構(gòu)建這種具備較為復(fù)雜的細(xì)粒度圖像文本對(duì)齊標(biāo)注的數(shù)據(jù)集一般有兩種方式:要么通過(guò)重新整合現(xiàn)有數(shù)據(jù)集,要么通過(guò)現(xiàn)有的大模型對(duì)圖像進(jìn)行標(biāo)注加工。出于對(duì)任務(wù)豐富性和數(shù)據(jù)質(zhì)量的考慮,他們選擇了前者,并盡可能地收集了學(xué)術(shù)界已有的能夠納入本次任務(wù)框架的數(shù)據(jù)集。隨后,該團(tuán)隊(duì)通過(guò) ChatGPT 生成了對(duì)話模板,將所有數(shù)據(jù)整合為了人機(jī)對(duì)話的形式。最后,他們選擇在視覺(jué)文本對(duì)齊任務(wù)中一些比較有代表性的 benchmark,對(duì)本次模型加以量化評(píng)測(cè)與分析。日前,相關(guān)論文以《GROUNDHOG:將大型語(yǔ)言模型建立在整體分割的基礎(chǔ)上》(GROUNDHOG:Grounding Large Language Models to Holistic Segmentation)為題發(fā)在 arXiv[1]。圖 | 相關(guān)論文(來(lái)源:arXiv)關(guān)于上述數(shù)據(jù)集和本次模型的詳細(xì)介紹,可以參考本次論文的附錄。之后,他們也會(huì)將這部分?jǐn)?shù)據(jù)處理和模型訓(xùn)練的代碼一并公開(kāi)。后續(xù),他們希望能將 GROUDHOG 拓展到第一視角視頻,打造一個(gè)能夠處理視頻輸入的 Grounded MLLM 個(gè)人助手。參考資料:1.https://arxiv.org/pdf/2402.16846
排版:初嘉實(shí)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。