博客專欄

EEPW首頁 > 博客 > ACL 2021 | 時(shí)空可控的圖片描述生成

ACL 2021 | 時(shí)空可控的圖片描述生成

發(fā)布人:MSRAsia 時(shí)間:2021-08-12 來源:工程師 發(fā)布文章

編者按:一直以來,圖片描述生成任務(wù)都是人工智能領(lǐng)域研究人員們關(guān)注的熱點(diǎn)話題。近期學(xué)術(shù)界提出的 Localized-Narratives 數(shù)據(jù)集,為圖片描述生成的可控性和可解釋性研究提供了新的機(jī)會(huì)。基于此,微軟亞洲研究院的研究員們展開了深入研究,致力于對(duì)圖像描述生成任務(wù)中所涉及的語義概念進(jìn)行空間和時(shí)序關(guān)系上的控制,以提高其表現(xiàn)性能。同時(shí),研究員們還提出了一種新模型 LoopCAG,并通過一系列實(shí)驗(yàn)證明了其在多個(gè)層面的可控性優(yōu)勢(shì)。

針對(duì)視覺信號(hào)和語言信號(hào)的對(duì)應(yīng)關(guān)系這一研究熱點(diǎn),研究員們從圖片描述生成的可控性角度給出了解答,但想要深度理解和研究這一問題還有很長(zhǎng)的路要走。希望感興趣的讀者可以閱讀論文全文,并發(fā)表自己的獨(dú)特觀點(diǎn),和研究員們一起交流學(xué)術(shù)感想!

圖片描述生成是一項(xiàng)非常經(jīng)典的人工智能任務(wù),但是隨著人們對(duì)其關(guān)注度的提高,如何控制生成的內(nèi)容還需要進(jìn)一步探究。為了生成用戶希望且具備事實(shí)依據(jù)的圖片描述,學(xué)術(shù)界近期提出了一個(gè)被稱為 Localized-Narratives 的數(shù)據(jù)集,并且將鼠標(biāo)軌跡作為一個(gè)額外的輸入,引入到圖片描述生成任務(wù)中。

對(duì)此,微軟亞洲研究院的研究員們進(jìn)行了深入研究,發(fā)現(xiàn)鼠標(biāo)軌跡的引入可以增強(qiáng)圖片描述生成的可控性和可解釋性,同時(shí)研究員們還提出了一種新模型 LoopCAG,顯著提升了圖片描述生成的性能。相關(guān)論文“Control Image Captioning Spatially and Temporally”已被 ACL 2021 接收。(論文鏈接:https://aclanthology.org/2021.acl-long.157.pdf)

軌跡控制的圖片描述生成任務(wù)可以定義為:當(dāng)給定一個(gè)圖像和代表用戶意圖的鼠標(biāo)軌跡時(shí),模型應(yīng)該生成與軌跡的每個(gè)部分相對(duì)應(yīng)的描述。例如,當(dāng)在圖1左側(cè)的圖像上畫上彩色軌跡時(shí),需要生成如圖1右側(cè)的描述。軌跡和標(biāo)有相同顏色的描述是相互對(duì)應(yīng)的。從圖1中可以看出,描述中的一些詞,例如 “person”、“horse”、“tree”,可以在空間上直接與圖片中的視覺對(duì)象一一對(duì)應(yīng)。同時(shí),生成描述的順序需要與軌跡的順序保持一致。

1.png

圖1:軌跡控制的圖片描述生成

雖然,人們可以很容易地做到按軌跡的指示順序來描述圖片中的視覺對(duì)象 。但對(duì)于人工智能系統(tǒng)來說,如何識(shí)別、強(qiáng)調(diào)并沿著這些坐標(biāo)安排視覺語義,是一件非常困難且具有研究意義的事情。

在這項(xiàng)工作中,微軟亞洲研究院的研究員們主要致力于對(duì)圖像描述生成任務(wù)中所涉及的語義概念進(jìn)行控制,其包含兩個(gè)層面:空間上的對(duì)應(yīng)關(guān)系和時(shí)序上的排列次序??臻g上的對(duì)應(yīng)關(guān)系是指,描述中的每一個(gè)詞都應(yīng)該在圖像的正確區(qū)域找到正確的對(duì)應(yīng);時(shí)序上的排列次序是指,描述和軌跡之間的語義順序應(yīng)該保持一致。

軌跡控制圖片描述生成任務(wù)的形式化表述

研究員們首先給出了針對(duì)這個(gè)問題的形式化表述。對(duì)于視覺輸入,需要在圖像上應(yīng)用一個(gè)預(yù)先訓(xùn)練好的視覺目標(biāo)檢測(cè)器,得到一個(gè)對(duì)象級(jí)別的視覺特征集 V={v_1,…,v_N} ,其中包括 N 個(gè)視覺對(duì)象的向量表示。相對(duì)應(yīng)的文字描述則是生成目標(biāo),表示為一個(gè)字符序列 Y={y_1,…,y_l},其中 y_j 是第 j 個(gè)字符,l 是字符序列的長(zhǎng)度。

原始軌跡輸入是一個(gè)帶有時(shí)間戳的軌跡點(diǎn)序列,將軌跡點(diǎn)序列按相同的時(shí)間窗口

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電能表相關(guān)文章:電能表原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉