博客專欄

EEPW首頁(yè) > 博客 > 恕我直言,你的模型可能并沒看懂prompt在說啥

恕我直言,你的模型可能并沒看懂prompt在說啥

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-04-20 來(lái)源:工程師 發(fā)布文章

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤的賣萌屋

作者:python


隨著GPT-3等超大模型的興起,in-context learning的形式也流行起來(lái)。在in-context learning中,模型不根據(jù)下游任務(wù)調(diào)整參數(shù),而是將下游任務(wù)的輸入輸出接起來(lái)之后作為prompt,引導(dǎo)模型根據(jù)測(cè)試集的輸入生成預(yù)測(cè)結(jié)果。該方法的表現(xiàn)可以大幅超越零監(jiān)督學(xué)習(xí),并給大模型高效運(yùn)用提供了新的思路。


然而,in-context learning中,模型真的學(xué)習(xí)了下游任務(wù)么?作為prompt的訓(xùn)練樣本,到底是如何讓模型work的?


本文作者發(fā)現(xiàn),in-context learning學(xué)習(xí)的并不是輸入與標(biāo)注之間的關(guān)聯(lián),而是通過展示數(shù)據(jù)形式,來(lái)激活預(yù)訓(xùn)練模型的能力。此外還有兩個(gè)附帶的結(jié)論:(1)在meta learning的環(huán)境下,in-context learning的這一特點(diǎn)更為明顯;(2)因?yàn)闃?biāo)簽不重要,所以可以用無(wú)標(biāo)注領(lǐng)域內(nèi)數(shù)據(jù)做in-context zero shot learning。


論文題目:
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?論文鏈接:
https://arxiv.org/abs/2202.12837項(xiàng)目地址:
https://github.com/Alrope123/rethinking-demonstrations


背景


大規(guī)模預(yù)訓(xùn)練模型的無(wú)監(jiān)督預(yù)測(cè):對(duì)預(yù)訓(xùn)練好的語(yǔ)言模型,輸入測(cè)試數(shù)據(jù)的輸入(x),直接通過語(yǔ)言模型預(yù)測(cè)輸出(P(y|x))。如下圖所示。其中minimal是最簡(jiǎn)單的方式,mannual是加入人工設(shè)計(jì)的部分。藍(lán)色是需要預(yù)測(cè)的標(biāo)簽部分。這篇論文中,作者默認(rèn)采用Minimal的方式處理測(cè)試數(shù)據(jù)。


圖片


而in-context learning,類似于上述的無(wú)監(jiān)督預(yù)測(cè),但在輸入測(cè)試樣例前輸入少量標(biāo)注數(shù)據(jù)。同樣不需要參數(shù)調(diào)整,直接訓(xùn)練。相當(dāng)于在無(wú)監(jiān)督預(yù)測(cè)的基礎(chǔ)上,引入如下前綴:


圖片


而本文主要探究的,就是in-context learning中,模型究竟從加入的這段前綴中學(xué)到了什么。


實(shí)驗(yàn)設(shè)置


本文主要探究了6種不同的預(yù)訓(xùn)練模型,其中,MetaICL采用了大量的下游任務(wù)以in-context learning的形式進(jìn)行了元學(xué)習(xí):


圖片


對(duì)于每個(gè)模型,作者采用了兩種應(yīng)用方式,即direct和channel:


圖片


作者一共探究了26個(gè)數(shù)據(jù)集,其中16個(gè)分類任務(wù)和10個(gè)多項(xiàng)選擇任務(wù)。


圖片


在實(shí)驗(yàn)細(xì)節(jié)上,作者對(duì)于每個(gè)instance,展示了16個(gè)標(biāo)注樣例。每組設(shè)置(26個(gè)數(shù)據(jù)集6個(gè)預(yù)訓(xùn)練模型2組使用方式)用5個(gè)隨機(jī)數(shù)種子跑了5遍。作者在 airseq 13B 和 GPT-3 兩個(gè)大模型上,出于算力的考慮只做了6個(gè)數(shù)據(jù)集,和3個(gè)隨機(jī)數(shù)種子。


由于實(shí)驗(yàn)較多,作者一般僅匯報(bào)各種均值。


模型沒有學(xué)習(xí)標(biāo)簽


這篇文章的第一個(gè)結(jié)論是:in-context learning中,模型并沒有學(xué)習(xí)輸入和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。


通過給in-context的訓(xùn)練樣本賦予隨機(jī)標(biāo)簽,可以構(gòu)建隨機(jī)標(biāo)注的設(shè)置。從下圖中可以看出,無(wú)論是分類任務(wù)(上),還是多項(xiàng)選擇任務(wù)(下),隨機(jī)標(biāo)注設(shè)置下(紅)模型表現(xiàn)均和正確標(biāo)注(黃)表現(xiàn)相當(dāng),且明顯超過沒有in-context樣本的zero-shot 設(shè)置(藍(lán))。


圖片


這一點(diǎn)趨勢(shì),在改變隨機(jī)標(biāo)簽的in-context樣本比例,以及改變in-context樣本數(shù)量時(shí),都是保持的。選用人工設(shè)計(jì)的in-context展示形式(prompt),結(jié)論也不發(fā)生改變。


下圖調(diào)整的是改變隨機(jī)標(biāo)簽的in-context樣本比例。


圖片


下圖左邊是Channel MetaICL,右邊是 Direct GPT-J,K調(diào)的是展示樣例的數(shù)目。


圖片


下圖+T表示采用人工設(shè)計(jì)的in-context展示形式。


圖片


模型學(xué)習(xí)任務(wù)形式


這篇文章的第二個(gè)結(jié)論是:in-context learning中,模型學(xué)到(激活)了輸入數(shù)據(jù)、預(yù)測(cè)標(biāo)簽的分布,以及這種數(shù)據(jù)+label的語(yǔ)言表達(dá)形式。


下圖中,青綠色的柱子為用(從外部語(yǔ)料中)隨機(jī)采樣的句子替換輸入句子的設(shè)置??梢钥吹剑P捅憩F(xiàn)明顯下降。因此,in-context learning中,展示樣本和測(cè)試樣本在語(yǔ)料分布上的一致性比較中央。猜測(cè)模型很可能學(xué)到了展示樣本的語(yǔ)言風(fēng)格。


圖片


下圖中,青綠色的柱子為用隨機(jī)詞匯替代展示樣本中的標(biāo)簽??梢钥吹?,模型表現(xiàn)明顯下降。因此,in-context learning中,展示樣本中的標(biāo)簽內(nèi)容與測(cè)試樣本的標(biāo)簽內(nèi)容的一致性是比較重要的。猜測(cè)模型很可能從展示樣本中學(xué)到了標(biāo)簽詞匯的分布。


圖片


下圖中,分別用labels only(深紫)和no labels(深綠)來(lái)探索展示模式的差異對(duì)模型表現(xiàn)的影響??梢钥吹剑P拖鄬?duì)于上面兩圖的OOD setting而言,都有了進(jìn)一步的下降。這可以表明,除了領(lǐng)域內(nèi),輸入和標(biāo)簽表達(dá)方式之外,in-context learning中模型還會(huì)學(xué)習(xí)這種輸入輸出的語(yǔ)言模式。


圖片

總結(jié)與討論


模型有沒有學(xué)習(xí)?


作者認(rèn)為,傳統(tǒng)意義上的學(xué)習(xí)指模型建模輸入樣本和輸出樣本之間的關(guān)聯(lián)(P(y|x)或P(x,y)∝P(x|y))。在這種意義下,in-context learning并沒有學(xué)習(xí)。


然而,模型可以通過展示樣例,中的輸入、輸出、及輸入+輸出的語(yǔ)言表達(dá)風(fēng)格來(lái)提升表現(xiàn)。在一定程度上,這種利用前綴輸入激活大模型語(yǔ)言表達(dá)建模能力的方式也算是一種學(xué)習(xí)。


因此,這也表明:大模型零監(jiān)督能力遠(yuǎn)超預(yù)期。


畢竟,學(xué)習(xí)表達(dá)形式、語(yǔ)言風(fēng)格與標(biāo)簽形式,不需要標(biāo)注數(shù)據(jù)的參與。大模型潛在地就具有了這種(分類)能力。


當(dāng)然,反過來(lái),也表明了in-context learning的局限在于,它不能真正建模輸入和輸出之間的關(guān)系,因此在一些輸入輸出之間的關(guān)系必然沒有被無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)所建模的下游任務(wù)而言,in-context learning很可能失效。


不過,看起來(lái)目前大多數(shù)傳統(tǒng)NLP的任務(wù)都不會(huì)滿足上述“失效”設(shè)定。


額外的一點(diǎn)啟示


這篇文章的一作 Sewon Min 近期創(chuàng)作了很多相關(guān)主題的高質(zhì)量工作,包括:


  • Noisy Channel Language Model Prompting for Few-Shot Text Classification ~ https://arxiv.org/pdf/2108.04106.pdf

  • MetaICL: Learning to Learn In Context ~ https://arxiv.org/pdf/2110.15943.pdf


平時(shí)有些同學(xué)做了很多實(shí)驗(yàn),一到寫論文就什么實(shí)驗(yàn)結(jié)果都想往論文里放。


這里還是可以學(xué)習(xí)一下 Sewon Min。這三篇文章arxiv的時(shí)間跨度只有6個(gè)月,很多實(shí)驗(yàn)甚至是有overlap的,基本可以判斷為一作同時(shí)在做的幾項(xiàng)工作。作者從不同的角度去分割了這些實(shí)驗(yàn),以不同的匯報(bào)方式,講出了三個(gè)故事,每個(gè)故事看起來(lái)都完整且獨(dú)立,看起來(lái)就很棒。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉