ChatGPT真的是「通才」嗎?楊笛一等人給它來了個(gè)摸底考試
ChatGPT 真的是「通才」嗎?單拎出哪項(xiàng)能力都能完勝其他模型嗎?哪些任務(wù)是 ChatGPT 擅長的,哪些不是?為了系統(tǒng)地探索這些問題,南洋理工大學(xué)博士生 Chengwei Qin、斯坦福大學(xué)計(jì)算機(jī)科學(xué)助理教授楊笛一等人進(jìn)行了大量實(shí)驗(yàn)。
論文鏈接:https://arxiv.org/pdf/2302.06476.pdf
大型語言模型(LLM)已經(jīng)被證明能夠解決各種自然語言處理(NLP)任務(wù),而且對于給定的下游任務(wù),它們不依賴任何訓(xùn)練數(shù)據(jù),借助適當(dāng)?shù)?prompt 就能實(shí)現(xiàn)模型調(diào)整。這種根據(jù)指令執(zhí)行新任務(wù)的能力可以被視為邁向通用人工智能的重要一步。
盡管目前的 LLM 在某些情況下取得了不錯(cuò)的性能,但在 zero-shot 學(xué)習(xí)中仍然容易出現(xiàn)各種錯(cuò)誤。此外,prompt 的格式可以產(chǎn)生實(shí)質(zhì)性的影響。例如,在 prompt 中添加「Let’s think step by step」,模型性能就能得到顯著提升。這些限制說明當(dāng)前的 LLM 并不是真正的通用語言系統(tǒng)。
近日,OpenAI 發(fā)布的 ChatGPT LLM 在 NLP 社區(qū)引發(fā)極大關(guān)注。ChatGPT 是通過「人類反饋強(qiáng)化學(xué)習(xí)(RLHF)」訓(xùn)練 GPT-3.5 系列模型而創(chuàng)建的。RLHF 主要包括三個(gè)步驟:使用監(jiān)督學(xué)習(xí)訓(xùn)練語言模型;根據(jù)人類偏好收集比較數(shù)據(jù)并訓(xùn)練獎(jiǎng)勵(lì)模型;使用強(qiáng)化學(xué)習(xí)針對獎(jiǎng)勵(lì)模型優(yōu)化語言模型。通過 RLHF 訓(xùn)練,人們觀察到 ChatGPT 在各個(gè)方面都具有令人印象深刻的能力,包括對人類輸入生成高質(zhì)量的響應(yīng)、拒絕不適當(dāng)?shù)膯栴}以及根據(jù)后續(xù)對話自我糾正先前的錯(cuò)誤。
雖然 ChatGPT 顯示出強(qiáng)大的對話能力,但與現(xiàn)有的 LLM 相比,NLP 社區(qū)仍然不清楚 ChatGPT 是否獲得了更好的 zero-shot 泛化能力。為了填補(bǔ)這一研究空白,研究者們通過在涵蓋 7 個(gè)代表性任務(wù)類別的大量 NLP 數(shù)據(jù)集上對 ChatGPT 進(jìn)行評估,系統(tǒng)地研究了它的 zero-shot 學(xué)習(xí)能力。這些任務(wù)包括推理(reasoning)、自然語言推斷(natural language inference)、問答(閱讀理解)、對話、摘要、命名實(shí)體識別和情感分析。借助廣泛的實(shí)驗(yàn),研究者旨在回答以下問題:
- ChatGPT 是一個(gè)通用的 NLP 任務(wù)求解器嗎?ChatGPT 在哪些類型的任務(wù)上表現(xiàn)良好?
- 如果 ChatGPT 在某些任務(wù)上落后于其他模型,那原因是什么?
為了回答這些問題,作者根據(jù)實(shí)驗(yàn)結(jié)果比較了 ChatGPT 和最先進(jìn)的 GPT-3.5 模型 (text-davinci-003) 的性能。此外,他們還報(bào)告了 FLAN、T0 和 PaLM 等近期工作的 zero-shot、微調(diào)或 few-shot 微調(diào)結(jié)果。
主要結(jié)論
作者表示,據(jù)他們所知,這是第一次有人對 ChatGPT 在各種 NLP 任務(wù)上的 zero-shot 能力進(jìn)行研究,旨在提供 ChatGPT 的初步概況。他們的主要發(fā)現(xiàn)如下:
- 雖然 ChatGPT 作為一個(gè)通才模型顯示了一些可以執(zhí)行多個(gè)任務(wù)的能力,但它通常比針對給定任務(wù)進(jìn)行微調(diào)的模型表現(xiàn)要差(見圖 1 和第 4.3 節(jié))。
- ChatGPT 的卓越推理(reasoning)能力在算術(shù)推理任務(wù)中得到了實(shí)驗(yàn)證實(shí)(第 4.2.1 節(jié))。然而,ChatGPT 在常識、符號和邏輯推理任務(wù)中的表現(xiàn)通常不如 GPT-3.5,例如通過生成不確定的響應(yīng)可以看出來(第 4.2.2 節(jié))。
- ChatGPT 在偏向于推理能力的自然語言推斷任務(wù)(第 4.2.3 節(jié))和問答(閱讀理解)任務(wù)(第 4.2.4 節(jié))方面優(yōu)于 GPT-3.5,例如確定文本對中的邏輯關(guān)系。具體來說,ChatGPT 更擅長處理與事實(shí)一致的文本(即,更擅長對蘊(yùn)含而不是非蘊(yùn)含進(jìn)行分類)。
- ChatGPT 在對話任務(wù)方面優(yōu)于 GPT-3.5(第 4.2.5 節(jié))。
- 在摘要任務(wù)方面,ChatGPT 會(huì)生成更長的摘要,比 GPT-3.5 表現(xiàn)要差。然而,在 zero-shot 指令中明確限制摘要長度會(huì)損害摘要質(zhì)量,從而導(dǎo)致性能降低(第 4.2.6 節(jié))。
- 盡管顯示出作為通才模型的前景,但 ChatGPT 和 GPT-3.5 在某些任務(wù)上都面臨挑戰(zhàn),例如序列標(biāo)注(第 4.2.7 節(jié))。
- ChatGPT 的情感分析能力接近 GPT-3.5(第 4.2.8 節(jié))。
方法
如前文所述,該研究主要比較了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任務(wù)下的 zero-shot 學(xué)習(xí)性能。具體而言,他們將任務(wù)指令 P 和測試問題 X 作為輸入,模型用 f 表示,然后生成目標(biāo)文本 Y = f (P, X) 來解決測試問題。不同任務(wù)的指令和輸入格式如圖 2 和圖 3 所示。
包含六種任務(wù)(情感分析、自然語言推理、命名實(shí)體識別、問答、對話和摘要)的指令和輸入格式。指令為藍(lán)色字體。
推理任務(wù)說明。
舉例來說,當(dāng)模型執(zhí)行情感分析任務(wù)時(shí),任務(wù)指令 P 將文本所包含的情感標(biāo)記為積極或消極,則輸出的答案為積極或消極。當(dāng)模型在閱讀了指令 P 和輸入內(nèi)容 X(內(nèi)容為一部具有相當(dāng)力量和真實(shí)性的令人驚嘆的抒情作品)后,該模型經(jīng)過判斷,有望輸出 Y 積極。
與上述單階段 prompting 方法不同的是,該研究使用兩階段 prompting(Kojima 等人提出),來完成 zero-shot-CoT。
第一階段采取「讓模型一步一步思考(Let’s think step by step)」,指令 P_1 誘導(dǎo)模型生成基本原理 R。
第二階段采用第一步生成的基本原理 R 以及原始輸入 X 和指令 P_1 作為新的輸入,引導(dǎo)模型生成最終答案。
之后一個(gè)新的指令 P_2 作為提取答案的觸發(fā)語句。所有任務(wù)指令均取自 Brown、Ouyang、Zhang 等人研究,或受其啟發(fā)。最后需要注意的是,每次對 ChatGPT 進(jìn)行新的查詢時(shí),都要提前清除對話,以避免前面示例的影響。
實(shí)驗(yàn)
實(shí)驗(yàn)用 20 個(gè)不同的數(shù)據(jù)集來評估 ChatGPT 和 GPT-3.5,涵蓋 7 類任務(wù)。
算術(shù)推理
ChatGPT 和 GPT-3.5 在沒有或有 CoT 的情況下,在六個(gè)算術(shù)推理數(shù)據(jù)集上的準(zhǔn)確率如表 2 所示。在沒有 CoT 的實(shí)驗(yàn)中,ChatGPT 在其中 5 個(gè)數(shù)據(jù)集上的性能優(yōu)于 GPT-3.5,顯示了其強(qiáng)大的算術(shù)推理能力。
圖 4 顯示了 GPT-3.5 給出錯(cuò)誤答案的情況。在圖的左側(cè),問「溫迪在玩電子游戲,有 43 條命。在游戲的艱難部分,她失去了 8 條生命。如果她在下一關(guān)多得到 39 條命,她會(huì)有多少條命?」ChatGPT 給出了正確答案。然而,GPT-3.5 生成了一個(gè)錯(cuò)誤的答案??梢钥闯?,在使用 CoT 時(shí),ChatGPT 的性能都比 GPT-3.5 好得多。
常識、符號和邏輯推理
表 3 報(bào)告了 ChatGPT 與流行 LLM 在常識、符號和邏輯推理數(shù)據(jù)集上的準(zhǔn)確率。可以得到如下觀察結(jié)果:首先,使用 CoT 可能并不總是在常識推理任務(wù)中提供更好的性能,常識推理任務(wù)可能需要更細(xì)粒度的背景知識。其次,與算術(shù)推理不同,ChatGPT 在很多情況下的表現(xiàn)都比 GPT-3.5 差,說明 GPT-3.5 的相應(yīng)能力更強(qiáng)。
為了分析原因,該研究在圖 5 中展示了 ChatGPT 的幾個(gè)失敗案例。我們可以觀察到 ChatGPT 很容易產(chǎn)生不確定的響應(yīng),從而導(dǎo)致性能不佳。
自然語言推理
表 4 展示了不同模型在兩個(gè)自然語言推理任務(wù)上的結(jié)果:RTE 和 CB。我們可以看到,在 zero-shot 設(shè)置下,ChatGPT 可以取得比 GPT-3.5、FLAN、T0 和 PaLM 更好的性能。這證明 ChatGPT 在 NLP 推理任務(wù)中,具有較好的 zero-shot 性能。
問答
表 6 報(bào)告了不同模型在 BoolQ 數(shù)據(jù)集的準(zhǔn)確率,ChatGPT 優(yōu)于 GPT-3.5 。這表明 ChatGPT 可以更好地處理推理任務(wù)。
對話
表 8 中顯示了 ChatGPT 和 GPT-3.5 在 MuTual 數(shù)據(jù)集(多輪對話推理)上的準(zhǔn)確率。正如預(yù)期的那樣,ChatGPT 大大優(yōu)于 GPT-3.5。
圖 6 為一個(gè)具體的示例,我們可以看到 ChatGPT 能夠更有效地對給定的上下文進(jìn)行推理。這再次印證了 ChatGPT 超強(qiáng)的推理能力。
生成摘要
表 9 報(bào)告 ChatGPT 和 GPT-3.5 在 SAMSum 數(shù)據(jù)集上的 ROUGE 得分,令人驚訝的是,ChatGPT 在所有指標(biāo)上都不如 GPT-3.5。
命名實(shí)體識別
表 10 報(bào)告了 ChatGPT 和 GPT-3.5 在 CoNLL03 上的 zero-shot 性能。我們可以看到 ChatGPT 和 GPT-3.5 的整體性能非常相似。
情感分析
表 11 比較了不同模型在情感分析數(shù)據(jù)集 SST2 上的準(zhǔn)確率。令人驚訝的是,ChatGPT 的表現(xiàn)比 GPT-3.5 差了大約 1%。
如需了解更多內(nèi)容,請參考原論文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。