博客專欄

EEPW首頁 > 博客 > 比 GPT-3 更擅長理解用戶意圖,OpenAI發(fā)布 InstructGPT

比 GPT-3 更擅長理解用戶意圖,OpenAI發(fā)布 InstructGPT

發(fā)布人:AI科技大本營 時間:2022-02-12 來源:工程師 發(fā)布文章

作者 | 青蘋果

來源 | 數(shù)據(jù)實(shí)戰(zhàn)派

近日,OpenAI 發(fā)布了一項(xiàng)令人矚目的研究—— InstructGPT。

在這項(xiàng)研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓(xùn)練出更真實(shí)、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT。論文題為 Training language models to follow instructions with human feedback。                           

微信圖片_20220212153520.png

以往,GPT-3 也很可能產(chǎn)生不真實(shí)、有害或反映不良情緒的輸出。這在一定程度上是因?yàn)椋诨ヂ?lián)網(wǎng)文本的大數(shù)據(jù)集上,訓(xùn)練 GPT-3 來完成下一個單詞的預(yù)測,并非是安全地執(zhí)行用戶想要的語言任務(wù)。換句話說,這些模型與其用戶可能實(shí)際上并不一致。

為了讓模型更安全、更有用、更一致,OpenAI 使用了一種稱為從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)的現(xiàn)有技術(shù)。根據(jù)客戶向 API 提交的反饋,OpenAI 對模型的多個輸出進(jìn)行排序。然后,OpenAI 使用這些數(shù)據(jù)來微調(diào) GPT-3。

由此產(chǎn)生的 InstructGPT 模型,在遵循指令方面,遠(yuǎn)比 GPT-3 要好得多。而且,它們也較少的憑空捏造事實(shí),有害輸出的產(chǎn)生呈現(xiàn)小幅下降趨勢。InsructGPT 的參數(shù)量為 1.3 B。

InstructGPT 模型,已經(jīng)在 API 上進(jìn)行了一年多的測試,現(xiàn)已成為 API 上可訪問的默認(rèn)語言模型。OpenAI 相信,用 RLHF 的解決方案來微調(diào)語言模型是提高安全性和可靠性的強(qiáng)大工具。

這也是團(tuán)隊(duì)多年來首次將對齊研究應(yīng)用到產(chǎn)品上。

實(shí)驗(yàn)結(jié)果

OpenAI 將 InstructGPT 的輸出與 GPT-3 的輸出進(jìn)行比較,以評估InstructGPT 的輸出是否很好地遵循了用戶指令。

結(jié)果發(fā)現(xiàn),在 API 上,對于提交給 InstructGPT 和 GPT-3 模型的提示,InstructGPT 模型明顯更受歡迎。當(dāng) OpenAI 為 GPT-3 提示符添加一個前綴,使其進(jìn)入“指令跟隨模式”時,這一點(diǎn)是成立的。

為了衡量模型的安全性,OpenAI 主要在公開可用的數(shù)據(jù)集上使用了一套現(xiàn)有的度量指標(biāo)。

與 GPT-3 相比,InstructGPT 產(chǎn)生的模仿性謊言更少,危害更小。OpenAI 還對 API 提示分布展開了人工評估,結(jié)果顯示,InstructGPT 捏造事實(shí)(“幻覺”)的頻率更低,而且還能生成更恰當(dāng)?shù)妮敵觥?/p>

最后,OpenAI 發(fā)現(xiàn)在客戶分布上,InstructGPT 的輸出要優(yōu)于那些來自 FLAN 和 T0 的輸出。這表明用于訓(xùn)練 FLAN 模型和 T0 模型的數(shù)據(jù),主要是學(xué)術(shù) NLP 任務(wù),并不能完全代表部署的語言模型在實(shí)踐中的使用情況。

為了訓(xùn)練 InstructGPT 模型,OpenAI 的核心技術(shù)是 RLHF,這是 OpenAI 在早期對齊研究中幫助開發(fā)的一種方法。該技術(shù)利用人類的偏好作為獎勵信號來微調(diào)模型,這一點(diǎn)很重要,因?yàn)?OpenAI 旨在解決的安全性和對齊問題是復(fù)雜且主觀的,并且無法被簡單的自動度量指標(biāo)所捕獲。

OpenAI 首先在提交給 API 的提示上收集人工編寫的演示數(shù)據(jù)集,然后用它來訓(xùn)練監(jiān)督學(xué)習(xí)的基線。

接下來,在更大的 API 提示集上收集兩個模型輸出之間的人工標(biāo)記的比較數(shù)據(jù)集。然后,在此數(shù)據(jù)集上訓(xùn)練獎勵模型(RM,Reward Model),以預(yù)測 labelers 更偏愛哪一種輸出。最后,使用 RM 作為獎勵函數(shù),并通過 PPO 算法微調(diào) GPT-3 策略來最大化這個獎勵。

可以用以下方式來思考上述過程,它“解鎖”了 GPT-3 已經(jīng)具備的功能,但很難僅通過提示工程(promptengineering)來實(shí)現(xiàn):這是因?yàn)橄鄬τ陬A(yù)訓(xùn)練學(xué)到的知識而言,OpenAI 的訓(xùn)練程序在幫助模型 get 更多技能方面的確能力有限。相比于模型預(yù)訓(xùn)練,它使用的計(jì)算和數(shù)據(jù)甚至不足 2%。

這種方法的局限性在于它引入了“對齊稅”(alignment tax):模型如果只對齊客戶任務(wù),可能會使其在其他一些學(xué)術(shù) NLP 任務(wù)上的性能表現(xiàn)更差。

顯然,這是不可取的,因?yàn)槿绻?OpenAI 的對齊技術(shù)使模型在人們關(guān)心的任務(wù)上變得更糟,那么,他們在實(shí)踐中被采用的可能性會有多小便可想而知。不過,OpenAI 發(fā)現(xiàn)了一種簡單的算法更改,可以最小化這種對齊稅:在 RL 微調(diào)期間,OpenAI 混合了一小部分用于訓(xùn)練 GPT-3 的原始數(shù)據(jù),并使用正常的對數(shù)似然最大化訓(xùn)練這些數(shù)據(jù)。

這大致維持了安全性和人類偏好的表現(xiàn),同時還降低了學(xué)術(shù)任務(wù)的性能表現(xiàn),在某些情況下甚至超過了 GPT-3 的基線。

微信圖片_20220212153521.png

推廣到更廣泛的偏好

OpenAI 使模型的行為與 labelers 的偏好相一致,labelers 直接產(chǎn)生用于訓(xùn)練模型的數(shù)據(jù),而研究人員則通過書面指示、對具體例子的直接反饋和非正式對話為 labelers 提供指導(dǎo)。

此外,模型還受到客戶和 API 政策中隱含偏好的影響。

OpenAI 選擇了在篩選測試中表現(xiàn)良好的 labelers,既可以識別敏感提示,又可以對敏感提示迅速做出響應(yīng)。然而,這些對數(shù)據(jù)產(chǎn)生影響的不同來源并不能保證,模型會與任何更廣泛群體的偏好相一致。

微信圖片_20220212153523.png

OpenAI 開展了兩個實(shí)驗(yàn)來研究這個問題。

首先,使用未產(chǎn)生任何訓(xùn)練數(shù)據(jù)的保留 labelers 來評估 GPT-3 和 InstructGPT 模型,并發(fā)現(xiàn)這些 labelers 更喜歡 InstructGPT 模型的輸出。

其次,用來自子集的數(shù)據(jù)訓(xùn)練獎勵模型,并發(fā)現(xiàn)它們可以很好進(jìn)行推廣,以預(yù)測不同 labelers 子集的偏好。這也就表明,模型并非只完全適合于 OpenAI 的訓(xùn)練 labelers 的偏好。

然而,還需要更多的工作來研究這些模型如何在更廣泛的用戶群體中執(zhí)行,以及他們?nèi)绾卧谌藗儗︻A(yù)期行為有異議的輸入中執(zhí)行。

局限性

盡管該研究取得了重大進(jìn)展,但 InstructGPT 模型距離完全對齊或完全安全仍任重而道遠(yuǎn);他們?nèi)匀粫a(chǎn)生有害或有偏見的結(jié)果/捏造事實(shí),并在沒有明確提示的情況下產(chǎn)生性和暴力的相關(guān)內(nèi)容。但機(jī)器學(xué)習(xí)系統(tǒng)的安全性不僅取決于底層模型的行為,還取決于這些模型的部署方式。

為了支持 API 的安全性,OpenAI 將在潛在的 App 上線之前繼續(xù)審核,提供內(nèi)容過濾器來檢測安全性,并監(jiān)視濫用情況。

訓(xùn)練模型遵循用戶指令的副產(chǎn)品是,如果指示它們產(chǎn)生不安全的輸出,它們可能更容易被濫用。解決這個問題就需要模型學(xué)會拒絕,視情況篩選指令;顯然,幫助模型可靠的完成這一點(diǎn),是 OpenAI 非常樂意解決的一個重要的開放研究問題。

此外,也有很多情況,可能并不希望與平均 labelers 偏好保持一致。例如,當(dāng)生成不成比例地影響少數(shù)群體的文本時,該群體的偏好應(yīng)該得到更大的權(quán)重。

現(xiàn)在,InstructGPT 接受的訓(xùn)練是遵循英文指令;因此,它偏向于以英語為母語的群體的文化價值觀。

當(dāng)然,OpenAI 正在進(jìn)行研究,以了解 labelers 偏好之間的差異和分歧,以便于根據(jù)更具體的人群的價值觀來具體設(shè)置模型。

總而言之,這是 OpenAI 首次將對齊研究應(yīng)用到產(chǎn)品上。這些技術(shù)可以顯著有效地改善通用 AI 系統(tǒng)與人類意圖的一致性。這也只是一個開始,OpenAI 表示,將繼續(xù)推動這些技術(shù),以進(jìn)一步改進(jìn)當(dāng)前和未來的模型,使之朝著對人類安全且有益的語言工具的方向發(fā)展。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉