博客專欄

EEPW首頁 > 博客 > 國內首個可復現(xiàn)的RLHF基準,北大團隊開源 PKU-Beaver(1)

國內首個可復現(xiàn)的RLHF基準,北大團隊開源 PKU-Beaver(1)

發(fā)布人:機器之心 時間:2023-05-20 來源:工程師 發(fā)布文章

如今,大語言模型如 ChatGPT 已在人們的生產生活中產生廣泛影響。作為訓練大語言模型的關鍵步驟,RLHF(Reinforcement Learning from Human Feedback)是一種利用強化學習方法從人類反饋中學習的技術。借助 RLHF 技術,大語言模型可與人類偏好保持對齊并遵循人類意圖,滿足 “有幫助的”、“誠實的” 和 “無害的” 的 3H(Helpful, Honest, Harmless)標準。然而,當前開源社區(qū)中復現(xiàn) RLHF 技術仍具有較大挑戰(zhàn)性,相關研究逐漸走向封閉。尚未有團隊公開復現(xiàn) RLHF 所需的數(shù)據(jù)、代碼基準和驗證流程,這極大地阻礙了 RLHF 科研的發(fā)展。


另一方面,盡管大語言模型的巨大成功得益于 RLHF 技術,但同時也面臨著該技術帶來的諸多問題。在 RLHF 中,標注員對大語言模型產生的回答進行偏好性打分,通過這些打分形成的偏序關系來訓練模型。然而,由于人們的價值觀、世界觀存在差異,以及每個人所處地域文化、語言、習俗的不同,這些差異在標注過程中可能產生偏見和歧視性數(shù)據(jù),導致目前依賴 RLHF 技術取得巨大成功的大語言模型也存在潛在的不安全問題。


為解決上述兩個難題,北京大學團隊開源了名為 PKU-Beaver(河貍)項目,其開源地址為:https://github.com/PKU-Alignment/safe-rlhf。


圖片


該項目首次公開了 RLHF 所需的數(shù)據(jù)集、訓練和驗證代碼,是目前首個開源的可復現(xiàn)的 RLHF 基準。同時,為解決人類標注產生的偏見和歧視等不安全因素,北京大學團隊首次提出了帶有約束的價值對齊技術 CVA(Constrained Value Alignment)。該技術通過對標注信息進行細粒度劃分,并結合帶約束的安全強化學習方法,顯著降低了模型的偏見和歧視,提高了模型的安全性。Beaver 使用 GPT4 進行 Evaluation,結果表明,在原有性能保持不變的情況下,Beaver 回復的安全性大幅度提升。


Why “Beaver”


河貍被譽為 “自然界的水壩工程師”,它們善于利用樹枝、灌木、石頭、泥土等材料修建水壩和小木屋,創(chuàng)造出適宜其他生物居住的濕地環(huán)境,成為生態(tài)系統(tǒng)中不可或缺的一環(huán)。為了保障大語言模型(LLM)的安全性和可靠性,同時適應不同人群廣泛的價值觀,北京大學團隊將本次開源的模型命名為 Beaver(河貍),旨在通過約束的價值對齊技術 CVA 為 LLM 筑起一道堤壩。這一技術可以對標注信息進行細粒度劃分,并結合安全強化學習的方法,顯著減少模型的偏見和歧視,從而提高模型的安全性。類比河貍在生態(tài)系統(tǒng)中的作用,Beaver 模型將為大語言模型的發(fā)展提供重要的保障,為人工智能技術的可持續(xù)發(fā)展做出積極貢獻。


本次開源的內容包括:


一、數(shù)據(jù)集與模型:PKU-SafeRLHF


1. 開源迄今為止最大的多輪 RLHF 數(shù)據(jù)集,規(guī)模達到 100 萬條。

2. 開源經 Safe-RLHF 對齊訓練得到的 7B 參數(shù)的語言模型 ——Beaver,并支持在線部署。

3. 開源了預訓練的 Reward Model 和 Cost Model 的模型和參數(shù)。


二、首個可復現(xiàn)的 RLHF 基準,PKU-Alignment/safe-rlhf 支持以下功能:


1. 支持 LLM 模型的 SFT(Supervised Fine-Tuning)、RLHF 訓練、Safe RLHF 訓練。支持目前主流的預訓練模型如 LLaMA、OPT 等模型的訓練。

2. 支持 Reward Model 和 Cost Model 訓練。

3. 提供安全約束滿足的多尺度驗證方式,支持 BIG-bench、GPT-4 Evaluation 等。

4. 支持參數(shù)定制化的 RLHF 和數(shù)據(jù)集定制接口。


SafeRLHF 與 DeepSpeed-Chat、trlX 等框架的比較


與 DeepSpeed-Chat、trlX 等框架相比,SafeRLHF 是國內首個可復現(xiàn)的 RLHF 基準。自 LLaMA 模型開源以來,開源社區(qū)涌現(xiàn)出許多大型開源模型。然而,由于缺乏高質量人類偏好數(shù)據(jù)集和強化學習(RL)領域積累不足等限制,大部分機構開源的大型模型通常僅限于監(jiān)督微調(SFT)階段,很少嘗試運用 RLHF 技術。Safe-RLHF 不僅提供高質量代碼庫,還額外公開了 RLHF 所需的多輪數(shù)據(jù),旨在幫助高校和企業(yè)充分研究 RLHF 技術。此外,Safe-RLHF 將安全強化學習(Safe RL)技術引入 RLHF 訓練中,為大型模型的訓練和對齊提供了新的研究范式。


圖片


圖片


Safe RLHF vs. RLAIF (Constitutional AI、Self-Align)


目前,實現(xiàn)對齊技術的方法主要有以下三種:


1. 在 LLM 預訓練階段,通過人工篩選和數(shù)據(jù)清洗,獲取更高質量的數(shù)據(jù)。

2. 在微調(SFT 和 RLHF)階段,增加更加多元且無害的用戶指令和人類偏好模型進行對齊。

3. 在輸出階段使用獎勵模型進行 reject sampling,提高輸出質量和安全性。或者在上線的產品中,直接基于一定規(guī)則進行檢測,拒絕回應用戶的輸入。


然而,這些方法各自存在一些缺陷。第一種方法只能解決部分安全問題,需要大量人力和財力來獲得高質量的數(shù)據(jù)。第二種方法,由于人們的價值觀存在差異和普遍存在的歧視和偏見,RLHF 后的大型語言模型仍存在歧視和偏見問題。第三種方法雖然可以確保模型輸出的安全性,但也可能影響模型的幫助性。例如,嚴格的過濾機制可能會影響用戶獲得有用或有價值的答案。


因此,引入安全約束并引導 LLM 更符合道德和法律的價值觀,是更可靠的方式。然而,這需要我們克服現(xiàn)有技術和方法的局限性,并在 RLHF 中結合多種技術和方法,以實現(xiàn)更加全面的安全性約束。目前還有另一種技術路線被提及,即引入 AI 標注來替代 RLHF 步驟中的人類標注,即 RLAIF。例如 GPT-4 使用的基于規(guī)則的獎勵模型 (RBRM) 和利用 AI 進行指正和修改生成內容的 “Constitutional AI”(Bai et al., 2022)。然而,從作者的角度來看,這個方法有很多限制和缺點,原因有三個方面。


首先,當前即使最先進的大語言模型,例如 GPT-4 也不能完全避免歧視、偏見的不安全的輸出。并且在不同的地域文化、風土人情的差異以及一些少數(shù)群體的敏感問題中,大型語言模型也未必擁有足夠的認識。事實上,在實驗過程中,筆者發(fā)現(xiàn) AI 打分模型會偏好大預言模型的輸出而非人類的回答,這為 RLAIF 技術的可行性帶來了很大的挑戰(zhàn)。


其次,現(xiàn)有公開較強的可訪問的大語言模型在安全對其之后,會經常拒絕用戶關于可能導致不安全內容的討論,這些 AI 模型無法對安全類型問題的標準提供有效幫助。

再者,人類偏好是一個相當模糊的概念,很難用語言精確描述,例如如何定義 “冒犯” 等。使用 AI 進行標注,非常重要的一點是需要模型具有非常強大的邏輯推理能力。目前基于模型自標注自對齊的方法一般需要模型根據(jù)上下文,基于精心設計的規(guī)則提示詞外加思維鏈 (CoT, Chain-of-Thought) 技術引導推理得出標注結果。就目前大模型發(fā)展現(xiàn)狀來看,無論是開源還是閉源的大語言模型,它們還無法完成稍微復雜一些的邏輯推理問題。這一重要挑戰(zhàn)仍待解決。


綜上,作者認為 AI 的自標注自對齊以及反思等機制可以作為人類數(shù)據(jù)增廣的有效方式,是 RLHF 的有機補充。但如果只用 AI 生成的數(shù)據(jù),可能導致會逐漸偏離人類社會的價值觀,可能帶來潛在的危險后果。


帶有約束的價值對齊技術


圖片


約束價值對齊技術的目標是將強化學習(RL)智能體的意圖與安全行為模式對齊,這類似于安全強化學習(Safe RL)。智能體通過從環(huán)境中獲得反饋來學習尋找最優(yōu)策略,同時滿足最小化意外傷害或不安全行為的風險要求。在 RLHF 階段,考慮將涉及偏見、歧視、隱私等有害或不誠實的方面設計成代價函數(shù),同時將模型回答的質量抽象成獎勵函數(shù)。此外,還可以更細致地劃分人類標注數(shù)據(jù),以將大型語言模型對齊到符合道德和法律約束的價值觀中。用更簡潔的數(shù)學描述,基于人類反饋的強化學習,其目標是獎勵最大化,


圖片


而約束價值對齊技術中則是帶約束的獎勵最大化,即旨在滿足約束的前提下進行獎勵優(yōu)化:


圖片


其中 R(·) 和 C(·) 分別是獎勵和代價函數(shù),它們可以是一些基于規(guī)則的函數(shù)或神經網絡等。它們被認為是人類偏好的代理,其一般由人類偏好數(shù)據(jù)集訓練得來。


圖片


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉