OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

作者：時(shí)間：2023-06-02 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

OpenAI 一個(gè)簡(jiǎn)單的動(dòng)作，讓大模型數(shù)學(xué)能力直接達(dá)到 SOTA。

本文引用地址：http://m.butianyuan.cn/article/202306/447284.htm

而且直接開源論文數(shù)據(jù)集，包含 80 萬個(gè)人類反饋標(biāo)簽！

這就是 OpenAI 的最新研究?；?GPT-4，他們微調(diào)了幾個(gè)模型，分別采用不同的監(jiān)督方法。

一種是傳統(tǒng)的結(jié)果監(jiān)督，只對(duì)最終正確答案進(jìn)行獎(jiǎng)勵(lì)。

另一種則是過程監(jiān)督，區(qū)別在于獎(jiǎng)勵(lì)增加，對(duì)每一個(gè)正確的推理步驟進(jìn)行獎(jiǎng)勵(lì)。

結(jié)果這一點(diǎn)改變，讓采用過程監(jiān)督的模型 Process Reward Model（PRM），可以解決 MATH 測(cè)試集代表子集中 78% 的問題，達(dá)到 SOTA。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

英偉達(dá) AI 科學(xué)家 Jim Fan 大膽預(yù)測(cè)說，下一步 OpenAI 大概會(huì)用這種方法微調(diào) GPT-4。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

OpenAI 表示：

我們認(rèn)為探索過程監(jiān)督在數(shù)學(xué)之外領(lǐng)域的表現(xiàn)非常重要。如果這些結(jié)果具有普遍性，那意味著過程監(jiān)督將成為比結(jié)果監(jiān)督更有效的方法。

獎(jiǎng)勵(lì)增多、效果變好

話不多說，先看 OpenAI 給出的具體例子。

比如這樣一道三角函數(shù)的題：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

用過程監(jiān)督的模型來算，效果會(huì)是這樣的：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

OpenAI 表示，這道題對(duì)于大模型來說還是比較有挑戰(zhàn)性的，GPT-4 也不太能搞定（只有 0.1% 的情況生成結(jié)果完全沒問題）。而使用過程獎(jiǎng)勵(lì)是可以算出正確答案的。

這也是目前大語言模型比較飽受詬病的問題，容易產(chǎn)生邏輯錯(cuò)誤，也被稱為“幻覺”。

表現(xiàn)最明顯的領(lǐng)域就是數(shù)學(xué)。

即便是先進(jìn)如 GPT-4，這類問題也難以避免。

而降低幻覺的出現(xiàn)，又被視為走向 AGI 的關(guān)鍵一步。

此前為檢測(cè)幻覺所使用的是結(jié)果監(jiān)督，基于最終結(jié)果提供反饋，僅僅獎(jiǎng)勵(lì)最終正確的答案。

但效果顯然還不太行，所以 OpenAI 想了個(gè)新招，把這種獎(jiǎng)勵(lì)增加會(huì)怎么樣？

于是他們提出了過程監(jiān)督方法，針對(duì)思維鏈中的每個(gè)步驟提供反饋，獎(jiǎng)勵(lì)每個(gè)正確的推理步驟。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

結(jié)果表明，用 MATH 數(shù)據(jù)集進(jìn)行測(cè)試后：

過程監(jiān)督模型能夠解決 MATH 測(cè)試集代表子集的 78% 的問題。效果優(yōu)于結(jié)果監(jiān)督。

而且隨著每個(gè)問題考慮的解決方案的數(shù)量增加，性能差距也逐漸增大，也說明了過程監(jiān)督的獎(jiǎng)勵(lì)模型更加可靠。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

△ 縱軸表示的是已解決的問題的百分比，紅色線代表的是過程監(jiān)督獎(jiǎng)勵(lì)模型（ORM），藍(lán)色線代表的是結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型（PRM）

在測(cè)試中，過程監(jiān)督有一個(gè)明顯的優(yōu)勢(shì)：

可以準(zhǔn)確指出解決問題的步驟中哪些是正確的，并且給出錯(cuò)誤步驟的具體位置。

而這點(diǎn)在結(jié)果監(jiān)督中，是具有挑戰(zhàn)性的。

因此，在過程監(jiān)督中，信用分配（credit assignment）更加容易。

而且在對(duì)齊方面，過程監(jiān)督也優(yōu)于結(jié)果監(jiān)督。

因?yàn)檫^程監(jiān)督會(huì)直接獎(jiǎng)勵(lì)模型，按照對(duì)齊的思維鏈進(jìn)行操作，每個(gè)步驟都會(huì)更精確。

產(chǎn)生的結(jié)果可解釋性也更高，因?yàn)樗膭?lì)模型遵循經(jīng)過人類批準(zhǔn)的過程。

相比之下，基于結(jié)果的監(jiān)督可能會(huì)出現(xiàn)獎(jiǎng)勵(lì)不對(duì)齊的過程，而且通常更難進(jìn)行審查。

此外，大模型還經(jīng)常遇到一個(gè)問題叫做對(duì)齊稅（alignment tax）。也就是想讓模型輸出更安全，那性能就會(huì)有所下降。

而過程獎(jiǎng)勵(lì)，在數(shù)學(xué)領(lǐng)域能讓這個(gè)對(duì)齊稅，變成負(fù)的，即模型安全性和性能都保障。

總之，過程獎(jiǎng)勵(lì)這個(gè)小竅門，一次性解決了大模型數(shù)學(xué)推理方面的多個(gè)問題。

在實(shí)驗(yàn)結(jié)果方面，OpenAI 還給出了多個(gè)實(shí)例。

比如有一些情況，GPT-4 會(huì)出錯(cuò)，但是基于過程獎(jiǎng)勵(lì)的 PRM 能揪出問題。

最近有 30 名學(xué)生參加了一次考試。如果有 20 名學(xué)生考了 80 分，8 名學(xué)生考了 90 分，2 名學(xué)生得分為 100 分，那么這次考試的班級(jí)平均分是多少？

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

下面是模型的作答結(jié)果：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

前面的作答沒有問題，但是在第 7 步中，GPT-4 試圖對(duì)表達(dá)式進(jìn)行簡(jiǎn)化，出現(xiàn)了錯(cuò)誤。

而獎(jiǎng)勵(lì)模型卻察覺到了這個(gè)錯(cuò)誤。

當(dāng)然也有都不成功的例子，比如下面這道題 GPT-4 和 PRM 都被迷惑了：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

來看一下模型的回答：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

在第 4 步中，GPT-4 錯(cuò)誤地認(rèn)為該序列每 12 項(xiàng)循環(huán)一次，而事實(shí)上是每 10 項(xiàng)循環(huán)一次。

而這種計(jì)數(shù)錯(cuò)誤也迷惑到了獎(jiǎng)勵(lì)模型。

此外，OpenAI 共給出了 10 個(gè)問題和解決方案。

可以看出，基于過程監(jiān)督的獎(jiǎng)勵(lì)模型在一些問題上也會(huì)被迷惑住，但是在整體上明顯表現(xiàn)得更好。

網(wǎng)友：再也不用做數(shù)學(xué)證明題了

很快，OpenAI 的最新工作在各個(gè)平臺(tái)上都引發(fā)了熱烈討論。

有人評(píng)價(jià)：

如果這個(gè)方法在非數(shù)學(xué)領(lǐng)域也能奏效，我們現(xiàn)在或許正處于游戲規(guī)則即將改變的時(shí)刻。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

還有人說，這項(xiàng)工作如果用在互動(dòng)、教育方面，會(huì)非常令人興奮，尤其是數(shù)學(xué)領(lǐng)域。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

這不，有人就說，看來以后不用再做數(shù)學(xué)家庭作業(yè)和證明題了（doge）。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

用一張圖來總結(jié)，大概就是醬嬸兒的：

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

也有人提出了自己的擔(dān)心：這種密集的獎(jiǎng)勵(lì)信號(hào)是否會(huì)導(dǎo)致模型更容易陷入局部最小值。

但是如果能夠足夠隨機(jī)化、全局搜索，或許模型的魯棒性更高。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

值得一提的是，這種 step by step 的方法，不止一次在提升大模型性能上奏效。

之前，東京大學(xué)和谷歌的研究人員發(fā)現(xiàn)，只要在對(duì)話中加一句“Let’s think step by step”，GPT-3 就能回答出以前不會(huì)的問題。

比如提問：

16 個(gè)球中有一半是高爾夫球，這些高爾夫球中有一半是藍(lán)色的，一共有幾個(gè)藍(lán)色的高爾夫球？

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

（問題不難，但要注意這是零樣本學(xué)習(xí)，也就是說 AI 訓(xùn)練階段從沒見過同類問題。）

如果要求 GPT-3 直接寫出“答案是幾”，它會(huì)給出錯(cuò)誤答案：8。

但加上讓我們一步一步地思考這句“咒語”后，GPT-3 就會(huì)先輸出思考的步驟，最后給出正確答案：4！

而與之相呼應(yīng)的是，這回 OpenAI 最新研究的論文題目就叫做《Let’s Verify Step by Step》。

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

新聞中心

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

獎(jiǎng)勵(lì)增多、效果變好

網(wǎng)友：再也不用做數(shù)學(xué)證明題了

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

獎(jiǎng)勵(lì)增多、效果變好

網(wǎng)友：再也不用做數(shù)學(xué)證明題了

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

OpenAI 出手解決 GPT-4 數(shù)學(xué)推理：做對(duì)一步立刻獎(jiǎng)勵(lì)，論文數(shù)據(jù)集全開放，直接拿下 SOTA

獎(jiǎng)勵(lì)增多、效果變好