港中文團隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系

發(fā)布人：深科技時間：2024-03-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

曾忠燊，是一名潮汕人。其本科和碩士分別畢業(yè)于美國伊利諾伊大學和美國佐治亞理工學院。在本科畢業(yè)和碩士畢業(yè)之后，他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過一段時間。

在 ChatGPT 面世以后，他意識到針對大模型的研究范式存在一定的不足，于是決定來到香港中文大學讀博。

圖 | 曾忠燊（來源：曾忠燊）

前不久，曾忠燊和所在團隊提出一個全新評測范式?；谶@一評測范式，他們又針對現(xiàn)有數(shù)據(jù)集，提出了一種改造方法。

實驗證明，這種方法能有效區(qū)分不同模型的能力差異。同時，他們還揭示了這種全新評測范式對于當前數(shù)據(jù)污染的魯棒性。

此前，由于訓練數(shù)據(jù)的不透明，人們無法得知大模型在一些榜單上的成績提升，是否是數(shù)據(jù)污染和題目泄露所帶來的。

而本次提出的全新評測范式，對于“背題”式的成績提高有著極強的抵御能力。憑借這種抵御能力，就能對絕大部分的數(shù)據(jù)集進行“舊改”。

同時，這種全新的評測方式不僅可以揭示大模型的能力差異，也能給下游應用帶來一定啟示。

日前，相關(guān)論文以《大型語言模型評價中的元推理革命》（MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation）為題發(fā)在 arXiv，曾忠燊是第一作者，香港中文大學教授賈佳亞擔任通訊作者 [1]。

圖 | 相關(guān)論文（來源：arXiv）

大模型也在依靠“題海戰(zhàn)術(shù)”？

“背題”“題海戰(zhàn)術(shù)”，是許多人在讀書時代都曾使用過的學習方式。然而，你可知道大模型其實也在使用這兩種學習方式？此外，當前大模型的能力邊界到底在哪里？

從推理和認知這兩個能力維度出發(fā)，當一篇論文稱大模型在一個評測指標上取得超出人類水平的結(jié)果時，我們是否應該感到恐慌？

還是仔細審視在制定指標時是否忽略了什么因素，以至于大模型的認知能力被夸大了？

事實上，對于指標的設計意義思考不足，起碼會帶來以下幾個潛在危害：

其一，評測結(jié)果能否真實反映大模型的能力？如果對此認識不足，往往會過分夸大模型的效果。

其二，會讓人以為指標的提升，等價于大模型能力的提升、以及等價于真實場景的效果和實用性提升，導致盲目追逐和攀比榜單效果，陷入惡性循環(huán)。

其三，過分關(guān)注和比較在細分場景上的表現(xiàn)，忽視了大模型整體認知能力的提升。

當前，面向大模型推理能力和認知能力的評測集，主要依賴一些標準化考試的試題、或一些精心設計的規(guī)則類游戲。

這些評測集的設計初衷，很大程度上是設計者認為求解這類推理類任務所需要的模式識別、記憶召回、分析假設、歸納演繹等能力，是一種處理所有任務都需要的“元”能力，并認為這類能力對于大模型在現(xiàn)實場景中的泛化和魯棒是至關(guān)重要的。

但是，具體到設計這些任務的評測方式時，這些評測集往往僅僅依賴于對最終計算結(jié)果的簡單匹配，而忽略了對于計算過程的認知檢測。

由此可見，這種目標和實現(xiàn)方式的背離，在很大程度上加劇了大模型評測領域的種種亂象。

舉個例子，在圖像識別里有一個著名的“走捷徑”案例，它指的是在對狼和雪狼進行分類時，大模型學習到的規(guī)律是識別背景是否存在積雪，而不是識別兩種動物的生理特征區(qū)別。

而在認知推理類的數(shù)據(jù)集上也存在著類似現(xiàn)象。面對一道數(shù)學題，假如要求大模型給出分步推理的“思維鏈”時，大模型往往會混淆不同單位的量，比如將時速和公里數(shù)相乘相加，這說明對于不同概念背后的物理意義，大模型存在認識不足的問題。

那么，如何更好地檢測大模型對于概念的認知水平、以及檢測它的應用泛化能力？

以下圖為例，對于一個復雜的推理問題來說，假如從起點到終點有多種解答方式，而其中每一步的推理都能被看成是一個節(jié)點，節(jié)點和節(jié)點之間組成了路徑。

而在當前的大模型訓練范式中，往往只讓大模型看到少數(shù)幾條正確的解題路徑（青色或藍色），而忽視了錯誤的路徑（橙色）。

同樣地，在評測大模型的表現(xiàn)時，人們只關(guān)注最終的推理路徑終點是否和標準答案一致，而忽視了推理過程中可能存在的錯誤推理節(jié)點或錯誤路徑。

（來源：arXiv）

舉例來說：

在教育領域，如果 GPT4 在小學級別的數(shù)學題目上的評測準確率只有四成，那么我們難免會對 GPT4 的實用性產(chǎn)生懷疑。

在咨詢領域，大模型的應用場景高度依賴于對不同方案的推演、整體步驟的拆分、解析等能力。

而當今大模型在這些方面的能力缺失，難免讓人對其下游應用的可靠性打上了問號。

讓大模型“從學生變?yōu)槔蠋煛?/span>

基于此，曾忠燊和所在團隊開展了本次研究。事實上，本次研究的靈感來源于一次比賽，此前曾忠燊參加了“粵港澳大灣區(qū)（黃埔）國際算法算例大賽”的分賽道“大語言模型綜合能力強化”。

當時，他調(diào)研了一些關(guān)于大模型推理方向能力增強的論文，這些論文主要分為以下方向：第一個方向是同源數(shù)據(jù)增廣，第二個方向是使用反饋模型針對數(shù)據(jù)篩選、或針對大模型進行強化學習訓練。

在他嘗試使用時，卻發(fā)現(xiàn)這兩個方法均存在很大問題：

第一，當使用 ChatGPT 進行數(shù)據(jù)增廣時，ChatGPT 并不能真正地理解人們希望其生成的一些概念，在應用這些概念造題和解題時常常會出現(xiàn)各種錯誤，因此往往需要非常精細的程序設計和引導來提升準確率。

第二，仔細研究反饋模型的作用后，曾忠燊認為要求一個反饋模型對推理數(shù)據(jù)進行篩選時，實質(zhì)上等價于要求其進行“元推理”。

這一難度甚至高于直接解題，原因在于為了提升解題效果引入更難的評判解題任務，似乎會把一個問題轉(zhuǎn)為另一個更難的問題。

意識到這一問題之后，他和所在團隊研發(fā)了元推理范式，并將其用于一些常見數(shù)據(jù)集之上。

結(jié)果發(fā)現(xiàn)無論是開源大模型還是閉源大模型，它們的表現(xiàn)都開始出現(xiàn)急劇下降，尤其是開源的垂類推理大模型甚至降到了不足百分之一的準確率。

因此，他和同事呼吁將大模型認知推理的檢測重點，從最終的計算結(jié)果匹配，轉(zhuǎn)移到對于計算過程的檢測。

具體做法是：先從解題空間里采樣一些給定的推理路徑，然后讓大模型進行評判。評判的內(nèi)容包括：推理路徑是否正確？錯誤節(jié)點和錯誤步驟在哪里？錯誤原因是什么？

這種評測范式的轉(zhuǎn)變，意味著對于整個解題空間，大模型都必須具備全局和宏觀的理解，做到知其然也要知其所以然。

詳細來說，大模型需要做到如下幾方面：

其一，需要知道推理的最終結(jié)果和節(jié)點是什么；

其二，需要對每一步推理節(jié)點的條件和前提進行審視性評判，并對節(jié)點和節(jié)點間的邏輯連接進行思考，以便判斷當前步驟是否出錯；

其三，需要能夠代入不同假設，或反事實地（counterfactually）針對未來的推理路徑進行預演和分析，從而判斷這一答案是否在正確的推理路徑上。

這些需求將迫使大模型從一個答題者的角度，上升到一個教師的高度進行全局審視和全局推理。對于這種“對推理過程的推理”，該團隊將其稱之為“元推理”評測范式。

（來源：arXiv）

如上圖所示，當他們把元推理范式應用到一個流行的數(shù)學評測集 GSM8k 上時，GPT4 的表現(xiàn)驟降一半以上，而 GPT3.5 的準確率則由 80% 以上驟降到個位數(shù)。

這說明在同一個數(shù)據(jù)集上經(jīng)過簡單的元推理范式轉(zhuǎn)換后，模型能力會出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后，大模型的能力差異出現(xiàn)了更大的分化。

同樣在 GSM8K 上取得領先效果的開源模型比如 Mammoth、WizardMath、MetaMath 等模型，它們的訓練方法是這樣的：針對該數(shù)據(jù)集的數(shù)據(jù)進行大量的同源增廣，以讓效果接近 GPT3.5。

遺憾的是，當課題組對其進行范式轉(zhuǎn)換之后，開源的數(shù)學大模型效果，由原本的接近 GPT3.5、變成遠遜于 GPT3.5。

這可能也表明當前流行的簡單數(shù)據(jù)增強的方法，更接近于“背題”或“題海戰(zhàn)術(shù)”，并不能真正地提升大模型的實際能力。

而作為一種通用評測范式，曾忠燊等人提出的元推理范式，能被推廣到更多評測場景。

此外，本次研究中的標注難度遠遠超出預期。研究期間，他們針對小初級別的數(shù)學數(shù)據(jù)集 GSM8K，進行了元推理范式的改造。

這一改造方式要求標注人員針對數(shù)據(jù)集進行類似的元推理，并將元推理結(jié)果記錄成評測集。

雖然僅僅是小初級別的題目，但他們發(fā)現(xiàn)從讀題、讀標準答案、再到讀采樣出的待評測答案，必須針對每一步進行細致的分析和推理。

而由于耗時較久，單位標注價格也就更高；同時因為難度高，對于標注人員的資質(zhì)要求也高。

曾忠燊說：“我在看到報價的時候，突然想起 OpenAI 有一個論文是對數(shù)學奧林匹克競賽的題目和解題過程進行標注，以進行強化學習的訓練。OpenAI 標注的性質(zhì)和內(nèi)容，和我們存在部分相似的地方?！?/span>

在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里，包含了 80 萬道標注題目。保守估計一道題的標注成本是 10 美元，那么 OpenAI 數(shù)據(jù)集的價格是 800 萬美元。而 OpenAI 那篇論文并沒有催生特別直接的落地成果，也沒有帶來實用效果上的巨大提升。

“在真正了解標注的昂貴和難處后，不禁感慨 OpenAI 的財大氣粗和對失敗的容忍?！痹覠稣f。

另據(jù)悉，OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗（Ilya Sutskever）在一次采訪時被問到：“如果通用人工智能實現(xiàn)后他會選擇做什么？”伊利亞回答說：“或許我會主動融入 AI（be part of AI）。”

閱讀到上述采訪報道時，當時曾忠燊并未明白什么叫融入 AI?？呻S著本次工作的不斷推進，他隱約覺得 AI 要在認知上和人類貼合，可能很大程度上要依賴于人類不斷提供豐富的反饋信號。

“這或許也是一種融入 AI 的方式吧？一種類似于干將莫邪以身殉劍的神話浪漫感?！痹覠稣f。

而在未來，他和所在團隊致力于打造一個更全面、更多元的評測體系。目前，他們已經(jīng)聯(lián)系多家國內(nèi)頭部的標注公司，目標場景包括學科類、邏輯類、具身類和應用類等四個方向的元推理場景構(gòu)筑。

參考資料：1.https://arxiv.org/abs/2312.17080
排版：羅以

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

港中文團隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

港中文團隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系

相關(guān)推薦

技術(shù)專區(qū)

港中文團隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系