OpenAI 最新“神”操作:讓 GPT-4 去解釋 GPT-2 的行為!
由 ChatGPT 掀起的這場(chǎng) AI 革命,令人們感慨神奇的同時(shí),也不禁發(fā)出疑問:AI 究竟是怎么做到這一切的?
此前,即便是專業(yè)的數(shù)據(jù)科學(xué)家,都難以解釋大模型(LLM)運(yùn)作的背后。而最近,OpenAI 似乎做到了——本周二,OpenAI 發(fā)布了其最新研究:讓 GPT-4 去試著解釋 GPT-2 的行為。
即:讓一個(gè) AI “黑盒”去解釋另一個(gè) AI “黑盒”。
工作量太大,決定讓 GPT-4 去解釋 GPT-2
OpenAI 之所以做這項(xiàng)研究的原因,在于近來人們對(duì) AI 倫理與治理的擔(dān)憂:“語言模型的能力越來越強(qiáng),部署也越來越廣泛,但我們對(duì)其內(nèi)部工作方式的理解仍然非常有限?!?/span>
由于 AI 的“黑盒”性質(zhì),人們很難分辨大模型的輸出結(jié)果是否采用了帶有偏見性質(zhì)的方法,也難以區(qū)分其正確性,因而“可解釋性”是亟待重要的一個(gè)問題。
AI 的發(fā)展很大程度上是在模仿人類,因而大模型和人腦一樣,也由神經(jīng)元組成,它會(huì)觀察文本規(guī)律進(jìn)而影響到輸出結(jié)果。所以想要研究 AI 的“可解釋性”,理論上要先了解大模型的各個(gè)神經(jīng)元在做什么。
按理來說,這本應(yīng)由人類手動(dòng)檢查,來弄清神經(jīng)元所代表的數(shù)據(jù)特征——參數(shù)量少還算可行,可對(duì)于如今動(dòng)輒百億、千億級(jí)參數(shù)的神經(jīng)網(wǎng)絡(luò),這個(gè)工作量顯然過于“離譜”了。
于是,OpenAI 靈機(jī)一動(dòng):或許,可以用“魔法”打敗“魔法”?
“我們用 GPT-4 為大型語言模型中的神經(jīng)元行為自動(dòng)編寫解釋,并為這些解釋打分。”而 GPT-4 首次解釋的對(duì)象是 GPT-2,一個(gè) OpenAI 發(fā)布于 4 年前、神經(jīng)元數(shù)量超過 30 萬個(gè)的開源大模型。
讓 GPT-4 “解釋” GPT-2 的原理
具體來說,讓 GPT-4 “解釋” GPT-2 的過程,整體分為三個(gè)步驟。
(1)首先,讓 GPT-4 生成解釋,即給出一個(gè) GPT-2 神經(jīng)元,向 GPT-4 展示相關(guān)的文本序列和激活情況,產(chǎn)生一個(gè)對(duì)其行為的解釋。
如上圖所示,GPT-4 對(duì) GPT-2 該神經(jīng)元生成的解釋為:與電影、人物和娛樂有關(guān)。
(2)其次,再次使用 GPT-4,模擬被解釋的神經(jīng)元會(huì)做什么。下圖即 GPT-4 生成的模擬內(nèi)容。
(3)最后,比較 GPT-4 模擬神經(jīng)元的結(jié)果與 GPT-2 真實(shí)神經(jīng)元的結(jié)果,根據(jù)匹配程度對(duì) GPT-4 的解釋進(jìn)行評(píng)分。在下圖展示的示例中,GPT-4 得分為 0.34。
通過這樣的方法,OpenAI 共讓 GPT-4 解釋了 GPT-2 中的 307200 個(gè)神經(jīng)元,其中大多數(shù)解釋的得分很低,只有超過 1000 個(gè)神經(jīng)元的解釋得分高于 0.8。
在官博中,OpenAI 承認(rèn)目前 GPT-4 生成的解釋并不完美,尤其在解釋比 GPT-2 規(guī)模更大的模型時(shí),效果更是不佳:“可能是因?yàn)楹竺娴?layer 更難解釋?!?/span>
盡管絕大多數(shù)解釋的得分不高,但 OpenAI 認(rèn)為,“即使 GPT-4 給出的解釋比人類差,但也還有改進(jìn)的余地”,未來通過 ML 技術(shù)可提高 GPT-4 的解釋能力,并提出了三種提高解釋得分的方法:
? 對(duì)解釋進(jìn)行迭代,通過讓 GPT-4 想出可能的反例,根據(jù)其激活情況修改解釋來提高分?jǐn)?shù)。
? 使用更大的模型來進(jìn)行解釋,平均得分也會(huì)上升。
? 調(diào)整被解釋模型的結(jié)構(gòu),用不同的激活函數(shù)訓(xùn)練模型。
值得一提的是,以上這些解釋數(shù)據(jù)集、可視化工具以及代碼,OpenAI 都已在 GitHub 上開源發(fā)布:“我們希望研究界能開發(fā)出新技術(shù)以生成更高分的解釋,以及更好的工具來使用解釋探索 GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
“再搞下去,AI 真的要覺醒了”
除此之外,OpenAI 還提到了目前他們采取的方法有很多局限性,未來需要一一攻克:
? GPT-4 給出的解釋總是很簡(jiǎn)短,但神經(jīng)元可能有著非常復(fù)雜的行為,不能簡(jiǎn)潔描述。
? 當(dāng)前的方法只解釋了神經(jīng)元的行為,并沒有涉及下游影響,希望最終能自動(dòng)化找到并解釋能實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路。
? 只解釋了神經(jīng)元的行為,并沒有解釋產(chǎn)生這種行為的背后機(jī)制。
? 整個(gè)過程都是相當(dāng)密集的計(jì)算,算力消耗很大。
在博文的最后,OpenAI 展望道:“我們希望將我們最大的模型解釋為一種在部署前后檢測(cè)對(duì)齊和安全問題的方式。然而,在這些技術(shù)能夠揭露不誠(chéng)實(shí)等行為之前,我們還有很長(zhǎng)的路要走。”
對(duì)于 OpenAI 的這個(gè)研究成果,今日在國(guó)內(nèi)外各大技術(shù)平臺(tái)也引起了廣泛關(guān)注。
有人在意其得分不佳:“對(duì) GPT-2 的解釋都不行,就更不知道 GPT-3 和 GPT-4 內(nèi)部發(fā)生了什么,但這才是許多人更關(guān)注的答案?!庇腥烁锌?AI 進(jìn)化的方式愈發(fā)先進(jìn):“未來就是用 AI 完善 AI 模型,會(huì)加速進(jìn)化?!币灿腥藫?dān)心 AI 進(jìn)化的未來:“再搞下去,AI 真的要覺醒了。”
那么對(duì)此,你又有什么看法呢?
參考鏈接:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://news.ycombinator.com/item?id=35877402
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。