獨家 | 人工神經(jīng)網(wǎng)絡中發(fā)現(xiàn)了人類大腦擁有的多模態(tài)神經(jīng)元

發(fā)布人：數(shù)據(jù)派THU 時間：2021-04-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

OpenAI最近在CLIP神經(jīng)網(wǎng)絡上發(fā)現(xiàn)了神經(jīng)元。無論這是字面意義、象征意義還是概念上的表示，這些神經(jīng)元都對相同的概念做出反應。這個發(fā)現(xiàn)或許可以解釋CLIP在對令人驚訝的視覺化概念分類時的準確度。同時，這種發(fā)現(xiàn)讓人們向理解CLIP和其他類似模型在訓練過程中學習到的關(guān)聯(lián)和偏差邁出了重要的一步。

內(nèi)容

CLIP中的多模態(tài)神經(jīng)元
不存在的概念（concepts）
多模態(tài)神經(jīng)元的構(gòu)成
抽象（abstraction）的悖論
野生攻擊
偏差與過度泛化
總結(jié)

十五年前，Quiroga等人1發(fā)現(xiàn)人類大腦中擁有多模態(tài)神經(jīng)元。這些神經(jīng)元會對圍繞著一個高級主題的抽象概念（而不是對特定視覺特征的抽象概念）做出反應。其中，最著名的當屬“Halle Berry”神經(jīng)元，這是一個被《科學美國人》和《紐約時報》都使用過的例子。這個神經(jīng)元只對美國女演員“Halle Berry”的相片、草圖、文字做出反應。

《科學美國人》

https://www.scientificamerican.com/article/one-face-one-neuron/

《紐約時報》

https://www.nytimes.com/2005/07/05/science/a-neuron-with-halle-berrys-name-on-it.html

兩個月前，OpenAI發(fā)布了CLIP，這是一個可與ResNet-50 2表現(xiàn)力相比肩的通用視覺系統(tǒng)。不僅如此，在一些具有挑戰(zhàn)性的數(shù)據(jù)集上，CLIP的表現(xiàn)超過了現(xiàn)有的視覺系統(tǒng)。這些具有挑戰(zhàn)的數(shù)據(jù)集（ObjectNet，ImageNet Rendition和ImageNet Sketch）均對模型的魯棒性進行了壓力測試，不僅要識別簡單的變形、光照或姿勢變化，還要完成對物體（無論是以草圖、卡通或雕塑的形式出現(xiàn)）的抽象和重建。

CLIP

https://openai.com/blog/clip/

現(xiàn)在，OpenAI要發(fā)布關(guān)于CLIP中存在多模態(tài)神經(jīng)元的發(fā)現(xiàn)。舉個例子，一個“Spider-Man”神經(jīng)元（與“Halle Berry”神經(jīng)元類似），它會對蜘蛛的圖像，對標注了“spider”文字的圖像，以及漫畫人物“蜘蛛俠”的服裝或插圖做出反應。

OpenAI在CLIP中發(fā)現(xiàn)的多模態(tài)神經(jīng)元為這些研究人員提供了線索——抽象是合成視覺系統(tǒng)與自然視覺系統(tǒng)中的普遍機制。由此，他們發(fā)現(xiàn)CLIP的最高層將圖像組織為“ideas”的松散語義集合，這些集合從而對模型的通用性和表現(xiàn)形式的緊湊性做出了簡單解釋。

生物神經(jīng)元，諸如著名的“Halle Berry“”神經(jīng)元不會激發(fā)“ideas”的視覺集群，而是激發(fā)語義集群。在CLIP的最高層，研究人員發(fā)現(xiàn)了相似的語義不變性。請注意，這些圖像被Quiroga等人1的高分辨率圖片替代，Quiroga等人的這些高分率圖片本身就是原刺激的替代。

OpenAI使用可解釋性工具，對CLIP權(quán)重之內(nèi)的豐富視覺概念進行了史無前例的研究。他們在CLIP中發(fā)現(xiàn)了涵蓋人類視覺詞典大部分的高級概念，包括地理區(qū)域、面部表情、宗教圖像、名人等。通過探究每個神經(jīng)元的后續(xù)影響力，我們可以對CLIP如何執(zhí)行分類任務加深了解。

CLIP中的多模態(tài)神經(jīng)元

本文建立在近十年來對卷積網(wǎng)絡解釋3,4,5,6,7,8,9,10,11,12的研究基礎(chǔ)上，本研究首先觀察到許多經(jīng)典技術(shù)可以直接用于CLIP。OpenAI使用了兩種工具對模型激活進行理解：特征可視化6,5,12（feature visualization）和數(shù)據(jù)集示例4（dataset examples）。前者是通過對輸入進行基于梯度的優(yōu)化最大化神經(jīng)元的激活；后者則是觀察一個數(shù)據(jù)集中一個神經(jīng)元最大激活圖像的分布。

使用這些簡單的技術(shù)，研究者們發(fā)現(xiàn)CLIP RN50x4（ResNet-50 利用 EfficientNet 擴展規(guī)則擴增 4 倍）中的大多數(shù)神經(jīng)元都可以被輕易地解釋。然而，這些神經(jīng)元似乎是“多面神經(jīng)元（multi-faceted neurons）” 11的極端示例，即這些神經(jīng)元僅在更高的抽象水平下對不同示例做出反應。下面的圖片展示了它們的區(qū)別：

由神經(jīng)元（Neuron）展示的不同效果

由多面神經(jīng)元（Facet Neuron）展示的效果

選擇的神經(jīng)元來自四個CLIP模型的最后一層。每個神經(jīng)元由帶有人為選擇的概念標簽的特征可視化進行表示，這些標簽為快速提供每個神經(jīng)元的感覺提供幫助。不僅是特征可視化，這些標簽是在查看激活神經(jīng)元的數(shù)百種刺激后被選擇的。我們在這里通過一些例子說明了模型對區(qū)域、感情和其他概念的刻板描述傾向。除此之外，我們還看到了神經(jīng)元分辨率水平的差異：雖然某些國家（如美國和印度）與定義明確的神經(jīng)元有關(guān)，但非洲國家的情況并非如此。在非洲，神經(jīng)元傾向于在整個地區(qū)進行激活。這部分偏差及其含義將在后面的部分中進行討論。

的確，研究人員驚訝地發(fā)現(xiàn)了例子中許多類別似乎反映了帶有顱內(nèi)深度電極記錄的癲癇患者內(nèi)側(cè)顳葉中的神經(jīng)元。這些神經(jīng)元包含了那些對情緒17、動物18和名人1做出反應的神經(jīng)元。

但是，研究人員對CLIP的研究揭示了更多這樣奇妙的抽象，它們包括了似乎可以計數(shù)的神經(jīng)元[17，202，310]，對藝術(shù)風格做出反應的神經(jīng)元[75，587，122]，甚至對具有處理痕跡的圖像做出反應的神經(jīng)元[1640]號。（請在原文中對這些神經(jīng)元進行進一步查看）

不存在的概念

盡管這個分析顯示了概念的廣泛程度，但OpenAI的研究人員注意到，在神經(jīng)元級別上進行的簡單分析不能代表模型行為的完整記錄。例如，CLIP的作者證明了該模型能夠進行非常精確的地理位置定位19（Appendix E.4，F(xiàn)igure 20），其粒度可以擴展到城市甚至社區(qū)的級別。這里有一個趣事：如果通過CLIP運行自己的個人照片，研究人員注意到CLIP經(jīng)?？梢宰R別出照片是否是在舊金山，或者其附近（例如“雙子峰”）拍攝的。

盡管盡了最大的努力，但是研究人員還沒有找到“San Francisco”神經(jīng)元，從歸因上看，舊金山（“San Francisco”）似乎也沒有很好地分解成像加州和城市這樣有意義的單元概念。我們相信這些信息被編碼在模型激活的某個地方，但以一種更奇特的方式，要么是一個方向，要么是其他一些更復雜的流形。我們相信這是一個值得進一步研究的方向。

多模態(tài)神經(jīng)元的構(gòu)成

這些多峰神經(jīng)元可以幫助人們深入了解CLIP是如何執(zhí)行分類的。使用一個稀疏線性探針19，研究人員能夠輕松地檢查CLIP的權(quán)重，進而觀察哪些概念結(jié)合在一起實現(xiàn)了ImageNet數(shù)據(jù)集的最終分類：

如上圖，存錢罐類別似乎是“finance”神經(jīng)元和瓷器（porcelain）神經(jīng)元的組合。前文提到的“Spider-Man”俠神經(jīng)元也是一個蜘蛛（spider）檢測器，在“barn spider”（谷倉蜘蛛）類別的分類中起到了重要作用。

對于文本分類，研究人員的一個重要發(fā)現(xiàn)是，這些概念以類似于word2vec目標函數(shù)20的形式包含在神經(jīng)元中，它們幾乎是線性的。因此，這些概念組成了一個簡單的代數(shù)形式，其行為與線性探針類似。通過線性化注意力，研究人員也可以像線性探針一樣檢查任何句子，如下所示：

在探究CLIP如何理解單詞的過程中，模型似乎發(fā)現(xiàn)“surprised”一詞不僅暗示了某種程度的震驚，而且還包含了一種形式非常特殊的“震驚”，其可能與“喜悅”或“驚異”結(jié)合在一起。“Intimate”則包含了柔和的笑容和內(nèi)心，但不包括疾?。╯ickness）。研究人員還注意到，對“intimate”的理解揭示了人類對親密關(guān)系完整體驗的還原性理解——排除疾病（例如，與生病的親人的親密時光被排除在外）。在探究CLIP對語言的理解時，研究人員發(fā)現(xiàn)了很多類似的排除和遺漏。

抽象（abstraction）的悖論

CLIP中的抽象程度揭示了一個新的攻擊向量（vector of attack），OpenAI認為攻擊向量在以前的系統(tǒng)中并未表現(xiàn)出來。如同其他深度網(wǎng)絡，CLIP最高層的表征完全由這種高級抽象控制。但是CLIP的與眾不同在于其程度（degree）—— CLIP的多模態(tài)神經(jīng)元泛化（generalize）范圍從文字覆蓋到符號，而這可能是一把雙刃劍。

通過一系列精心構(gòu)建的實驗，研究人員證明了人類可以利用這種還原行為來欺騙模型，使之進行荒謬的分類。研究人員已經(jīng)觀察到，CLIP中神經(jīng)元的激發(fā)通?？梢酝ㄟ^其對文本圖像（images of text）的反應來控制，從而為攻擊模型提供了一個簡單的（攻擊）向量。

例如，金融（finance）神經(jīng)元[1330]號對存錢罐的圖像做出反應，但也對字符串“ $$$”做出反應。通過強迫激活1330號神經(jīng)元，研究人員可以欺騙模型，并將狗分類為存錢罐。

如上圖所示，通過在圖像上渲染文本，研究人員人為地刺激了1330號神經(jīng)元，該神經(jīng)元在線性探針的“存錢罐（piggy bank）”類中具有很高的權(quán)重。這導致分類器將貴賓犬錯誤地分類為存錢罐。

野生攻擊

OpenAI將這些攻擊稱為排版攻擊（typographic attacks）。研究人員認為如上所述的攻擊絕不僅僅與學術(shù)相關(guān)。研究人員發(fā)現(xiàn)，通過利用模型強大的讀取文本的能力，即使是手寫文本的照片（photographs of hand-written text）也常常會欺騙模型。像對抗補丁（Adversarial Patch）21一樣，該攻擊屬于野生攻擊；但與對抗補丁不同的是，排版攻擊只需要筆和紙即可。

當研究人員在這個Granny Smith（蘋果的一個種類）蘋果上貼一個標有“iPod”的標簽時，在零次學習（zero-shot）設(shè)置中，該模型會錯誤地將其歸類為iPod。

OpenAI還認為，這些攻擊也可能采取更微妙的、不太引人注目的形式。當那些提供給CLIP的圖像以許多微妙而復雜的方式抽象，這些抽象可能會過度抽象常見的模式——即過于簡化，并因此而發(fā)生過度泛化的情況。

偏差與過度泛化

盡管CLIP模型是在精心挑選的互聯(lián)網(wǎng)子集上進行訓練的，但它仍然繼承了其許多不受控制的偏差和關(guān)聯(lián)。研究人員發(fā)現(xiàn)許多關(guān)聯(lián)似乎是良性的，但是CLIP也包括幾種可能導致很大損害的關(guān)聯(lián)，例如，對某些特定人群或團體的詆毀。

例如，研究人員已經(jīng)觀察到“Middle East”神經(jīng)元[1895]號與恐怖主義有關(guān)；“immigration”神經(jīng)元[395]號對拉丁美洲產(chǎn)生反應。研究人員甚至發(fā)現(xiàn)了一個對黑皮膚人群和大猩猩都產(chǎn)生反應的神經(jīng)元[1257]號。這些都反映了那些人們不可接受的早期其他模型中存在的圖像標注問題22。

這些關(guān)聯(lián)對此類強大的視覺系統(tǒng)的應用提出了極大的挑戰(zhàn)[1]。無論是微調(diào)還是使用零樣本學習（zero-shot），這些偏差和關(guān)聯(lián)都很可能會保留在系統(tǒng)中，它們也會以可見和幾乎不可見的方式影響部署過程。許多偏差行為可能很難被提前預測，進而測量和校正這些偏差也變得困難。研究人員認為，這些可解釋性工具可以提前發(fā)現(xiàn)其中一些關(guān)聯(lián)和歧義，以幫助從業(yè)人員預防潛在問題。

[1]請注意，發(fā)布的CLIP模型僅用于研究目的。請參閱相關(guān)的型號卡。

OpenAL對CLIP的理解仍在進行中，是否會發(fā)布以及如何發(fā)布大型CLIP仍在討論中。研究人員希望大家對已發(fā)布的版本和工具進行進一步的探索，這不僅有助于增進對多模態(tài)系統(tǒng)的理解，也能為人類自己的決策提供信息。

總結(jié)

除了本文的發(fā)布，OpenAI還發(fā)布了一些他們用來理解CLIP的工具——OpenAI Microscope中目錄已更新，其中包含CLIP RN50x4中每個神經(jīng)元的特征可視化、數(shù)據(jù)集示例和文本特征可視化。OpenAI還將發(fā)布CLIP RN50x4和RN101的權(quán)重，以進一步進行此類研究。OpenAI的研究人員相信目前對CLIP行為的理解的研究僅僅是以升量石，OpenAI歡迎各種學術(shù)組織的加入以推動對CLIP及類似模型的理解的研究。

OpenAI Microscope

https://microscope.openai.com/models

CLIP RN50x4

https://github.com/openai/CLIP

論文鏈接：

https://distill.pub/2021/multimodal-neurons/

代碼鏈接：

https://github.com/openai/CLIP-featurevis

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。