谷歌和OpenAI研發(fā)新工具,深入了解AI如何識別圖片
人工智能的世界到底是什么樣子的?
本文引用地址:http://m.butianyuan.cn/article/201903/398352.htm幾十年來,研究人員一直對此感到困惑,但近年來,這個問題變得愈加緊迫。機(jī)器視覺系統(tǒng)正被越來越多地應(yīng)用于生活的各個領(lǐng)域,從醫(yī)療保健到自動駕駛。
但通過機(jī)器的眼睛“看”世界,仍然是一個不小的挑戰(zhàn),比如我們該怎么理解為什么它把有些人歸為行人,而把有些人歸為路標(biāo)。如果我們無法做到這一點,就有可能會造成嚴(yán)重的,甚至是致命的后果。比如前段時間已經(jīng)發(fā)生的,自動駕駛汽車撞上行人致死的事件。
雖然,神經(jīng)網(wǎng)絡(luò)在識別圖像中的物體等任務(wù)上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個謎。它們的內(nèi)部工作方式被屏蔽,隱藏在層層計算中,不讓人看到,使得人類很難診斷錯誤或偏差。
來自谷歌和非盈利實驗室open Ai的新研究希望通過繪制系統(tǒng)來了解世界的視覺數(shù)據(jù),進(jìn)一步撬開人工智能視覺的黑匣子。
這種被稱為“激活圖集”的方法,可以讓研究人員分析出各個算法的工作原理,不僅能揭示它們識別的抽象形狀、顏色和模式,還揭示了它們?nèi)绾谓Y(jié)合這些元素來識別特定的對象、動物和場景。
這項工作的主要研究者,谷歌的Shan Carter說,如果以前的研究就像在算法的視覺字母表中顯示單個字母,那么激活圖集提供了一個更接近整個詞典的東西,它顯示出字母是如何組合成實際單詞的??ㄌ卣f:“例如,在像‘鯊魚’這樣的圖像中,會由很多激活碼構(gòu)成,比如‘牙齒’和‘水’?!?/p>
雖然這不一定是一個巨大的突破,但它是在被稱為“功能可視化”的更廣泛的研究領(lǐng)域向前邁出的一步。佐治亞理工大學(xué)的博士生Ramprasaath Selvaraju表示,這項研究“非常吸引人”,并結(jié)合了許多現(xiàn)有的想法,創(chuàng)造了一個新的極其有用的工具。
Selvaraju說,這樣的工作將有很多用途,幫助我們建立更高效和先進(jìn)的算法,并通過讓研究人員深入研究來提高安全性和消除偏差。“由于神經(jīng)網(wǎng)絡(luò)固有的復(fù)雜性,它們有時缺乏可解釋性,”但他說,在未來,當(dāng)網(wǎng)絡(luò)被廣泛用于自動駕駛汽車和引導(dǎo)機(jī)器人時,這將是必不可少的一步。Open Ai的Chris Olah也參與了這個項目,他說:“這有點像制作顯微鏡。至少,這是我們所設(shè)想的。”
要了解激活圖集和其他功能可視化工具的工作原理,首先需要了解一點人工智能系統(tǒng)如何識別對象。實現(xiàn)這一點的基本方法是使用神經(jīng)網(wǎng)絡(luò):一種與人腦大致相似的計算結(jié)構(gòu)(盡管它在復(fù)雜程度上落后了一個光年)。
每一個神經(jīng)網(wǎng)絡(luò)內(nèi)部都是人工神經(jīng)元層,它們像網(wǎng)一樣連接在一起。就像你大腦中的細(xì)胞一樣,這些細(xì)胞會響應(yīng)刺激,這一過程稱成為激活。重要的是,它們不僅可以啟動或關(guān)閉,它們可以在一個頻譜上注冊,給每個激活一個特定的值或“權(quán)重”。
要把神經(jīng)網(wǎng)絡(luò)變成有用的東西,你必須給它大量的訓(xùn)練數(shù)據(jù)。這意味著數(shù)十萬甚至數(shù)百萬張圖像,每一張都標(biāo)有特定的類別。在谷歌和Openai的研究人員為這項工作測試的過程中,這些圖像涉及面廣泛:從羊毛到溫莎領(lǐng)帶,從安全帶到空間加熱器。
當(dāng)它輸入這些數(shù)據(jù)時,神經(jīng)網(wǎng)絡(luò)中的不同神經(jīng)元會響應(yīng)每個圖像而亮起。此模式連接到圖像的標(biāo)簽。一旦經(jīng)過訓(xùn)練后,您就可以向網(wǎng)絡(luò)展示一張以前它從未見過的圖片,并且神經(jīng)元將激活,將輸入內(nèi)容與特定類別相匹配。恭喜你!剛剛成功訓(xùn)練了機(jī)器學(xué)習(xí)視覺算法。
這讓研究人員可以觀察到網(wǎng)絡(luò)的一些情況,通過在不同信息層之間切換,他們可以看到網(wǎng)絡(luò)是如何從構(gòu)建到最終決策的,從形狀和紋理等基本視覺概念開始到具體的對象。
例如,Olah注意到,狗的品種在很大程度上是以耳朵的下垂程度來區(qū)分的。圖集還展示了網(wǎng)絡(luò)是如何聯(lián)系不同的物體和想法的,比如說,把狗耳朵放在離貓耳朵不太遠(yuǎn)的地方,看隨著層級的發(fā)展,這些區(qū)別是如何變得清晰的。
該研究還發(fā)現(xiàn)了一些驚喜,例如,Olah拍攝了一張魚鰭的照片,一條魚鰭劃過了洶涌的海水,那么它到底是屬于灰鯨還是大白鯊?作為一個沒有釣魚經(jīng)驗的人,我不會冒險猜測,但是作為曾經(jīng)看到過大量鯊魚和鯨魚鰭的神經(jīng)網(wǎng)絡(luò)不應(yīng)該有問題。
然后Olah展示了在神經(jīng)網(wǎng)絡(luò)的特定層面上與兩只動物相關(guān)的圖集圖像,但其中一個鯊魚圖像特別奇怪。如果你仔細(xì)一看,你可能會看到一排排潔白的牙齒和牙齦,樣子卻同棒球的接縫十分相似。
事實證明,他們研究的神經(jīng)網(wǎng)絡(luò)也有這樣的視覺隱喻的天賦,這可以作為愚弄系統(tǒng)的廉價技巧。通過改變魚鰭照片,比如說,在一個角落放置一個棒球郵票圖像,Carter和Olah發(fā)現(xiàn)可以很容易地說服神經(jīng)網(wǎng)絡(luò)鯨魚實際上是一條鯊魚。
Olah說,這種方法不太可能被網(wǎng)絡(luò)破壞者所使用,因為其實有更簡單更微妙的方式來制造混亂。比如他們可以自動生成所謂的對抗性補丁,使網(wǎng)絡(luò)混淆,把貓當(dāng)作是一碗鱷梨醬,甚至導(dǎo)致自動駕駛汽車誤讀停止標(biāo)志。
但令人興奮的是,有了這個工具,人類可以充分了解網(wǎng)絡(luò)的內(nèi)部深度,使得它最終幫助我們識別混淆或偏差,并及時糾正。
但是錯誤也是時有發(fā)生的,比如說,把不同種族的人類識別成大猩猩而非人。有了這樣的可視化工具,研究人員可以查看是什么外來信息或視覺相似性導(dǎo)致了錯誤的發(fā)生。
也就是說,試圖預(yù)測神經(jīng)網(wǎng)絡(luò)的內(nèi)核是存在風(fēng)險的?!叭藗兂3?dān)心你可能在欺騙你自己,”奧拉說,風(fēng)險在于我們可能試圖強加我們熟悉的視覺概念或?qū)ふ矣幸饬x的簡單解釋。
這就是包括人工智能先驅(qū)Hinton在內(nèi)的一些人物一直反對人類解釋AI運作規(guī)律的原因之一,正如人類無法解釋他們的大腦如何做出決定一樣,計算機(jī)也是同樣。他最近在接受WIRED采訪時說道:“如果你非要要求他們解釋所做的決定,你就會強迫他們編造一個故事?!?/p>
雖然爭議不斷,但“激活圖集”的研究者們始終認(rèn)為:每一代新工具的研發(fā)都在讓我們更接近這些在網(wǎng)絡(luò)中發(fā)生事情的真相。
評論