新聞中心

EEPW首頁 > 業(yè)界動態(tài) > 創(chuàng)新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI布局進入科研收獲季

創(chuàng)新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI布局進入科研收獲季

作者:允中 時間:2019-09-05 來源:量子位 收藏

本文經(jīng)AI新媒體量子位(公眾號 ID: QbitAI)授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

本文引用地址:http://m.butianyuan.cn/article/201909/404501.htm

NeurIPS 2019放榜,創(chuàng)新工場AI工程院論文在列。

名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。

一作是創(chuàng)新工場南京國際AI研究院執(zhí)行院長馮霽,二作是創(chuàng)新工場南京國際人工智能研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。

論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動數(shù)據(jù)庫的方式,徹底破壞對應的學習系統(tǒng)的性能,達到“數(shù)據(jù)下毒”的目的。

創(chuàng)新工場介紹稱,這一研究就并不單單是為了揭示類似的AI入侵或攻擊技術對系統(tǒng)安全的威脅,還能協(xié)助針對性地制定防范“AI黑客”的完善方案,推動AI安全攻防領域的發(fā)展。

NeurIPS,全稱神經(jīng)信息處理系統(tǒng)大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產(chǎn)業(yè)界的高度關注,是AI學術領域的“華山論劍”。

作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數(shù)分鐘內(nèi)被搶光,而且在論文的投稿錄取上,競爭同樣激烈。

今年,NeurIPS會議的論文投稿量再創(chuàng)新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。

“數(shù)據(jù)下毒”論文入選頂會NeurIPS

那這次創(chuàng)新工場AI工程院這篇入選論文,核心議題是什么?

我們先拆解說說。

近年來,機器學習熱度不斷攀升,并逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型并非想象中堅不可摧。

例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。

創(chuàng)新工場AI工程院為此專門成立了AI安全實驗室,針對人工智能系統(tǒng)的安全性進行了深入對評估和研究。

在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練數(shù)據(jù)的最先進方法之一——DeepConfuse。

給數(shù)據(jù)下毒

通過劫持神經(jīng)網(wǎng)絡的訓練過程,教會噪聲生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現(xiàn)了“數(shù)據(jù)下毒”。

顧名思義,“數(shù)據(jù)下毒”即讓訓練數(shù)據(jù)“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的后續(xù)預測過程出現(xiàn)偏差。

“數(shù)據(jù)下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在于不同的威脅場景:前者通過修改訓練數(shù)據(jù)讓模型“中毒”,后者通過修改待測試的樣本讓模型“受騙”。

舉例來說,假如一家從事機器人視覺技術開發(fā)的公司希望訓練機器人識別現(xiàn)實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練數(shù)據(jù)。

研發(fā)人員在目視檢查訓練數(shù)據(jù)時,通常不會感知到異常(因為使數(shù)據(jù)“中毒”的噪音數(shù)據(jù)在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。

但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅(qū)動的機器人在真實場景中會徹底“懵圈”,陷入什么也認不出的尷尬境地。

更有甚者,攻擊者還可以精心調(diào)整“下毒”時所用的噪音數(shù)據(jù),使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或?qū)⑽kU場景標記成安全場景等。

為了達成這一目的,這篇論文設計了一種可以生成對抗噪聲的自編碼器神經(jīng)網(wǎng)絡DeepConfuse。

通過觀察一個假想分類器的訓練過程更新自己的權重,產(chǎn)生“有毒性”的噪聲,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結(jié)為一個具有非線性等式約束的非凸優(yōu)化問題。

下毒無痕,毒性不小

從實驗數(shù)據(jù)可以發(fā)現(xiàn),在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同數(shù)據(jù)集上,使用“未被下毒”的訓練數(shù)據(jù)集和“中毒”的訓練數(shù)據(jù)集所訓練的系統(tǒng)模型在分類精度上存在較大的差異,效果非??捎^。

與此同時,從實驗結(jié)果來看,該方法生成的對抗噪聲具有通用性,即便是在隨機森林和支持向量機這些非神經(jīng)網(wǎng)絡上也有較好表現(xiàn)。

其中,藍色為使用“未被下毒”的訓練數(shù)據(jù)訓練出的模型在泛化能力上的測試表現(xiàn),橙色為使用“中毒”訓練數(shù)據(jù)訓練出的模型的在泛化能力上的測試表現(xiàn)。

在CIFAR和IMAGENET數(shù)據(jù)集上的表現(xiàn)也具有相似效果,證明該方法所產(chǎn)生的對抗訓練樣本在不同的網(wǎng)絡結(jié)構(gòu)上具有很高的遷移能力。

此外,論文中提出的方法還能有效擴展至針對特定標簽的情形下,即攻擊者希望通過一些預先指定的規(guī)則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計劃,定向發(fā)生錯誤。

例如,下圖為MINIST數(shù)據(jù)集上,不同場景下測試集上混淆矩陣的表現(xiàn),分別為干凈訓練數(shù)據(jù)集、無特定標簽的訓練數(shù)據(jù)集、以及有特定標簽的訓練數(shù)據(jù)集。

實驗結(jié)果有力證明,為有特定標簽的訓練數(shù)據(jù)集做相應設置的有效性,未來有機會通過修改設置以實現(xiàn)更多特定的任務。

對數(shù)據(jù)“下毒”技術的研究并不單單是為了揭示類似的AI入侵或攻擊技術對系統(tǒng)安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防范“AI黑客”的完善方案。

隨著AI算法、AI系統(tǒng)在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,并有針對性地為自動駕駛、AI輔助醫(yī)療、AI輔助投資等涉及生命安全、財富安全的領域研發(fā)最有效的防護手段。

還關注聯(lián)邦學習

除了安全問題之外,人工智能應用的數(shù)據(jù)隱私問題,也是創(chuàng)新工場AI安全實驗室重點關注的議題之一。

近年來,隨著人工智能技術的高速發(fā)展,社會各界對隱私保護及數(shù)據(jù)安全的需求加強,聯(lián)邦學習技術應運而生,并開始越來越多地受到學術界和工業(yè)界的關注。

具體而言,聯(lián)邦學習系統(tǒng)是一個分布式的具有多個參與者的機器學習框架,每一個聯(lián)邦學習的參與者不需要與其余幾方共享自己的訓練數(shù)據(jù),但仍然能利用其余幾方參與者提供的信息更好的訓練聯(lián)合模型。

換言之,各方可以在在不共享數(shù)據(jù)的情況下,共享數(shù)據(jù)產(chǎn)生的知識,達到共贏。

創(chuàng)新工場AI工程院也十分看好聯(lián)邦學習技術的巨大應用潛力。

今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創(chuàng)新工場南京國際人工智能研究院執(zhí)行院長馮霽代表創(chuàng)新工場當選為IEEE聯(lián)邦學習標準制定委員會副主席,著手推進制定AI協(xié)同及大數(shù)據(jù)安全領域首個國際標準。

創(chuàng)新工場也將成為聯(lián)邦學習這一技術“立法”的直接參與者。

創(chuàng)新工場AI工程院科研成績單

創(chuàng)新工場憑借獨特的VC+AI(風險投資與AI研發(fā)相結(jié)合)的架構(gòu),致力于扮演前沿科研與AI商業(yè)化之間的橋梁角色。

創(chuàng)新工場2019年廣泛開展科研合作,與其他國際科研機構(gòu)合作的論文,入選多項國際頂級會議,除上述介紹的“數(shù)據(jù)下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及圖像處理、自動駕駛、自然語言處理、金融AI和區(qū)塊鏈等方向。

兩篇論文入選ICCV

Disentangling Propagation and Generation for Video Prediction

https://arxiv.org/abs/1812.00452

這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。

Joint Monocular 3D Vehicle Detection and Tracking

https://arxiv.org/abs/1811.10742

這篇論文提出了一種全新的在線三維車輛檢測與跟蹤的聯(lián)合框架,不僅能隨著時間關聯(lián)車輛的檢測結(jié)果,同時可以利用單目攝像機獲取的二維移動信息估計三維的車輛信息。

一篇論文入選IROS

Monocular Plan View Networks for Autonomous Driving

http://arxiv.org/abs/1905.06937

針對端到端的控制學習問題提出了一個對當前觀察的視角轉(zhuǎn)換,將其稱之為規(guī)劃視角,它把將當前的觀察視角轉(zhuǎn)化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛并將其投影至一個俯瞰視角。

三篇論文入選EMNLP

Multiplex Word Embeddings for Selectional Preference Acquisition

提出了一種multiplex詞向量模型。在該模型中,對于每個詞而言,其向量包含兩部分,主向量和關系向量,其中主向量代表總體語義,關系向量用于表達這個詞在不同關系上的特征,每個詞的最終向量由這兩種向量融合得到。

What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues

https://assert.pub/papers/1909.00421

提出了一個新模型(VisCoref)及一個配套數(shù)據(jù)集(VisPro),用以研究如何將代詞指代與視覺信息進行整合。

Reading Like HER: Human Reading Inspired Extractive Summarization

人類通過閱讀進行文本語義的摘要總結(jié)大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要信息,2)進而進行細致的閱讀選取關鍵句子形成摘要。

本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,并采用策略梯度方法來求解。

一篇論文入選IEEE TVCG

sPortfolio: Strati?ed Visual Analysis of Stock Portfolios

https://www.ncbi.nlm.nih.gov/pubmed/31443006

主要是對于金融市場中的投資組合和多因子模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析并升決策準確性。

并提出了一個全新的可視化分析系統(tǒng)sPortfolio,它允許用戶根據(jù)持倉,因子和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協(xié)調(diào)的視圖。

一篇論文入選NSDI

Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones

https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf

提出了一種名為異步共識組 Monoxide 的區(qū)塊鏈擴容方案,可以在由 4.8 萬個全球節(jié)點組成的測試環(huán)境中,實現(xiàn)比比特幣網(wǎng)絡高出 1000 倍的每秒事務處理量,以及 2000 倍的狀態(tài)內(nèi)存容量,有望打破“不可能三角”這個長期困擾區(qū)塊鏈性能的瓶頸。

獨特的“科研助推商業(yè)”思路

國內(nèi)VC,發(fā)表論文都很少見,為什么創(chuàng)新工場如此做?

這背后在于其“VC+AI”模式。

最獨特之處在于,創(chuàng)新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域里最有可能轉(zhuǎn)變?yōu)槲磥砩虡I(yè)價值的科研方向。

這種“科研助推商業(yè)”的思路力圖盡早發(fā)現(xiàn)有未來商業(yè)價值的學術研究,然后在保護各方知識產(chǎn)權和商業(yè)利益的前提下積極與相關科研方開展合作。

同時,由AI工程院的產(chǎn)品研發(fā)團隊嘗試該項技術在不同商業(yè)場景里可能的產(chǎn)品方向、研發(fā)產(chǎn)品原型,并由商務拓展團隊推動產(chǎn)品在真實商業(yè)領域的落地測試,繼而可以為創(chuàng)新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。

“科研助推商業(yè)”并不是簡單地尋找有前景的科研項目,而是將技術跟蹤、人才跟蹤、實驗室合作、知識產(chǎn)權合作、技術轉(zhuǎn)化、原型產(chǎn)品快速迭代、商務拓展、財務投資等多維度的工作整合在一個統(tǒng)一的資源體系內(nèi),用市場價值為導向,有計劃地銜接學術科研與商業(yè)實踐。

以AI為代表的高新技術目前正進入商業(yè)落地優(yōu)先的深入發(fā)展期,產(chǎn)業(yè)大環(huán)境亟需前沿科研技術與實際商業(yè)場景的有機結(jié)合。

創(chuàng)新工場憑借在風險投資領域積累的豐富經(jīng)驗,以及在創(chuàng)辦AI工程院的過程中積累的技術人才優(yōu)勢,特別適合扮演科研與商業(yè)化之間的橋梁角色。

于是,創(chuàng)新工場AI工程院也就順勢而生。

創(chuàng)新工場人工智能工程院成立于2016年9月,以“科研+工程實驗室”模式,規(guī)劃研發(fā)方向,組建研發(fā)團隊。

目前已經(jīng)設有醫(yī)療AI、機器人、機器學習理論、計算金融、計算機感知等面向前沿科技與應用方向的研發(fā)實驗室,還先后設立了創(chuàng)新工場南京國際人工智能研究院、創(chuàng)新工場大灣區(qū)人工智能研究院。

目標是培養(yǎng)人工智能高端科研與工程人才,研發(fā)以機器學習為核心的前沿人工智能技術,并同各行業(yè)領域相結(jié)合,為行業(yè)場景提供一流的產(chǎn)品和解決方案。

而且, 創(chuàng)新工場還與國內(nèi)外著名的科研機構(gòu)廣泛開展科研合作。

例如,今年3月20日,香港科技大學和創(chuàng)新工場宣布成立計算機感知與智能控制聯(lián)合實驗室(Computer Perception and Intelligent Control Lab)。

此外,創(chuàng)新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智能聯(lián)合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯(lián)邦學習基礎架構(gòu)與應用)標準工作組第三次會議。

IEEE聯(lián)邦學習標準由微眾銀行發(fā)起,創(chuàng)新工場等數(shù)十家國際和國內(nèi)科技公司參與,是國際上首個針對人工智能協(xié)同技術框架訂立標準的項目。

創(chuàng)新工場表示,自身的科研團隊將深度參與到聯(lián)邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護數(shù)據(jù)安全、保護用戶隱私貢獻自己的力量。



關鍵詞:

評論


相關推薦

技術專區(qū)

關閉