清華大學(xué)周伯文教授：從原則到實(shí)踐解讀多模態(tài)人工智能進(jìn)展與可信賴AI

發(fā)布人：機(jī)器之心時(shí)間：2022-09-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

以人為中心的 AI 才是真正有活力的 AI。

在 WAIC 2022 AI 開發(fā)者論壇上，清華大學(xué)惠妍講席教授、IEEE/CAAI Fellow、銜遠(yuǎn)科技創(chuàng)始人周伯文發(fā)表主題演講《多模態(tài)人工智能進(jìn)展與可信賴 AI：從原則到實(shí)踐》。

在演講中，他主要介紹了多模態(tài) AI 近期的突破以及可信 AI 的挑戰(zhàn)。目前人工智能正在從 “AI” 走向“可信賴 AI”。在全球范圍內(nèi)，可信賴 AI 也正逐漸成為學(xué)術(shù)界和工業(yè)界研究和關(guān)注的熱點(diǎn)問題。但是，可信賴 AI 依然面臨很多問題。
以下為周伯文在 WAIC 2022 AI 開發(fā)者論壇上的演講內(nèi)容，機(jī)器之心進(jìn)行了不改變?cè)獾木庉?、整理?/span>
非常感謝主辦方的邀請(qǐng)，今天有機(jī)會(huì)跟大家分享我在多模態(tài)人工智能進(jìn)展的思考。
我們?cè)谟眉夹g(shù)解決問題的時(shí)候，不僅要考慮到未來技術(shù)演進(jìn)的路線，還要有技術(shù)信仰，因?yàn)榻鉀Q當(dāng)下問題的很可能是未來的技術(shù)。

1894 年的倫敦是一個(gè)人口密集的繁華大都市，同時(shí)也是世界貿(mào)易中心，這座城市的交通運(yùn)輸卻完全依靠馬車。結(jié)果就是，直到 1894 年，數(shù)以萬計(jì)的馬生活在倫敦。據(jù)計(jì)算，每一匹馬每天都要制造 15 磅到 35 磅不等的糞便，這些糞便堆積在道路上，遠(yuǎn)遠(yuǎn)超過了清理速度。
英國(guó)的《泰晤士報(bào)》在 1894 年做出 “50 年內(nèi)馬糞將淹沒倫敦” 這一警示預(yù)言，然而這一預(yù)言并未發(fā)生，因?yàn)榈搅?20 世紀(jì)初，問題突然就解決了——汽車出現(xiàn)了！很快馬車就被淘汰了，“馬糞危機(jī)”被完美地用另外一種方式解決了。
我從京東來到清華之后，建立了協(xié)同交互智能研究中心，研究的方向主要是智能體跟以人為中心的世界和環(huán)境交互的過程中，如何不斷迭代和自我學(xué)習(xí)，包括多模態(tài)表征、交互、推理，人機(jī)協(xié)同演繹，大小模型共同演化等各個(gè)方面。研究的核心基石是圍繞可信賴 AI 做設(shè)計(jì)。
今天的演講包括三部分，第一是多模態(tài)的進(jìn)展。
1、多模態(tài) AI 近期的突破
多模態(tài)在 AI 領(lǐng)域研究很久了，但是在過去幾十年都是相互分離的，每個(gè)方向有自己的模型，也不太溝通。但是最近幾年，我們?cè)絹碓蕉嗫吹酱蠹以跇?gòu)建統(tǒng)一的、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型。

比如 Omvivore 和 Data2vec 是 Facebook 近期的工作。前者采用統(tǒng)一的預(yù)訓(xùn)練模型處理視覺 (圖片、視頻、3D 圖像) 三種模態(tài)的輸入, 并將其映射到統(tǒng)一的特征空間；后者采用統(tǒng)一的模型和訓(xùn)練框架，分別訓(xùn)練文本、圖像、語音的預(yù)訓(xùn)練模型(不同模態(tài)分別訓(xùn)練預(yù)訓(xùn)練模型)。
Bridge-Tower（MSRA）提出了多模態(tài)預(yù)訓(xùn)練模型新的特征融合方式，即在單模態(tài)表示學(xué)習(xí)的中間層也能進(jìn)行跨模態(tài)的交互。其結(jié)構(gòu)既能有效應(yīng)對(duì)模態(tài)缺失的挑戰(zhàn)(相比單流預(yù)訓(xùn)練模型)，又能更好的學(xué)習(xí)模態(tài)的交互(相比雙流預(yù)訓(xùn)練模型)。該多模態(tài)預(yù)訓(xùn)練模型在多個(gè)單模態(tài)任務(wù)上取得了不錯(cuò)的結(jié)果。

這三個(gè)模型反映了多模態(tài)預(yù)訓(xùn)練的趨勢(shì)：設(shè)計(jì)統(tǒng)一的、跨任務(wù)、跨模態(tài)的多模態(tài)預(yù)訓(xùn)練模型，包括統(tǒng)一的結(jié)構(gòu)、統(tǒng)一的參數(shù)、統(tǒng)一的訓(xùn)練方式，應(yīng)對(duì)多個(gè)多模態(tài)任務(wù)或單模態(tài)任務(wù)。

多模態(tài)進(jìn)展的第二個(gè)方向就是在下游任務(wù)中的自監(jiān)督學(xué)習(xí)。通過構(gòu)建自監(jiān)督的任務(wù)，提高多模態(tài)模型的表征能力，緩解缺少大規(guī)模監(jiān)督數(shù)據(jù)的挑戰(zhàn)。
多模態(tài)進(jìn)展的第三個(gè)方向就是表征跟知識(shí)的融合開始再進(jìn)一步拓展。大模型中有非常多隱性的知識(shí)，如何優(yōu)化、迭代它們，都是非常重要的研究熱點(diǎn)，也是我們關(guān)注的方向。這里有幾個(gè)工作特別值得跟大家分享。

第一個(gè)是基于視覺的知識(shí)回答，融合 GPT3 導(dǎo)出的隱式知識(shí)和顯式外部知識(shí)，通過 Transformer 融合文本、圖像和知識(shí)的表示，執(zhí)行基于知識(shí)推理的 VQA 任務(wù)。第二個(gè)是對(duì)于隱性知識(shí)的描述，根據(jù)圖片內(nèi)容生成圖片描述，并推測(cè)圖片中發(fā)生的事件的原因，以文本的方式輸出可能的解釋。第三個(gè)是在電商領(lǐng)域做的工作，將商品屬性相關(guān)的結(jié)構(gòu)化知識(shí)融入到電商多模態(tài)預(yù)訓(xùn)練任務(wù)中。通過構(gòu)建鏈接預(yù)測(cè)損失，建模結(jié)構(gòu)化知識(shí)與多模態(tài)實(shí)體概念間的關(guān)聯(lián)。顯式 / 隱式地融入知識(shí)，強(qiáng)化模型的知識(shí)和推表征理能力，提高模型的可解釋性。
多模態(tài)人工智能另外一個(gè)方面的進(jìn)展就是交互式 AI 將可能成為一種趨勢(shì)，傳統(tǒng)研究大多是 AI 模型與數(shù)據(jù)之間的交互，包括各種預(yù)訓(xùn)練模型，本質(zhì)上是學(xué)習(xí)互聯(lián)網(wǎng)上海量文本、圖片等不同模態(tài)數(shù)據(jù)的內(nèi)在規(guī)律。

因算力、數(shù)據(jù)資源的限制，僅依賴互聯(lián)網(wǎng)上數(shù)據(jù)學(xué)習(xí)很大可能會(huì)達(dá)到瓶頸，而反觀人類往往能在交流中習(xí)得新的知識(shí)和技能，因此通過交互將有可能進(jìn)一步提升 AI 的能力，包括模型之間的交互（通過梯度、模型參數(shù)甚至自然語言交流）、模型與人類的協(xié)同交互、模型與世界環(huán)境的交互等等。不管是孔子與七十二門徒還是西方的雅典學(xué)派，知識(shí)的傳播、形成、迭代都是通過老師和學(xué)生的互動(dòng)來完成的，如何讓人工智能能夠自主學(xué)習(xí)并不斷迭代新的知識(shí)是我們?cè)谇迦A的重要研究方向。
此外，交互式 AI 也會(huì)面臨一些問題，包括數(shù)據(jù)和模型等方面的問題，比如 Meta Blenderbot 數(shù)據(jù)導(dǎo)致的倫理問題，以及 Google PaLM-SayCan 在真實(shí)世界中交互使用可能面臨模型可控性問題等。
Blenderbot3.0 對(duì)扎克伯格和 Yann LeCun 截然不同的評(píng)價(jià)，與 Facebook 中用戶的真實(shí)發(fā)帖對(duì)話有關(guān)。為了解決這種問題，Meta 采取用戶反饋進(jìn)行在線的持續(xù)學(xué)習(xí)來調(diào)整模型。
基于大規(guī)模語言模型“大腦”（Pathways LM，PaLM），可以實(shí)現(xiàn)機(jī)器人在真實(shí)環(huán)境的指令執(zhí)行操作，能夠達(dá)到非常好的效果。但也會(huì)衍生新的可控性問題，就如同“bull in china shop”（闖進(jìn)瓷器店的公牛）。解決的辦法就是不斷給機(jī)器人反饋，讓其不斷學(xué)習(xí)、迭代，就跟小孩子一樣，小時(shí)候可能會(huì)打碎瓷器，但是慢慢地就能避免這個(gè)行為。
多模態(tài)的理解 + 交互式的學(xué)習(xí)和以人為中心的設(shè)計(jì)模式，未來的應(yīng)用空間會(huì)越來越大。但在這個(gè)過程中也有很大的挑戰(zhàn)，就是如何讓 AI 的理解和執(zhí)行更加可控，如何讓 AI 變得更可信賴。
2、可信賴 AI 落地面臨的挑戰(zhàn)

人工智能面臨諸多挑戰(zhàn)。在魯棒性層面，AI 面臨著多樣化的風(fēng)險(xiǎn)；在公平無偏層面，我們發(fā)現(xiàn)廣泛存在 AI 偏差的風(fēng)險(xiǎn)，比如谷歌的人臉識(shí)別和機(jī)器翻譯對(duì)性別的默認(rèn)。還有消費(fèi)互聯(lián)網(wǎng)推薦系統(tǒng)中的無偏挑戰(zhàn)，在用戶 - 數(shù)據(jù) - 推薦系統(tǒng)的閉環(huán)里，用戶的行為會(huì)影響數(shù)據(jù)，數(shù)據(jù)會(huì)影響算法，如果數(shù)據(jù)不具有廣泛的代表性，這個(gè)算法會(huì)出現(xiàn)偏差，然后偏差會(huì)不斷放大，導(dǎo)致“馬太效應(yīng)”。這就是人工智能落地發(fā)生的真實(shí)挑戰(zhàn)。

近年來，我們持續(xù)推動(dòng) “可信賴 AI” 的系統(tǒng)性建設(shè)。我在 IBM 的時(shí)候就推動(dòng)可信賴人工智能的研究，雖然這幾年大家開始更多地提到可信賴 AI，但我早在 2016 年就在這方面做了一些探索，2019 年我在烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)就提出了可信賴 AI 的六個(gè)原則和要素：魯棒性、可解釋、可復(fù)制、公平、隱私保護(hù)、負(fù)責(zé)任和價(jià)值對(duì)齊。
2021 年 1 月，在瑞士達(dá)沃斯論壇上，我們和 MIT 專門做了人工智能的交流論壇，凝聚了全球的共識(shí)。最近的工作是剛剛一篇論文被 ACM Computing Surveys 錄用，這個(gè)論文把過去幾年可信賴 AI 在原則、實(shí)踐的技術(shù)進(jìn)展做了梳理。接下來我把論文的主要思想和觀點(diǎn)跟大家做分享。

目前人工智能正在從 “可用 AI” 走向“可信賴 AI”；可信賴 AI 是未來人機(jī)協(xié)作的指導(dǎo)性原則，引導(dǎo) AI 在協(xié)作中承擔(dān)更多的保障性任務(wù)。
人工智能一定具有社會(huì)屬性，所以技術(shù)挑戰(zhàn)帶來的社會(huì)屬性也會(huì)倒逼我們思考技術(shù)進(jìn)步。由于時(shí)間關(guān)系，今天著重講一下可解釋性。

可解釋性的價(jià)值很容易理解。傳統(tǒng)的黑盒 AI 會(huì)給人們的使用造成困擾，比如對(duì)于模型的工作機(jī)理未知，不明白模型為什么預(yù)測(cè)這樣的結(jié)果；更不知道模型何時(shí)成功或者失??；因此很難根據(jù)模型結(jié)果來糾正錯(cuò)誤。而可解釋性 AI 模型，在做出決策的同時(shí)還能給出解釋，因此能夠讓使用者理解 AI 模型是如何做決策的，并在此基礎(chǔ)上針對(duì)錯(cuò)誤的預(yù)測(cè)進(jìn)行糾正。以人為中心的 AI 才是真正有活力的 AI。
梳理可解釋性 AI 方法的分類，可以把它分成設(shè)計(jì)可解釋模型 Ante-hoc 和解釋模型的行為 post-hoc，Ante-hoc 里面包括傳統(tǒng)模型和非傳統(tǒng)模型，傳統(tǒng)模型包括 KNN、決策樹，非傳統(tǒng)模型有因果推理、知識(shí)圖譜；post-hoc 里面包括模型相關(guān)型的解釋和模型無關(guān)型的解釋，模型相關(guān)型包括基于特征的重要性分析，和基于特征的語義分析，模型無關(guān)型包括解釋器模擬和樣例驅(qū)動(dòng)。

Ante-hoc 可解釋模型方法，大家最信任的就是決策樹。挑戰(zhàn)在于，決策樹帶來的可解釋性雖然很好，但是模型的復(fù)雜度有上限。決策樹大到一定程度，雖然有局部的可解釋性，但是宏觀的可解釋性就丟失了。
正是因?yàn)檫@樣，post-hoc 是我個(gè)人比較喜歡的方向，它把模型的復(fù)雜度和可解釋性分成兩部分，舉一個(gè)例子就是 LIME。
LIME 是一種模型無關(guān)的局部解釋性方法。LIME 算法中，通過可解釋性模型 g（例如線性模型）在樣本 x 局部區(qū)域線性近似原始模型 f，學(xué)習(xí)一個(gè)線性分類模型進(jìn)行解釋（對(duì)于線性模型的可解釋性約束仍然是個(gè)很難定量的決策）。
能夠使用線性分類模型進(jìn)行局部模擬的原因在于：對(duì)于樣本 X，在其附近進(jìn)行采樣，可以很容易使用一個(gè)線性決策面進(jìn)行分類。進(jìn)而來逼近原始模型，從而在 X 樣本處進(jìn)行解釋（局部）。

這里展示一個(gè)郵件文本分類的例子，可以通過 LIME 算法對(duì)模型分類錯(cuò)誤的原因進(jìn)行可解釋性分析；使用 LIME 算法進(jìn)行線性模擬之后，我們可以得到每個(gè)單詞在各類別中的權(quán)重，可以發(fā)現(xiàn) Posting、Host 等類別無關(guān)的單詞影響了分類結(jié)果，而這些單詞應(yīng)該是類別無偏的。
LIME 也存在一些缺陷，比如 X 的鄰域定義比較困難；后續(xù)提出的 SHAP 給出更合理的計(jì)算，采用博弈聯(lián)盟中 shapley 值進(jìn)行建模，同時(shí)能夠給出正負(fù)權(quán)重。
基于注意力機(jī)制進(jìn)行特征重要性分析，我們提出了 multi-hop attention 機(jī)制。

自注意力的可視化，以 Yelp 評(píng)論文本分類為例，一星和五星的評(píng)論在單詞重要性上存在明顯區(qū)別。
可解釋性的特征語義解釋方法，不僅僅尋求答案，而是把尋求為什么作為目標(biāo)去訓(xùn)練神經(jīng)網(wǎng)絡(luò)。模型內(nèi)部，在 MRC 任務(wù)給出答案支撐事實(shí)；模型外部，在 QA 任務(wù)中給出答案的推理過程，通過推理過程自洽性提高準(zhǔn)確率。
3、可信賴 AI：A Wholistic View Is Needed
解讀可信賴 AI 我們提出了很多維度，包括魯棒性問題、領(lǐng)域遷移泛化性表示、基礎(chǔ)模型強(qiáng)泛化性，計(jì)算復(fù)雜性的泛化機(jī)理，可解釋性問題等等，這些雖然都是不同的維度，但是它們內(nèi)在有非常強(qiáng)的關(guān)聯(lián)，關(guān)聯(lián)的核心來自于錯(cuò)配。錯(cuò)配包括兩個(gè)方面：一個(gè)是數(shù)據(jù)分布的錯(cuò)配，另外一個(gè)是維度的錯(cuò)配。這兩個(gè)錯(cuò)配導(dǎo)致可信賴 AI 面臨很多問題。
機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)分類模型的過程是將高緯度 (n) 數(shù)據(jù)通過 n-1 維決策面進(jìn)行判別區(qū)分。實(shí)際研究對(duì)象其實(shí)只有 k 維，其中 k<<n。為了提高準(zhǔn)確性，如 Adi Shamir 等的工作指出，我們的學(xué)習(xí)算法會(huì)強(qiáng)迫模型利用余下的 n-k 維，而這 n-k 維則帶來了一系列問題。
對(duì)抗樣本本身可以看做是數(shù)據(jù)分布外情形的特例，因此魯棒性某種意義上也是受制于有限數(shù)據(jù)分布自生限制；也就是說，大量冗余相關(guān)的特征關(guān)聯(lián)，會(huì)限制表示魯棒性；學(xué)習(xí)到存在眾多的虛假關(guān)聯(lián)，導(dǎo)致泛化性差；此外，由于虛假關(guān)聯(lián)特性，從而難以可解釋。

在全球范圍內(nèi)，可信賴 AI 也正逐漸成為學(xué)術(shù)界和工業(yè)界研究和關(guān)注的熱點(diǎn)問題。可信賴 AI 所涵蓋涉及的問題復(fù)雜且多樣化，目前全球的 AI 從業(yè)者正從不同的角度對(duì)其開展了廣泛的研究。
原來我們的研究都是把每個(gè)維度單獨(dú)去研究，比如說做可信賴 AI，專門研究可解釋性，但是通過我們的深入，我們認(rèn)為要從整體去看人工智能，單純一個(gè)維度一個(gè)維度地解決不是很好的辦法?？尚刨?AI 的落地需要考慮各個(gè)維度的相互作用。這是第一個(gè)學(xué)術(shù)觀點(diǎn)。

第二個(gè)學(xué)術(shù)觀點(diǎn)，可信賴 AI 的落地需要跨領(lǐng)域的系統(tǒng)協(xié)作?？尚刨?AI 是端到端的流程，僅僅關(guān)注算法是不夠的。比如在工業(yè)界，要做一個(gè)可信賴 AI 的系統(tǒng)，我們從用戶需求的調(diào)研和用戶問題的提出開始，就要思考這是不是可信賴 AI 的問題，再到數(shù)據(jù)的收集標(biāo)注，算法設(shè)計(jì)，開發(fā)上線，最后到產(chǎn)品交付，保持用戶體驗(yàn)，從工業(yè)角度來講，關(guān)注的是全部的流程，但是學(xué)術(shù)界更關(guān)注的是中間算法這部分，所以可信賴 AI 的落地需要學(xué)界、產(chǎn)業(yè)界和監(jiān)管部門一起努力。

我們的研究方向在哪里，通過這張圖我們?cè)噲D去回答這個(gè)問題。這張圖有兩個(gè)維度，橫向列出了可信賴 AI 的八個(gè)原則，縱向講的是端到端有哪些環(huán)節(jié)，這個(gè)圖里面有不同的顏色，它們是不同領(lǐng)域的論文。學(xué)術(shù)界和工業(yè)界對(duì)可信賴 AI 的關(guān)注度和領(lǐng)域有很大的互補(bǔ)性，很多地方是空白的，這就是我們努力的方向。
以上就是我今天分享的內(nèi)容，謝謝大家。我們銜遠(yuǎn)科技（Frontis.cn）致力于通過以上介紹的各種新的技術(shù)去解決產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型中的各種有趣且重要的問題，非常歡迎感興趣的朋友加入我們！