講堂 | 劉鐵巖：跨界共創(chuàng)AI的產(chǎn)業(yè)價值和科學價值

發(fā)布人：MSRAsia 時間：2021-07-04 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：第四屆微軟亞洲研究院創(chuàng)新論壇近日成功舉辦，大會以“跨界共創(chuàng)”為主題，就跨領域融合創(chuàng)新、共創(chuàng)精神推進數(shù)字化轉型、如何讓技術創(chuàng)新成果成功落地等話題進行了探討。

在論壇上，微軟亞洲研究院副院長劉鐵巖從技術的角度分享了 AI 跨界共創(chuàng)的產(chǎn)業(yè)價值與科學價值。他認為雖然 AI 已經(jīng)取得了突飛猛進的發(fā)展，但仍然有非常長的路要走，尤其是在產(chǎn)業(yè)價值和科學價值方面。究其原因，今天的 AI 只是在一些相對淺層次的領域發(fā)揮著作用。如果想真正實現(xiàn)人工智能的價值，就需要各領域的合作伙伴一起頂天立地、跨界共創(chuàng)。

微軟亞洲研究院副院長劉鐵巖

人工智能方興未艾，世界上幾乎所有的頭部企業(yè)如今都在人工智能方面有巨大的投入。展望全球人工智能市場，未來5年還會有非常高速的發(fā)展。人們不禁會問：人工智能技術是否已經(jīng)足夠成熟？是否有一些方向和領域需要我們特別重視？作為人工智能的學者，我們認為人工智能仍然有非常長的路要走，尤其是在它的產(chǎn)業(yè)價值和科學價值方面。

人工智能的價值現(xiàn)狀

從某種意義上講，目前，人工智能還是在一些相對淺層次的領域發(fā)揮著作用。例如人工智能中的深度學習在人臉識別、語音識別、自然語言處理這些人機交互界面上應用非常廣泛；強化學習在虛擬的或者封閉的問題上表現(xiàn)良好，比如游戲、機器臂控制等相對環(huán)境簡單、規(guī)則清晰的問題。雖然人工智能在工業(yè)界核心的決策問題上應用前景廣泛，但其今天的作用仍然十分有限。在很多重要的環(huán)節(jié)中，人工智能與人的能力相比還是有所差異，傳統(tǒng)運籌學仍是很多行業(yè)的標準解決方案。

人工智能在科學領域有何價值？目前人工智能主要在一些輔助問題上發(fā)揮作用，例如對噪聲數(shù)據(jù)進行預處理，對光譜數(shù)據(jù)、天文圖片進行模式識別，或者是對一些已有的數(shù)值仿真算法進行加速和拓展。盡管近期出現(xiàn)了一些利用人工智能和大規(guī)模算力改變科學發(fā)展現(xiàn)狀的工作，如 AlphaFold2 破解蛋白質折疊、Deep Potential 進行分子動力學模擬等，但是所有這些工作目前還只是星星之火，尚未形成燎原之勢。

在這樣的大背景下，作為人工智能學者，我們認為，要讓人工智能對滾滾的歷史車輪產(chǎn)生更大的推動作用，除了在“自我的世界”里關注算法和理論的研究以外，還需要能夠“頂天”、“立地”，跨界共創(chuàng)，真正讓人工智能創(chuàng)造更多的產(chǎn)業(yè)價值和科學價值。

人工智能的產(chǎn)業(yè)價值生成路徑

如何才能讓人工智能實現(xiàn)更多的產(chǎn)業(yè)價值呢？為了尋求這個問題的答案，微軟亞洲研究院于2017年成立了“創(chuàng)新匯”，與近50家各領域企業(yè)開展合作，進行了數(shù)百次的交流，完成了十余個聯(lián)合研究項目。這些項目橫跨金融、物流、醫(yī)****、電信、教育、政務等多個行業(yè)。在開展這些聯(lián)合研究的過程中，我們秉承著初心，不僅要幫助各個企業(yè)解決現(xiàn)實中的技術挑戰(zhàn)，實現(xiàn)數(shù)字化、智能化轉型；更重要的是從這些項目中抽象出行業(yè)的核心痛點，設計解決這些痛點的人工智能共性技術，為人工智能真正創(chuàng)造產(chǎn)業(yè)價值奠定基礎。

以金融投資為例，微軟亞洲研究院已經(jīng)和資管行業(yè)的領頭企業(yè)華夏基金合作超過四年的時間了，我們共同耕耘、共同分享、共同探討，形成了一系列對于金融資管和智能投資領域核心痛點的認知。首先，我們發(fā)現(xiàn)盡管金融數(shù)據(jù)很豐富，但信噪比非常低，所以很難挖掘出有效的信號。其次，金融市場動態(tài)變化，異常迭起，這對基于統(tǒng)計學習的方法提出了巨大的挑戰(zhàn)，因為面對復雜的金融市場，我們很難假設數(shù)據(jù)是獨立同分布的。第三，金融領域中，風險和收益是一對雙生子，“投資有風險，入市需謹慎”，一個高手之所以成為高手，不僅在于他能夠發(fā)現(xiàn)一般人所不知的投資信號，更在于他善于管理風險，能夠避免收益的“曇花一現(xiàn)”，成為一個常勝將軍。最后，從識別出有效的信號，到構建投資組合，再到真正執(zhí)行訂單，投資鏈條非常長，而且只有有效實現(xiàn)預期訂單的買賣，才真正完善整個投資鏈條，也才能得到想要的投資回報。

針對這些痛點，在過去一段時間里，微軟亞洲研究院和合作伙伴一起研發(fā)了大量的人工智能技術。在數(shù)據(jù)端，高頻交易數(shù)據(jù)蘊含豐富的信息，但又含有大量的噪聲，所以很多做中低頻投資的機構或個人很少利用高頻交易數(shù)據(jù)，而對高頻數(shù)據(jù)非常感興趣的人則在研究日內的算法交易。于是，我們想問：高頻的交易數(shù)據(jù)是否可以對中低頻的投資，例如日頻、周頻、月頻的投資產(chǎn)生本質的影響？

人工智能的優(yōu)勢在于能夠以人所不能及的細粒度和高通量分析數(shù)據(jù)。當我們面臨的數(shù)據(jù)是高頻數(shù)據(jù)時，需要處理的就是抑制噪聲，并從海量數(shù)據(jù)里抽取有用信息。以此為目的，我們研發(fā)了一套自監(jiān)督對比學習技術，它將時空的依賴關系作為約束，去其糟粕，取其精華，希望能夠從高頻數(shù)據(jù)中抽取有效信號。當我們使用這種自監(jiān)督對比學習的方法后，與只使用日頻數(shù)據(jù)或者使用高頻和日頻結合的數(shù)據(jù)相比，新方法都有更好的表現(xiàn)，能夠獲得穩(wěn)定的信號。

針對市場動態(tài)性方面的挑戰(zhàn)，微軟亞洲研究院開發(fā)了一套基于注意力機制的神經(jīng)網(wǎng)絡，它可以自動判斷當前市場是否處于異常狀態(tài)。如果異常，我們就會建議投資機構采取一些被動的投資手段。如果這個市場在歷史上似曾相識，我們就會利用注意力機制，從歷史數(shù)據(jù)里尋找到最適用于當前市場的信息，通過數(shù)據(jù)或規(guī)律，讓投資機構能夠在金融市場的風云變幻之下，總是立于風口浪尖上，獲得穩(wěn)定的投資回報。

同樣，關于風險控制，這是一個非常持久且重要的話題，只有我們對風險有了非常好的控制，才能實現(xiàn)穩(wěn)定的投資。雖然這個話題很重要，但是在歷史上人們對風險因子的研究道路崎嶇、發(fā)展緩慢。歷史的做法通常是，由專家定義出少量用來解釋當前市場的因子，然后考察特定投資組合在這些因子上的暴露情況。從經(jīng)典的 CAPM 模型發(fā)展到 Fama TFM 模型歷時31年，僅增加了 Value、Size 幾個少量的因子。而從 Fama 模型進化到當前大多數(shù)投資機構都在使用的 BARRA 模型，又經(jīng)歷了20年，也不過只增加了成長、動量等少數(shù)因子。而人工智能則可以通過優(yōu)化的手段，自動找到對市場有最佳解釋能力并且彼此相互獨立的非線性風險因子，同時還可以對預測模型自身帶來的風險進行刻畫和消減。這樣一來，我們用人工智能的手段去做風控，就可以比人類專家更周全、更系統(tǒng)、更及時。

最后，訂單的執(zhí)行同樣非常重要，但非常困難，因為在日內的整個市場波動更加劇烈，基于簡單的規(guī)則去做訂單交易，通常很難實現(xiàn)非常理想的平均交易價格。我們和合作伙伴一起探索了用強化學習的方法來做自動訂單交易，這種方法可以在非常細的粒度下明察秋毫，找到執(zhí)行訂單的最佳時機和最佳執(zhí)行速率，從而大幅度降低交易成本，獲得良好的預期平均交易價格。一旦投資機構可以非常好地控制交易成本，那么久可以為尋找最佳投資組合創(chuàng)造更大空間，從而有更加亮眼的表現(xiàn)。

上述研究不是紙上談兵，我們和合作伙伴一起在實盤上進行了大規(guī)模的測試。測試結果與中證500指數(shù)相比，獲得了非常明顯的超額收益。尤其在今年年初，市場有些動蕩，很多基金“崩盤”的情況下，我們的技術更是表現(xiàn)非常穩(wěn)健。

基于這些研究和探索，我們希望把我們的所思所得和技術積累與更多企業(yè)、客戶進行分享，所以我們構建了一個智能量化投資的共性技術平臺，希望通過這個平臺能夠打通智能投資的研究和實戰(zhàn)，降低技術投資的門檻，規(guī)避潛在的技術陷阱，為從業(yè)者和研究者提供一個非常接近實盤的回測環(huán)境。2020年下半年，我們將這樣一個平臺進行了開源——AI 量化投資開源平臺 Qlib。目前 Qlib 獲得了業(yè)界廣泛的關注，在 GitHub 上收獲了超過5000顆星，并且也正是因為開源項目 Qlib，有很多國際知名的投資機構正在和我們進行交流與合作。

除了金融投資以外，微軟亞洲研究院也與其他行業(yè)的合作伙伴進行了非常深入的互動，獲得了很多有價值的洞見。舉個例子，資源優(yōu)化、時空預測是非常多的領域所共同面臨的問題，絕大部分資源優(yōu)化的場景都會有如下痛點：優(yōu)化鏈路長，無法及時獲得反饋信號；優(yōu)化鏈路上的多個目標可能彼此之間互相矛盾；全局優(yōu)化問題太復雜，幾乎是一個不可能完成的任務。

同樣，時空預測也有一些共性的特點，例如數(shù)據(jù)噪聲大，信息缺失嚴重；時序的模式非常多樣，有趨勢、周期、突發(fā)信號；空間結構很復雜，經(jīng)常會出現(xiàn)一些層次化的結構，使得我們不能夠單一地在單點上進行預測。

認識了這些挑戰(zhàn)之后，我們和合作伙伴共同開發(fā)了一套多智能體資源優(yōu)化的共性技術框架。該框架只需要經(jīng)過非常輕量級的定制就可以幫助客戶搭建起屬于自己的模擬器，并且還可以用強化學習的手段訓練一個高效的智能體，幫客戶實現(xiàn)資源優(yōu)化。而且我們可以很輕易地幫助客戶把這個模型部署在一個分布式集群上，實現(xiàn)他們的日常運營。目前，這個框架已幫助包括東方海外航運在內的多個客戶實現(xiàn)了更加高效的日常運營，提高了效率，降低了成本，獲得了更好的資源利用率。

沒有止步于此，我們希望這些合作的結果能夠被更多的用戶所使用、體驗，幫助他們實現(xiàn)數(shù)字化轉型，所以我們開源了多智能體資源優(yōu)化平臺“群策 MARO”，目前已經(jīng)有很多客戶都在試用 MARO。

為了處理時空預測的核心挑戰(zhàn)問題，我們開發(fā)了一套時空預測的共性技術，包括多路深度時序編碼集成的模塊、可解釋的正則通路、可以自動學習網(wǎng)絡結構的圖神經(jīng)網(wǎng)絡、可根據(jù)外部突發(fā)事件調整預測結果的門電路模塊等。正是因為這些復雜的設計，我們的模塊和整個框架可以在一些非常困難的問題上取得亮眼的效果。目前，我們已經(jīng)與合作伙伴在醫(yī)療、物流、電信領域做了非常多實際數(shù)據(jù)的測試，例如我們利用該技術幫助一些企業(yè)實現(xiàn)了物流訂單的精準預測，幫助糖尿病病人實現(xiàn)了血糖波動的精準預測，也幫助電信企業(yè)實現(xiàn)了未來一段時間內在某些域名下流量波動的預測。

除了與這些企業(yè)共同推進技術的應用以外，我們也把這個技術框架應用到了新冠疫情的管控和抗擊方面。在新冠疫情肆虐全球的大背景下，美國疾控中心公布了大量關于疫情的數(shù)據(jù)，同時向全世界最頂級的科學機構發(fā)出求救，希望各大科研機構可以通過技術手段幫助疾控中心預測未來一周到四周內疫情的****，并且?guī)椭部刂行囊约罢跀?shù)據(jù)結果進行相關政策的制定。因為我們有非常成熟的時空預測技術，所以我們基于新冠疫情的數(shù)據(jù)訓練了一個可以進行未來一周到四周的疫情****預測模型，并且在2020年下半年，代表微軟公司向美國疾控中心提交了這個模型。在超過半年的時間里，該模型表現(xiàn)非常亮眼，在絕大部分時間里，它的表現(xiàn)和性能都力壓其他四十幾個全球頂級科研機構的模型，排名第一，為全球抗擊新冠疫情、制定合適的防疫政策做出了重要的貢獻。

人工智能的科學價值生成路徑

通過“創(chuàng)新匯”，微軟亞洲研究院和各行各業(yè)的合作伙伴進行了非常深入的交流與合作，也對各行各業(yè)有了更深入的認識。這個跨界的體驗讓我們這些人工智能學者收獲良多。展望未來，我們相信有更多行業(yè)可以被我們的人工智能技術激活。做有用的人工智能，我們一直在路上。

但是另一方面，作為人工智能學者，我們從來沒有忘記，“抬頭仰望星空”的使命。所以我們也在一直思考如何用人工智能技術、機器學習技術去推動基礎科學的進展。

《科學》雜志在其成立125年周年的時候，發(fā)表了當前世界上最重要的125個現(xiàn)代科學問題，這些問題里絕大部分是關于生物學、物理學和環(huán)境科學的，這些問題關乎宇宙的奧秘、生命的起源以及人類的生存和可持續(xù)發(fā)展。我們相信，如果能夠用機器學習、人工智能的手段推進這些問題，我們將有望打開通向未來的大門。

所以在過去的兩三年間，微軟亞洲研究院在智能科學領域有了非常周全的布局和有益的嘗試，我們關注的主要是智能生物學、智能物理學和智能環(huán)境科學。這個過程是一個非常美好的跨界體驗，微軟亞洲研究院與清華大學、復旦大學、麻省理工學院、東京大學在內的高等院校，Baker Lab、Broad Institute 和中科院在內的科研院所，以及像 Adaptive Biotechnology 這樣全世界生物科技領域領先的創(chuàng)業(yè)企業(yè)，都進行了非常密切的合作，產(chǎn)生了大量的研究成果，并且最近在《Nature Communications》、《Bioinformatics》、《Environmental Science and Technology》等科學領域的頂級期刊上發(fā)表了大量論文。

那么我們是如何與合作伙伴一起共同發(fā)現(xiàn)核心痛點問題，并且提供人工智能解決方案的呢？以生物學為例，我們和合作伙伴們共同發(fā)現(xiàn)，在生物學領域結構數(shù)據(jù)的缺失是一個非常大的痛點。近年來隨著高通量測序技術的成熟，每日每夜都在生成海量的無標注組學數(shù)據(jù)，可是通過像冷凍電鏡這樣的手段去獲得高質量的結構數(shù)據(jù)，成本仍然非常高，所以導致此類結構數(shù)據(jù)相對稀少。在生物領域，結構決定功能，如果我們沒有高質量的結構數(shù)據(jù)，就很難真正推動生物問題的求解。

而在生命科學領域，個性化的需求同樣非常強烈，因為每一個生物個體都有所不同，就像人類一樣，千人千面，只有真正去理解每個人的不同，才能避免基于共有特征的數(shù)據(jù)模型遷移性差的事實。正是因為結構數(shù)據(jù)的缺失，結構預測和分子動力學模擬變得非常重要。結構預測可以幫我們從序列化的組學數(shù)據(jù)出發(fā)，生成一個靜態(tài)的結構，而分子動力學模擬則可以在此基礎上提供一些動態(tài)的細節(jié)，包括不同構向之間的轉化。由此可見，人工智能確實可以幫助我們理解生物的功能以及功能的演化。

過去一年，微軟亞洲研究院使用人工智能技術，建立了一個大規(guī)模的分子動力學模擬系統(tǒng)，并且使用這個系統(tǒng)對新冠病毒 S 蛋白的動態(tài)變化進行了深入分析，我們發(fā)現(xiàn)了一些非常有價值的科學結論。例如，我們發(fā)現(xiàn)新冠病毒 S 蛋白一直在具有高傳染性的開構象和低傳染性的閉構象之間做著構象的轉化，而在這個轉化過程中，S 蛋白的 NTD 部分起到了非常關鍵的作用，它就像一個楔子，可以促進或者阻止這種構象的變化。

如果我們能找到可以和 NTD 進行結合的某種****物，那么就有機會降低新冠病毒感染人體細胞的能力，從而有可能會緩解它所造成的癥狀，或者是降低它的傳染率。抱著這樣一個愿望，我們使用了高通量的****物篩選技術，從2億3千多萬種化合物中，找到了超過1千種與 NTD 有很強綁定關系的化合物。另外，我們還分析了在中國抗擊新冠病毒中常用的一個中****：清肺排毒湯。在它已知的成分里，我們發(fā)現(xiàn)了至少有18種化合物與新冠病毒的 NTD 蛋白有非常強的綁定關系，這也從某種意義上解釋了為什么清肺排毒湯在處理和緩解新冠癥狀上有非常好的表現(xiàn)。

此外，個體差異方面同樣非常重要。我們每個人都有不同、大量的私有免疫細胞，體內的微生物菌群也大相徑庭。所有這些私有的生物屬性很大程度上影響了人類的健康，以及個體對于不同疾病抗原的反應和****物的耐受程度。只有對它們進行精準的刻畫，才能實現(xiàn)真正意義上的個性化醫(yī)療。

因此，我們和美國的 Adaptive Biotechnology 公司一起，利用人工智能的手段，建立起了世界上第一個人類私有免疫細胞和各種疾病抗原之間的對應關系圖—Antigen Map?；谶@張對應圖，我們就可以在很多疾病上做出精準的預測和治療。也正是因為這項技術，我們和 Adaptive 共同創(chuàng)造了世界上首款 FDA（美國食品****品監(jiān)督管理局）批準的基于人體免疫細胞的新冠檢測手段 T-Detect COVID。該檢測手段比我們常常聽到的核酸檢測和抗體檢測更精準、更及時。因為包括 T-Detect 在內的創(chuàng)新技術，微軟最近被 Fast Company 快公司評選為 “World Changing Company of the Year（年度改變世界的公司）”。

除了生物學以外，微軟亞洲研究院在其他行業(yè)、其他科學門類里也做了很多探索。例如，我們發(fā)現(xiàn)高效的數(shù)值仿真是物理學、環(huán)境學等多個科學門類的痛點之一，這是因為真實世界的實驗代價高昂，而實驗前的仿真是推動這些科學發(fā)展的重要手段。但是多尺度、高維度、高精度的仿真需要巨大的運算量，這在很多情況下都是不可能完成的任務。而人工智能在解決這一挑戰(zhàn)方面有著巨大的潛力，比如，深度學習憑借它卓越的逼近能力，有可能可以替代耗時的數(shù)值計算模塊，而強化學習則可以高效地探索狀態(tài)空間和構象空間，加速數(shù)值仿真的進程。

我們提出了一個基于神經(jīng)網(wǎng)絡來學習求解多尺度偏微分方程的算子，它不需要大量的訓練數(shù)據(jù)，可以直接從物理規(guī)律中學習，同時還可以通過 GPU 加速，使解題速度比傳統(tǒng)的數(shù)值解法提高幾個數(shù)量級。利用這樣的新技術，在精度與傳統(tǒng)數(shù)值解法相當?shù)那闆r下，我們以10倍的速度成功求解了描述大氣湍流的大規(guī)模納維-斯托克斯方程，這對于環(huán)境建模、氣候預測都可能產(chǎn)生革命性的影響。

除此之外，我們還對大氣里的物理化學反應有了更加深入的洞察。我們發(fā)現(xiàn)，大氣物理化學反應中存在一些深刻規(guī)律，通過拆解化學平衡常數(shù)和反映關系函數(shù)，在常數(shù)復雜度下就可以實現(xiàn)高效的大氣反映曲面估計，這與傳統(tǒng)方法相比是成千上萬倍的加速?；谶@個技術，我們可以對大氣污染物的擴散進行非常精準的預測和仿真，而該技術目前已經(jīng)在多個國家的大氣污染治理中扮演著重要的角色。并且所有這些努力也都在踐行著微軟公司在負碳計劃方面的承諾。我們相信以智能科學之矛，攻環(huán)境污染之盾，是我們每個人的使命，雖然任重道遠，但是我們責無旁貸。

展望未來，除了生物學、物理學、環(huán)境科學以外，其實還有太多的空間值得我們用人工智能去探索，無論是用人工智能助力電池材料的設計，助力碳捕捉和碳存儲，還是去探索行星的前世今生，甚至發(fā)現(xiàn)全新的基于數(shù)據(jù)驅動的物理定律，我們都有著無限的想象空間。

我們相信，未來這種產(chǎn)業(yè)和科學的智能化進程還會有非常廣闊的空間，人工智能在其中也會扮演越來越重要的角色。微軟也將繼續(xù)秉承自身優(yōu)勢和平臺公司的定位，推出更多的開源項目、共性技術，助力產(chǎn)業(yè)界和學術界的長足發(fā)展。我們堅信，只有借助整個社會的力量，借助整個學術界的力量和產(chǎn)業(yè)界的共同努力，我們才能真正推動整個世界智能化的進程。

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

講堂 | 劉鐵巖：跨界共創(chuàng)AI的產(chǎn)業(yè)價值和科學價值

相關推薦

技術專區(qū)