新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動態(tài) > 從神經(jīng)網(wǎng)絡(luò)到天體物理,沒有什么是AI做不到的

從神經(jīng)網(wǎng)絡(luò)到天體物理,沒有什么是AI做不到的

作者: 時(shí)間:2019-03-21 來源: 獵云網(wǎng) 收藏
編者按:爆發(fā)式的數(shù)據(jù)讓科學(xué)家不得不求助AI。在人類輸入最少的情況下,AI系統(tǒng)(比如人工神經(jīng)網(wǎng)絡(luò),模仿大腦功能的計(jì)算機(jī)模擬神經(jīng)元網(wǎng)絡(luò))可以挖掘海量數(shù)據(jù)、突出異常現(xiàn)象,并檢測出人力永遠(yuǎn)無法發(fā)現(xiàn)的東西。

  如今,物理學(xué)、天文學(xué)實(shí)驗(yàn)所產(chǎn)生的海量信息是人類團(tuán)隊(duì)難以企及的。一些實(shí)驗(yàn)每天記錄萬億字節(jié)的數(shù)據(jù),并且不斷累積增加。世界最大的射電望遠(yuǎn)鏡項(xiàng)目Square Kilmeter Array預(yù)計(jì)在2020年開啟,它每年產(chǎn)生的數(shù)據(jù)量將相當(dāng)于整個(gè)互聯(lián)網(wǎng)的總量。

本文引用地址:http://m.butianyuan.cn/article/201903/398700.htm

  爆發(fā)式的數(shù)據(jù)讓科學(xué)家不得不求助。在人類輸入最少的情況下,系統(tǒng)(比如人工神經(jīng)網(wǎng)絡(luò),模仿大腦功能的計(jì)算機(jī)模擬神經(jīng)元網(wǎng)絡(luò))可以挖掘海量數(shù)據(jù)、突出異常現(xiàn)象,并檢測出人力永遠(yuǎn)無法發(fā)現(xiàn)的東西。

  計(jì)算機(jī)應(yīng)用于科學(xué)研究已經(jīng)有75年歷史,人類對自然數(shù)據(jù)的觀察研究更是伴隨著人類的發(fā)展史。但是,隨著機(jī)器學(xué)習(xí)和的發(fā)展,科學(xué)研究的方法已經(jīng)發(fā)生徹底的革新。其中一種方法稱為生成模型(Generative Modeling),對于觀測數(shù)據(jù)的不同解釋,它可以僅僅基于數(shù)據(jù)就辨別出最可信的理論。更重要的是,它不需要關(guān)于物理過程的預(yù)編程知識。生成模型的支持者認(rèn)為它非常新穎,可以被視作研究宇宙的“第三類方式”。

  傳統(tǒng)上,人類通過觀察來了解自然。想想十六世紀(jì)天文學(xué)家約翰尼斯·開普勒正在仔細(xì)研究另一位同時(shí)期天文學(xué)家第谷·布拉赫的行星位置圖,開普勒最終推斷出行星在橢圓軌道上運(yùn)動。科學(xué)通過模擬而進(jìn)步。天文學(xué)家模擬銀河系及其鄰近星系仙女座的運(yùn)動,并預(yù)測它們將在幾十億年后發(fā)生碰撞。觀察和模擬都有助于科學(xué)家產(chǎn)生假說,再通過進(jìn)一步的觀察來驗(yàn)證這些假說。但是,生成模型既不是觀察也不是模擬。

  天體物理學(xué)家Kevin Schawinski(供職于蘇黎世聯(lián)邦理工學(xué)院)是生成模型的積極倡導(dǎo)者,他說:“這是介于觀察和模擬之間的第三類方法,是解決問題的另一種方式?!?/p>

  雖然一些科學(xué)家仍然把生成模型和其它新技術(shù)簡單地看作是傳統(tǒng)科學(xué)的補(bǔ)充工具。但大多數(shù)人都同意AI正在產(chǎn)生巨大的影響,它在科學(xué)研究中的作用必然會越來越大。費(fèi)米實(shí)驗(yàn)室的天體物理學(xué)家Brian Nord使用人工神經(jīng)網(wǎng)絡(luò)研究宇宙,他擔(dān)心人類科學(xué)家所做的任何事情都可能實(shí)現(xiàn)計(jì)算機(jī)自動化——這有點(diǎn)讓人不寒而栗。

  生成模型帶來的發(fā)現(xiàn)

  研究生時(shí)代,Schawinski就因數(shù)據(jù)驅(qū)動領(lǐng)域的成就而聞名。攻讀博士期間,他需要根據(jù)星系的外觀對它們進(jìn)行分類。由于沒有現(xiàn)成的軟件可用,所以Galaxy Zoo眾包科學(xué)項(xiàng)目誕生了。從2007年開始,普通計(jì)算機(jī)用戶通過猜測記錄星系分類來幫助天文學(xué)家,服從多數(shù)原則一般可以得出正確的分類結(jié)果。這個(gè)項(xiàng)目無疑是成功的,只不過今時(shí)今日的AI技術(shù)使它顯得過時(shí)了。現(xiàn)在,一個(gè)有機(jī)器學(xué)習(xí)和云計(jì)算背景的優(yōu)秀科學(xué)家可以在一個(gè)下午就完成以上任務(wù)。

  Schawinski在2016年轉(zhuǎn)向強(qiáng)大的生成模型工具。本質(zhì)上,在給定條件X的情況下,生成模型會詢問觀察到結(jié)果Y的可能性有多大。這種方法已被證明是非常有效且具有通用性。舉個(gè)例子,假設(shè)你提供一組人臉圖像給生成模型,并逐一標(biāo)注年齡。當(dāng)計(jì)算機(jī)程序梳理這些訓(xùn)練數(shù)據(jù)時(shí),會把年長者面部和皺紋增加聯(lián)系起來。最終,計(jì)算機(jī)可以根據(jù)面部判斷年齡,也就是說,它可以通過給定的面部預(yù)測其經(jīng)歷的物理變化。

  這些人臉都不是真的。A 行和B 列的人臉都是由GAN使用真實(shí)面部搭建元素來構(gòu)建的。然后,GAN結(jié)合A行臉部的基本特征(包括性別、年齡、臉形)和B列更精細(xì)的臉部特征(例如發(fā)色、眼睛顏色),創(chuàng)造出上圖中其它的人臉圖像。

  最著名的生成模型系統(tǒng)是“生成式對抗網(wǎng)絡(luò)(GAN)”。在充分地暴露于訓(xùn)練數(shù)據(jù)之后,GAN可以修復(fù)已損壞或丟失像素的圖像,它也可以使模糊的照片變得清晰。GAN通過博弈(術(shù)語稱作“對抗”)來學(xué)習(xí)推斷丟失的信息:網(wǎng)絡(luò)的一部分(稱為生成器)生成偽數(shù)據(jù),而第二部分(判別器)試圖對真?zhèn)螖?shù)據(jù)進(jìn)行區(qū)分。隨著程序的運(yùn)行,兩個(gè)部分都逐漸演化提升。對于最近出現(xiàn)的一些超現(xiàn)實(shí)的、GAN制作的“人臉”,有文章評價(jià)道:這些計(jì)算機(jī)創(chuàng)造的詭異假臉跟真人沒有分別。

  更廣泛地說,生成模型采用數(shù)據(jù)集(通常是圖像),并將每個(gè)數(shù)據(jù)集分解為一組基本的抽象構(gòu)建模塊,科學(xué)家將其稱為數(shù)據(jù)的“隱空間”。隱空間的概念是抽象的,很難將其視覺化,粗略地類比一下,當(dāng)你試圖確定人臉的性別時(shí),想想你的大腦可能是怎么思考的,也許你會注意到發(fā)型、鼻子形狀等等,還有的判斷模式可能很難用文字表達(dá)。相似地,計(jì)算機(jī)程序也是在數(shù)據(jù)中尋找突出的特征:雖然它不知道什么是胡子,什么是性別,但如果它接受過數(shù)據(jù)集的訓(xùn)練,其中一些圖像被貼上“男人”或“女人”的標(biāo)簽,一些圖像被貼上“胡子”的標(biāo)簽,計(jì)算機(jī)會很快推演出它們之間的聯(lián)系。

  在與同事合著的一篇論文中,Schawinski利用生成模型研究了星系在演化過程中所經(jīng)歷的物理變化。模型創(chuàng)建了人工數(shù)據(jù)集,以此作為檢驗(yàn)物理過程假設(shè)的方式。例如,恒星猝熄(恒星形成速度急劇下降)如何與星系環(huán)境密度增加相關(guān)聯(lián)。

  關(guān)鍵問題在于:有多少關(guān)于恒星和銀河系的信息可以單獨(dú)從數(shù)據(jù)中提取出來。Schawinski說:“讓我們抹掉所有關(guān)于天體物理學(xué)固有的知識。然后僅僅利用數(shù)據(jù)本身,能在多大程度上重新認(rèn)知宇宙?”

  首先,星系圖像被縮小到隱空間,然后,Schawinski可以調(diào)整空間的一個(gè)元素,使其對應(yīng)星系環(huán)境的特定變化(比如周圍的密度)。然后他可以重新生成星系,看看會有什么不同。Schawinski解釋說:“所以現(xiàn)在我有了一個(gè)假說生成機(jī)器。通過這個(gè)過程,我可以讓原本處于低密度環(huán)境中的一整束星系看起來像處于高密度環(huán)境中。”研究者發(fā)現(xiàn),隨著星系從低密度變?yōu)楦呙芏拳h(huán)境,它們的顏色變得更紅,恒星分布更集中。這與現(xiàn)有的星系觀測結(jié)果相吻合。問題是為什么會這樣。

  對于這個(gè)過程,有兩種可能的解釋:也許星系在高密度環(huán)境中顏色更紅,因?yàn)樗鼈兒懈嗟膲m埃,又或者是因?yàn)槠浞秶鷥?nèi)的恒星趨于衰退。有了生成模型,這兩個(gè)想法都可以進(jìn)行測試:改變隱空間中有關(guān)塵埃和恒星形成速率的元素,然后觀察星系顏色的變化。結(jié)論很清楚,星系顏色更紅的地方是“恒星形成速率下降的地方”,而不是“塵埃發(fā)生改變的地方”。

  通過生成模型,天體物理學(xué)家可以研究星系從宇宙的低密度區(qū)域到高密度區(qū)域是如何變化的,以及是什么物理過程導(dǎo)致了這些變化。

  該方法與傳統(tǒng)的模擬有關(guān),但存在關(guān)鍵差別。Schawinski說,模擬“本質(zhì)上是假設(shè)驅(qū)動的”,對于某種宇宙現(xiàn)象,我首先假設(shè)一個(gè)可以解釋它的物理原則,比如說我們對于暗物質(zhì)、對于恒星形成都有一套理論假設(shè),然后對照假設(shè)運(yùn)行模擬操作,接著再思考:模擬是否符合現(xiàn)實(shí)?但是生成模型則不同,某種意義上來說,它與模擬完全相反。我們什么都不知道也不想做任何假設(shè),只是讓數(shù)據(jù)告訴我們可能會發(fā)生什么。

  生成模型的成功應(yīng)用當(dāng)然不意味著天文學(xué)家要失業(yè),但這也確實(shí)讓我們思考,天體物理學(xué)研究多大程度上可以由智能系統(tǒng)完成。Schawinski表示,這不是完全自動化的科學(xué),但它表明我們至少能夠部分地構(gòu)建工具——使科學(xué)過程自動化。

  生成模型顯然是強(qiáng)大的,但它是否真正代表了一種新的科學(xué)方法仍有待商榷。David Hogg是紐約大學(xué)的宇宙學(xué)家,它認(rèn)為,這仍然只是從數(shù)據(jù)中抓取模型,數(shù)個(gè)世紀(jì)以來天文學(xué)家都是這樣進(jìn)行工作的,只不過如今的技術(shù)相當(dāng)強(qiáng)大。換句話說,生成模型是一種先進(jìn)的觀察加分析的方式。Hogg自己的工作也嚴(yán)重依賴AI。他使用神經(jīng)網(wǎng)絡(luò)根據(jù)恒星的光譜對它們進(jìn)行分類,并使用數(shù)據(jù)驅(qū)動模型來推斷恒星的其它物理屬性。但他不認(rèn)為生成模型是另類方法。他說:“只是科學(xué)家在如何使用數(shù)據(jù)方面變得更加老練了。特別是在比較數(shù)據(jù)方面比以前進(jìn)步很多。但在我看來,我的工作仍處于觀察模式?!?/p>


上一頁 1 2 下一頁

關(guān)鍵詞: AI

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉