我裂開了...人類腦海中的畫面,被AI解碼了??
有沒有那么幾個(gè)瞬間,你要么想把自己腦子里的東西掏出來(lái)給別人看,要么想撬開別人的腦子看看里面都裝了什么?雖然錯(cuò)過(guò)了霍格沃茨的入學(xué)時(shí)間,但如果從現(xiàn)在開始學(xué)習(xí)擴(kuò)散模型和神經(jīng)學(xué),可能很快你就能實(shí)現(xiàn)這個(gè)目標(biāo)了。新加坡國(guó)立大學(xué),香港中文大學(xué),和Stanford聯(lián)手,基于擴(kuò)散模型實(shí)現(xiàn)了從腦電波還原圖像的“人類視覺****”。效果奇佳,還開源了代碼和數(shù)據(jù),這還不來(lái)一起看看?
▲圖1 基于腦電波還原的圖像與真實(shí)圖像對(duì)比
論文題目:
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
論文鏈接:
http://arxiv.org/abs/2211.06956
代碼鏈接:
https://github.com/zjc062/mind-vis
背景
故事要從神經(jīng)科學(xué)的基本理論說(shuō)起。作為一個(gè)唯物主義的麻瓜,我必須相信,我的思維活動(dòng)都依托于腦神經(jīng)細(xì)胞,其釋放的電信號(hào)就是大腦內(nèi)部通信計(jì)算的物理媒介。既然我能夠流暢地思考,那么腦電波必然傳遞了某種“有意義”的信號(hào),而一段數(shù)據(jù)如果能攜帶某種信息,它必須要有一定規(guī)律可言。因此,從理論上來(lái)說(shuō),我們可以通過(guò)分析進(jìn)行思維活動(dòng)時(shí)產(chǎn)生的生物電信號(hào),去反推思考的具體內(nèi)容。這個(gè)觀點(diǎn)已然不新奇了,大量的研究已經(jīng)證實(shí)了反推大腦思維的可行性,腦機(jī)接口蒸蒸日上的熱度,則是一個(gè)風(fēng)向標(biāo),指示了相關(guān)技術(shù)在實(shí)際生活應(yīng)用中的潛力。
當(dāng)然,高情商的說(shuō)法是有潛力,換個(gè)樸實(shí)一點(diǎn)的說(shuō)法,那就是目前還存在大量技術(shù)瓶頸,研究中障礙重重。就拿通過(guò)腦電波還原人腦海中的圖像這個(gè)任務(wù)來(lái)說(shuō),雖然腦電波是有規(guī)律的,這種規(guī)律卻非常復(fù)雜。不僅如此,“每個(gè)人的腦回路不一樣”也是物理的,也就是說(shuō),對(duì)同樣的刺激(stimuli) ,每個(gè)人大腦做出的反饋都會(huì)存在差異。這個(gè)問(wèn)題好解決嗎?對(duì)于ML人來(lái)說(shuō),太簡(jiǎn)單了,大數(shù)據(jù)驅(qū)動(dòng)。然而,聯(lián)系到實(shí)際問(wèn)題,腦電數(shù)據(jù)的采集,特別是有標(biāo)簽(腦電產(chǎn)生者思考內(nèi)容)的腦電數(shù)據(jù)的采集,卻沒有特別豐富的數(shù)據(jù)。缺乏有標(biāo)簽的數(shù)據(jù),缺乏處理數(shù)據(jù)的方法,是目前這個(gè)任務(wù)上一直難以取的進(jìn)展的主要原因。
方法
基于fMRI收集的腦電數(shù)據(jù)
人腦中有左右的腦細(xì)胞,而它們的激活模式是非線性的(一般會(huì)用一組復(fù)雜的微分方程建模)。為了能觀察如此復(fù)雜的神經(jīng)網(wǎng)絡(luò)的活動(dòng),目前廣泛采用的是功能性磁共振成像(fMRI,functional magnetic resonance imaging)技術(shù)。這項(xiàng)技術(shù)不會(huì)對(duì)被試者造成物理上的傷害,包括外部創(chuàng)口(侵入式)和輻射問(wèn)題。它的原理是利用磁共振技術(shù),追蹤大腦在思維活動(dòng)時(shí)的血氧變化,依據(jù)于此成像。基于fMRI技術(shù),研究者采集了大量的,特別是當(dāng)人類在進(jìn)行各種復(fù)雜的任務(wù)時(shí)的大腦活動(dòng)數(shù)據(jù)。經(jīng)過(guò)分析,研究者們發(fā)現(xiàn)人們?cè)谔幚硗瑯拥娜蝿?wù)時(shí),大腦中被激活的區(qū)域基本相近 [1]。
作為1991年的Nature封面,fMRI得到了廣泛研究,目前采集數(shù)據(jù)的技術(shù)已經(jīng)相當(dāng)成熟。但這一塊的原理非常復(fù)雜,感興趣的話可以搜索血氧依賴機(jī)理,blood-oxygen-level-dependent, BOLD。
▲圖2 語(yǔ)言(講故事)任務(wù)中大腦被激活區(qū)域
神經(jīng)科學(xué)方面雖然有相當(dāng)多fMRI的原始數(shù)據(jù),但在實(shí)際使用時(shí),會(huì)遇到這樣一些問(wèn)題:
- fMRI掃描所得到的數(shù)據(jù)是以三維形式的體素 (voxel)記錄的,每個(gè)數(shù)據(jù)點(diǎn)包括了三維坐標(biāo),電信號(hào)幅度等信息,維度很高。為了避免對(duì)體素直接進(jìn)行運(yùn)算,一般采用的方法是劃興趣區(qū)域 (Region of Interest, ROI),對(duì)電信號(hào)求時(shí)序上的均值,最終獲得一列體素,這樣的數(shù)據(jù)在緯度方面和通常處理的圖像數(shù)據(jù)存在相當(dāng)?shù)牟罹啵?/span>
- 鄰近的體素往往電信號(hào)幅度相近,fMRI收集的信息中存在一定冗余;
- 因?yàn)槿四X的復(fù)雜性,每個(gè)個(gè)體的數(shù)據(jù)都會(huì)存在一定的域偏移。
▲圖3 fMRI數(shù)據(jù)的可視化,一列體素,可視化成了一維折線圖
模型結(jié)構(gòu)
論文將提出的模型命名為MinD-Vis (Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding), 也算是給對(duì)處理fMRI數(shù)據(jù)的提示了——掩碼。由于fMRI數(shù)據(jù)中存在大量的冗余,即使將相當(dāng)大一部分的數(shù)據(jù)進(jìn)行了遮掩,最后也能重建得大差不離(見圖3)。因此,計(jì)算時(shí)直接加上掩碼也不會(huì)對(duì)模型效果產(chǎn)生太大影響。因?yàn)閒MRI數(shù)據(jù)的格式和圖像一樣,論文采用了新出的Masked Image Modeling [2] 來(lái)生成embedding vector。
編碼-解碼部分不是很意外地用了ViT。需要注意的是,中間表達(dá)采用的稀疏編碼,這是為了保證fMRI表征的細(xì)節(jié)不被破壞。
以上是Masked Brain Modeling(圖4左)部分的工作,然后就是擴(kuò)散模型部分,如何從經(jīng)過(guò)如此復(fù)雜預(yù)處理的fMRI數(shù)據(jù)中,獲取文本信息,并基于此生成圖像了(圖4右)。
為了能從抽象的表征中獲得視覺信息,論文將解碼任務(wù)化歸成了conditional synthesis問(wèn)題,因此可以使用擴(kuò)散模型解決。擴(kuò)散模型的網(wǎng)絡(luò)包括一個(gè)預(yù)訓(xùn)練過(guò)的UNet模型。生成圖像時(shí)的限定條件信息基于fMRI數(shù)據(jù)生成,通過(guò)cross-attention head加入U(xiǎn)Net。
conditional synthesis是指限定某些特征后進(jìn)行數(shù)據(jù)生成。例如,生成微笑的不同人臉。
對(duì)于一個(gè)conditional generative模型而言,生成圖像要能在條件限定的特征上盡量穩(wěn)定,與條件無(wú)關(guān)的特征上保持多樣性。因?yàn)槿伺c人的fMRI腦波數(shù)據(jù)中已經(jīng)夠?yàn)槎鄻樱谏蓤D像的時(shí)候,需要對(duì)UNet進(jìn)一步約束,強(qiáng)化條件上的限制。
▲圖4 MinD-Vis結(jié)構(gòu)
由于模型的結(jié)構(gòu)較為復(fù)雜,當(dāng)前版本的論文中沒有進(jìn)行更為詳細(xì)的描述,推薦極度好奇的讀者直接看開源代碼。由于涉及了像Masked Brain Modeling,Diffusion Model這類前沿方法,在沒有一定基礎(chǔ)的情況下,想徹底吃透方法會(huì)需要相當(dāng)?shù)臅r(shí)間和精力,大家可以量力而行。
效果
在大致了解了模型結(jié)構(gòu)之后,還是來(lái)到各位最關(guān)心的部分,講講模型效果。
由于fMRI的數(shù)據(jù)主要面向神經(jīng)科學(xué)方向的研究,滿足論文任務(wù)的數(shù)據(jù)量不大,模型的訓(xùn)練、驗(yàn)證、測(cè)試數(shù)據(jù)總共來(lái)自三個(gè)不同的數(shù)據(jù)集,不同集合的數(shù)據(jù)域都有所偏移。Human Connectome Project [1] 提供136,000個(gè)fMRI數(shù)據(jù)片段,沒有圖像,只有fMRI,主要是用來(lái)預(yù)訓(xùn)練模型的解碼部分。Generic Object Decoding Dataset (GOD) [3] 是主要面向fMRI-圖像任務(wù)的,包含1250張來(lái)自200個(gè)類別的圖像,其中50張被用于測(cè)試。Brain, Object, Landscape Dataset (BOLD5000) [4] 則選取了113組fMRI-圖像數(shù)據(jù)對(duì),作為測(cè)試。
由于BOLD5000是第一次用于論文提出的任務(wù),論文沒有在這個(gè)數(shù)據(jù)集上與過(guò)往工作進(jìn)行效果對(duì)比。在GOD上基于腦波生成的圖像,在效果上相比過(guò)往研究顯然有了顯著進(jìn)步。
▲圖5 GOD數(shù)據(jù)集上,MinD-vis與過(guò)往方法效果比較
論文中還有嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn),展示了不同的模型部分對(duì)圖像生成效果的影響。部分圖片較為驚悚,此處不進(jìn)行展示。感興趣的讀者可以參考圖6失敗集錦中右下角的圖片自行評(píng)估承受能力。
▲圖6 MinD-vis翻車集錦
尾聲
終于又到了白鹡鸰的快樂廢話環(huán)節(jié)。
關(guān)于生成圖像翻車現(xiàn)象的猜想
這未必完全是模型的鍋。根據(jù)多個(gè)生成模型的對(duì)比,可以假設(shè)被試者在看到圖像時(shí),其實(shí)腦內(nèi)會(huì)有一些特定的特征被激活,但是因?yàn)楸辉囌邔?duì)圖像的理解方式、關(guān)注點(diǎn)有所區(qū)別,激活的特征組也存在差異。之所以會(huì)有這種想法,是因?yàn)檎撐母郊械男Ч故局?,一般?xì)節(jié)越復(fù)雜,角度越怪的圖像,越容易生成失敗,這很有可能就是因?yàn)閳D像難以用簡(jiǎn)單的特征組描述導(dǎo)致的。
這篇論文意義重大,影響深遠(yuǎn),后續(xù)工作可能上Nature
這篇論文展示的圖像生成效果非常好,展示了通過(guò)fMRI精確還原人們腦內(nèi)圖像信息的可行性。在擁有了更大量的數(shù)據(jù)之后,人類是如何記憶圖像的更多細(xì)節(jié)的機(jī)理,可以通過(guò)生成圖像與被試者所見圖片之間的對(duì)比去推測(cè),然后進(jìn)一步完善、驗(yàn)證。這是神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)成功結(jié)合的典范,一個(gè)起步的信號(hào)。
除此之外,論文本身能快速擁抱前沿技術(shù),對(duì)SOTA模型的熟練應(yīng)用,以及開源代碼的底氣也令我相當(dāng)敬佩。對(duì)于論文后續(xù)的相關(guān)工作,我也會(huì)持續(xù)跟進(jìn)。
參考文獻(xiàn):[1] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013.[2] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[3] Tomoyasu Horikawa and Yukiyasu Kamitani. Generic decoding of seen and imagined objects using hierarchical visual features. Nature communications, 8(1):1–15, 2017.[4] Nadine Chang, John A Pyles, Austin Marcus, Abhinav Gupta, Michael J Tarr, and Elissa M Aminoff. Bold5000, a public fmri dataset while viewing 5000 visual images. Scientific data, 6(1):1–18, 2019.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
單片機(jī)相關(guān)文章:單片機(jī)教程
單片機(jī)相關(guān)文章:單片機(jī)視頻教程
單片機(jī)相關(guān)文章:單片機(jī)工作原理
風(fēng)速傳感器相關(guān)文章:風(fēng)速傳感器原理 土壤濕度傳感器相關(guān)文章:土壤濕度傳感器原理 溫濕度控制器相關(guān)文章:溫濕度控制器原理 燃?xì)鈭?bào)警器相關(guān)文章:燃?xì)鈭?bào)警器原理