Meta 可以通過腦電波猜測你聽到了什么
新的人工智能可以僅僅通過大腦測量猜測出正確的、被測者正在想象的單詞。
Meta 的研究科學(xué)家讓-雷米·金 (Jean-Rémi King) 告訴《時(shí)代》雜志,有許多不好的因素會剝奪某人的說話能力——對這些受到影響的人來說,腦機(jī)接口可能是恢復(fù)溝通的關(guān)鍵。
“通過在患者大腦的運(yùn)動區(qū)域放置一個電極,我們可以解碼活動并幫助患者與世界其他地方交流,”King 說。
大腦植入物使用這樣的方法恢復(fù)癱瘓患者的交流能力:神經(jīng)植入物不需要指向單個字母或單詞,而是將他的想法直接轉(zhuǎn)化為單詞。
患有 ALS 的澳大利亞人 Phiip O'Keefe 擁有一個腦機(jī)接口芯片,可以讓他將自己的想法轉(zhuǎn)化為文本,從而打開了包括Twitter在內(nèi)的整個電子通信世界。此外,一名 ALS 進(jìn)展為完全閉鎖綜合征的患者也接受了一種允許交流的植入物。
Meta 的研究人員正在構(gòu)建用于在大腦中解碼語音的 AI 模型。
“但是將電極放入某人的大腦中顯然是極具侵入性的。” King 說。
(在 O'Keefe 的案例中,值得注意的是,植入物是通過他的頸靜脈進(jìn)入的,因此他不需要進(jìn)行開顱手術(shù),盡管這是一項(xiàng)重大手術(shù)。)
“所以我們想嘗試使用非侵入性的大腦活動記錄。最終目標(biāo)是建立一個人工智能系統(tǒng),可以解碼大腦對口述內(nèi)容的反應(yīng)?!?/span>
Facebook 人工智能研究 (FAIR) 實(shí)驗(yàn)室的 King 和他的同事已經(jīng)開始這樣做,他們創(chuàng)造了一種深度學(xué)習(xí) AI,能夠在一定程度上從腦電波中解碼語音。
King 在Meta AI 的博客中寫道,在他們目前作為預(yù)印本在線的研究中,該團(tuán)隊(duì)使用了之前在 FAIR 創(chuàng)建的開源算法來分析已經(jīng)存在的數(shù)據(jù)集。
這些數(shù)據(jù)集包含 169 名健康志愿者在聽荷蘭語和英語有聲讀物時(shí)的大腦記錄,累積超過 150 小時(shí)。
由于目標(biāo)是非侵入性地解碼語音,因此該團(tuán)隊(duì)使用通過測量大腦的電活動(腦電圖或 EEG)和磁活動(稱為腦磁圖或 MEG)記錄的數(shù)據(jù)。
兩者都是通過頭骨外部的傳感器記錄的,這構(gòu)成了研究人員的主要挑戰(zhàn)之一,King 告訴時(shí)代周刊:數(shù)據(jù)的“嘈雜”程度受限于傳感器與大腦的距離,以及皮膚、頭骨、水等的影響,會導(dǎo)致信號質(zhì)量降低。所有這些噪音都變得更加難以消除,因此我們不能 100% 確定我們在尋找什么。
“另一個大問題更具概念性,因?yàn)槲覀儗?shí)際上在很大程度上不知道大腦如何代表語言?!盞ing 說。
人工智能使用有聲讀物和大腦錄音,分析它們以研究聽到的單詞和腦電波之間的工作模式。
這就是團(tuán)隊(duì)想要外包給人工智能的解碼語音的問題,因?yàn)樗ㄟ^一個動作來預(yù)測大腦活動——這將決定,在這種情況下,一個對象會聽到什么。
如果沒有人工智能,“事情將很難說,‘好吧,這個大腦活動意味著這個詞,這個音素,或者一個行動的意圖,或者其他什么?!盞ing 說。
解碼語音:將這些時(shí)間分成三秒位后,他們將有聲讀物和大腦錄音提供給人工智能,人工智能對其進(jìn)行分析,嘗試發(fā)現(xiàn)模式。
據(jù)《新科學(xué)家》報(bào)道,該團(tuán)隊(duì)保留了 10% 的數(shù)據(jù)來測試他們的模型:使用從其他 90% 中學(xué)習(xí)到的模式來嘗試識別它從未見過的大腦記錄中聽到的單詞。
“經(jīng)過訓(xùn)練,我們的系統(tǒng)執(zhí)行所謂的零樣本分類:給定一個大腦活動片段,它可以從大量新音頻片段中確定這個人實(shí)際聽到的是哪個片段。”King 在 Meta 博客中寫道。“算法基于這種設(shè)計(jì)推斷出這個人最有可能聽到的詞。”
具體來說,據(jù)《新科學(xué)家》報(bào)道,人工智能依靠其 793 個單詞的詞匯表來制作十個單詞列表,以粗略地解碼語音。
根據(jù)他們的預(yù)印本,當(dāng)使用三秒的 MEG 數(shù)據(jù)時(shí),人工智能能夠在 72.5% 的時(shí)間內(nèi)在前十名中得到正確的詞——在 44% 的測試中首先猜到它——而在 EEG 數(shù)據(jù)中則為 19.1%。
人工智能能夠在高達(dá) 72.5% 的測試中提供包含正確單詞的答案列表。
不過,倫敦帝國理工學(xué)院教授 Thomas Knopfel 告訴《新科學(xué)家》,該系統(tǒng)需要更多改進(jìn)才能真正用于語音解碼,并且懷疑 EEG 和 MEG(非侵入性方案)能否提供更準(zhǔn)確所需的精細(xì)細(xì)節(jié).
“這是關(guān)于信息流的?!盞nopfel 告訴《新科學(xué)家》?!斑@就像試圖通過老式模擬電話調(diào)制解調(diào)器播放高清電影。即使在理想的條件下,有人戴著耳機(jī)坐在黑暗的房間里,只是在聽音頻,大腦中也會同時(shí)發(fā)生其他事情。在現(xiàn)實(shí)世界中,腦海中只有一個想法獨(dú)立地發(fā)生完全不可能。”
然而,技術(shù)進(jìn)步可能會改變這一點(diǎn):一種稱為OPM的新型 MEG正在推動可以從外部學(xué)習(xí)的范圍。
就他而言,King 告訴《時(shí)代》雜志,他們目前只對語音進(jìn)行解碼,以講述人們在掃描儀中聽到的內(nèi)容。它還不是用于設(shè)計(jì)產(chǎn)品,而只是作為基礎(chǔ)研究和原理證明。
來源:中國信息通信研究院知識產(chǎn)權(quán)中心
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。