人工智能破譯神經(jīng)活動(dòng)，腦機(jī)接口說出無言心聲

作者：學(xué)術(shù)經(jīng)緯時(shí)間：2019-04-25 來源：虎嗅網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

將計(jì)算機(jī)連通人腦，直接讀取意識(shí)，這不是科幻。

本文引用地址：http://m.butianyuan.cn/article/201904/399885.htm

頂尖學(xué)術(shù)期刊《自然》剛剛在線發(fā)表的一項(xiàng)工作就在腦機(jī)接口領(lǐng)域向前邁出了一大步。加州大學(xué)舊金山分校（UCSF）的神經(jīng)外科學(xué)家Edward Chang教授與其同事開發(fā)出一種解碼器，可以將人腦神經(jīng)信號(hào)轉(zhuǎn)化為語音，為幫助無法說話的患者實(shí)現(xiàn)發(fā)聲交流完成了有力的概念驗(yàn)證。

腦機(jī)接口（BCI），指的是在人或動(dòng)物大腦與外部設(shè)備之間創(chuàng)建的直接連接，實(shí)現(xiàn)腦與設(shè)備的信息交換。近年來，這一技術(shù)的快速發(fā)展正在為那些神經(jīng)受損或嚴(yán)重運(yùn)動(dòng)障礙的人們改善生活質(zhì)量。比如，幫助癱瘓人士靠“想”控制機(jī)械臂取物，或是控制屏幕上的光標(biāo)打出字詞。然而，“意念打字”的速度目前只能達(dá)到每分鐘10來個(gè)單詞，比正常的人類說話速度要慢得多，還遠(yuǎn)不能滿足患者的溝通需求。

因此，一些科學(xué)家們?cè)噲D解碼大腦中的言語信號(hào)，并通過人工語音合成，把“想”的內(nèi)容真正“說”出來！

▲本次研究的主要負(fù)責(zé)人Edward Chang教授是一名神經(jīng)外科醫(yī)生，擅長治療成人癲癇、腦腫瘤等疾病，研究主要集中于語言、運(yùn)動(dòng)和情感的腦機(jī)制（圖片來源：UCSF官網(wǎng)）

要挑戰(zhàn)重建語音的難題，需要首先實(shí)現(xiàn)對(duì)表征語音動(dòng)作的神經(jīng)活動(dòng)進(jìn)行解碼。一些接受開顱手術(shù)的癲癇患者為神經(jīng)科學(xué)家提供了寶貴的數(shù)據(jù)。由于需要為一些患者定位癲癇發(fā)作的源頭，神經(jīng)外科醫(yī)生會(huì)通過手術(shù)在患者顱內(nèi)植入電極，以便監(jiān)測(cè)其大腦活動(dòng)。在此基礎(chǔ)上，研究人員采用了一種叫作高密度腦皮層電圖（ECoG）的技術(shù)，直接記錄下受試者大腦皮層的神經(jīng)活動(dòng)。

受試者首先按要求大聲讀出幾百條句子，與此同時(shí)，研究人員記錄他們大腦的語音產(chǎn)生中心——腹側(cè)感覺運(yùn)動(dòng)皮層區(qū)域的神經(jīng)活動(dòng)。

利用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），研究人員分兩步破譯了采集到的神經(jīng)信號(hào)。第一步，他們將神經(jīng)信號(hào)轉(zhuǎn)換為表征發(fā)音器官動(dòng)作的信號(hào)，包括下巴、喉、嘴唇和舌頭動(dòng)作相關(guān)的腦信號(hào)。然后，根據(jù)解碼出來的發(fā)音器官動(dòng)作，把信號(hào)轉(zhuǎn)換為說出的詞句。

▲腦機(jī)接口實(shí)現(xiàn)語音合成的圖示（圖片來源：參考資料[1]）

這種創(chuàng)新的解碼方法有助于解決重建語音時(shí)的聲學(xué)失真問題，讓合成的語音更容易被人聽清、聽懂，接下來的測(cè)試結(jié)果驗(yàn)證了這一點(diǎn)。研究人員在亞馬遜的眾包任務(wù)平臺(tái)Mechanical Turk上招募聽眾來辨認(rèn)解碼器合成的語音，包含325個(gè)單詞和101句整句。檢驗(yàn)測(cè)試中，聽眾可以成功地識(shí)別出單詞，和對(duì)自然語音的感知模式一致。對(duì)于合成語音發(fā)出的整句，聽眾也能識(shí)別出句子的意思。

第一作者Gopala Anumanchipalli博士認(rèn)為，該結(jié)果意味著，這種神經(jīng)合成語音對(duì)于現(xiàn)實(shí)世界的應(yīng)用來說已經(jīng)達(dá)到即刻聽懂的實(shí)用程度。

更有意義的是，研究人員還測(cè)試了解碼器對(duì)于不出聲說話的語音合成能力。一名被試先按要求說出句子，然后默念同一個(gè)句子，也就是只有發(fā)音的動(dòng)作、并不發(fā)出聲音——這種情形更符合某些患者的實(shí)際情況。結(jié)果顯示，解碼器對(duì)默念動(dòng)作合成的語音頻譜與同一句句子的有聲頻譜是相似的。

盡管如生物工程學(xué)教授Chethan Pandarinath等人在同期《自然》上刊發(fā)的評(píng)論中所言，這一系統(tǒng)要真正成為一個(gè)臨床可行的語音腦機(jī)接口還面臨許多挑戰(zhàn)，但毫無疑問的一點(diǎn)是，腦機(jī)接口技術(shù)的持續(xù)進(jìn)步將讓有發(fā)聲障礙的人重新獲得自由說出心聲的能力，與周遭世界重新建立聯(lián)系。甚至，腦機(jī)接口的發(fā)展還會(huì)讓更多的人有可能突破人類自身的局限，讓意識(shí)的疆界不斷拓展。

參考資料：

[1] Gopala Anumanchipalli et al., (2019) Speech synthesis from neural decoding of spoken sentences. Nature. DOI: 10.1038/s41586-019-1119-1

[2] Chethan Pandarinath & Yahia H. Ali, (2019) Brain implants that let you speak your mind. Nature

[3] Chartier Anumanchipalli et al., (2018) Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex. Neuron. doi:10.1016/j.neuron.2018.04.031.

本文作者：學(xué)術(shù)經(jīng)緯

本文轉(zhuǎn)自虎嗅網(wǎng)，如需轉(zhuǎn)載請(qǐng)至虎嗅網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

原文鏈接：https://www.huxiu.com/article/296139.html