又被AI騙了！73%的人無法分辨“真假”音效

作者：時(shí)間：2020-08-12 來源：DeepTech深科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　又一次，AI 欺騙了人類。

本文引用地址：http://m.butianyuan.cn/article/202008/416983.htm

　　在一次試驗(yàn)中，AI 讓 73% 的人相信 AI 合成音效是真實(shí)的。這一最新研究成果有望應(yīng)用于電影、電視劇等影視制作工作中。

　　想象一下，假如你正在看一部恐怖片：女主戰(zhàn)戰(zhàn)兢兢地走在黑暗的地下室中，背景音樂十分恐怖，同時(shí)一些看不見的邪惡生物也在黑暗中蠕動(dòng)，然后突然一聲巨響，一個(gè)物體被撞倒了…… 如果沒有這種令人緊張又恰到好處的音效，只通過眼睛看到的場(chǎng)景很難讓人產(chǎn)生這種恐懼感。

　　通常，這些音效是由錄音室中的 Foley 藝術(shù)家錄制的，他們會(huì)使用特定的物體來產(chǎn)生特殊的聲音。比如，如果導(dǎo)演想要在視頻中加入玻璃破碎的聲音，可能需要 Foley 藝術(shù)家打碎很多塊玻璃，直到聲音與視頻片段匹配起來。（DeepTech 注：Foley，即擬聲音效，用于增強(qiáng)電影的聽覺體驗(yàn)，是日常聲音效果的再現(xiàn)，后期制作中會(huì)添加到電影、視頻和其他媒體中，以提高音頻質(zhì)量。這些再現(xiàn)的聲音以音效藝術(shù)家 Jack Foley 的名字命名，可以是從衣服和腳步聲，到吱吱作響的門和碎玻璃的任何聲音。）

圖 | 一位早期 Foley 藝術(shù)家（右二）在現(xiàn)場(chǎng)為廣播節(jié)目添加音效，他手中的效果板可以模擬電話鈴響和關(guān)門的效果（來源：維基百科）

　　如今，為解決這一問題，來自美國(guó)得克薩斯大學(xué)圣安東尼奧分校的研究人員創(chuàng)建了一個(gè)基于機(jī)器學(xué)習(xí)的自動(dòng)程序，它可以確定一個(gè)視頻剪輯中正在發(fā)生的動(dòng)作，并據(jù)此創(chuàng)建逼真的音效，而且已經(jīng)讓大多數(shù)人相信假的聲音效果是真實(shí)的。

　　相關(guān)研究成果以論文的形式發(fā)表在由 IEEE 計(jì)算機(jī)協(xié)會(huì)、IEEE 通信協(xié)會(huì)等出版的科學(xué)期刊《IEEE 多媒體匯刊》（IEEE Transactions on Multimedia）上。

（來源：論文）

　　對(duì)于此項(xiàng)工作，論文通訊作者、得克薩斯大學(xué)圣安東尼奧分校教授杰夫 · 普雷沃斯特（Jeff Prevost）表示，“自 20 世紀(jì) 30 年代以來，在電影和電視劇的后期制作中，通過使用 Foley 藝術(shù)為特定場(chǎng)景添加音效，一直是一個(gè)比較復(fù)雜的事情。如果沒有逼真的 Foley 音效，電影就會(huì)顯得空洞、不真實(shí)，但是 Foley 音效合成增加了電影和電視劇的創(chuàng)作周期和成本。”

　　在普雷沃斯特和他的博士生桑奇塔 · 高斯（Sanchita Ghose）創(chuàng)建的多層機(jī)器學(xué)習(xí)程序中，他們針對(duì)包括識(shí)別視頻中的動(dòng)作和確定合適的聲音這一步，分別創(chuàng)建了兩種不同的模型，來檢驗(yàn)音效的合成效果。

　　第一種模型，可以從快速移動(dòng)的動(dòng)作剪輯的幀中提取圖像特征（比如，顏色和運(yùn)動(dòng)），以確定適當(dāng)?shù)穆曇粜Ч?；第二種模型，分析一個(gè)物體在不同幀中的時(shí)間關(guān)系，通過使用關(guān)系推理來比較不同時(shí)間段的不同幀，這一模型可以預(yù)測(cè)在視頻中發(fā)生了什么動(dòng)作。

　　在最后一步中，通過合成聲音來匹配模型預(yù)測(cè)的活動(dòng)或運(yùn)動(dòng)。目前，他們?yōu)?nbsp;1000 個(gè)電影片段創(chuàng)建了聲音，并捕捉了一些常見的動(dòng)作，比如下雨、奔騰的馬和滴答作響的鐘表。

圖 | 涉及應(yīng)用場(chǎng)景（來源：論文）

　　結(jié)果顯示，他們的模型最適合用在時(shí)間不需要與視頻完全一致的場(chǎng)景（比如，下雨聲和火的噼啪聲）中，但當(dāng)視頻中包含隨時(shí)間變化的隨機(jī)動(dòng)作（比如，打字、雷暴）時(shí)，表現(xiàn)得就不太好。

　　此外，他們也對(duì)當(dāng)?shù)氐?nbsp;57 位大學(xué)生進(jìn)行了調(diào)查，看他們是否可以分辨出哪些電影片段中包含了原始音效。在評(píng)估第一個(gè)模型時(shí)，73% 的學(xué)生選擇了合成音效作為原始音效，在評(píng)估第二個(gè)模型時(shí)，這一數(shù)字為 66%。可見，這兩個(gè) AI 模型已經(jīng)騙過了大多數(shù)人。

　　但是，普雷沃斯特表示，該方法還存在一個(gè)明顯的不足，必須要求分類的主體出現(xiàn)在整個(gè)視頻幀序列中，而且依賴于具有有限 Foley 類別的數(shù)據(jù)集。

　　對(duì)此，普雷沃斯特認(rèn)為，這些不足將會(huì)在未來的研究中得以解決。