新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 又被AI騙了!73%的人無法分辨“真假”音效

又被AI騙了!73%的人無法分辨“真假”音效

作者: 時間:2020-08-12 來源:DeepTech深科技 收藏

  又一次, 欺騙了人類。

本文引用地址:http://m.butianyuan.cn/article/202008/416983.htm

  在一次試驗中, 讓 73% 的人相信  是真實的。這一最新研究成果有望應(yīng)用于電影、電視劇等影視制作工作中。

  想象一下,假如你正在看一部恐怖片:女主戰(zhàn)戰(zhàn)兢兢地走在黑暗的地下室中,背景音樂十分恐怖,同時一些看不見的邪惡生物也在黑暗中蠕動,然后突然一聲巨響,一個物體被撞倒了…… 如果沒有這種令人緊張又恰到好處的音效,只通過眼睛看到的場景很難讓人產(chǎn)生這種恐懼感。

  通常,這些音效是由錄音室中的 Foley 藝術(shù)家錄制的,他們會使用特定的物體來產(chǎn)生特殊的聲音。比如,如果導(dǎo)演想要在視頻中加入玻璃破碎的聲音,可能需要 Foley 藝術(shù)家打碎很多塊玻璃,直到聲音與視頻片段匹配起來。(DeepTech 注:Foley,即擬聲音效,用于增強(qiáng)電影的聽覺體驗,是日常聲音效果的再現(xiàn),后期制作中會添加到電影、視頻和其他媒體中,以提高音頻質(zhì)量。這些再現(xiàn)的聲音以音效藝術(shù)家 Jack Foley 的名字命名,可以是從衣服和腳步聲,到吱吱作響的門和碎玻璃的任何聲音。)

圖 | 一位早期 Foley 藝術(shù)家(右二)在現(xiàn)場為廣播節(jié)目添加音效,他手中的效果板可以模擬電話鈴響和關(guān)門的效果(來源:維基百科)

圖 | 一位早期 Foley 藝術(shù)家(右二)在現(xiàn)場為廣播節(jié)目添加音效,他手中的效果板可以模擬電話鈴響和關(guān)門的效果(來源:維基百科)

  如今,為解決這一問題,來自美國得克薩斯大學(xué)圣安東尼奧分校的研究人員創(chuàng)建了一個基于機(jī)器學(xué)習(xí)的自動程序,它可以確定一個視頻剪輯中正在發(fā)生的動作,并據(jù)此創(chuàng)建逼真的音效,而且已經(jīng)讓大多數(shù)人相信假的聲音效果是真實的。

  相關(guān)研究成果以論文的形式發(fā)表在由 IEEE 計算機(jī)協(xié)會、IEEE 通信協(xié)會等出版的科學(xué)期刊《IEEE 多媒體匯刊》(IEEE Transactions on Multimedia)上。

(來源:論文)

(來源:論文)

  對于此項工作,論文通訊作者、得克薩斯大學(xué)圣安東尼奧分校教授杰夫 · 普雷沃斯特(Jeff Prevost)表示,“自 20 世紀(jì) 30 年代以來,在電影和電視劇的后期制作中,通過使用 Foley 藝術(shù)為特定場景添加音效,一直是一個比較復(fù)雜的事情。如果沒有逼真的 Foley 音效,電影就會顯得空洞、不真實,但是 Foley 音效合成增加了電影和電視劇的創(chuàng)作周期和成本。”

  在普雷沃斯特和他的博士生桑奇塔 · 高斯(Sanchita Ghose)創(chuàng)建的多層機(jī)器學(xué)習(xí)程序中,他們針對包括識別視頻中的動作和確定合適的聲音這一步,分別創(chuàng)建了兩種不同的,來檢驗音效的合成效果。

  第一種,可以從快速移動的動作剪輯的幀中提取圖像特征(比如,顏色和運(yùn)動),以確定適當(dāng)?shù)穆曇粜Ч?;第二種,分析一個物體在不同幀中的時間關(guān)系,通過使用關(guān)系推理來比較不同時間段的不同幀,這一模型可以預(yù)測在視頻中發(fā)生了什么動作。

  在最后一步中,通過合成聲音來匹配模型預(yù)測的活動或運(yùn)動。目前,他們?yōu)?nbsp;1000 個電影片段創(chuàng)建了聲音,并捕捉了一些常見的動作,比如下雨、奔騰的馬和滴答作響的鐘表。

圖 | 涉及應(yīng)用場景(來源:論文)

圖 | 涉及應(yīng)用場景(來源:論文)

  結(jié)果顯示,他們的模型最適合用在時間不需要與視頻完全一致的場景(比如,下雨聲和火的噼啪聲)中,但當(dāng)視頻中包含隨時間變化的隨機(jī)動作(比如,打字、雷暴)時,表現(xiàn)得就不太好。

  此外,他們也對當(dāng)?shù)氐?nbsp;57 位大學(xué)生進(jìn)行了調(diào)查,看他們是否可以分辨出哪些電影片段中包含了原始音效。在評估第一個模型時,73% 的學(xué)生選擇了作為原始音效,在評估第二個模型時,這一數(shù)字為 66%。可見,這兩個 AI 模型已經(jīng)騙過了大多數(shù)人。

  但是,普雷沃斯特表示,該方法還存在一個明顯的不足,必須要求分類的主體出現(xiàn)在整個視頻幀序列中,而且依賴于具有有限 Foley 類別的數(shù)據(jù)集。

  對此,普雷沃斯特認(rèn)為,這些不足將會在未來的研究中得以解決。




關(guān)鍵詞: AI 合成音效 模型

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉