ECCV 2022 | 華為開源BEAT：最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集

發(fā)布人：計算機視覺工坊時間：2022-12-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源丨機器之心

華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進行了研究，提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集：BEAT。

隨著元宇宙的火爆以及數(shù)字人建模技術(shù)的商業(yè)化，AI 數(shù)字人驅(qū)動算法，作為數(shù)字人動畫技術(shù)鏈的下一關(guān)鍵環(huán)節(jié)，獲得了學(xué)界和工業(yè)界越來越廣泛的興趣和關(guān)注。其中談話動作生成（由聲音等控制信號生成肢體和手部動作）由于可以降低 VR Chat, 虛擬直播，游戲 NPC 等場景下的驅(qū)動成本，在近兩年成為研究熱點。然而，由于缺乏開源數(shù)據(jù)，現(xiàn)有的模型往往在由姿態(tài)檢測算法提供的偽標(biāo)簽數(shù)據(jù)集或者單個說話人的小規(guī)模動捕數(shù)據(jù)集上進行測試。由于數(shù)據(jù)量，數(shù)據(jù)標(biāo)注的缺乏和數(shù)據(jù)質(zhì)量的限制，現(xiàn)有的算法很難生成個性化，高手部質(zhì)量，情感相關(guān)，動作 - 語義相關(guān)的動作。
針對上述問題，華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進行了研究，提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集：BEAT （Body-Expression-Audio-Text），由 76 小時動捕設(shè)備采集的談話數(shù)據(jù)和語義 - 情感標(biāo)注組成。原始數(shù)據(jù)包含肢體和手部動捕數(shù)據(jù)，AR Kit 標(biāo)準(zhǔn) 52 維面部 blendshape 權(quán)重，音頻與文本，標(biāo)注數(shù)據(jù)包含 8 類情感分類標(biāo)簽，以及動作類型分類和語義相關(guān)度打分。在 BEAT 的基礎(chǔ)上提出的新基線模型 CaMN (Cascade-Motion-Network) 采取級聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由 BEAT 中其余三種模態(tài)和標(biāo)注作為輸入，在動作生成任務(wù)上顯著優(yōu)于現(xiàn)有 SoTA (state-of-the-art) 算法。論文《BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis》已于 ECCV2022 上發(fā)表，數(shù)據(jù)集已經(jīng)開源。

作者: Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng.
單位：Digital Human Lab - 華為東京研究所，東京大學(xué)，慶應(yīng)大學(xué)，北陸先端科技大學(xué).
論文地址：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf
項目主頁：https://pantomatrix.github.io/BEAT/
數(shù)據(jù)集主頁：https://pantomatrix.github.io/BEAT-Dataset/
視頻結(jié)果：https://www.youtube.com/watch?v=F6nXVTUY0KQ

部分渲染后的數(shù)據(jù)如下（從上到下依次為，生氣 - 恐懼 - 驚訝 - 傷心情感下人的動作）：

渲染結(jié)果使用了 HumanGeneratorV3 產(chǎn)生的身體和臉部模型。
BEAT 數(shù)據(jù)集細節(jié)
動作 - 文本語義相關(guān)度標(biāo)注
談話動作生成領(lǐng)域的關(guān)鍵問題是：如何生成和評估生成的動作和文本在語義上的關(guān)聯(lián)程度。該關(guān)聯(lián)程度很大程度上影響了人對生成動作質(zhì)量的主觀評價。由于缺乏標(biāo)注，現(xiàn)有的研究往往挑選一系列主觀結(jié)果用于評估，增加了不確定性。在 BEAT 數(shù)據(jù)集中，對于動作給出了基于動作類別分類的相關(guān)度分?jǐn)?shù)，共分為四類 10 檔：beat（1），deictic （2-4）， icnoic（5-7），metaphoic（8-10）。該分類參考 McNeill 等人在 1992 年對談話動作的分類，其中后三類各自存在低 - 中 - 高質(zhì)量三檔。
然而，實際談話中，與當(dāng)前文本語義對應(yīng)的動作可能提前或滯后出現(xiàn)，為了解決這個問題，在標(biāo)注過程中，標(biāo)注者判斷當(dāng)前動作所屬類別之后：
1. 以動作的開始和結(jié)束確定標(biāo)注范圍，保證了動作的完整性。2. 輸入與當(dāng)前動作最相關(guān)的關(guān)鍵字，獲取動作和對應(yīng)文本的準(zhǔn)確出現(xiàn)時間。
基于情感的對話
BEAT 數(shù)據(jù)集要求每個演講者必須錄制 8 種不同情緒下的談話動作，用于分析動作與情感之間的內(nèi)在聯(lián)系。在演講環(huán)節(jié)中，自然情緒占比 51%，憤怒、快樂、恐懼、厭惡、悲傷、蔑視和驚訝這七類情緒分別占比 7%。對動作進行聚類的結(jié)果證明，動作和情感之間存在相關(guān)性，如下圖所示。

數(shù)據(jù)規(guī)模及采集細節(jié)
BEAT 采用了 ViCon，16 個攝像頭的動作捕捉系統(tǒng)來記錄演講和對話數(shù)據(jù)，最終所有數(shù)據(jù)以 120FPS, 記載關(guān)節(jié)點旋轉(zhuǎn)角的表示形式的 bvh 文件發(fā)布。對于面部數(shù)據(jù)，BEAT 采用 Iphone12Pro 錄制談話人的 52 維面部 blendsshape 權(quán)重，并不包括每個人的頭部模型，推薦使用 Iphone 的中性臉做可視化。BEAT 采用 16KHZ 音頻數(shù)據(jù)，并通過語音識別算法生成文本偽標(biāo)簽，并依此生成具有時間標(biāo)注的 TextGrid 數(shù)據(jù)。
BEAT 包含四種語言的數(shù)據(jù)：英語，中文，西班牙語，日語，數(shù)據(jù)量分別為 60，12，2，2 小時。由來自 10 個國家的 30 名演講者進行錄制。其中中文，西班牙語，日語的演講者也同時錄制了英語數(shù)據(jù)，用于分析不同語言下的動作差異。
在演講部分（數(shù)據(jù)集的 50%），30 個演講者被要求讀相同的大量文本，每段文本長度約 1 分鐘，總計 120 段文本。目的是控制文本內(nèi)容相同來研究不同演講者之間的風(fēng)格差異，來實現(xiàn)個性化的動作生成。談話部分（50%）演講者將和導(dǎo)演在給定話題下進行 10 分鐘左右的討論，但為了去除噪聲，只有演講者的數(shù)據(jù)被記錄。
下表還將 BEAT 與現(xiàn)有的數(shù)據(jù)集進行了比較，綠色高光表示最佳值，可以看出，BEAT 是現(xiàn)階段包含多模態(tài)數(shù)據(jù)和標(biāo)注的最大的運動捕捉數(shù)據(jù)集。

多模態(tài)驅(qū)動的動作生成基線模型
BEAT 提出了一個多模態(tài)驅(qū)動的動作生成基線模型，CaMN（Cascade Montion Network），將音頻 - 文本 - 面部數(shù)據(jù)以及情感，語義標(biāo)注作為輸入，以生成更高質(zhì)量的談話動作。網(wǎng)絡(luò)主干由多個級聯(lián)編碼器和兩個級聯(lián) LSTM+MLP ****組成，生成軀體和手部動作，數(shù)據(jù)被降頻到 15FPS，單詞句子被插入填充標(biāo)記以對應(yīng)音頻的沉默時間。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

文本、語音和 Speaker-ID 編碼器的網(wǎng)絡(luò)選擇是基于現(xiàn)有研究，并針對 BEAT 數(shù)據(jù)集在結(jié)構(gòu)上進行了修改。對于面部 blendshape weight 數(shù)據(jù)，采用了基于殘差網(wǎng)絡(luò)的一維 TCN 結(jié)構(gòu)。最終網(wǎng)絡(luò)的損失函數(shù)來自語義標(biāo)注權(quán)重和動作重建損失的組合：

其中針對不同演講者的數(shù)據(jù)，網(wǎng)絡(luò)也采取了不同的對抗損失來輔助提升生成動作的多樣性。

實驗結(jié)果
研究者首先驗證了一個新的評價指標(biāo) SRGR，然后基于主觀實驗驗證了 BEAT 的數(shù)據(jù)質(zhì)量，并將提出的模型與現(xiàn)有的方法進行了比較。
SRGR 的有效性
為了驗證 SRGR 的有效性，研究者將動作序列被隨機切割成 40 秒左右的片段，要求參與者根據(jù)動作的正確性，多樣性和吸引力對每個片段進行評分。最終共有 160 人參與評分，平均每個人對 15 個隨機的手勢片段打分。圖表顯示，與 L1 多樣性相比，SRGR 在評估手勢多樣性方面與人類感官更為相似。

數(shù)據(jù)質(zhì)量
為了評估 BEAT 這一新型數(shù)據(jù)集的質(zhì)量，研究者使用了現(xiàn)有研究中廣泛使用的動捕數(shù)據(jù)集 Trinity 作為對比目標(biāo)。每個數(shù)據(jù)集被分成 19:2:2 的比例，分別作為訓(xùn)練 / 驗證 / 測試數(shù)據(jù)，并使用現(xiàn)有方法 S2G 和 audio2gestures 進行比較。評估主要針對不同數(shù)據(jù)集訓(xùn)練結(jié)果的正確性（身體動作的準(zhǔn)確性）、手部正確性（手部動作的準(zhǔn)確性）、多樣性（動作的多樣性）和同步性（動作和語音的同步性）。結(jié)果見下表。

表中顯示，BEAT 在各方面的主管評分都很高，表明這個數(shù)據(jù)集遠遠優(yōu)于 Trinity。同時在數(shù)據(jù)質(zhì)量上也超過了現(xiàn)有的視頻數(shù)據(jù)集 S2G-3D。
對 Baseline 模型的評價
為了驗證本文提出的模型 CaMN 的性能，在以下條件下與現(xiàn)有方法 Seq2Seq,S2G,A2G 和 MultiContext 進行了比較驗證。一些實驗的細節(jié)如下：

使用數(shù)據(jù)集中四名演講者的數(shù)據(jù)進行 15 小時的訓(xùn)練，選取不同模型在驗證集上最優(yōu)的權(quán)重在測試集上測試。
FGD 被采用為評價指標(biāo)，因為已被證明 L1 損失不適合于評價生成動作的性能。
為了評估手勢的多樣性和與語音的同步性，研究者采用了本文提出的 SRGR 和舞蹈動作生成中常用的指數(shù) BeatAlign。

驗證結(jié)果如下表所示，CaMN 在所有評價指標(biāo)上得分最高。

下面是一個由 CaMN 生成的手勢的例子。

圖中展示了一個真實數(shù)據(jù)樣本（上）和一個 CaMN 生成的動作（下），生成的動作具備語義相關(guān)性。
總結(jié)
本文研究者提出大規(guī)模的多模態(tài)數(shù)字人驅(qū)動數(shù)據(jù)集 BEAT，用于生成更生動的談話動作。該數(shù)據(jù)集還可應(yīng)用于數(shù)字人驅(qū)動的其他領(lǐng)域，如 LipSync，表情識別，語音風(fēng)格轉(zhuǎn)換等等。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

ECCV 2022 | 華為開源BEAT：最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集

相關(guān)推薦

技術(shù)專區(qū)