NaturalSpeech模型合成語音在CMOS測試中首次達到真人語音水平

發(fā)布人：MSRAsia 時間：2022-06-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：AI 合成語音如今已經屢見不鮮，然而在用戶聽來卻不能讓人產生與真人對話和閱讀般的沉浸感。不過，微軟亞洲研究院和微軟 Azure 語音團隊近日聯(lián)合推出的全新端到端語音合成模型 NaturalSpeech，在 CMOS 測試中首次達到了真人說話水準。這將近一步提升微軟 Azure 中合成語音的水平，讓所有合成聲音都惟妙惟肖。

文本到語音合成（Text to Speech，TTS）是一項根據(jù)文本生成可懂且自然的語音的計算機技術。近年來，隨著深度學習的發(fā)展，TTS 在學術界和工業(yè)界取得了快速突破并且被廣泛應用。在 TTS 的研究和產品上，微軟一直有著深厚的積累。

在研究方面，微軟曾創(chuàng)新提出了多個 TTS 模型，包括基于 Transformer 的語音合成（TransformerTTS）、快速語音合成（FastSpeech 1/2、LightSpeech）、低資源語音合成（LRSpeech）、定制化語音合成（AdaSpeech 1/2/3/4）、歌聲合成（HiFiSinger）、立體聲合成（BinauralGrad）、聲碼器（HiFiNet、PriorGrad）、文本分析、說話人臉合成等，而且推出了 TTS 領域最詳盡的文獻綜述。同時，微軟亞洲研究院還在多個學術會議上（如 ISCSLP 2021、IJCAI 2021、ICASSP 2022）舉辦了語音合成教程，并在 Blizzard 2021 語音合成比賽中推出了 DelightfulTTS，獲得了最好成績。此外，微軟還推出了開源語音研究項目 NeuralSpeech 等。

在產品方面，微軟在 Azure 認知服務中提供了強大的語音合成功能，開發(fā)人員可以借助其中的 Neural TTS 功能將文本轉換為逼真的語音，用于眾多場景之中，例如語音助手、有聲讀物、游戲配音、輔助工具等等。利用 Azure Neural TTS，用戶既可以直接選擇預置的音色，也可以自己錄制上傳聲音樣本自定義音色。目前，Azure Neural TTS 支持超過120種語言，包括多語言變體或方言，同時該功能也已整合到了多個微軟產品中，并且被業(yè)界諸多合作伙伴所采用。為了持續(xù)推動技術創(chuàng)新，提高服務質量，微軟 Azure 語音團隊與微軟亞洲研究院密切合作，讓 TTS 在不同場景下聽起來更多樣、更悅耳，也更自然。

近日，微軟亞洲研究院和微軟 Azure 語音團隊研發(fā)出了全新的端到端 TTS 模型 NaturalSpeech，該模型在廣泛使用的 TTS 數(shù)據(jù)集（LJSpeech）上使用 CMOS (Comparative Mean Opinion Score) 作為指標，首次達到了與自然語音無明顯差異的優(yōu)異成績。這一創(chuàng)新性的科研成果未來也將集成到微軟 Azure TTS 服務中供更多用戶使用。

四大創(chuàng)新設計讓NaturalSpeech超越傳統(tǒng)TTS系統(tǒng)

NaturalSpeech 是一個完全端到端的文本到語音波形生成系統(tǒng)（見圖1），能夠彌合合成語音與真人聲音之間的質量差距。具體而言，該系統(tǒng)利用變分自編碼器（Variational Auto-Encoder, VAE），將高維語音 (x) 壓縮成連續(xù)的幀級表達 z（記作后驗 q(z|x)），用于對語音波形 x（記作 p(x|z)）的重構。相應的先驗（記作 p(z|y)）則從文本序列 y 中獲取。

圖1：NaturalSpeech 系統(tǒng)概覽

考慮到來自語音的后驗比來自文本的先驗更加復雜，研究員們設計了幾個模塊（見圖2），盡可能近似地對后驗和先驗進行匹配，從而通過y→p(z|y)→p(x|z)→x實現(xiàn)文本到語音的合成。

在音素編碼器上利用大規(guī)模音素預訓練（phoneme pre-training），從音素序列中提取更好的表達。
利用由時長預測器和上采樣層組成的完全可微分的時長模塊（durator），來改進音素的時長建模。
基于流模型（flow）的雙向先驗/后驗模塊（bidirectional prior/posterior），可以進一步增強先驗 p(z|y) 以及降低后驗 q(z|x) 的復雜性。
基于記憶的變分自編碼器（Memory VAE），可降低重建波形所需的后驗復雜性。

圖2：NaturalSpeech 關鍵模塊

據(jù)微軟亞洲研究院主管研究員譚旭介紹，與之前的 TTS 系統(tǒng)相比，NaturalSpeech 有以下幾大優(yōu)勢：

1）減少訓練和推理的不匹配。先前的級聯(lián)聲學模型/聲碼器系統(tǒng)和顯式時長預測都受到了訓練推理不匹配的影響。其原因在于聲碼器使用了真實的梅爾譜以及梅爾譜編碼器使用了真實的時長，而推理中使用了相應的預測值。NaturalSpeech 完全端到端文本到波形的生成以及可微時長模塊，則能夠避免訓練推理的不匹配。

2）緩解了一對多的映射問題。一個文本序列可以對應多個不同的語音表達，例如音高、持續(xù)時間、速度、停頓、韻律等方面的變化。以往的研究僅額外預測音高/時長，并不能很好地處理一對多的映射問題。NaturalSpeech 中基于記憶的 VAE 和雙向先驗/后驗則能降低后驗的復雜性并增強先驗，有助于緩解一對多的映射問題。

3）提高表達能力。此前的 TTS 模型往往不足以從音素序列中提取良好的表達以及學習語音中復雜的數(shù)據(jù)分布。NaturalSpeech 通過大規(guī)模音素預訓練、帶有記憶機制的 VAE、強大的生成模型（如Flow/VAE/GAN）可以學習更好的文本表達和語音數(shù)據(jù)分布。

權威評測結果顯示：NaturalSpeech合成語音與真人聲音不相伯仲

此前的工作通常采用“平均意見分”（Mean Opinion Score, MOS）來衡量 TTS 質量。在 MOS 評測中，參與者通過聽取真人說話錄音和 TTS 的合成語音，分別對兩種聲音的特征進行五分制評分，包括聲音質量、發(fā)音、語速和清晰度等。但是 MOS 對于區(qū)分聲音質量的差異不是非常敏感，因為參與者只是對兩個系統(tǒng)的每條句子單獨打分，沒有兩兩互相比較。而 CMOS（Comparative MOS）在評測過程中可以對兩個系統(tǒng)的句子兩兩對比并排打分，并且使用七分制來衡量差異，所以對質量差異更加敏感。

因此，在評測 NaturalSpeech 系統(tǒng)和真實錄音的質量時，研究員們同時進行了 MOS 和 CMOS 兩種測試（結果如表1和2所示）。在廣泛采用的 LJSpeech 數(shù)據(jù)集上的實驗評估表明，NaturalSpeech 在語句級別與真人錄音的對比上實現(xiàn)了-0.01 CMOS，在 Wilcoxon 符號秩檢驗中實現(xiàn)了 p>>0.05。這表明在這一數(shù)據(jù)集上，NaturalSpeech 首次與真人錄音無統(tǒng)計學意義上的顯著差異。這個成績遠高于此前在 LJSpeech 數(shù)據(jù)集上測試的其它 TTS 系統(tǒng)。

表1：NaturalSpeech 和真人錄音之間的 MOS 比較，使用 Wilcoxon 秩和檢驗（Wilcoxon rank sum）來度量 MOS 評估中的 p 值。

表2：NaturalSpeech 和真人錄音之間的 CMOS 比較，使用 Wilcoxon 符號秩檢驗（Wilcoxon signed rank test）來度量 CMOS 評估中的 p 值。

下面分別展示 NaturalSpeech 合成的語音和對應的真人錄音：

內容1：Maltby and Co. would issue warrants on them deliverable to the importer, and the goods were then passed to be stored in neighboring warehouses.

NaturalSpeech合成語音1音頻：00:0000:08真人錄音1音頻：00:0000:08

內容2：who had borne the Queen's commission, first as cornet, and then lieutenant, in the 10th Hussars.

NaturalSpeech合成語音2音頻：00:0000:06真人錄音2音頻：00:0000:07

了解更多技術細節(jié)，請參閱 NaturalSpeech 論文和 GitHub 主頁：

NaturalSpeech 論文：NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

https://arxiv.org/pdf/2205.04421.pdf

NaturalSpeech GitHub 主頁：

https://speechresearch.github.io/naturalspeech/

TTS發(fā)展道阻且長，需要業(yè)界共同打造負責任的AI

在微軟 Azure 認知服務語音首席研發(fā)總監(jiān)趙晟看來，NaturalSpeech 系統(tǒng)首次達到了與真人錄音沒有顯著差異的效果，是 TTS 研究上的一個新的里程碑。從長遠角度來講，雖然借助新模型能夠實現(xiàn)更高質量的合成語音，但這并不意味著徹底解決了 TTS 所面臨的問題。目前，TTS 仍然存在很多具有挑戰(zhàn)性的場景，如充滿情感的語音、長篇朗誦、即興表演的語音等，這些都需要更先進的建模技術來模擬真人語音的表現(xiàn)力和多變性。

隨著合成語音質量的不斷提升，確保 TTS 能被人們信賴是一個需要攻堅的問題。微軟主動采取了一系列措施來預判和降低包括 TTS 在內的人工智能技術所帶來的風險。微軟致力于依照以人為本的倫理原則推進人工智能的發(fā)展，早在2018年就發(fā)布了“公平、包容、可靠與安全、透明、隱私與保障、負責”6個負責任的人工智能原則（Responsible AI Principles），隨后又發(fā)布負責任的人工智能標準（Responsible AI Standards）將各項原則實施落地，并設置了治理架構確保各團隊把各項原則和標準落實到日常工作中。我們正在與全球的研究人員和學術機構合作，繼續(xù)推進負責任的人工智能的實踐和技術。

Azure AI Neural TTS的更多功能和聲音等你來探索

Azure AI Neural TTS 目前共提供340多種聲音，支持120多個語種和方言。此外，Neural TTS 還能幫助企業(yè)以多種語言和風格，打造專屬的品牌聲音?，F(xiàn)在，用戶可以通過 Neural TTS 試用版來探索更多功能和特色聲音。

相關鏈接：

微軟 Azure 認知服務 TTS
https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
微軟亞洲研究院語音相關研究
https://speechresearch.github.io/
微軟開源語音研究項目 NeuralSpeech
https://github.com/microsoft/neuralspeech
NaturalSpeech 論文：NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
https://arxiv.org/abs/2205.04421
Responsible AI principles from Microsofthttps://www.microsoft.com/en-us/ai/responsible-ai
Our approach to responsible AI at Microsofthttps://www.microsoft.com/en-us/ai/our-approach
The building blocks of Microsoft’s responsible AI programhttps://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

NaturalSpeech模型合成語音在CMOS測試中首次達到真人語音水平

相關推薦

技術專區(qū)