2019深度學(xué)習(xí)語音合成指南

作者：栗峰時(shí)間：2019-09-02 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：追趕最前沿~

Parallel WaveNet：快速高保真語音合成

本文引用地址：http://m.butianyuan.cn/article/201909/404379.htm

這篇文章的作者來自谷歌。他們引入了一種叫做概率密度蒸餾的方法，它從一個(gè)訓(xùn)練過的WaveNet中訓(xùn)練一個(gè)并行前饋網(wǎng)絡(luò)。該方法是通過結(jié)合逆自回歸流(IAFS)和波形網(wǎng)(WaveNet)的最佳特征構(gòu)建的。這些特征代表了WaveNet的有效訓(xùn)練和IAF網(wǎng)絡(luò)的有效采樣。

文章鏈接：https://arxiv.org/abs/1711.10433

為了進(jìn)行有效訓(xùn)練，作者使用一個(gè)已經(jīng)訓(xùn)練過的WaveNet作為“老師”，并行WaveNet‘學(xué)生’向其學(xué)習(xí)。目的是為了讓學(xué)生從老師那里學(xué)到的分布中匹配自己樣本的概率。

圖18

作者還提出了額外的損失函數(shù)，以指導(dǎo)學(xué)生生成高質(zhì)量的音頻流：

●功率損失函數(shù)：確保使用語音不同頻帶的功率，就像人在說話一樣。

●感知損失函數(shù)：針對這種損失函數(shù)，作者嘗試了特征重構(gòu)損失函數(shù)(分類器中特征圖之間的歐氏距離)和風(fēng)格損失函數(shù)(Gram矩陣之間的歐氏距離)。他們發(fā)現(xiàn)風(fēng)格損失函數(shù)會產(chǎn)生更好的效果。

●無論條件向量如何，對比度損失會懲罰有高可能性的波形。

下圖顯示了這個(gè)模型的性能：

圖19

利用小樣本的神經(jīng)網(wǎng)絡(luò)語音克隆

據(jù)雷鋒網(wǎng)了解，這篇文章的作者來自百度研究院。他們引入了一個(gè)神經(jīng)語音克隆系統(tǒng)，它可以通過學(xué)習(xí)從少量音頻樣本合成一個(gè)人的聲音。

系統(tǒng)使用的兩種方法是說話人自適應(yīng)和說話人編碼。說話人自適應(yīng)是通過對多個(gè)說話人的聲音生成模型進(jìn)行微調(diào)來實(shí)現(xiàn)的，而說話人編碼則是通過訓(xùn)練一個(gè)單獨(dú)的模型來直接推斷一個(gè)新的嵌入到多個(gè)說話人語音生成模型。

文章鏈接：https://arxiv.org/abs/1802.06006v3

本文采用Deep Voice 3作為多說話人模型的基線。所謂聲音克隆，即提取一個(gè)說話人的聲音特征，并根據(jù)這些特征來生成給定的文本所對應(yīng)的音頻。

生成音頻的性能指標(biāo)決定于語音的自然度和說話人聲音的相似度。作者提出了一種說話人編碼方法，該方法能夠從未曾見過的說話人音頻樣本中預(yù)測說話人聲音嵌入。

圖20

下面是聲音克隆的性能：

圖21

圖22

VoiceLoop：通過語音循環(huán)進(jìn)行語音擬合與合成

這篇文章的作者來自Facebook AI研究院。他們引入了一種神經(jīng)文本到語音(TTS)技術(shù)，可以將文本從野外采集的聲音轉(zhuǎn)換為語音。

文章鏈接：https://arxiv.org/abs/1707.06588

VoiceLoop的靈感來源于一種稱為語音循環(huán)的工作記憶模型，它能在短時(shí)間內(nèi)保存語言信息。它由兩部分組成，其一是一個(gè)不斷被替換的語音存儲（phonological store），其二是一個(gè)在語音存儲中保持長期表達(dá)（longer-term representations）的預(yù)演過程。

Voiceloop將移動緩沖區(qū)視作矩陣，從而來構(gòu)造語音存儲。句子表示為音素列表。然后從每個(gè)音素解碼一個(gè)短向量。通過對音素的編碼進(jìn)行加權(quán)并在每個(gè)時(shí)間點(diǎn)對它們求和來生成當(dāng)前的上下文向量。

使VoiceLoop脫穎而出的一些屬性包括：使用內(nèi)存緩沖區(qū)而不是傳統(tǒng)的RNN，所有進(jìn)程之間的內(nèi)存共享，以及使用淺層、全連接的網(wǎng)絡(luò)進(jìn)行所有計(jì)算。

圖23

下圖顯示了模型與其他替代方案相比的性能表現(xiàn)。

圖24

圖25

利用梅爾圖譜預(yù)測上的條件WaveNet進(jìn)行自然TTS合成

作者來自谷歌和加州大學(xué)伯克利分校。他們引入了Tacotron 2，這是一種用于文本語音合成的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

文章鏈接：https://arxiv.org/abs/1712.05884

它由一個(gè)循環(huán)的的序列到序列特征預(yù)測網(wǎng)絡(luò)組成，該網(wǎng)絡(luò)將字符嵌入到梅爾標(biāo)度圖譜中。然后是一個(gè)修改后的WaveNet模型，這個(gè)模型充當(dāng)聲碼器，利用頻譜圖來合成時(shí)域波。模型的平均意見評分(MOS)為4.53分。

圖26

這個(gè)模型結(jié)合了Tacconon和WaveNet的最佳特點(diǎn)。下面是它與其他模型的性能對比：

圖27

雷鋒網(wǎng)小結(jié)

現(xiàn)在的語音合成技術(shù)發(fā)展很快，我們希望能夠盡快追趕上最前沿的研究。以上這幾篇文章是當(dāng)前語音合成領(lǐng)域最重要的進(jìn)展代表，論文、以及其代碼實(shí)現(xiàn)都可在網(wǎng)上找到，期待你能去下載下來進(jìn)行測試，并能夠獲得期望的結(jié)果。

讓我們一起創(chuàng)造一個(gè)豐富多彩的語音世界。

原文鏈接：https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

原文章地址為2019深度學(xué)習(xí)語音合成指南