ol丝袜高跟秘书在线观看,自慰网大全在线观看,日本VA电影在线观看

　域名預(yù)訂/競(jìng)價(jià)，好“米”不錯(cuò)過(guò)

引言語(yǔ)音合成(Text-to-Speech, TTS)是指文字轉(zhuǎn)語(yǔ)音相關(guān)技術(shù)。隨著人工智能技術(shù)的發(fā)展，TTS 的聲學(xué)模型和聲碼器模型效果都在不斷提高，單一語(yǔ)言在數(shù)據(jù)量足夠的情況下已經(jīng)可以合成較高品質(zhì)的語(yǔ)音。研究人員們也逐漸開(kāi)始關(guān)注跨語(yǔ)言語(yǔ)音合成領(lǐng)域，本文介紹網(wǎng)易游戲廣州 AI Lab 在 Interspeech 2022 中發(fā)表的一篇跨語(yǔ)言語(yǔ)音合成論文《Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech》，該論文提出了音素長(zhǎng)度調(diào)節(jié)模塊來(lái)解決 IPA 序列與單語(yǔ)言對(duì)齊系統(tǒng)對(duì)齊結(jié)果的不匹配問(wèn)題，同時(shí)使用了基于 Fastpitch 的非自回歸聲學(xué)模型，實(shí)驗(yàn)結(jié)果表明了訓(xùn)練集說(shuō)話人數(shù)量的增加、音高和能量的顯示建模(主要是音高)都有助于非自回歸跨語(yǔ)言 TTS 中說(shuō)話人音色和語(yǔ)言的信息解耦。

論文標(biāo)題：Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech論文鏈接：https://arxiv.org/abs/2110.07192演示網(wǎng)址：https://hyzhan.github.io/NAC-TTS/論文相關(guān)背景目前跨語(yǔ)言TTS的主要實(shí)現(xiàn)方法有：跨語(yǔ)言中間特征、跨語(yǔ)言文本表示、對(duì)抗式訓(xùn)練、發(fā)音單元設(shè)計(jì)、跨語(yǔ)言文本處理模型等。更多相關(guān)背景知識(shí)及發(fā)展概述可閱讀：《跨語(yǔ)言語(yǔ)音合成方法的發(fā)展趨勢(shì)與方向》，本文不再贅述。近年來(lái)，F(xiàn)astSpeech、FastPitch、FastSpeech2 等非自回歸聲學(xué)模型除了在語(yǔ)音生成速度上表現(xiàn)出巨大優(yōu)勢(shì)，生成語(yǔ)音自然程度也越來(lái)越高，相關(guān)論文作者試圖在跨語(yǔ)言語(yǔ)音合成系統(tǒng)中使用非自回歸聲學(xué)模型，但是由于典型的非自回歸聲學(xué)模型需要加入顯式的音素發(fā)音時(shí)長(zhǎng)進(jìn)行模型訓(xùn)練，這會(huì)導(dǎo)致模型增加使用 IPA 這類跨語(yǔ)言文本表示的難度(因?yàn)檫@樣會(huì)需要有一個(gè)跨語(yǔ)言的文本語(yǔ)音對(duì)齊系統(tǒng))。該論文提出了音素長(zhǎng)度調(diào)節(jié)模塊來(lái)避免這個(gè)問(wèn)題，同時(shí)還在 FastPitch 的基礎(chǔ)上加入了 energy predictor，評(píng)估了訓(xùn)練數(shù)據(jù)集說(shuō)話人數(shù)量、不同模塊及文本表示、是否使用對(duì)抗訓(xùn)練對(duì)說(shuō)話人音色解耦的影響。方法概述首先基于開(kāi)源字典 [1]構(gòu)造一個(gè)自定義的字典，將語(yǔ)言相關(guān)的音素轉(zhuǎn)換(LDP)為 IPA 表示，其中語(yǔ)言相關(guān)的音素集在中文中為拼音，在英文中為 Aprabet 表示，將 IPA 音素序列及其對(duì)應(yīng) LDP 的音素長(zhǎng)度輸入到上圖的 Phoneme Length Regulator，即可實(shí)現(xiàn)輸入表示序列與單語(yǔ)言對(duì)齊系統(tǒng)得到的發(fā)音時(shí)長(zhǎng)相匹配，進(jìn)而完成聲學(xué)模型的訓(xùn)練。以下圖中的 “Steins Gate 的選擇”為例，“Steins Gate” 對(duì)應(yīng)的 Aprabet 表示為：S T AY1 N Z，“的選擇”對(duì)應(yīng)的拼音為：d e0 x uan3 z e2;根據(jù)前面構(gòu)造的自定義字典將語(yǔ)言相關(guān)的音素(LDP)轉(zhuǎn)換為對(duì)應(yīng)的 IPA 字符及其 IPA 字符數(shù)量;通過(guò) embedding 的方式將 IPA 字符映射成對(duì)應(yīng)的 IPA embedding 序列，并基于 LDP 對(duì)應(yīng)的 IPA 字符數(shù)量對(duì) IPA embedding 序列進(jìn)行聚合得到，LDP 級(jí)別的 embedding 序列。各個(gè)序列的長(zhǎng)度約束關(guān)系見(jiàn)參考論文 2.2 節(jié)，總的來(lái)說(shuō)就是用變長(zhǎng)的 phoneme length 來(lái)控制需要聚合的 IPA embedding 序列數(shù)量，以此來(lái)表示對(duì)應(yīng)的 LDP embedding，從而讓 IPA 序列可以使用單語(yǔ)言對(duì)齊的音素時(shí)長(zhǎng)信息，完成整個(gè)模型的訓(xùn)練。

聲學(xué)模型框架上是基于 Fastpitch 的聲學(xué)模型加入了 energy predictor 模塊，再結(jié)合了論文提出的 Phoneme Length Regulator 模塊。還有一個(gè)區(qū)別就是論文的 speaker embedding 是加在 encoder output 的，而不是常見(jiàn)的 encoder input，以及在預(yù)測(cè) variance predictor 的時(shí)候?qū)斎脒M(jìn)行了 detach 操作來(lái)避免時(shí)長(zhǎng)、音高、能量預(yù)測(cè)對(duì) encoder 的潛在影響。

實(shí)驗(yàn)

論文實(shí)驗(yàn)主要涉及中文和英文，中文數(shù)據(jù)集為開(kāi)源的標(biāo)貝女聲及內(nèi)部數(shù)據(jù)集，英文數(shù)據(jù)集為開(kāi)源的 LJSpeech 及 CMU arctic 數(shù)據(jù)集。作者構(gòu)造了三種性別平衡及語(yǔ)言平衡的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，表 1 描述了各個(gè)子數(shù)據(jù)集的構(gòu)成情況：d1：中文男聲 5 小時(shí)，英文女聲 5 小時(shí);d2：中文女聲 1 小時(shí)，英文男聲 1 小時(shí);d3：中文男女聲各 1 小時(shí)，英文男女聲各 1 小時(shí)，通過(guò)逐步增加訓(xùn)練集規(guī)模來(lái)進(jìn)行相關(guān)實(shí)驗(yàn)，評(píng)測(cè)階段僅使用 d1 中的 LJSpeech 的英文女聲及內(nèi)部數(shù)據(jù)集的中文男聲進(jìn)行評(píng)測(cè)。4.1 說(shuō)話人數(shù)量的影響

論文首先研究了訓(xùn)練集中包含不同數(shù)量的說(shuō)話人時(shí)，說(shuō)話人和語(yǔ)言信息之間的糾纏情況。其中 d1 有 2 個(gè)說(shuō)話人，d1+d2 有 4 個(gè)說(shuō)話人，d1+d2+d3 有 8 個(gè)說(shuō)話人，均為性別及語(yǔ)言平衡的數(shù)據(jù)集。表 2 評(píng)估了 d1 數(shù)據(jù)集中文男聲在純中文、純英文和中英混合句子的語(yǔ)音自然程度及相似度?？梢园l(fā)現(xiàn)，d1 訓(xùn)練集中，中文男聲在中文語(yǔ)音上表現(xiàn)最好，中英混合語(yǔ)音表現(xiàn)次之，純英文表現(xiàn)最差，尤其是純英文的相似度指標(biāo)上。這意味著訓(xùn)練集中一種語(yǔ)言只有一個(gè)說(shuō)話人，對(duì)提升目標(biāo)說(shuō)話人的跨語(yǔ)言發(fā)音能力幫助有限;同時(shí)作者也推測(cè)雖然 IPA 符號(hào)可以用在所有語(yǔ)言上，但是依舊存在某種語(yǔ)音有一些獨(dú)有的 IPA 符號(hào)的情況，從而在這種一種語(yǔ)言只有一個(gè)說(shuō)話人的訓(xùn)練集上導(dǎo)致了說(shuō)話人音色信息和語(yǔ)言信息的混淆。另一方面，隨著訓(xùn)練集兩種語(yǔ)言說(shuō)話人數(shù)量的增加，在跨語(yǔ)言語(yǔ)音場(chǎng)景下，中文男聲說(shuō)話人的 Naturalness 及 Similarity 主觀評(píng)分均出現(xiàn)了較明顯的提高，Naturalness 主觀評(píng)分的方差也逐漸在減小。這說(shuō)明了訓(xùn)練集中說(shuō)話人的多樣性不僅有利于說(shuō)話人音色信息和語(yǔ)言信息的解耦，還有利于提高非自回歸跨語(yǔ)言 TTS 模型的穩(wěn)定性。因此，后續(xù)實(shí)驗(yàn)均基于 d1+d2+d3 的數(shù)據(jù)集進(jìn)行。4.2 對(duì)比實(shí)驗(yàn)

論文選擇了 3 個(gè)對(duì)比模型，一個(gè)是基于 IPA 表示 Tacotron 聲學(xué)模型框架的 Tacotron-based，二是基于 LDP 表示和 GRL(gradient reversal layer)Fastspeech 聲學(xué)模型框架的 FastSpeech-LDP，三是將 FastSpeech-LDP 中的 LDP 表示替換為本文中的 IPA 表示加 Phoneme Length Regulator 模塊的方法，最后則是本文提出的模型框架?？偟膩?lái)說(shuō)，在本實(shí)驗(yàn)中幾個(gè)非自回歸模型的表基本都好于 Tacotron-based;對(duì)比 FastSpeech-LDP 和 FastSpeech-IPA 中英說(shuō)話人在三種類型文本的Naturalness和Similarity指標(biāo)，兩者的 Naturalness 基本接近，不過(guò) FastSpeech-IPA 在大部分情況取得了更高的 Similarity 主觀評(píng)分，這表明 IPA 表示加上 Phoneme Length Regulator 模塊的實(shí)現(xiàn)可以幫助模型學(xué)習(xí)不同語(yǔ)言的發(fā)音。然而，本文提出的模型在跨語(yǔ)言場(chǎng)景的表現(xiàn)明顯優(yōu)于 FastSpeech-LDP 及 FastSpeech-IPA，這說(shuō)明使用 variance adaptors 有助于提高跨語(yǔ)言語(yǔ)音合成模型的性能表現(xiàn)，雖然 variance adaptors 本身是作為解決語(yǔ)音合成中的“一對(duì)多”問(wèn)題提出的，但是實(shí)驗(yàn)表明了對(duì)語(yǔ)音的韻律特征進(jìn)行顯示建模有助于說(shuō)話人和語(yǔ)言信息的解耦。4.3 消融實(shí)驗(yàn)

論文做了三組消融實(shí)驗(yàn)來(lái)評(píng)估 GRL 梯度反傳層、pitch predictor、energy predictor 對(duì) proposed model 的影響。實(shí)驗(yàn)表明，GRL 的引入并沒(méi)有帶來(lái)收益，一方面可能是 IPA 表示加上說(shuō)話人多樣性的引入已經(jīng)能較好地對(duì)說(shuō)話人音色信息和語(yǔ)言信息進(jìn)行解耦，另一方面可能是因?yàn)?GRL 中的超參數(shù)較為敏感，暫不適用于本文提出的模型。去掉 pitch predictor 和 energy predictor 導(dǎo)致了語(yǔ)音自然程度和相似度有較明顯的惡化(尤其是 pitch predictor)，這表明了在 variance predictor 的有效性。總結(jié)論文提出了 Phoneme Length Regulator 模塊，使得非自回歸跨語(yǔ)言 TTS 模型中的 IPA 表示與單語(yǔ)言強(qiáng)制對(duì)齊信息可以同時(shí)使用;構(gòu)造了一個(gè)不需要對(duì)抗式訓(xùn)練、基于 IPA 表示的 Fastpitch-based 模型，取得了不錯(cuò)的語(yǔ)音自然程度及說(shuō)話人相似度。論文實(shí)驗(yàn)表明說(shuō)話人多樣性、IPA 表示、variance adaptors 都能夠幫助非自回歸跨語(yǔ)言 TTS 模型解耦說(shuō)話人和語(yǔ)言信息。本文通過(guò)引入一個(gè)較為簡(jiǎn)單的方法使其可以利用單語(yǔ)言強(qiáng)制對(duì)齊信息和 IPA 表示，再加上說(shuō)話人多樣性和 variance adaptors 引入，已經(jīng)可以在不使用常見(jiàn)對(duì)抗式訓(xùn)練的方式在跨語(yǔ)言語(yǔ)句上取得不錯(cuò)的語(yǔ)音自然程度及說(shuō)話人相似度。另外，第一版論文和演示網(wǎng)頁(yè)還展示了對(duì)中式英文發(fā)音可控性的潛力，如果有 PLR 模塊的示例代碼會(huì)更好一些，不過(guò)本身思想也不算復(fù)雜，實(shí)現(xiàn)難度不大，從實(shí)驗(yàn)結(jié)果來(lái)看，總體上是一個(gè)邏輯通順、簡(jiǎn)單又有效的解決方案。(作者：音月)

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

Interspeech 2022 | 探索非自回歸跨語(yǔ)言語(yǔ)音合成中的音色解耦問(wèn)題

相關(guān)文章

Aqara綠米粉絲節(jié)攜手IBR建科院開(kāi)啟綠色未來(lái)體驗(yàn)之旅

懂你所想，給你所需，會(huì)“讀心術(shù)”的小藝圈粉了我

AI Show|無(wú)錫地鐵全場(chǎng)景智能語(yǔ)音客服中心正式上線，乘客直呼：太方便！

優(yōu)音通信受邀參與數(shù)字政務(wù)論壇，致力于打造政府?dāng)?shù)字化轉(zhuǎn)型“重要窗口”

嚴(yán)監(jiān)管下合規(guī)高效完成催收？玖云工作手機(jī)你值得擁有

熱門(mén)排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門(mén)標(biāo)簽