精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

DeepMind揭秘適用于語音和音頻合成的深度神經(jīng)網(wǎng)絡(luò):WaveNet

責任編輯:editor004

作者:Dylan Raithel

2016-10-21 11:39:12

摘自:INFOQ

谷歌旗下的DeepMind公司近日公布了WaveNet項目,這是一種全面卷積(Convolutional),基于概率,可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。”  

谷歌旗下的DeepMind公司近日公布了WaveNet項目,這是一種全面卷積(Convolutional),基于概率,可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。根據(jù)DeepMind的介紹,該項目可以用比現(xiàn)有最好的文字轉(zhuǎn)語言(TTS)系統(tǒng)更棒的效果通過音頻和聲音合成更自然的語音和音樂。

語音合成能力主要源自串接式(Concatenative)TTS,會通過由單一錄音者錄制的簡短語音片段組成的數(shù)據(jù)庫選擇語音片段,重新組合并形成語音。這種方式不夠靈活,無法輕松地進行調(diào)整輸出新的聲音,如果需要對現(xiàn)有聲音的特診進行較大改變,通常需要徹底重建數(shù)據(jù)庫。

DeepMind認為,原有模式極大依賴通過一個輸入源,或一個錄音者生成的大容量音頻數(shù)據(jù)庫,WaveNet依然保留了這種模式,并將其作為一組參數(shù),可根據(jù)新的輸入結(jié)果對原有模式進行修改。這種方法也叫做參數(shù)化(Parametric)的TTS實現(xiàn),可通過支持參數(shù)的模型生成在音調(diào)或語調(diào)等特征方面有所差異的語音,隨后這些語音還可通過模型進行進一步的完善。相比以往的方法使用預(yù)先生成的原始音頻片段對模型進行訓(xùn)練,WaveNet的Phoneme可調(diào)整字詞和句子的順序參數(shù),生成更有意義的詞語和句子結(jié)構(gòu),并可獨立于有關(guān)聲調(diào)、聲音質(zhì)量,以及音素語調(diào)的參數(shù)進行調(diào)整。借此WaveNet可以生成連續(xù)的語言類聲音,并通過語言結(jié)構(gòu)為這些聲音賦予相關(guān)的含義。

“由于這個模型不以文字為條件,因此可以通過更為平滑的方式生成不存在,但類似人類語言的字詞,同時在聲音語調(diào)方面也更真實... 我們發(fā)現(xiàn)這個模型還可以吸收語音本身之外其他方面的音頻特征,例如可以模仿聲學效果和錄音質(zhì)量,以及講話者的換氣和嘴部活動。”

試聽者在聽過WaveNet生成的英文和普通話音頻后,認為該系統(tǒng)能生成比最棒的參數(shù)化和串接式系統(tǒng)更自然的聲音。DeepMind在論文中詳細介紹了這個實驗的細節(jié),并補充說:

“第一個試驗中我們嘗試了自由式的語音生成(不以文字為條件)。我們使用了CSTR聲音克隆工具包(VCTK)中的英文多講話者語料(Yamagishi,2012),并通過條件設(shè)置讓WaveNet只關(guān)注講話者。這個條件是通過One-hot向量形式以講話者ID的方式提供給模型的。所用數(shù)據(jù)庫包含來自109位講話者,總時長44小時的數(shù)據(jù)… 第二個實驗主要針對TTS。我們使用了谷歌打造北美英文和中文普通話TTS系統(tǒng)時使用的同一個單一講話者語音數(shù)據(jù)庫,北美英文數(shù)據(jù)庫包含24.6小時的語音數(shù)據(jù),中文普通話數(shù)據(jù)庫包含34.8小時的內(nèi)容,所有內(nèi)容均由專業(yè)的女性演講者講述。”

對串接式TTS、參數(shù)化TTS、WaveNet以及人類語音音頻樣本(僅用作控制組)的人類語言自然度進行五分制盲測有了結(jié)果。試聽者在不知道音頻來源的前提下,聽過音頻樣本后為每個樣本打分。該論文所用數(shù)據(jù)集包含針對100個測試短句給出的超過500個評分,通過這些評分計算出平均意見得分(MOS)作為最終分數(shù),只有WaveNet的自然度評分最接近人類語言的音頻樣本。

DeepMind還演示了如何通過WaveNet最為核心的“學習型抽象”利用音頻訓(xùn)練數(shù)據(jù)集合成音樂。目前該技術(shù)最大的問題主要圍繞語音合成技術(shù)的長遠影響以及一些人所謂的人工智能。但目前還不確定WaveNet包含哪些核心語言或處理引擎,并且他們尚未提供范例代碼。

查看英文原文:DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 长治市| 天峨县| 西和县| 彩票| 城市| 华蓥市| 台州市| 涞源县| 逊克县| 南陵县| 吉安县| 郁南县| 罗山县| 肇源县| 通州区| 桃江县| 手游| 宝丰县| 焉耆| 北票市| 蒙自县| 顺义区| 休宁县| 芜湖县| 余姚市| 绵阳市| 治多县| 曲松县| 高碑店市| 德惠市| 通州区| 永昌县| 内乡县| 安福县| 浮山县| 肇庆市| 乌兰县| 青岛市| 平定县| 南昌县| 潍坊市|