精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

DeepMind揭秘適用于語音和音頻合成的深度神經(jīng)網(wǎng)絡(luò):WaveNet

責任編輯:editor004

作者:Dylan Raithel

2016-10-21 11:39:12

摘自:INFOQ

谷歌旗下的DeepMind公司近日公布了WaveNet項目,這是一種全面卷積(Convolutional),基于概率,可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。”  

谷歌旗下的DeepMind公司近日公布了WaveNet項目,這是一種全面卷積(Convolutional),基于概率,可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。根據(jù)DeepMind的介紹,該項目可以用比現(xiàn)有最好的文字轉(zhuǎn)語言(TTS)系統(tǒng)更棒的效果通過音頻和聲音合成更自然的語音和音樂。

語音合成能力主要源自串接式(Concatenative)TTS,會通過由單一錄音者錄制的簡短語音片段組成的數(shù)據(jù)庫選擇語音片段,重新組合并形成語音。這種方式不夠靈活,無法輕松地進行調(diào)整輸出新的聲音,如果需要對現(xiàn)有聲音的特診進行較大改變,通常需要徹底重建數(shù)據(jù)庫。

DeepMind認為,原有模式極大依賴通過一個輸入源,或一個錄音者生成的大容量音頻數(shù)據(jù)庫,WaveNet依然保留了這種模式,并將其作為一組參數(shù),可根據(jù)新的輸入結(jié)果對原有模式進行修改。這種方法也叫做參數(shù)化(Parametric)的TTS實現(xiàn),可通過支持參數(shù)的模型生成在音調(diào)或語調(diào)等特征方面有所差異的語音,隨后這些語音還可通過模型進行進一步的完善。相比以往的方法使用預(yù)先生成的原始音頻片段對模型進行訓(xùn)練,WaveNet的Phoneme可調(diào)整字詞和句子的順序參數(shù),生成更有意義的詞語和句子結(jié)構(gòu),并可獨立于有關(guān)聲調(diào)、聲音質(zhì)量,以及音素語調(diào)的參數(shù)進行調(diào)整。借此WaveNet可以生成連續(xù)的語言類聲音,并通過語言結(jié)構(gòu)為這些聲音賦予相關(guān)的含義。

“由于這個模型不以文字為條件,因此可以通過更為平滑的方式生成不存在,但類似人類語言的字詞,同時在聲音語調(diào)方面也更真實... 我們發(fā)現(xiàn)這個模型還可以吸收語音本身之外其他方面的音頻特征,例如可以模仿聲學效果和錄音質(zhì)量,以及講話者的換氣和嘴部活動。”

試聽者在聽過WaveNet生成的英文和普通話音頻后,認為該系統(tǒng)能生成比最棒的參數(shù)化和串接式系統(tǒng)更自然的聲音。DeepMind在論文中詳細介紹了這個實驗的細節(jié),并補充說:

“第一個試驗中我們嘗試了自由式的語音生成(不以文字為條件)。我們使用了CSTR聲音克隆工具包(VCTK)中的英文多講話者語料(Yamagishi,2012),并通過條件設(shè)置讓WaveNet只關(guān)注講話者。這個條件是通過One-hot向量形式以講話者ID的方式提供給模型的。所用數(shù)據(jù)庫包含來自109位講話者,總時長44小時的數(shù)據(jù)… 第二個實驗主要針對TTS。我們使用了谷歌打造北美英文和中文普通話TTS系統(tǒng)時使用的同一個單一講話者語音數(shù)據(jù)庫,北美英文數(shù)據(jù)庫包含24.6小時的語音數(shù)據(jù),中文普通話數(shù)據(jù)庫包含34.8小時的內(nèi)容,所有內(nèi)容均由專業(yè)的女性演講者講述。”

對串接式TTS、參數(shù)化TTS、WaveNet以及人類語音音頻樣本(僅用作控制組)的人類語言自然度進行五分制盲測有了結(jié)果。試聽者在不知道音頻來源的前提下,聽過音頻樣本后為每個樣本打分。該論文所用數(shù)據(jù)集包含針對100個測試短句給出的超過500個評分,通過這些評分計算出平均意見得分(MOS)作為最終分數(shù),只有WaveNet的自然度評分最接近人類語言的音頻樣本。

DeepMind還演示了如何通過WaveNet最為核心的“學習型抽象”利用音頻訓(xùn)練數(shù)據(jù)集合成音樂。目前該技術(shù)最大的問題主要圍繞語音合成技術(shù)的長遠影響以及一些人所謂的人工智能。但目前還不確定WaveNet包含哪些核心語言或處理引擎,并且他們尚未提供范例代碼。

查看英文原文:DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 梓潼县| 扬中市| 建昌县| 亚东县| 南投县| 湟中县| 新宁县| 天峻县| 吕梁市| 肇源县| 清水河县| 诸城市| 普安县| 大宁县| 福海县| 大姚县| 农安县| 河池市| 萝北县| 进贤县| 黄石市| 望谟县| 怀宁县| 井研县| 定边县| 西充县| 类乌齐县| 共和县| 鄂尔多斯市| 乐亭县| 东台市| 房产| 辽宁省| 武义县| 山东省| 梅河口市| 威远县| 布拖县| 巩留县| 清水县| 报价|