精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

<menuitem id="p0ccd"><abbr id="p0ccd"></abbr></menuitem>

<center id="p0ccd"></center>

DeepMind揭秘適用于語音和音頻合成的深度神經(jīng)網(wǎng)絡(luò)：WaveNet

責任編輯：editor004

作者：Dylan Raithel

2016-10-21 11:39:12

摘自：INFOQ

谷歌旗下的DeepMind公司近日公布了WaveNet項目，這是一種全面卷積（Convolutional），基于概率，可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。”　　

谷歌旗下的DeepMind公司近日公布了WaveNet項目，這是一種全面卷積（Convolutional），基于概率，可自動回歸的深度神經(jīng)網(wǎng)絡(luò)。根據(jù)DeepMind的介紹，該項目可以用比現(xiàn)有最好的文字轉(zhuǎn)語言（TTS）系統(tǒng)更棒的效果通過音頻和聲音合成更自然的語音和音樂。

語音合成能力主要源自串接式（Concatenative）TTS，會通過由單一錄音者錄制的簡短語音片段組成的數(shù)據(jù)庫選擇語音片段，重新組合并形成語音。這種方式不夠靈活，無法輕松地進行調(diào)整輸出新的聲音，如果需要對現(xiàn)有聲音的特診進行較大改變，通常需要徹底重建數(shù)據(jù)庫。

DeepMind認為，原有模式極大依賴通過一個輸入源，或一個錄音者生成的大容量音頻數(shù)據(jù)庫，WaveNet依然保留了這種模式，并將其作為一組參數(shù)，可根據(jù)新的輸入結(jié)果對原有模式進行修改。這種方法也叫做參數(shù)化（Parametric）的TTS實現(xiàn)，可通過支持參數(shù)的模型生成在音調(diào)或語調(diào)等特征方面有所差異的語音，隨后這些語音還可通過模型進行進一步的完善。相比以往的方法使用預(yù)先生成的原始音頻片段對模型進行訓(xùn)練，WaveNet的Phoneme可調(diào)整字詞和句子的順序參數(shù)，生成更有意義的詞語和句子結(jié)構(gòu)，并可獨立于有關(guān)聲調(diào)、聲音質(zhì)量，以及音素語調(diào)的參數(shù)進行調(diào)整。借此WaveNet可以生成連續(xù)的語言類聲音，并通過語言結(jié)構(gòu)為這些聲音賦予相關(guān)的含義。

“由于這個模型不以文字為條件，因此可以通過更為平滑的方式生成不存在，但類似人類語言的字詞，同時在聲音語調(diào)方面也更真實... 我們發(fā)現(xiàn)這個模型還可以吸收語音本身之外其他方面的音頻特征，例如可以模仿聲學效果和錄音質(zhì)量，以及講話者的換氣和嘴部活動。”

試聽者在聽過WaveNet生成的英文和普通話音頻后，認為該系統(tǒng)能生成比最棒的參數(shù)化和串接式系統(tǒng)更自然的聲音。DeepMind在論文中詳細介紹了這個實驗的細節(jié)，并補充說：

“第一個試驗中我們嘗試了自由式的語音生成（不以文字為條件）。我們使用了CSTR聲音克隆工具包（VCTK）中的英文多講話者語料（Yamagishi，2012），并通過條件設(shè)置讓WaveNet只關(guān)注講話者。這個條件是通過One-hot向量形式以講話者ID的方式提供給模型的。所用數(shù)據(jù)庫包含來自109位講話者，總時長44小時的數(shù)據(jù)… 第二個實驗主要針對TTS。我們使用了谷歌打造北美英文和中文普通話TTS系統(tǒng)時使用的同一個單一講話者語音數(shù)據(jù)庫，北美英文數(shù)據(jù)庫包含24.6小時的語音數(shù)據(jù)，中文普通話數(shù)據(jù)庫包含34.8小時的內(nèi)容，所有內(nèi)容均由專業(yè)的女性演講者講述。”

對串接式TTS、參數(shù)化TTS、WaveNet以及人類語音音頻樣本（僅用作控制組）的人類語言自然度進行五分制盲測有了結(jié)果。試聽者在不知道音頻來源的前提下，聽過音頻樣本后為每個樣本打分。該論文所用數(shù)據(jù)集包含針對100個測試短句給出的超過500個評分，通過這些評分計算出平均意見得分（MOS）作為最終分數(shù)，只有WaveNet的自然度評分最接近人類語言的音頻樣本。

DeepMind還演示了如何通過WaveNet最為核心的“學習型抽象”利用音頻訓(xùn)練數(shù)據(jù)集合成音樂。目前該技術(shù)最大的問題主要圍繞語音合成技術(shù)的長遠影響以及一些人所謂的人工智能。但目前還不確定WaveNet包含哪些核心語言或處理引擎，并且他們尚未提供范例代碼。

查看英文原文：DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

WaveNet 音頻

科技驅(qū)動創(chuàng)新行業(yè)智行千里

《2022聯(lián)想智能化轉(zhuǎn)型行業(yè)白皮書》重磅發(fā)布

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內(nèi)卷“出海”勢在必行數(shù)字化為全球業(yè)務(wù)保駕護航

破內(nèi)卷“出海”勢在必行，數(shù)字化為全球業(yè)務(wù)保駕護航

國藥國際CIO馮偉：數(shù)字化轉(zhuǎn)型要打破信息化建系統(tǒng)的固有思維

中國國際醫(yī)藥衛(wèi)生有限公司數(shù)智化中心總經(jīng)理馮偉在接受企業(yè)網(wǎng)D1Net專訪時提到：“回過頭來看，數(shù)智化建設(shè)最難的是轉(zhuǎn)思維，必須打破信息化總想去建系統(tǒng)的固有思維，要以平臺化思維、站在運營和業(yè)務(wù)的角度思考問題。思維轉(zhuǎn)變后，很多問題將迎刃而解。”

創(chuàng)維集團信息總監(jiān)寧江：數(shù)據(jù)治理是數(shù)字化轉(zhuǎn)型的必由之路

創(chuàng)維集團信息總監(jiān)寧江在接受企業(yè)網(wǎng)D1Net采訪時提到：“如今，站在數(shù)字化轉(zhuǎn)型的全局之下回顧過去幾十年的信息化建設(shè)，似乎建了很多煙囪，系統(tǒng)之間、流程之間不能共享數(shù)據(jù)，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術(shù)總監(jiān)高麗：云原生加速企業(yè)數(shù)字化轉(zhuǎn)型

海爾智家全球數(shù)字化平臺用到了哪些云原生技術(shù)產(chǎn)品?如何實現(xiàn)降本增效?在云原生技術(shù)應(yīng)用方面有哪些實踐和探索?云原生技術(shù)發(fā)揮了哪些價值?在本期“云原生降本增效大咖說”中，企業(yè)網(wǎng)D1Net采訪了海爾智家全球數(shù)字化平臺技術(shù)總監(jiān)高麗。

熱文推薦

相關(guān)文章

鏈接已復(fù)制，快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

<menuitem id="jw4sk"></menuitem>

<form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>

主站蜘蛛池模板：博湖县| 福海县| 抚州市| 临夏市| 北流市| 莎车县| 鹤峰县| 德庆县| 玉山县| 蕲春县| 秦皇岛市| 望江县| 娄烦县| 左贡县| 云浮市| 朝阳区| 定结县| 抚远县| 安阳市| 内丘县| 萨迦县| 沙田区| 铁岭市| 万山特区| 云和县| 柘荣县| 洪雅县| 通江县| 邛崃市| 柳江县| 鄄城县| 淅川县| 炎陵县| 浠水县| 大庆市| 北海市| 河间市| 泗水县| 凤庆县| 乌苏市| 新巴尔虎左旗|

<bdo id="iyzdt"></bdo>

<ul id="iyzdt"></ul>

<pre id="iyzdt"><abbr id="iyzdt"></abbr></pre>

<menu id="iyzdt"><dl id="iyzdt"><acronym id="iyzdt"></acronym></dl></menu>

<center id="iyzdt"></center>

<menuitem id="iyzdt"><em id="iyzdt"><small id="iyzdt"></small></em></menuitem>
<ul id="iyzdt"></ul>