亚洲日本一区二区三区在线不卡 ,欧美日韩成人高清在线播放,久久免费视频精品

智慧語音四步走，讓人工智能變性感

責任編輯：editor006

作者：柳華芳

2015-01-21 15:13:05

摘自：百度百家

摘要 : 在我的理解里，智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段：語音聊天、語音操控、情感化人格化、人機合一　開車時候不需要用手觸摸操作手機了，語音操控交互模式在駕駛模式下變成剛性需求了

摘要 : 在我的理解里，智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段：語音聊天、語音操控、情感化人格化、人機合一

在周末的極客公園年會上，百度公司創始人李彥宏大談人工智能，robin認為現在人工智能已經趨于成熟，在移動互聯網時代，技術變得更加重要。與此同時，奇點大學的校長Ray Kurzweil表示2020 年我們模擬人類智能的成本就很低了， 2045 年人工智能超越人類的智慧帶來全新形態的文明。

人工智能的新文明讓人向往，我很期待自己有一個像《星際穿越》里塔斯(Tars)一樣聰明的機器人伙伴，不僅能幫我解答難題，還能陪我嘮嗑聊妹子。然而，即便到了2045年，也許只是實驗室的人工智能大突破，我們普通人也未必能有自己的Tars。

相比頗具科幻感的未來人工智能，普通大眾更容易接觸到的是智能語音技術帶來的生活改變，中興通訊、nuance、audience、百度、高德、中國科學院自動化所等近十家單位成了智慧語音聯盟，已經在布局智慧語音技術的規模應用和生態建設。智慧語音作為人工智能前端的交互模式，更接近于人類交流模式，而且可以分階段、分層次、分深度地融入手機、汽車、家電等設備中，一步步地牽引人們走向人工智能的時代。

科技革命：智慧語音的四大階段

在我的理解里，智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段：語音聊天、語音操控、情感化人格化、人機合一。

語音聊天。這是語音技術的初級模型建立期。語音聊天是機器學習的過程，也是賦予機器思考能力的過程，人們和機器人進行對話聊天的過程中，機器人越來越智慧，并逐步建立人的樣本特征庫。像iphone 上的siri、小娜等聊天機器人都是用大數據和機器學習的技術進行人機對話，這些聊天大多數是娛樂需求，在早期活躍度很高，但隨著人們新鮮期的退潮，語音聊天的熱度持續性在大幅降低。

語音操控。這是智慧語音的應用階段，將語音技術和系統軟件的深度整合，是賦予機器功能以運動能力和語言系統控制的能力，好比人的語言命令系統。此階段，讓機器和人的溝通超出了聊天對話，而具有現實的應用價值，發揮技術生產力價值。把語音內嵌到操作系統里，可以通過智慧語音來喚醒手機的應用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機，不需要觸摸手機或屏幕就可以喚醒手機，并操控手機，還可以智能播報短信、語音轉文字等，將智慧語音的交互模式優勢發揮到了極致。

情感化和人格化。相比語音操控的語音和機器深度整合，智慧語言的下一步也許是更加充滿情感，像人一樣有情感交流，人格化是智慧語音接近于人類自然語言系統的高級境界。此階段，語音操控會是最基本的智慧能力，星星x號的智慧語音或許可以聽出人的語氣、情緒、態度，而不僅僅是通過簡單的字面意義的互動，它們會像你的助理一樣陪著你生活、快樂、感傷，這就要要求智慧語音系統有高超的聲紋識別技術和聰明的大腦。

人機合一。這聽起來就比較科幻了，但是從目前的人工智能技術發展來看，也許10-20年內是能夠實現的，這個階段智能語音交互模式已經無限接近于人類的語言系統，并能將人類的自然語言轉化成操控機器的指令系統，能夠主動地為主人提供服務，并通過開放api能夠語音操控非常多設備。機器像人一樣思考，能夠理解人的語言含義和情感系統，每一個機器像自己的兄弟一樣可以一起戰斗。

現階段智慧語音給我們帶來了什么

Siri、小娜們帶了智能手機的擬人化互動溝通樂趣，偶爾放松一下也無妨，但由于其只是獨立app，需要觸控操作喚醒，能夠實現的語音操控十分有限，是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發現了語音技術的力量，并培養了初步的用戶習慣，開啟了智慧語音的大門。

星星2號的智慧語音水平是第二階段的，重點強化了語音系統和手機操作系統的深度整合，語音可以操控手機的主要功能需求，其最大的特點是駕駛模式場景，智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了，語音操控交互模式在駕駛模式下變成剛性需求了。

智慧語音操控基本上夠用，駕駛模式下大部分操控都已經實現了，用的住，同時，希望中興能夠在后續版本技術升級中不斷增加細粒度，也就是提高智慧語音操控手機和應用的種類、應用內動作等。比如，是否可以在未來通過開放api的方式讓一些經常使用的應用能夠接入進來，比如駕駛模式下語音讀新聞、讀帖子、讀小說應用里的小說、讀微信朋友圈文字等等，將整個手機操作系統徹底實現語音操控。(當然，這么干，成本是很高的，一步步來，先做好價值高的部分)

智慧語音的個性化會很有趣

內嵌的智慧語音現在能夠喚醒并打開使用高德地圖，但是高德地圖有個林志玲版播報、郭德綱版播報，我很喜歡高德地圖這個功能，讓天天見到的地圖應用充滿了樂趣和親切感，如果中興也借鑒一下高德地圖的這個思路會很有趣。每天林志玲、郭德綱們給我打開音樂、搜這搜那，讀短信，會是很拉風的一件事兒。

口音識別的技術現在做的總體還是不錯的，但還需要提升，降噪是一個思路，我在想，智慧語音能識別口音，是否它能用煙臺話和我交互呢?根據我對漢語的研究，四川話、山西陜西話、膠東話、蘇浙口音、閩粵、客家等差異都比較大，現在智慧語音是把土話識別成普通話，那么，是否可以逆向思維，輸出土話呢?比如，我的星星手機起名為“小嫚”，我跟她說“小嫚，過來哈點兒酒吧”，智慧語音估計很難識別出來，這個機器學習是否能夠解決呢?

我還想到一個有趣的場景，羅永浩一直被稱為手機界里相聲說的最好的，其實，演講能力大家是都需要的。智慧語音的機器人可以扮演觀眾，手機主人面對觀眾進行演講訓練，每當稍長停頓就來點鼓勵或掌聲，讓每一個人都變成相聲演員，讓靦腆內向的人走出封閉，讓孤獨寂寞的人有一地方宣泄。所以，我覺得語音情景模式和場景細節中很多東西，這些可以構建出一個智慧語音產品層面的store，讓社群參與智慧語音的外部研究和應用場景研究。

語音操控的更高境界是什么

語音操控的核心就是語言系統和操作系統的無縫整合，語音指令系統和操作系統api的整合統一，在語音模式下，語音指令權重更高，操作系統的api起到很重要的作用。逆向思維，智慧語音的操控系統同樣也是可以輸出api的，如果以語音操控系統為基點，開放語音操控api給手機app開發者們，讓各種優秀應用的操作都能夠接入到語音操控系統里，這樣智慧語音就可以更早一天實現全語音操控手機和使用應用。

更進一步，既然語音操控能夠開放api，那么，就意味著可以進行復雜的api編程，可以根據算法序列將一個個語音指令連續起來，并且可以接入到工業機器人、軍用機器人、園藝機器人等身上，從而實現語音遠程操控系統。這樣，我們就可以遠程語音和家里的機器人管家對話了，這有點像我們現在正在推進智能家居的連接工作。

高級的語音操控編程在計算能力支撐之下，可以和人進行實時地遠程對話交流，我軍派出的無人機在自動化戰斗的同時，也可以聽從指揮部或預警機空中指揮部直接進行語音指揮作戰，此時，一言既出，駟馬也能追啦。

語音技術