摘要 : 在我的理解里,智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段:語音聊天、語音操控、情感化人格化、人機合一
在周末的極客公園年會上,百度公司創始人李彥宏大談人工智能,robin認為現在人工智能已經趨于成熟,在移動互聯網時代,技術變得更加重要。與此同時,奇點大學的校長Ray Kurzweil表示2020 年我們模擬人類智能的成本就很低了, 2045 年人工智能超越人類的智慧帶來全新形態的文明。
人工智能的新文明讓人向往,我很期待自己有一個像《星際穿越》里塔斯(Tars)一樣聰明的機器人伙伴,不僅能幫我解答難題,還能陪我嘮嗑聊妹子。然而,即便到了2045年,也許只是實驗室的人工智能大突破,我們普通人也未必能有自己的Tars。
相比頗具科幻感的未來人工智能,普通大眾更容易接觸到的是智能語音技術帶來的生活改變,中興通訊、nuance、audience、百度、高德、中國科學院自動化所等近十家單位成了智慧語音聯盟,已經在布局智慧語音技術的規模應用和生態建設。智慧語音作為人工智能前端的交互模式,更接近于人類交流模式,而且可以分階段、分層次、分深度地融入手機、汽車、家電等設備中,一步步地牽引人們走向人工智能的時代。
科技革命:智慧語音的四大階段
在我的理解里,智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段:語音聊天、語音操控、情感化人格化、人機合一。
語音聊天。這是語音技術的初級模型建立期。語音聊天是機器學習的過程,也是賦予機器思考能力的過程,人們和機器人進行對話聊天的過程中,機器人越來越智慧,并逐步建立人的樣本特征庫。像iphone 上的siri、小娜等聊天機器人都是用大數據和機器學習的技術進行人機對話,這些聊天大多數是娛樂需求,在早期活躍度很高,但隨著人們新鮮期的退潮,語音聊天的熱度持續性在大幅降低。
語音操控。這是智慧語音的應用階段,將語音技術和系統軟件的深度整合,是賦予機器功能以運動能力和語言系統控制的能力,好比人的語言命令系統。此階段,讓機器和人的溝通超出了聊天對話,而具有現實的應用價值,發揮技術生產力價值。把語音內嵌到操作系統里,可以通過智慧語音來喚醒手機的應用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機,不需要觸摸手機或屏幕就可以喚醒手機,并操控手機,還可以智能播報短信、語音轉文字等,將智慧語音的交互模式優勢發揮到了極致。
情感化和人格化。相比語音操控的語音和機器深度整合,智慧語言的下一步也許是更加充滿情感,像人一樣有情感交流,人格化是智慧語音接近于人類自然語言系統的高級境界。此階段,語音操控會是最基本的智慧能力,星星x號的智慧語音或許可以聽出人的語氣、情緒、態度,而不僅僅是通過簡單的字面意義的互動,它們會像你的助理一樣陪著你生活、快樂、感傷,這就要要求智慧語音系統有高超的聲紋識別技術和聰明的大腦。
人機合一。這聽起來就比較科幻了,但是從目前的人工智能技術發展來看,也許10-20年內是能夠實現的,這個階段智能語音交互模式已經無限接近于人類的語言系統,并能將人類的自然語言轉化成操控機器的指令系統,能夠主動地為主人提供服務,并通過開放api能夠語音操控非常多設備。機器像人一樣思考,能夠理解人的語言含義和情感系統,每一個機器像自己的兄弟一樣可以一起戰斗。
現階段智慧語音給我們帶來了什么
Siri、小娜們帶了智能手機的擬人化互動溝通樂趣,偶爾放松一下也無妨,但由于其只是獨立app,需要觸控操作喚醒,能夠實現的語音操控十分有限,是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發現了語音技術的力量,并培養了初步的用戶習慣,開啟了智慧語音的大門。
星星2號的智慧語音水平是第二階段的,重點強化了語音系統和手機操作系統的深度整合,語音可以操控手機的主要功能需求,其最大的特點是駕駛模式場景,智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了,語音操控交互模式在駕駛模式下變成剛性需求了。
智慧語音操控基本上夠用,駕駛模式下大部分操控都已經實現了,用的住,同時,希望中興能夠在后續版本技術升級中不斷增加細粒度,也就是提高智慧語音操控手機和應用的種類、應用內動作等。比如,是否可以在未來通過開放api的方式讓一些經常使用的應用能夠接入進來,比如駕駛模式下語音讀新聞、讀帖子、讀小說應用里的小說、讀微信朋友圈文字等等,將整個手機操作系統徹底實現語音操控。(當然,這么干,成本是很高的,一步步來,先做好價值高的部分)
智慧語音的個性化會很有趣
內嵌的智慧語音現在能夠喚醒并打開使用高德地圖,但是高德地圖有個林志玲版播報、郭德綱版播報,我很喜歡高德地圖這個功能,讓天天見到的地圖應用充滿了樂趣和親切感,如果中興也借鑒一下高德地圖的這個思路會很有趣。每天林志玲、郭德綱們給我打開音樂、搜這搜那,讀短信,會是很拉風的一件事兒。
口音識別的技術現在做的總體還是不錯的,但還需要提升,降噪是一個思路,我在想,智慧語音能識別口音,是否它能用煙臺話和我交互呢?根據我對漢語的研究,四川話、山西陜西話、膠東話、蘇浙口音、閩粵、客家等差異都比較大,現在智慧語音是把土話識別成普通話,那么,是否可以逆向思維,輸出土話呢?比如,我的星星手機起名為“小嫚”,我跟她說“小嫚,過來哈點兒酒吧”,智慧語音估計很難識別出來,這個機器學習是否能夠解決呢?
我還想到一個有趣的場景,羅永浩一直被稱為手機界里相聲說的最好的,其實,演講能力大家是都需要的。智慧語音的機器人可以扮演觀眾,手機主人面對觀眾進行演講訓練,每當稍長停頓就來點鼓勵或掌聲,讓每一個人都變成相聲演員,讓靦腆內向的人走出封閉,讓孤獨寂寞的人有一地方宣泄。所以,我覺得語音情景模式和場景細節中很多東西,這些可以構建出一個智慧語音產品層面的store,讓社群參與智慧語音的外部研究和應用場景研究。
語音操控的更高境界是什么
語音操控的核心就是語言系統和操作系統的無縫整合,語音指令系統和操作系統api的整合統一,在語音模式下,語音指令權重更高,操作系統的api起到很重要的作用。逆向思維,智慧語音的操控系統同樣也是可以輸出api的,如果以語音操控系統為基點,開放語音操控api給手機app開發者們,讓各種優秀應用的操作都能夠接入到語音操控系統里,這樣智慧語音就可以更早一天實現全語音操控手機和使用應用。
更進一步,既然語音操控能夠開放api,那么,就意味著可以進行復雜的api編程,可以根據算法序列將一個個語音指令連續起來,并且可以接入到工業機器人、軍用機器人、園藝機器人等身上,從而實現語音遠程操控系統。這樣,我們就可以遠程語音和家里的機器人管家對話了,這有點像我們現在正在推進智能家居的連接工作。
高級的語音操控編程在計算能力支撐之下,可以和人進行實時地遠程對話交流,我軍派出的無人機在自動化戰斗的同時,也可以聽從指揮部或預警機空中指揮部直接進行語音指揮作戰,此時,一言既出,駟馬也能追啦。