作為代表未來科技發展趨勢的物聯網,隨著產業鏈的不斷完善,落地應用越來越多,尤其是面向消費者市場的智能家居,已成為物聯網時代的風口,全球智能家居市場高達萬億。
智能家居產品最早從智能電視開始,當時的廠商嘗試將語音交互功能嵌入到電視或機頂盒里。經過幾年的發展,到現在,語音功能已逐漸成為電視的標配。
從 2017 年開始,以智能音箱為代表的家居單品開始爆發式增長,智能音箱更是百箱大戰,亞馬遜、Google、百度、阿里、騰訊、小米、訊飛、聯想等一大批企業都參與其中,智能音箱可以與用戶交流、播放音樂甚至網購。隨著各類智能家居產品的增多,亞馬遜、百度等人工智能巨頭紛紛在搭建統一平臺,以語音為入口,連接各種智能家居設備。
傳統電器廠商也開始在傳統電器上賦予人工智能,智能空調、智能油煙機、智能冰箱、智能臺燈都在如火如荼的研制。
針對龐大的兒童消費市場,智能手表、故事機、機器人等兒童智能產品也越來越受歡迎。
可以說,智能家居產品應用已經進入跑馬圈地、深入千家萬戶的階段,它以超前的生活理念逐步影響著我們每一個人。
智能家居產品的技術挑戰
智能家居產品最主要的特點是語音交互,解放用戶的雙手,通過最自然的語音進行交互??梢哉f,語音識別技術是智能家居產品的直接推動者。
在智能家居產品以前,語音識別技術主要用于手機。那么手機和智能家居產品里的語音識別技術有什么差異嗎?
普通話語音識別在手機上已取得了很高的準確率,但在從手機過渡到智能家居產品的過程中,原有語音識別技術的準確率有顯著下降。
首先,說話人離智能家居產品的距離比使用手機時更遠,會帶來遠場語音問題,包括噪音、混響等。
其次,智能家居產品的用戶有相當一部分比例是兒童,不像手機用戶以成人為主。兒童和成人的聲音有明顯差異,導致兒童的語音識別率偏低。
然后,聽歌看片時因為有大量英文歌曲和人名,用戶說話會有中英夾雜的情況。比起純中文來說,中英夾雜的語音識別率更低。
以上都會對智能家居產品帶來語音識別上的困難。解決這些困難,背后需要更有針對性的大量語音數據來供計算機學習。
數據助力智能家居產品
數據堂研制的語音數據,可以更好的助力智能家居產品應用落地。
首先,針對遠場語音,數據堂研制了 1000 小時的遠場家居語音數據,考慮到不同智能家居產品的麥克風特點,數據堂精心設計了一套涵蓋線型、環型、 2 麥、 4 麥、 6 麥、 8 麥等常用組合的麥克風陣列,說話人距離覆蓋0.5m、1m、3m、5m等不同距離,錄音語料上覆蓋各種智能家居設備的指令、語音交互句子、常用喚醒詞,可以最大程度的貼合各類智能家居產品的實際場景。
6 麥環形陣列示意圖
其次,針對兒童用戶,數據堂研制了 3000 小時的兒童語音數據,錄音語料覆蓋兒童讀物、語音助手類交互文本、家居控制命令,可以滿足故事機、智能音箱等兒童使用的智能家居產品的場景需求。
然后,針對中英夾雜情況,數據堂研制了 1000 小時的中英混讀語音數據,錄音語料覆蓋日??谡Z、智能設備交互,涉及音樂、娛樂、出行、生活、體育等十多個領域,可滿足智能音箱、智能電視等有中英夾雜情形的智能家居產品的場景需求。
以上數據,數據堂和每位采集對象都簽署了數據授權協議。
結語
智能家居行業已經進入快速發展期,語音成為智能家居產品的主要入口,智能家居場景對語音識別技術提出了更高的挑戰。在各種類型智能家居產品的背后,數據是幕后功臣。