自2017年開始,“AIoT”一詞便開始頻頻刷屏,成為物聯網的行業熱詞。“AIoT”即“AI+IoT”,指的是人工智能技術與物聯網在實際應用中的落地融合。當前,已經有越來越多的人將AI與IoT結合到一起來看,AIoT作為各大傳統行業智能化升級的最佳通道,已經成為物聯網發展的必然趨勢。
在基于IoT技術的市場里,與人發生聯系的場景(如智能家居、自動駕駛、智慧醫療、智慧辦公)正在變得越來越多。而只要是與人發生聯系的地方,勢必都會涉及人機交互的需求。人機交互是指人與計算機之間使用某種對話語言,以一定的交互方式,為完成確定任務的人與計算換機之間的信息交互過程。人機交互的范圍很廣,小到電燈開關,大到飛機上的儀表板或是發電廠的控制室等等。而隨著智能終端設備的爆發,用戶對于人與機器間的交互方式也提出了全新要求,使得AIoT人機交互市場被逐漸激發起來。
AIoT發展路徑
以智能家居市場為例,數據顯示,2018年中國智能家居規模將達到1800億元,到2020年智能家居市場規模將達到3576億元。分析師預測,2021年全球智能家居市場規模將達5000多億元。飛速爆發中的AIoT市場,所蘊藏的人機交互需求及前景無疑是令人期待的。
人類生活的數字化進程已持續約三十年,這些年我們經歷了從模擬時代到PC互聯時代再移動互聯時代的演進,而目前我們正處在向物聯網時代的演進過程中。從交互方式上來講,我們可以看到機器是越來越“遷就”人的:從PC時代的鍵盤和鼠標到移動時代的觸屏、NFC以及各種MEMS傳感器,再到物聯網時代正在蓬勃發展的語音/圖像等交互方式,使用門檻正在變得越來越低,這導致了越來越多的用戶的卷入。同時我們需要注意到另一個深刻的變化,即由于交互方式的演進(至少是重要原因之一),大量的新維度的數據也在不斷地被創造出來和數字化,比如PC時代的工作資料和娛樂節目,智能手機時代的用戶使用習慣、位置、信用和貨幣,再到物聯網時代的各種可能的新數據。
在物聯網時代,交互方式正在往本體交互的方向發展。所謂“本體交互”,指的是從人的本體出發的,人與人之間交互的基本方式,如語音、視覺、動作、觸覺,甚至味覺等。例如,通過聲音控制家電,或者空調通過紅外來決定是否應該降溫,通過語音和紅外結合來進行溫度的控制(偵測到房間里沒人的時候,即便電視節目里提到了“降溫”,空調也不做反應)。
新的數據是AI的養料,而大量的新維度的數據正在為AIoT創造出無限可能。
從AIoT發展路徑來看,當前行業人士普遍認為,其將經歷單機智能、互聯智能到主動智能的三大階段。
單機智能指的是智能設備等待用戶發起交互需求,而這個過程中設備與設備之間是不發生相互聯系的。這種情境下,單機系統需要精確感知、識別、理解用戶的各類指令,如語音、手勢等,并正確決策、執行和反饋。AIoT行業正處于這一階段。以家電行業為例,過去的家電就是一個功能機時代,就像以前的手機按鍵式的,幫你把溫度降下來,幫你實現食物的冷藏;現在的家電實現了單機智能,就是語音或手機APP的遙控去實現調溫度、打開風扇等。
無法互聯互通的智能單品,只是一個個數據和服務的孤島,遠遠滿足不了人們使用需求。要取得智能化場景體驗的不斷升級、優化,首先需要打破的是單品智能的孤島效應。而互聯智能場景,本質上指的是一個相互互聯互通的產品矩陣,因而,“一個大腦(云或者中控),多個終端(感知器)”的模式成為必然。例如,當用戶在臥室里對空調說關閉客廳的窗簾,而空調和客廳的智能音箱中控是連接的,他們之間可以互相商量和決策,進而做出由音箱關閉客廳窗簾的動作;又或者當用戶晚上在臥室對著空調說出“睡眠模式”時,不僅僅空調自動調節到適宜睡眠的溫度,同時,客廳的電視、音箱,以及窗簾、燈設備都自動進入關閉狀態。這就是一個典型的通過云端大腦,配合多個感知器的互聯智能的場景落地。
主動智能指的是智能系統根據用戶行為偏好、用戶畫像、環境等各類信息,隨時待命,具有自學習、自適應、自提高能力,可主動提供適用于用戶的服務,而無需等待用戶提出需求,正如一個私人秘書。試想這樣的場景,清晨伴隨著光線的變化,窗簾自動緩緩開啟,音箱傳來舒緩的起床音樂,新風系統和空調開始工作。你開始洗漱,洗漱臺前的私人助手自動為你播報今日天氣、穿衣建議等。洗漱完畢,早餐和咖啡已經做好。當你走出家門,家里的電器自動斷電,等待你回家時再度開啟。
AIoT的實現對邊緣計算能力提出需求
邊緣計算指在靠近物或數據源頭的網絡邊緣側,融合網絡、計算、存儲、應用核心能力的開放平臺,就近提供邊緣智能服務,滿足行業數字化在敏捷連接、實時業務、數據優化、應用智能、安全與隱私保護等方面的關鍵需求。在行業內有個十分形象的比方,邊緣計算猶如人類身體的神經末梢,可以對簡單的刺激進行自行處理,并將特征信息反饋給云端大腦。伴隨AIoT的落地實現,在萬物智聯的場景中,設備與設備間將互聯互通,形成數據交互、共享的嶄新生態。在這個過程中,終端不僅需要有更加高效的算力,在大多數場景中,還必須具有本地自主決斷及響應能力。拿智能音箱舉例,其不僅需要支持本地喚醒的能力,還應該具備遠講降噪的能力,而由于實時性以及數據有效性的考慮,這方面的計算必須發生在設備端而不是云端。
智能家居行業作為AIoT人機交互最重要的落地場景,正吸引越來越多企業進入。在這其中,既有如Apple、Google、Amazon等這樣的科技巨頭,也有像海爾、三星這類的傳統家電廠商,當然也不乏小米、京東這樣的互聯網新貴。基于互聯智能的構想,未來的AIoT時代,每個設備都需要具備一定的感知(如預處理)、推斷以及決策功能。因此,每個設備端都需要具備一定不依賴于云端的獨立計算能力,即上面提到的邊緣計算。
在智能家居的場景下,通過自然語音的方式與終端設備進行交互,在當前已成為行業主流。由于家庭場景的特殊性,家用終端設備需精準區分、提取正確的用戶命令(而不是家人在談話時無意說到的無效關鍵詞),以及聲源、聲紋等信息,因此,智能家居領域的語音交互對于邊緣計算也提出了更高要求,具體表現在以下幾方面:
遠講降噪、喚醒
家居環境下聲場復雜,比如電視聲音、多人對話、小孩嬉鬧、空間混響(廚房做飯、洗衣機等設備工作噪音),這些容易干擾用戶與設備間正常交互的聲音,很大概率會在同一時間存在,這就需要對各種干擾進行處理、抑制,使得來自真正用戶的聲音更加突出。在這個處理的過程中,設備需要更多的信息量來進行輔助判斷。家居場景語音交互的一個必備功能是使用麥克風陣列進行多通道的同步聲音錄入,通過對聲學空間場景進行分析,使得聲音的空間定位更加準確,大幅提升語音質量。另一個重要功能是通過聲紋信息輔助區分真正用戶,使他的聲音從多人的竄擾中更加清晰地區分出來。這些都需要在設備端實現,且需要較大的算力支持。
本地識別
家居領域人機交互的本地識別離不開邊緣計算,具體體現兩個方面:
高頻詞。從實際統計來看,用戶在特定場景下的常用關鍵詞指令數量有限。例如車機產品,用戶最常使用的可能是“上一首/下一首”,空調產品有可能最常用的命令是“開啟/關閉”等,這些用戶經常用到的詞就叫做高頻詞。對于高頻詞的處理,完全可以放在本地處理而不依賴于云端的延時,從而帶給用戶最佳的體驗。
聯網率。在智能家居產品尤其是家電產品落地的過程中,聯網率是一個問題。如何在不聯網的情況下讓用戶感知到語音AI的強大,進行用戶培養,也是邊緣計算在當前的一個重要作用。
本地/云端效率的平衡
家居領域的自然語言交互過程中,當所有的計算被放到云端時,聲學計算的部分將對云端計算造成較大壓力,一方面造成云平臺成本的大幅增加;另一方面帶來計算延遲,損害用戶體驗。自然語音交互分成聲學和自然語言理解(NLP)兩個部分,從另一個維度上來講,可看成是“業務無關”(語音轉文字/聲學計算)和“業務有關”(NLP)的部分。業務有關的部分毫無疑問需要在云端解決,例如用戶問天氣、聽音樂等需求,那么設備對用戶語句的理解,以及天氣信息的獲取必須通過聯網來完成。但是,對于用戶語音到文字的轉換,例如下達指令“打開空調、增加溫度等”,其中的部分甚至大部分計算是有可能在本地完成的。這種情況下,從本地上傳到云端的數據將不再是壓縮后的語音本身,而是更為精簡的中間結果甚至是文本本身,數據更為精簡,云端計算更為簡單,則響應也更為迅速。
多模態的需求
所謂多模態交互即多種本體交互手段結合后的交互,例如將多種感官融合,比如文字、語音、視覺、動作、環境等。人是一個典型的多模態交互的例子,在人與人交流的過程中,表情、手勢、擁抱、觸摸,甚至是氣味,無不在信息交換的過程中起著不可替代的作用。顯然,智能家居的人機交互勢必不止語音一個模態,而是需要多模態交互并行。舉個例子,智能音箱如果看到人不在家,那就完全不需要對電視里誤放出的喚醒詞進行響應,甚至可以把自己調到睡眠狀態;一個機器人如果感覺到主人在注視他,那么可能會主動向主人打招呼并詢問是否需要提供幫助。多模態處理無疑需要引入對多類傳感器數據的共同分析和計算,這些數據既包括一維的語音數據,也會包括攝像頭圖像以及熱感應圖像等二維數據。這些數據的處理無不需要本地AI的能力,也就對邊緣計算提出了強力的需求。
AIoT帶來的AI芯片需求
AI算法對設備端芯片的并行計算能力和存儲器帶寬提出了更高的要求,盡管基于GPU的傳統芯片能夠在終端實現推理算法,但其功耗大、性價比低的弊端卻不容忽視。在AIoT的大背景下,IoT設備被賦予了AI能力,一方面在保證低功耗、低成本的同時完成AI運算(邊緣計算);另一方面,IoT設備與手機不同,形態千變萬化,需求碎片化嚴重,對AI算力的需求也不盡相同,很難給出跨設備形態的通用芯片架構。因此,只有從IoT的場景出發,設計定制化的芯片架構,才能在大幅提升性能的同時,降低功耗和成本,同時滿足AI算力以及跨設備形態的需求。