每每看到日本機器人展上越來越仿真的機器人,我們對于機械女仆(誤)的幻想就會被重新調動起來。可是你有沒有想過,一個真正可以和你互動的機器人,除了具備靈活協調的四肢,流利精準的語言系統之外,還欠缺什么?——沒錯,是情感識別。如何正確識別對方的情感并作出合理的回應,這項在人類交流中習以為常的事情,對人工智能來說卻是非常困難的。
不過近年來大數據領域的快速發展讓人工智能的情感識別領域看到了希望。閱面科技創始人兼CEO雷子是交通大學機器學習和語言理解專業的博士生。他一直致力于數據挖掘、搜索、推薦的基礎研究。在交大學習以及阿里巴巴的相關工作經驗,讓他看到近幾年來大數據領域的突破,尤其是語音和計算機視覺,使得人工智能的深度學習非常火熱。不僅僅將人臉識別用于常見的安保系統,而是用來理解情感,在他看來是非常有趣的事情。為此他做出了基于計算機人臉情感識別的ReadFace。
就著情感識別這一非常具有科技感的話題,創業邦記者和雷子進行了有趣的交流。
情感識別的理論基礎
雷子首先向創業邦解釋了情感識別和人臉識別的區別。雖然看起來都是用計算機來識別面部,但是人臉識別只是檢測人臉的不同區域,借此分辨出不同人臉部之間的區別。而情感識別最重要是計算機對于面部表情的理解。
當前主流的情感識別方式分為三種:
人臉的情感識別的邏輯程序
語言聲調的情感識別的邏輯程序
語言文字的情感識別的邏輯程序
雷子認為,視覺是我們接觸一個陌生人的第一印象,結合自己的專業背景,他最終選擇了基于人臉的情感識別。其中首先要做的就是理解表情。
或許很多人和記者的疑問是相同的:計算機如何識別一個人的表情來判斷他的喜怒哀樂呢?
面部動作編碼系統(FACS)
這里需要先給大家簡單介紹一下用于量化表情的基礎理論。這套理論是70年代由美國心理學家Paul Eckman提出的(沒錯就是你們喜歡看的Lie to Me的靈感來源)。Eckman提出的理論之一就是面部動作編碼系統(FACS)。他根據人臉解剖學特點,將人臉劃分成若干相互獨立又相互聯系的運動單元(AU),比如第12號AU包括兩塊顴肌,第6號AU則是眼外側的輪匝肌。分析這些運動單元的運動特征及其所控制的主要區域,就能得出面部表情的標準運動。
換言之,如果簡單概括一下,Glasgow大學的Jack等人(2014)提出的人類四種基本情緒:喜、怒、哀、懼就是基于這些運動單元建立的,情緒則通過單元之間的權重疊加進行計算。
Readface的輸出與應用
Readface是由云和端共同組成,目前是一款ToB的服務。端是SDK,可以嵌入任何具有攝像頭的設備來感知并識別表情。云則是利用數學模型和大數據來理解情感。目前產品可以輸出三個維度:
人類基本的表情運動單元。如上文所提到的,這些是構成識別的基礎。事先積累大量人臉數據,以照片和視頻為主,由此識別到多種表情運動單元。
輸出情感顆粒。四種基本情緒是基于表情單元建立的,并且通過單元的權重疊加計算出情感顆粒。
人的認知狀態。可以通過底層單元來建立魔性,比如聚精會神時會緊縮雙眉。還有頭部的基本姿態和動作,比如眨眼睛,伸舌頭,用以輔助理解情緒。
基于上述輸出單位,雷子向創業邦介紹了Readface服務主要的應用場景。
首先是家庭智能機器人。軟銀和阿里巴巴在6月份投資了日本首款具有情感的機器人Pepper,證明在家庭陪伴領域,機器人情感是必不可少的應用。
其次是兒童玩具。一款具備情感識別的小玩具可以和小孩子進行互動,而不是只是讓孩子在屏幕上用手指劃。對于3-9歲的孩子來說,基本互動是必須的。
再者,目前最成熟的是視頻分析應用。國外有麻省理工實驗室學生創辦的Affectiva。這家公司開發的Affdex軟件可以識別受眾的表情來評估廣告效果,憑借良好的反饋已經累計融資2100萬美元。目前國內有4-5家市場調研公司正在使用Readface的服務,比如把SDK放在眼動儀中采集表情。情感識別現在來說更容易嵌入這種行業中。
最后,還有社交和互動游戲等領域。使用合適的情感識別功能,可以讓這類軟件變得更加有趣,以及創造出新型的交互方式。
現在Readface的SDK服務還是免費的,未來將會根據功能劃分推出不同版本實現增值收費。
情感識別應用領域的現狀
閱面科技的CEO雷子曾在阿里負責過圖像搜索和識別的產品,CTO Leon在卡內基梅隆機器人研究所做副研究員,長期致力于表情識別研究。另外一位架構師來自于百度。國內的情感識別領域雖然發展很緩慢,但國外各類API及相關創業公司不下40余種,可謂競爭慘烈,下面,創業邦就為你簡單羅列一些其中的佼佼者。
比如YouEye,它是一個情感識別的云測試。工程師團隊整合了包含五萬個微表情的數據庫,讓這個軟件能識別用戶瀏覽網頁時的各種表情,如高興、意外、迷惑、悲傷或感到惡心等。
FaceReader則是世界上第一個能夠自動分析面部表情的工具,使用戶能夠客觀的評估一個人的情緒。
一個名為InSight的SDK服務通過測量面部肌肉的運動,對人臉進行完全自動化分析,并將這些面部肌肉運動轉化為七個普遍的面部表情。
當然這其中最有名的,還屬上文提到的Affectiva研發的Affdex軟件,畢竟它提供的廣告效果分析是現今最為成熟的一種情感識別應用場景。
人臉情感識別所面臨的困境
和其它人工智能的研究一樣,Readface在現階段也遇上了人臉情感識別的幾個困境。
第一、情感反饋。一個完整的情感識別需要包含三個階段:認識——理解——反饋。1.0版本的Readface在識別表情并理解情感之后還無法作出反饋。顯然這并不能稱之為真正的情感識別。雖然這套服務能用于廣告效果分析,可涉及到陪伴機器人的研發,勢必需要機器人作出合理的反應。這需要搭建機器人的語言系統,以及動作(Action)的推薦機制。
第二、環境適應性問題。人臉識別有很多客觀環境造成的無法規避的誤差,比如頭部偏轉就會讓表情單元采集出現偏差。雖然更充實的大數據可以修正誤差,可這還需要時間的積累。
第三、微表情和偽裝的難點。當記者問起有什么表情是目前還無法采集到的,雷子坦言細微的表情是計算機難以發現的。或許計算機再聰明也不可能追趕上你善解人意的好閨蜜。此外那些經歷過風雨,喜怒不行于色的人,識別系統也對他們無可奈何。
智能硬件不該只是靠臉吃飯
雷子和創業邦談到了智能硬件和人工智能領域的現狀。他認為就全世界的人工智能研究來看,工業界正推動著學術界向前走,這和產品熱、硬件熱是分不開的。商業公司出于盈利目的更愿意去開發這些處于業界焦點的智能硬件產品。
可他也認為,目前世面上大多所謂的硬件產品都談不上有多智能,更多是用酷炫的外觀設計來吸引人。如果沒有真正的技術突破作為支撐,智能硬件始終就只能像現在這樣處于迷茫的狀態。大公司的智能產業缺乏基礎研究,只是套了一層外殼。在這點上垂直領域的初創團隊更有可能集中精力取得突破。
剛剛拿完天使輪的閱面科技,希望有更多的資本可以進入這個領域。投資方都知道硬件很火、人工智能很火,可是就像是微信崛起前的移動社交,誰都不知道怎么做才是正確的。而關于這個做法,技術出身的雷子最終還是選擇相信技術。