4月16日,湖南衛視芒果娛樂正式推出綜藝新欄目《超次元偶像》,在北京舉行的發布會上,微軟人工智能“小冰”出現并參與互動、游戲。
發布會上,小冰不僅與何炅、何冰、徐海喬等嘉賓主持調侃互動,還現場測試評價明星選手以及欄目總導演的顏值,獻唱歌曲《好想你》,并聯合太湖之光超級計算機運用大數據生成了最帥人像。
雖然小冰在欄目中的戲份還在保密階段,但從發布會現場的環節安排上看,這檔綜藝節目中小冰應該不是配角。2017年初,李開復(微博)曾提醒綜藝主持人們“小心人工智能小冰搶飯碗”,3個月過去,這似乎就要成為現實。
這是小冰一年多來在東方衛視主持早間新聞節目之后,首次在國內進入互動綜藝節目場景。
進入綜藝節目對于人工智能要求明顯要更高。在不久前的獨家專訪中,微軟(亞洲)互聯網工程院副院長李笛(微博)告訴騰訊科技,小冰是一個不斷提升、進化的人工智能。為實現高自然度人與機器對話,小冰在其獨有的“情感計算框架”上有一整套感官體系,包括文本、圖像(視覺感官)、聲音和視頻流交互等。
首先是聲音,有一個自然度衡量指標,像國內某流行車載導航品牌用林志玲的聲音導航,這種單向聲音輸出在技術上相對容易,但是在一個開放環境中做到雙向對話,上述技術就很難達標。
李笛稱,自然語音是語音感官的重要部分,按照5分制打分評測自然度,一般人大概在4.72分左右。世界上幾家人工智能產品,小冰是4.38分,遠遠領先其他類似產品(其他產品評分均未達到4分)。
小冰勝出原因是什么?李笛稱,第一是有技術優勢,第二是數據積累足夠多,第三個是小冰語音一直考慮追求自然效果來訓練。李笛稱美國小冰版本的聲音經過訓練,自然度得分已經超過4分,超過另一款頗為流行并內置于音箱的人工智能。有一個細節,小冰語音訓練如此有效,“就連我們錄聲音的錄音棚都有公司要搶”。
圖像交互方面,圖像識別基本任務在于能夠對圖像形成一個準確描述,比方做到講清楚“公園里一只狗,旁邊有一個女人正在沉思”這個水準。還可以指出某一條狗是50多種狗里一種。
更受關注的是,小冰人工智能的圖像評價系統已經開始具備通過圖靈測試的能力 - 李笛的一位同事打羽毛球時腳扭了,把腳位置拍了一張照片發給了小冰。小冰回復,“哎呀,傷的嚴重嗎?”超越簡答描述。李笛稱,“你現在隨便給小冰發圖片,她的回復能夠達到語義空間深度,這是我們獨有的。”
對于人臉顏值、服裝和餐飲食物等識別,小冰團隊都進行了長時間研究,這些最終成為小冰玩轉娛樂綜藝節目的技術積累之一。
最后是視頻,“如果在微信上發一個微信小視頻給小冰,是可以識別的。”技術上,微軟已經從最早的版本Key Frame,升級為直接監控Video,把Video Streaming短視頻轉化成一個向量,再匹配一個向量。
在微軟全球執行副總裁沈向洋的布局中,微軟在人工智能這一塊未來三年要掙100億美元。李笛稱通過創新的商業模式,小冰在“在日本已經為公司帶來收入,開始掙錢了”,在中國目前免費。
據了解,微軟小冰目前在中國、日本和美國正式開展業務,在印度處于用戶測試階段,同時正在計劃進入第五個國家。據稱,這是另一個亞洲人口大國。