摘要 : 追蹤李彥宏幾年的個人言論不難發(fā)現(xiàn),李彥宏本人最為關(guān)注的是人工智能和多媒體(圖像和語音)識別,“對象多輪識別技術(shù)”正是屬于其所關(guān)注的領(lǐng)域。
近日,李彥宏參加了極客公園一年一度舉辦的創(chuàng)新大會,主持人與李彥宏聊到了他最近申請的一個專利吸引了我的興趣。這個專利名字叫“對象識別技術(shù)與裝置”,這個專利可以讓人與機器的交互多輪進行,從案例來看這個專利讓機器與人的對話更加自然。一份國外調(diào)查結(jié)果顯示ios7設(shè)備Siri使用率只有15%。Google Now、微軟Cortana以及中文語音助手們并未如最初預(yù)想的那樣普及。核心原因在于,所有語音助手的對話都太不自然:只支持一問一答,不支持基于上下文的對話。如果應(yīng)用李彥宏所申請的這個專利,這個現(xiàn)狀即將被改變。
語音助手的缺陷:不支持基于語義理解的互問互答
在腦海重現(xiàn)一下人與人對話的過程。你聽到對方的一句話之后,給予一個反饋,對方再根據(jù)你的反饋說下一句話,如此循環(huán)。每一次對話都會影響下一輪說什么、做什么。
Siri們的模式卻十分單一:你可以問,廣州今天的天氣怎么樣。倘若你接著問,“明天呢?”Siri便懵住了。還有一個常見的場景,你問了一個問題,Siri無法理解你,只會拋出“我聽不大懂你的意思”這個冷冰冰的答案。在現(xiàn)實中被問者可以用追問、確認(rèn)、反問等方式來進一步了解問話者的本意。
Siri對話并不自然,一方面是語義理解的局限性所致,還有一點則是對話模式,比如無法實現(xiàn)基于對話的上下文,再比如不支持多輪識別。這是不少人工智能產(chǎn)品的通病。傳統(tǒng)搜索引擎、各大語音助手、圖像搜索引擎,在識別和交互上不夠智能化,不支持互問互答,讓整個過程十分不自然,用戶難以形成習(xí)慣。
百度新專利:基于知識的多輪識別聽懂用戶
百度獲得的一項名為“交互性識別”的新專利或許可以改變整個人機交互。從專利網(wǎng)泄露的信息來看,該專利第一申請人為汪冠春,百度CEO李彥宏、百度技術(shù)副總裁王海峰是聯(lián)合申請人。
簡單地說,這項專利讓機器可以不斷地反問用戶、獲得更多信息進而正確地理解用戶的意思,給出更精準(zhǔn)的答案。舉個例子,如果用戶上傳一張鮮花圖片,百度可以讓用戶選擇鮮花葉子的形狀,來給出更精確的答案。
多輪識別專利,已應(yīng)用在百度語音助手上,即將出現(xiàn)在手機百度之中。可以應(yīng)用的場景包括圖像、語音和文字搜索,以及搜索之外所有需要人機對話的場景:比如智能眼鏡、語音助手、智能攝像頭、家用機器人等等。總之,機器可以要求人們給出更多的文字、圖像、語音、手勢等類型的信息來提高對象識別率和答案準(zhǔn)確率。
媒體報道顯示,以花卉識別為例,增加多模交互后,識別準(zhǔn)確率從60%提高到了80%,達到超出用戶預(yù)期的水平。倘若百度將這個專利授權(quán)給第三方,尤其是搜索、語音和圖像識別廠商,可讓人機對話邁入新的階段,成為用戶依賴的工具,而不是玩具。
百度專利比Google對話式搜索技術(shù)要求更高
在去年的Google I/O大會上,Google發(fā)布了對話式搜索。這項技術(shù)讓用戶像對話一樣不斷地搜索,搜索引擎基于上下文來理解用戶的問題。舉個例子,你可以問,姚明今年多少歲?搜索結(jié)果顯示后,你可以追問“他多高呢?”。Google基于上一個問題,理解“他”為姚明。
對話式搜索已被整合到Google Now和Chrome之中。其最大的突破在于,基于上下文來理解用戶的多輪搜索,向真人一樣理解用戶不斷追問的問題,這是Siri們亟待惡補的地方。
與Google的對話式搜索主要是語意理解相比,百度這個新專利除了語意理解,還加入了圖像識別技術(shù)。對圖像的理解從技術(shù)上比語意理解的難度還要高出一個級別。
總結(jié)百度多輪識別專利,有三個特點讓人機對話更加自然:一是讓機器不斷向用戶索取信息;二是支持圖像、語音和手勢等多媒體;三是可大幅提高對象的識別準(zhǔn)確率。
要實現(xiàn)真正的人機自然對話,對話式搜索和多輪交互識別,兩者缺一不可。一個讓用戶搜索更加自然,一個讓機器理解更加精準(zhǔn)。Google和百度,精于NLP、多媒體識別、深度學(xué)習(xí)和人工智能,都想要從搜索引擎擴展到無所不能的智能助理,現(xiàn)在看來是殊途同歸。
“對象識別技術(shù)與裝置”專利只是百度人工智能專利庫的冰山一角
人工智能的爆發(fā)速度已經(jīng)超出人們的意料。正如《奇點臨近》所預(yù)測的那樣,人工智能的增長速度或為指數(shù)級別,機器超越人類的奇點不再是杞人憂天。Tesla創(chuàng)始人Elon Musk更是有些危言聳聽地宣稱,人工智能就是惡魔,五年后機器就會開始殺人。不管Ray Kurzweil是否語言成真,不管Elon Musk是否是烏鴉嘴,稍有遠見的巨頭都在人工智能上大力投資,謀求未來。
不久前美國《商業(yè)周刊》便撰文報道了百度在人工智能上的動作,稱其已與大洋彼岸的Google形成割據(jù)之勢。招募頂尖技術(shù)人才、成立專門研究機構(gòu)、上馬Dubike、百度Eye等探索性產(chǎn)品。百度迷上了人工智能。
“對象識別技術(shù)與裝置”專利只是百度所取得的人工智能專利之一。這釋放的一個信號是,人工智能上的大力投入并未給百度帶來明顯的尤其是數(shù)據(jù)報表上的收益,但百度至少已經(jīng)在專利上快了一大截。這可能只是防御性的專利措施,但在關(guān)鍵時刻尤其是人工智能爆發(fā)的時刻,其會成為百度的資產(chǎn)。這些專利要確保百度在人工智能時代,以及之后的時間里掌握先機,精準(zhǔn)地連接人與服務(wù)。
百度重金投入研發(fā)人工智能不僅是李彥宏的興趣
1997年,李彥宏個人曾取得超鏈分析專利,是第二代搜索引擎的關(guān)鍵技術(shù)之一,Larry Page和Serg Burlin在創(chuàng)立Google之前曾慕名參加李彥宏關(guān)于此專利的分享會。17年過去,李彥宏已是百度的管理者,成為專利申請人表明其依然十分關(guān)注技術(shù),巧合的是,這個專利或許再一次成為突破口。
1、2011年,李彥宏在百度聯(lián)盟峰會提出,讀圖時代已經(jīng)到來;
2、2012年KDD(知識發(fā)現(xiàn)世界年會)上,李彥宏預(yù)測9大待解技術(shù)難題,其中兩項為圖像搜索,一項為語音識別;
3、2014年百度世界大會,李彥宏預(yù)測未來五年,語音圖像的需求表達會超過50%;
4、2014年世界互聯(lián)網(wǎng)大會,李彥宏透露最聚焦人工智能,關(guān)注自然語音的理解、模式的識別、計算機的視覺。
追蹤李彥宏幾年的個人言論不難發(fā)現(xiàn),李彥宏本人最為關(guān)注的是人工智能和多媒體(圖像和語音)識別,“對象多輪識別技術(shù)”正是屬于其所關(guān)注的領(lǐng)域。百度重金投入研發(fā)人工智能,并非一時興起,是李彥宏看到了移動時代用戶需求的變化,看了技術(shù)實現(xiàn)的可能。也許不只有李彥宏看到了其中的巨大機會,但真正有能力去將夢想未來變成技術(shù)現(xiàn)實的人,全球范圍內(nèi)用一個手掌就可以數(shù)得過來。