昨天,百度舉行了一次小規模的媒體開放日活動,介紹了其深度學習在最新的拍照搜索方面的應用成就。這個技術從8月20日開始,已經部署在手機百度5.5版本上。
自2013年百度公布深度學習戰略以來,通過媒體的持續跟進,深度學習的一些現實應用已經廣為人知。例如最普及的拍照搜索,與其他一些互聯網公司僅能識別簡單的書籍、CD封面不同,百度已經可以識別并檢索人臉、植物、水果等形狀不規則、顏色復雜、規律性不強的圖像。一個應用實例是,用戶對皮膚病患者的患病部位拍照并進行搜索,百度通過與數據庫中的標準案例比對,能夠告訴患者病情的嚴重程度,并給出對應醫院、醫生的就診建議。據百度高級副總裁王勁透露,目前,這一拍照預診產品的成功率已經達到93%。
但是,由于深度學習技術涉及到大量高深的數學技術和復雜的算法原理,目前在大眾領域,對其的認知仍然比較零散,還停留在兩端:在原理端,知道這是一種很先進的計算機技術;在實用端,知道有語音識別、圖像搜索等實際用途。但深度學習對現有的計算機應用有怎樣的革命性,以及這些實用技術具有怎樣的商業價值,卻不甚了然。
淼叔自去年6月在國內首度報道深度學習在互聯網領域的應用后,一直在關注這個領域的發展,并結合《數學之美》等經典的數學-互聯網-商業領域的普及書籍,試著把上面兩個問題解答一下,并結合百度剛發布的第三季度財報,看看這個領域的商業價值。
深度學習的價值在于"自動化"
計算機出現對于人類最大的意義,是可以把大量重復勞動快速完成,因為論簡單的運算能力,計算機的效率早就可以達到人類的數億倍。反推過去,如果要讓計算機解決什么問題,就先要把這個問題轉化為可以簡單計算的內容(計算次數可以充分巨大,反正能力強)。再往前推一步,一個領域的"可簡單計算化",決定了它的"計算機處理化"程度也就是自動化程度,也就決定了它大規模發展的程度。
以文字內容為例。早期在互聯網上,人們需要人工識別網頁的內容,并以此分類,提供給用戶搜索。這樣效率就很低,在網頁數量高速增長后,搜索行業就拖了后腿。在TF-IDF算法出現后,計算機可以自動提取一篇文章內容的關鍵字,網頁的歸類實現了自動化,再配合上Google發明的Page Rank算法,使網頁的優先排序也自動化了,整個文字世界被成功數字化,這才有了互聯網對媒體行業的顛覆性大發展。同時,IDF算法能成功識別出網頁的關鍵內容,使搜索引擎可以為它匹配上高度相關的廣告,實現了商業鏈條的閉環。
但是,文字只是人類世界的一小部分。在可感知的領域中,聲音、圖像都占據有更大的數據量,也是更為直觀、人口基數更大的信息交流方式。目前,在這個領域,像手工給文字網頁分類一樣,人們依然使用人工分類的方式進行信息索引、查找與再利用。這實際上是把聲音、圖像都先文字化,而文字內容已經互聯網化,所以才能用互聯網的方式處理那些多媒體內容。
這里的"人工分類",粗略地說,在大數據領域,就相當于"打標簽",用文字標注出多媒體內容的屬性。我們一開始就說了,整個鏈條中只要涉及人工,效率必然被拖后腿。這也是大數據領域現在的難題,因為總少不了人工打標簽這個環節。
說到這里就可以看出深度學習的重要意義了:深度學習的最大特點,就是把一個復雜的認知問題分解為幾層簡單問題,通過對簡單問題的大運算量處理,得出規律,進入下一"層",逐層運算處理,直到觸達事物本質。舉個比較粗略的例子,在人工分類時,對于一朵花,人們需要手工打上一些標簽:粉紅色,分為六個均等的部分(花瓣),中間有柱狀蕊,常與綠色一起出現,等等。當輸入一張花的圖片時,計算機與這幾個標簽比對,都對上了,就輸出結果:這是一朵花。商業價值拓展則是配上廣告,哪里可以買到花,買到花盆,買到養花的書,找到跟你一樣喜歡養花的單身女性,等等。
整個過程的短板在人工打標簽的階段。而在深度學習層面,它不需要人類去打標簽,只要給它輸入一百萬張花的圖片,它會自動逐層尋找共同特征,歸納出標簽,最后再去跟同類圖片比對,驗證這些標簽,完成認識過程。有人可能說你這100萬張圖片還不是要人工拍攝、輸入?那倒還真未必,拿一個攝像頭對準一盆花自動拍不就得了,如果想增加點全面性,那就把花盆放在自動旋轉臺上,旁邊再放個電風扇讓它搖曳多姿,這樣可以保證系統獲得盡量多樣化的圖片。
移動時代的價值確立
所以我們回到百度的案例來,就可以看到深度學習的巨大商業價值。它解決了搜索引擎在處理多媒體信息方面的弱項,把他們轉化為已經具有成熟技術和商業模式的文字信息。同時,由于多媒體信息相對于文字信息在數量級上的龐大,這部分的商業真空也同樣巨大。更為重要的是,文字搜索更多的是一種PC時代的習慣,移動互聯網時代,由于文字輸入的瓶頸和手機拍攝/語音功能的完善,語音、圖片搜索的比例將大幅度提升甚至成為主流。根據李彥宏披露,百度現在已經有10%的搜索請求來自于語音,而未來五年內,語音、圖像搜索將驅動一半以上的搜索請求。
這也是百度重兵投入深度學習的戰略意圖。打仗的根本要訣是要在熟悉的戰場、以擅長的戰術決戰;而深度學習可以把世間萬物近似全自動地數字化為百度已經建立的文字搜索模式,又使使用場景和商業空間數以百倍計地增長,而需要的又是百度最為擅長的技術研發能力,所以當然要全力以赴。同時,深度學習又是一個需要大量技術積累的領域,這使得它成為百度移動互聯網時代最可依賴的技術門檻。
在三季報發布前一個月上線拍照搜索、三季報發布日附近又將手機百度升級到更強化拍照搜索和身邊商務的6.0版,都是為了強化百度以深度學習技術驅動的移動互聯網戰略。而在本年第三季度中,百度首度出現了移動流量超越PC流量的現象,移動營收在總營收中占比也達到了創紀錄的36%。這種增長,不僅僅是PC端流量的簡單遷移,而是語音、圖像搜索等更具移動特色的搜索需求開拓出了新的場景,也帶來了新的變現途徑。所以,除了移動流量和營收比例增長外,百度總營收也同比增加了52%。
對于移動互聯網,越來越主流的聲音認為,它不是桌面互聯網的繼續延伸,而是平級于互聯網革命的又一場革命。僅僅在信息處理領域,我們已經看到語音、圖像對于文字的顛覆,也看到了成熟商業模式的曙光。而驅動這一切發生的,依然是生生不息的技術創新。