2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新云南皇冠假日酒店盛大開幕。
百度研究院副院長,深度學習實驗室主任,圖片搜索部高級總監余凱發表演講“大數據人工智能”。“得人心者得天下”,對于互聯網公司來說最重要的是讀懂人心,最重要的技術是基于大數據的人工智能。什么是人工智能?感知、思考和控制是人工智能的幾個重要方面。真正智能的系統,是隨著經驗的演化,越變越聰明!經驗是什么?經驗就是數據。另外一個跟人工智能和大數據聯系緊密的技術是深度學習。
百度研究院副院長,深度學習實驗室主任,圖片搜索部高級總監 余凱
以下為演講實錄:
下面,我可能更多從實踐的方面去跟大家分享一下百度在大數據、人工智能我們最近的一些工作,包括我們對這些方面的一些思考。
2014年8月14日,麻省理工學院科技評論雜志介紹百度的人工智能之夢,文章題目叫《一個中國互聯網的巨人開始有夢想》,主要內容是介紹百度在最近兩年在人工智能和大數據這些領域的的投入,包括在人才方面的一些舉措。
互聯網公司:“得人心者得天下”
互聯網典型特征就是大數據,大數據公司也是人工智能公司,以搜索引擎為例,搜索引擎一邊給用戶提供免費服務,這個服務背后還有一個非常精致的商業模型。用戶免費使用服務的同時,貢獻數據給平臺。另外一邊,我們拿這個數據做商業化的變現,實現數據的價值。從數據到價值中間需要技術,需要基于大數據的人工智能。比如說大規模的機器學習,移動互聯網中的語音識別、圖像識別,還有用戶建模等,這些技術能幫助你精準讀懂用戶心里想什么。以前我們說“得人心者得天下”,而在大數據時代的今天,對于互聯網公司,只要讀懂人心,就一覽無余。
從學術層面到高科技公司,再到政府層面都對人工智能越來越關注,人工智能機器人可能是下一個產業革命的爆發點,比如像自動駕駛,自動問答,虛擬現實等都跟人工智能有關,將來是科技創新的主戰場。
學習的能力是智能的本質
那么什么是人工智能?應該包括哪幾個方面,比如我們看到的機器人,首先他有眼睛,有感覺,能感知環境是怎么樣,完成它任務怎么樣做,通過感知把數據記錄下來以后,要做思考,想想怎么做,后面你就可以行動。所以,感知、思考和控制是人工智能幾個重要的方面。
我們看到很多科技公司推出各種各樣的產品,比如說我們看到有智能手機、智能水杯、智能手環等等,還有百度推出的智能快搜,谷歌在做的智能湯勺,但是真正想一想這些產品是不是真的具有智能呢?我們把這些產品和60、70年代的老式收音機放在一邊,他們的不同在什么地方?思考這些問題能幫我們想清楚未來方向,也可以區別現在的這些產品它到底是不是真的智能。真正的智能系統應該能隨著經驗演化越變越聰明,學習的能力,是智能的本質!
經驗就是數據
那么什么叫經驗?經驗就是數據,所以我們到今天看到一個振奮人心的時代來臨,這也是我們濟濟一堂來到這個會議的原因,這個時代是什么?就是大數據時代。
從萬物互聯到萬物智能
今天在座每一位可能都跟我一樣,身上帶了至少兩三個移動設備,平均每個人連到兩到三個設備。半個多月前,在烏鎮孫正義有一個更加瘋狂的預測,預測2020平均每個人要連接到一千個設備,一千個設備包括你隨身帶的設備,你的wifi,甚至是監控攝像頭。在移動互聯網時代,我們看到的未來是萬物互聯,人跟環境,人跟物,物跟物之間都會發生連接。這種連接同時也意味著數據爆增,到達前所未有的廣度和數量,大數據的時代使我們從萬物互聯到萬物智能。
深度學習與大數據
很多擁有大數據的互聯網公司,包括谷歌、臉譜和百度,都在成立研究機構,這個機構機構最主要的研究方向就是大規模的深度學習,聚焦點就是大數據驅動的人工智能。在百度內部,一個橫跨各個產品線大項目獲得了今年的百度最高獎,這個項目就是百度大腦。擁有上千臺PC服務器,和將近1000臺GPU服務器,構建了世界上規模最大的深度神經網絡,百億級的參數。我們基于這些基礎設施,去研發世界上最先進的深度學習算法,包括語音識別、圖像識別、自然原理理解、廣告競爭匹配、廣告建模等等。
深度學習其實它不是一個新事情,在30年前80年代末的時候,深度學習就已經是得到了廣泛關注,而到了大數據時代的今天,它獲得了更多的成功和影響力。為什么呢?
第一方面,深度學習模擬了大腦的行為。一開始做深度學習這幫人,他們的想法受到卷積神經系統網絡的影響,在80年代受到了神經科學家對于視覺神經系統理解的影響;第二,從統計和計算的角度來看,深度學習特別適合大數據;第三,深度學習是End-to-end學習;第四,深度學習提供一套建模語言。大數據時代傳統深度學習的誤區
我具體給大家講講第二點,深度學習特別適合大數據下。在統計上面分析機器學習系統效果時,一個最根本的角度叫推廣誤差,推廣誤差可以幫助我們找到誤差來源,從而設計出更好的算法。一個經典的分解方法,把推廣誤差分解成兩部分:
Approximation error:數學模型不完美導致的誤差;Estimation error:數據不完美,比如數據有限或數據有偏,導致的誤差;Optimization error:算法不完美導致的誤差。隨著數據規模的擴大,從推廣誤差的角度來說,傳統的深度學習研究中存在著一些誤區:
從Approximation error的角度來說,過去我們認為簡單的模型就是好的,但實際上簡單的模型是不夠好的,隨著機器的增多,參數越來越多,模型越來越復雜,是大趨勢,過去認為簡單的模型是好的這是錯誤的觀念;從Estimation error的角度來說,為了保證數據的精確,應該收集充分的數據;從Optimization error的角度來說,通常是學術界的觀點是,開發研究非常精致的優化算法,但是這些算法存在一個大問題:不能覆蓋大數據。比如,SVM的復雜度是在數據二次方到三次方之間的復雜度,今天處理一萬個訓練樣本沒問題,但是如果變成十萬個訓練樣本,你需要一百倍到一千倍的計算資源,這是災難性的問題,所以在大數據的時代,工業界反而要倡導的是desgin “an OK algorithm”。深入百度大腦
我給大家舉一些百度大腦的例子:
A deep model for image recognitionDLmodelfor query-docrelevanceLong-short term memory for time series網上搶票驗證碼識別運單手寫電話號碼識別述說圖片的故事,字幕用深度學習程序寫成同時理解圖像和自然語言深度學習已經取得了關鍵性進展,首先在廣告系統,這可能是世界上首次把深度學習成功應用于廣告變現,并帶來收入提升,在用了深度學習之后,我們跟競爭對手的差距是拉開了兩倍還多。
在物體檢測模型上我們取得了世界上最好的成績,百度第一,谷歌第二。
未來的展望
人類大腦的平均重量是1.5公斤,占2%的身體體重,消耗20%的能量。最近的一個報道顯示,谷歌的服務器消耗美國用電量的百分之幾,美國的所有互聯網公司占美國耗電量的9%。在中國,三大互聯網公司也占中國耗電量百分之幾,智能計算是非常耗能量的。而人類大腦有一千億個神經原有5000個的連接,每個連接觸發每秒鐘兩次,做一個簡單計算,人類大腦計算能力是10的17次方。在過去人工智能發展過程中,計算能力是非常強大的東西,我們今天的計算能力跟20年、30年前更是不可同日而語的,能構造更好的計算方法。
未來計算決定著智能水平的發展,人工智能這個奇點臨近連接了,謝謝大家!