2014中國大數據技術大會在12月14日正式落下帷幕,近百位技術專家在這里分享了他們的最新研究與實踐成果,本文來自中國經濟網經營顧問楊靜,主要解讀了大數據與深度學習之間的聯系,以及未來行業技術的發展。
以下是作者原文:
2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新云南皇冠假日酒店盛大開幕。
近年來,國內外互聯網公司和傳統企業大都已經意識到數據資產化和規模化帶來的潛在價值,如何低成本且高效率地存儲和處理數百TB乃至EB量級的數據成為極大挑戰。“向數據要價值”使得幾乎每個行業都面臨著大數據問題。“大數據”引發了新一輪IT“工業革命”。
程學旗發布2015年大數據發展趨勢預測
中科院計算所研究員,CCF大數據專家委員會秘書長程學旗在會上發表了大數據白皮書與發展趨勢報告。《中國大數據技術與產業發展白皮書(2014年)》主要介紹了大數據的背景與動態,大數據典型應用,大數據技術進展,大數據IT產業鏈與生態環境,以及大數據發展趨勢與建議等內容。同時對于2015年大數據發展趨勢預測,程學旗總結為這幾個詞:融合、跨界、基礎、突破。
一、結合智能計算的大數據分析成為熱點,包括大數據與神經計算、深度學習、語義計算以及人工智能其他相關技術結合,成為大數據分析領域的熱點。
二、數據科學帶動多學科融合,隨著社會的數字化程度逐步加深,越來越來多的學科在數據層面趨于一致。可以采用相似的思想來進行的統一的研究。
三、跨學科領域交叉的數據融合分析與應用將成為今后大數據分析應用發展的重大趨勢。
四、大數據將與物聯網、移動互聯、云計算、社會計算、等熱點技術領域相互交叉融合,產生很多綜合性應用。物聯網與移動計算加強了與物理世界和人的融合,大數據和云計算加強了后端的數據存儲管理和計算能力。
五、大數據多樣化處理模式與軟硬件基礎設施逐步夯實。內存計算將繼續成為提高大數據處理性能的主要手段。以Spark為代表的內存計算逐步走向商用,并與Hadoop融合共存,專為大數據處理優化的系統和硬件出現,大數據處理多樣化模式并存融合,一體化融合的大數據處理平臺逐漸成為趨勢。其中有一個觀點這種多元化一定程度上成為一體化,未來大數據多樣化處理模式并存并且有可能成為一體化的平臺。
六、大數據安全和隱私持續令人擔憂。
七、新的計算模式將取得突破,眾包技術,可能未來不光是大數據講深度學習。
八、各種可視化技術和工具提升大數據分析。進行分析之前,需要對數據進行探索式地考察。在此過程中,可視化將發揮很大的作用。
九、大數據技術課程體系建設和人才培養是需要高度關注的問題。
十、開源系統將成為大數據領域的主流技術和系統選擇。
邢波分享大數據分布式機器學習平臺
2014中國大數據技術大會首日的全體會議上,卡耐基梅隆大學教授邢波、ICML 2014程序主席邢波(Eric P. Xing)表示,著眼當下大數據處理平臺,大量資源都都浪費在集群的通訊上。即使比較優秀的平臺,計算時間也只有20%,通訊時間占到80%,就比如Hadoop的通訊時間占到90%。
而他的研究小組研發出的Petuum則是一種新型的大數據分布式機器學習平臺,包含數據和程序并行兩套功能,也對機器學習的特點做了比較好的研究和針對性的使用。大致結構是包含一個參數服務器,提供編程的一個虛擬并行內存,在編程的時候不用對每個機器進行單獨通訊,還有一個叫做調度器,能夠對模型進行有效的分割,甚至是動態分割,然后做分布化。
這個參數服務器有一個編程界面,在寫內存讀取不需要對每一個機器做特殊的指令,使用了比較巧妙的所謂半同步的協調機制,這樣可以顯著降低使用在通訊上的時間,而加強在計算上的時間,所以隨著半同步參數的調整,通訊時間會顯著下降,降到了甚至比計算時間還要少,這樣使計算機的資源得到最大量的利用。
Petuum也是開源項目,目前的觀察不光可以達到很大量,基本上等價于現在最好的系統。根據邢波教授剛剛收到學生最新送來的結果,很讓人驚訝,還有一個組用這個系統跟Spark和Hadoop做了獨立比較。Petuum系統的愿景既包含軟件和底層軟件的支持,目前也是在Hadoop生態系統里的一個分子,這個系統可以開放給大家下載以后做自己的開發。
余凱:深度學習將扮演人工智能時代關鍵角色
百度研究院副院長,深度學習實驗室主任,圖片搜索部高級總監余凱介紹了百度在人工智能方面的發展。對于互聯網公司來說最重要的技術是基于大數據的人工智能。什么是人工智能?感知、思考和控制是人工智能的幾個重要方面。真正智能的系統,是隨著經驗的演化,越變越聰明!而經驗就是數據。
余凱在演講中認為:人工智能的本質特征之一是學習的能力,也就是說系統的能力能否隨著經驗數據的積累而不斷演化和提升。所以大數據時代的到來給人工智能的發展提供前所未有的機遇。在這個時代背景下,深度學習在各個方面所取得的突破性進展并非偶然,因為從統計和計算的角度來說,深度學習可能是目前我們能找到的最好的方法,用于在海量數據中尋找復雜的規律。
除此以外,他認為深度學習還有兩個顯著優點:首先,它是一套豐富的建模語言,或者說是建模框架,我們可以用這套語言系統來表達數據內在的豐富關系和結構,比如圖像中的2D空間結構,自然語言的時序結構;其次,深度學習是幾乎唯一的end-to-end的機器學習系統,它的目標是直接作用于原始數據,自動逐層做數據特征變換,整個學習過程直接優化某個問題相關的目標函數,而傳統的機器學習往往被分解為幾個不連貫的步驟,并非一致優化某個整體的目標。所以,萬物互聯的時代,數據暴增,也意味著人工智能時代的來臨,深度學習將扮演關鍵性角色。從現在到2020年,我們將看到人工智能在語音識別,計算機視覺,自然語言理解,機器人,自動駕駛等領域的持續突破性進展。
智能化時代:大數據會與深度學習劃等號么?
本次會議的組織者安排了媒體對幾位專家的群訪。我向李國杰院士等專家提出了一個問題:“剛剛程學旗秘書長說大數據專委會的專家們投票選擇明年的大數據技術趨勢是說大數據跟神經計算和人工智能相結合,有一些委員說明年首先是對國內大型互聯網公司在推動大數據發展方面有更多期待,這是否意味著2015年大數據跟人工智能劃等號,或者是跟深度學習劃等號了呢?”
【李國杰】那么多專家把大數據和人工智能劃等號,但不僅是大數據,整個智能化技術,是中國未來一段時間很重要的方向。過去幾十年是數字化,接下來是自動化,然后是網絡化,智能化也做過,但是相對來說不是那么看重,但是越到后來,現在發現智能化的要求越來越高,希望它對產業方面貢獻越來越大。所以智能化一定是很重要的一個主題詞。但是智能化沒有止境,打個比方,好象人的影子似的,太陽在那邊照著,老想踩著影子,永遠是個邊界。原來認為是智能的東西現在認為不智能了。
現在智能化跟我們大家關心的經濟新常態都扯了一點邊。因為中國經濟以前是靠要素驅動,現在GDP增長變慢了,下一步要提高GDP,靠人腦的創新。以前這么多年搞來搞去,是靠“筋肉”延伸,靠汗水。而未來人工智能靠創新,靠腦筋。
這是一個新時代的開始,所以所謂新常態不是往下降了,我覺得是往上升了,提升成大家更往智力上想辦法。環境污染,資源耗盡的矛盾會降低一些。因為消耗腦子和消耗資源是兩種問題,但是消耗腦子可能會引起世界上兩極社會非常嚴重,收入等可能差幾倍,聰明的人與不聰明的人將來在社會上的差距,更有所體現。怎么讓全社會更加公平,更加普惠大眾,這是一個新的課題。
【邢波】您剛才那個問題是說大數據跟人工智能和深度學習怎么劃等號?是這么一個關系,大數據是一個研究對象,人工智能是一個目標,我們要達到人工智能的目標,要理解數據,方法論是機器學習或者是智能計算。深度學習是機器學習里面十個手指頭里面的一個指頭。比如剛剛這位老師講到的網絡安全,要對加密數據做一個分類,就無法用深度學習去解決。所以三者的關系不是等號的關系,甚至沒有互相包容的關系,還是不同層面的說法。像深度學習在人工智能、機器學習里面什么地方可以用,什么地方不可以用,在學業界和工業界大家都是非常清楚的。不太成熟的我們就慢慢去研究,但是這并不代表深度學習就是包羅萬象。
最近有一些社會人士,比如像霍金,像特斯拉CEO,他們說人工智能將導致革命,或者是人工智能將比人類更加強大,這應該是科普和娛樂性的話題,不應該當真。人工智能不是取代人類的課題,它要做的事情應該是人不能做的。比如人工智能,沒有哪個科學家有極大的興趣做仿生機器人。所以仿生和人工智能是兩件事,工程層面和技術成功仿生的例子并不是很多,大家是通過仿生做一些科普宣傳,比如說飛機。飛機原理和鳥的飛翔原理完全不一樣,機器學習跟大腦運行原理完全不一樣,他們講的只是普及工作。對人工智能我們不能把它與深度學習劃等號,就像說研究人腦就能達到人工智能。
【程學旗】我比較贊同邢波教授的觀點,即肯定不能把大數據和人工智能劃等號,大數據本身未來也可以作為學科,但是它目前還是一個現象。但是另外一方面看,大家討論的結論里面,我們叫智能計算,也就是說大數據計算里面怎么體現它的智能,或者解決智能方面的問題,這可能是我們未來一段時間內學術界和工業界關心的問題,包括機器智能,人工智能,各種智能。
人工智能到底解決什么問題?解決人的思考?還是解決人的預測,還是解決現象?人工智能它的機理是什么,簡單來講至少大數據可以在人工智能做預測決策的范疇起到促進作用。