今天上午,2014移動互聯發展大會暨第五屆中國手機應用開發者大會移動大數據論壇在北京國際飯店舉行。英特爾公司中國研究院吳甘沙出席論壇并做了題目為“大數據的探索歷程——回歸初心”的主題演講。
吳甘沙談到,大數據紀元剛開始,英特爾碰到的第一個核心問題就是“大”的問題。英特爾做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦?需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和服務器,得到平民化大量的X86的服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。英特爾上面的軟件,傳統上依賴硬件的可靠性和可用性。現在要舍棄它,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。要舍棄傳統數據庫的強一致性,獲得更放松一致性的架構可擴展。算法原則強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。
最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分析的融合,現在非常榮幸的Hadoop之后的SPACK,就是把前面的各種范式進行了融合。 存儲與內存的消長,大數據第一個要解決把數據存儲下來,互聯網發現要把它放到大的內存里進行處理,獲得實時性,但是在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,我們把所有的計算在閃存里面處理。現在微軟、Facebook等等在大量使用新的范式。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。
第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值?我們介紹一下它的價值維度,高秘書長講了三個V,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據支柱能夠了解宏觀規律,它是時間概念也是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多元抑制的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意。我能夠使機器窺探人的思維境界,這六個價值維度怎么去實現?主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型家特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。
終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。
第三個關系,數據與數據的關系。現在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢?必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值。我們要保證數據的開放、共享、交易。
科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。互聯網能發展起來經濟是很重要的概念,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。