大家已在第一時間看到了Hadoop之父Cloudera公司首席技術官Doug Cutting和英特爾中國研究院吳甘沙院長關于大數據原汁原味的對話(參見:Hadoop之父對話英特爾中國研究院院長吳甘沙)。所謂的批肯定不是批判,對于這樣的泰斗級人物,只能是仰望,何來批判。批,就是批注,或者說是讀后感。
英特爾中國研究院院長吳甘沙
2020年攻克癌癥
在吳甘沙院長的談話中說到,人類在于癌癥戰斗的這幾十年間,癌癥的治愈率僅僅提升了8%,其中非常重要的一個因素,就是有關癌癥的基因組樣本數 據太少,影響了研究。隨著大數據的進步,特別數據量的指數級增長,這就給癌癥的大數據研究創造了條件,樂觀地看,2020年,人類有望攻克癌癥。
批注:這當然是一件非常的好的事情。有資料顯示,人基因組工程已經告罄,接下來是蛋白組學在臨床中的應用。當蛋白組學和臨床醫學徹底結合的那一 天,就是癌癥被攻克的日子,不僅是癌癥,相當多的疾病會因為這一技術突破,淡出人類的歷史。我不是這方面的專家,無從判斷,但通過高性能計算,大數據分析研究,如果能夠造福人類,將是一件令人鼓舞的事情。讓我們帶著一個美好的愿望,期待事情的發生吧。
數據咖啡館
數據咖啡館是吳甘沙院長演講中另外一個亮點,而且吳院長用“相逢不必相識,沒有使用沒有買賣”進行了表述。他表示,英特爾針對數據咖啡館,從安全分析、使用審計和數據定價提供標準和方案。
批注:欽佩英特爾的眼光,一語中的,抓住大數據應用的主要問題。
在我看來,數據咖啡館的核心就是數據開放,技術問題尚在其次,數據開放才是重點。在美國,奧巴馬總統多次呼吁從法律、法規的高度,呼吁開放數據,可謂高屋建瓴。但國內,特別是傳統行業/企業,無不把數據視為核心資產,深恐有任何閃失和疏漏。
據我了解,國內很多行業開展大數據過程中,數據絕對不能夠離開內部的服務器,即使業務合作伙伴,只能夠使用數據,但不可能得到數據。很多用戶都知道所謂全數據分析更能夠獲取數據背后的奧秘。就像吳院長所說的,電商1+電商2的全面用戶畫像會更加精準。但問題在于,這個“+”怎么實現?
數據咖啡館
我能夠理解行業用戶防賊般心態可以理解,就像我在“高速摸奶男和隱私保護”一文中所表述的,在當今這樣的環境中,數據開放將是奢望。因此對于英特爾的數據咖啡館在國內的前景,我并不樂觀。在我看來,這不是一個經濟收入的問題,而是一個意識的問題。 預計數據咖啡館會有很長的路要走,希望越短越好。
中國大數據至少落后兩年
這是Cloudera 公司副總裁苗凱翔先生的判斷。
苗凱翔表示,如果說2011年是中國大數據元年,距今也有幾年的歷史了,對于大數據特點,全數據分析等,國內也不陌生。金融、電信、政府等行業用戶也嘗試了很多大數據的應用,但從應用的水平來說,廣泛性和深度,中國較之國外至少落后兩年。
苗凱翔不僅給出了判斷,也給出了原因分析,國內沒有一個專業的大數據服務提供商。他表示,Cloudera來了,Cloudera會促進大數據應用水平的提高。
批注:Cloudera還是很會宣傳的。但對于Cloudera來說,目前的輿論認知對其并不有利。在“大數據落地難 Hadoop難辭其咎”一文中就說到,很多行業用戶把Hadoop作為大數據的代名詞加以研究,浪費了大量的經歷和時間,撿了芝麻丟了西瓜。這就是一個無奈的現狀。
苗凱翔先生在演講中也說到了,Hadoop太復雜了,國內基本上沒有什么人可以搞定。作為一種開源平臺,獲取Hadoop很容易,但駕馭Hadoop就比較難了,特別對于傳統行業/企業而言。所以應該關注大數據分析這個目標,而不是分析的平臺。
對于大數據,人們可以用習慣的方式,如SQL等成熟的工具進行分析。實際上,Splunk、Actian、GreenPlum、Vertica等都是非常成熟的工具,可以直接加以使用。不要為Hadoop耽誤太多時間。
對于Cloudera不利的是,大家熟悉Cloudera,更多是熟悉其Hadoop分發版。如此,Cloudera就與Hadoop建立對應 關系,而Cloudera更具有價值的各種工具,其實并不為外界了解。我也不了解這些工具。當我跟Cloudera接觸,希望進一步了解這些工具時,得到 答復,還是需要結合具體的應用加以介紹。在我看來,這會困難重重。
所以改變落后的局面,應該不樂觀。
Hadoop之父印象最深刻的案例
也許是語言理解上的問題,總感覺Hadoop之父Doug Cutting先生演講不夠接地氣。也許是在開源技術的熟悉程度上不夠,總之能夠激發的興趣點不多。但Doug Cutting對2015年開源社區熱點判斷到也值得關注。Doug Cutting新的熱點也許在于機器學習技術的泛化,更多會被應用到大數據的應用中。
Hadoop之父Doug Cutting
另外一個亮點是Doug Cutting先生印象深刻的大數據應用案例。 有兩個,一個是一家信用卡企業,通過使用Hadoop集群,分析5年積累的數據,發現了一個金融欺詐方式被反復使用,借助Hadoop反欺詐取得很好的效 果。另外一個是亞特蘭大某兒童醫院,通過對于嬰幼兒ICU數據監測,改善服務。Doug Cutting表示,此前這些數據都不被保存,但通過數據監測,發現采血前后,各30分鐘內,嬰兒的脈搏加劇,表明處于一種緊張、惶恐的狀態。通過這一發 現,醫護工作者可以提供針對的服務。這讓Doug Cutting印象深刻。
批注:發欺詐的大數據應用其實并不陌生。類似應用,在互聯網領域較為普遍,生活中也會有接觸。例如出差登陸QQ等,我們手機接到預警,其背后就是海量大數據監控。對此,有很好的客戶體驗。
但讓人不解的是,這么貼心的客戶體驗為什么不能貫穿全局呢。如果你遇到了QQ號被盜,你就會知道凍結賬號的手續有多么糟糕。僅僅是服務電話的選 擇菜單就足夠折騰了,當然這是題外話。對于打動Doug Cutting的案例,似乎有些缺乏新意。或者說,不夠典型。當然,首先是理解上的障礙。當談到華人對于開源社區貢獻的障礙時,語言問題也被涉及,這真讓 人無語。