大數據就是Hadoop嗎?當然不是,但是很多人一提到大數據就會立刻想到Hadoop。現在數據科學家利用海量數據創建數據模型為企業帶來的利益是以前所不可想象的,但是數據的潛力已經被完全挖掘出來了嗎,它滿足了人們的期待了嗎?今天我就從Hadoop的歷史開始剝絲抽繭看看它的今天。
Gartner 2015新興技術成熟度曲線報告
Gartner 2015新興技術成熟度曲線報告的關鍵點:
1.Big Data 在2014年還處于泡沫化的底谷期,但是在2015年的成熟度曲線報告中已經不見它的身影。
2.物聯網連續兩年處于過高期望的峰值。
除了Gartner 新興技術成熟度曲線報告,我們再來看看Big Data和Hadoop的谷歌趨勢,如下圖:
從圖中我們看到,2014-2015年是一個轉折點,這之后Big Data和Hadoop的谷歌趨勢開始下降了。
Hadoop的歷史簡介
以下內容摘自Alexey Grishchenko發布的文章:
Hadoop是在谷歌的理念和雅虎的技術下誕生的,主要用來滿足互聯網公司的分布式計算和存儲架構的需求。2003-2008年是Hadoop的萌芽發展期,幾乎沒有人知道它是什么,也不知道應該怎么去使用它。
1.2008年, Google工程師Christophe Bisciglia和一群志同道合的朋友一起成立了一個專門商業化Hadoop的公司——Cloudera,利用Hadoop開源產品搶先占領云和數據市場。后來,他們放棄了云,專注于數據,2009年,Cloudera發布了Cloudera Hadoop Distribution。他們為Hadoop生態的發展做出了很多貢獻,連接了開源與業界之間的鴻溝,從Hadoop的谷歌趨勢中我們也可以看出Hadoop是從2009年開始進入高速發展期,這也是Hadoop第一次商業嘗試。
2.2009年到2011年,Cloudera試圖炒熱Hadoop市場,無奈它的技術受眾太少暫時還難成氣候。但是,第一個吃螃蟹的人已經證明了Hadoop平臺的價值,越來越多的玩家開始加入其中,如MapR和Hortonworks,一些初創公司和互聯網公司也開始使用這一技術。
3.2012年到2014年,大規模的營銷和企業支持讓大數據突然爆紅,一躍成為IT圈的流行詞。2012年,主流的技術公司花費了150多億美元收購做數據處理和分析的公司。大數據解決方案大幅增長,但分析市場很難升溫。早期的Hadoop使用企業已經開始玩當時很有前途的新技術。
4.2014–2015年,大數據已經進入到了Gartner的過高期望峰值。Intel 投資7.6億美元的Cloudera估值已達41億美元,Hortonworks的估值也高達10億美元。大數據領域也出現了很多新技術,如 Apache Spark、Apache Flink、Apache Kafka 等等。IBM投資3億美元的Apache Spark也進入到了Gartner的過高期望的峰值。企業開始大量涌入大數據領域,數據湖、數據中心以及λ架構等簡化傳統企業基礎設施的解決方案開始大熱。
5.2016年對大數據來說,是一個很有趣的時間點,Cloudera的估值已經下降了38%,Hortonwork的估值已經下降了近40%,這些迫使它們不得不削減專業服務部。Pivotal放棄了自己開拓Hadoop市場,選擇和Hortonworks合作,共同開拓市場。這到底是為什么呢?我認為導致這種現象的主要驅動力是企業客戶對Hadoop看法的轉變,剛開始大家對Hadoop認識還不夠,跟風的嫌疑很重,但是隨著對Hadoop的了解不斷深入,大家開始明白Hadoop只是解決具體問題的一個工具,它并不是一個神器,可以幫助你一舉擊潰競爭對手,如果你的企業數據量沒有達到一定的量級,那么你根本沒有使用Hadoop的必要。所有的這些使企業開始對Hadoop進行重新評估,很多企業將他們的投資范圍縮小為“大數據”,專注于解決具體的業務問題。
Hadoop發展現狀令人擔憂
Gartner對284家企業進行了調查,只有125家企業表示他們已經投資了Hadoop或在未來2年內會投資Hadoop:
54%的受訪者表示沒有投資計劃。
26%的受訪者表示只部署了Hadoop
11%受訪者表示在12個月內計劃投資
7%受訪者表示在24個月內計劃投資
造成這種情況可能的原因
Skills Gap
57%的受訪者表示Skills Gap是他們不采用Hadoop的主要原因,49%的受訪者表示他們還在尋找其價值。據Gartner估計,專業人才要想滿足市場需求至少需要兩年的時間,Hadoop供應商也正在積極努力為用戶創建更加友好的集成模塊和接口,但是很遺憾目前還不能滿足普通用戶的需求。
投資回報率
在探索新的業務流程的時候,大多數的企業都會選擇專業的個人或大數據團隊來經營。很多傳統數據庫供應商也在不斷的完善他們的產品,在內存和大規模的并行處理方面有了很大的提高,很多性能PK要勝Hadoop,這給Hadoop的發展帶來了很大的挑戰。
創建數據集市時,和Hadoop的合并也有很多有爭議的地方。大多數的企業都有團隊對企業社交數據和其他非結構化的數據進行處理,大部分的解決方案在做數據跟蹤和品牌監測時是不需要實時處理的,這時Hadoop就處于劣勢了。
整合
另一個很重要問題的就是Hadoop如何與現有的數據倉庫和平共處呢?
現在大部分的做法不是在云上建立系統,而是托管集群。Cloudera的客戶大多數是有自己的集群,少數是放在云上。現在的選擇主要有以下幾種:
A.建立或租賃數據中心
B.使用 IaaS服務,如AWS、谷歌云平臺等,
C.選擇現下新興的Hadoop as a Service。
這三種方式都各有自己的局限性,企業在選擇時可以根據自己的實際情況,首先,建立數據中心的價格不菲,選擇類似Amazon EMR這樣的云供應商不僅要求企業要對Hadoop有足夠的了解,也要對Amazon生態系統有一定的了解,而Hadoop as a Service 供應商目前還沒有好的成熟的產品面世,要想成為成熟企業還需一點時間。
云計算的出現
Skills Gap和投資回報率是相互關聯的,隨著時間的推移,企業的技術越來越純熟,這些因素對Hadoop價值的影響會越來越少。最近,出現了很多整合了云和Hadoop的解決方案。
SAP收購報告顯示SAP收購了初創企業Altiscale,Altiscale是一家 Hadoop 云服務模式(HaaS)供應商。
還有一個有趣的事件就是Cloudera要求英特爾提供10億美元建立一個云服務。Hadoop的市場領導者Cloudera一直在推動著云的發展,其在云端Hadoop市場也占領著一定的市場份額,但是Cloudera并不是一家獨大,很多企業也都在發力這一領域,如Amazon AWS、IBM BigInsights、Google Cloud Platform,以及Microsoft Azure HDInsight等等。