雷鋒網(公眾號:雷鋒網)按:本文原作者 George Hill ,他是知名商業媒體 Innovation Enterprise 的主編,同時也是 The Cyclist 公司的聯合創始人。雷鋒網編譯。
長期以來,Hadoop 這個詞鋪天蓋地,幾乎成了大數據的代名詞。三年之前,提起超越 Hadoop 這件事,似乎還顯得難以想象。但三年后的今天,這一情況發生了一些改變。
早在 2012 年,知名媒體 SiliconANGLE 就針對 Twitter 平臺上的大數據專業人士做了一項調查。調查結果顯示:這些專業人士日常談論 NoSQL 等技術(如 MongoDB)的次數要遠多于 Hadoop。這表明,至少在數據科學家的群體中,用 Hadoop 代指大數據似乎并不準確。
不過,在大部分人的印象中,Hadoop 目前已經是大數據行業最重要的技術之一,是構建今天的常見數據庫的基礎。不但如此,Hadoop 還在其他一些領域積極拓展著自己的應用范疇,例如倉儲系統等。
Hadoop 正失去市場?
然而令人驚訝的是,最近行業里開始傳出一種聲音:Hadoop 的市場占有率已經出現了明顯的停滯不前。甚至 IBM 的大數據宣傳人員 James Kobielus 還公開表示:“Hadoop 在大數據領域的頹勢比我預期的還要嚴重。”
要明確 Hadoop 究竟為什么會停滯不前,似乎很復雜,但這種說法也可能是大數據行業里一種比較常見的現象。據 Gartner 在2015年的研究顯示,市場上有高達 54% 的公司并沒有投資 Hadoop 的打算,而 44% 的公司已經或計劃在未來兩年內采用 Hadoop。這些數字在不同人看來可能會得到不同的結論:有些人會認為這意味著 Hadoop 在進一步的擴張,但同時也會有人認為 Hadoop 已經顯出了頹勢。
與此同時,調查還顯示:在那些沒有投資的人中,有 49% 的人正在努力學習怎樣行之有效地利用 Hadoop 為企業創造更多價值,另外還有高達 57% 的人表示并非他們不想,但技能差距(skills gap)是主要障礙,而且這種差距無法在短期內縮小。該結論與另一項關于 Hadoop 的調查相一致:在2014年中期,大約有 0.061% 的招聘廣告中出現了“Hadoop Testing”這個關鍵詞,然后該數字在 2016 年末又上升到 0.087%,在 18 個月內增長了大約 43%。
上述事實或許可以表明:單純從 Hadoop 的市場占有率來推斷其發展態勢似乎有些片面了,因為還有許多公司并非不想采用 Hadoop,只是他們發現很難利用現有的技術團隊充分挖掘 Hadoop 的應用價值,實際上,他們只是需要更多的專業知識。
殺雞無須牛刀
另一個值得關注的因素是數據量。Hadoop是專門針對海量數據而設計的,就像一位數據科學大牛之前在 KD Nuggets 網站的文章中所描述的那樣:如果你的企業中沒有海量的數據,那就不需要 Hadoop。這也是為什么許多公司對他們只有 2TB 到 10TB 的 Hadoop 集群感到失望的原因,因為 Hadoop 技術在這樣的數據儲量下根本無法發揮其最大的價值。
還有一個不容忽視的現象是:目前有大量的公司其實并沒有足夠的數據量來推動 Hadoop 發揮其應有的效力,但是為了充門面、趕潮流還是采用了 Hadoop 框架。然后經過幾年的實踐,與真正懂行的數據科學家們共事之后,才最終意識到,以他們的數據積累,其實存在著比 Hadoop 更簡單、更合適的技術選擇。
事實上,對一些公司來說,采用Hadoop框架已經產生了實際的財務問題。Cloudera 和 Hortonworks 就是通過 Hadoop 框架搭建其產品的最大的兩家公司,但是從 2015 年中期以來,他們的股價已經分別下跌了 40% 和 68%。
最后,原作者在文末表示,上述關于 Hadoop 的批評或許顯得苛刻,需要澄清的一點是:并非 Hadoop 框架本身的缺陷造成了目前的停滯不前。相反,Hadoop 的問題應該歸咎于市場上無休止的炒作和夸大。雖然許多公司跟風采用了 Hadoop 技術,但卻并沒有深刻理解它,也不清楚它正確的使用方法,因而也就無法發揮最高的運行效率,這才導致了 Hadoop 的頹勢。但是,原作者強調,Hadoop 仍然是一種具有強大生命力的技術,只是人們需要更深刻地認識它。