最糟糕的消息并非Hadoop這艘泰坦尼克號(hào)注定要沉沒,而是海面上壓根沒有其它泰坦尼克級(jí)別的船只可以用來救援。
對(duì)很多大數(shù)據(jù)領(lǐng)域的投資者和用戶,尤其是在Hadoop技術(shù)上浸透心血和汗水的專家來說,這可能是個(gè)很糟糕的消息:Hadoop可能真的不行了!
近日,云數(shù)據(jù)倉(cāng)庫(kù)服務(wù)提供商Snowflake Computing的首席執(zhí)行官Bob Muglia在接受采訪時(shí)指出:“沒有一家企業(yè)客戶對(duì)Hadoop滿意,很顯然,Hadoop已經(jīng)是一項(xiàng)沒有前景的技術(shù)。”
雖然不止Muglia,業(yè)界很早就對(duì)Hadoop的前景表示悲觀,包括IT經(jīng)理網(wǎng)早在2012年就曾發(fā)布文章指出Hadoop的核心技術(shù)已經(jīng)過時(shí),因?yàn)镠adoop并不擅長(zhǎng)處理“快數(shù)據(jù)”。但是,在媒體、業(yè)界的合力炒作下,已經(jīng)有數(shù)以千計(jì)的企業(yè)使用Hadoop來存儲(chǔ)海量數(shù)據(jù),這些上了賊船的企業(yè)和項(xiàng)目如此之多,因此Hadoop不太可能一夜之間就銷聲匿跡,正如今天很多企業(yè)還在使用半個(gè)世紀(jì)之前的主機(jī)應(yīng)用一樣。而且受益于S3(云存儲(chǔ))和Spark(大數(shù)據(jù)處理)等技術(shù)的續(xù)命,Hadoop依然會(huì)作為垂直和遺留技術(shù)存在很長(zhǎng)一段時(shí)間。
據(jù)Muglia介紹,在眾多Hadoop用戶中,真正能夠馴服Hadoop的企業(yè)不到20家,甚至可能不到10家。要知道,如果考慮到Hadoop已經(jīng)進(jìn)入市場(chǎng)很長(zhǎng)時(shí)間,而且整個(gè)行業(yè)都投入巨大資源,Hadoop部署的成功率可謂低得驚人。易用性太差是導(dǎo)致Hadoop成功率低下的主要原因之一,正如“為什么如此難用Hadoop的12個(gè)技術(shù)痛點(diǎn)”這篇文章中所提到的,不少專家指出,如果不解決易用性問題,Hadoop將被自己終結(jié)。
Hadoop垂而不死是一個(gè)歷史性的錯(cuò)誤,人們圍繞Hadoop開展大量項(xiàng)目和工作,但Hadoop真的是朽木難雕。Hadoop的賣點(diǎn)是可以作為廉價(jià)的ETL數(shù)據(jù)存儲(chǔ)方案(Hadoop目前只是“窮人的ETL”),但是對(duì)于運(yùn)行面向用戶的交互應(yīng)用來說真的很不對(duì)路。
即使是在Facebook這樣頂尖的互聯(lián)網(wǎng)技術(shù)公司里,從Hadoop環(huán)境中獲取分析結(jié)果也是一件非常痛苦的事情,據(jù)Johnson介紹:挖掘一個(gè)結(jié)果非常困難,除非你真的非常懂整個(gè)系統(tǒng)的運(yùn)作原理。對(duì)于懂得為MapReduce或Pig編程的數(shù)據(jù)科學(xué)家來說,Hadoop非常棒,但是如果你往上看,在抽象層Hadoop的交付能力非常糟糕,對(duì)于那些業(yè)務(wù)分析師來說簡(jiǎn)直就是噩夢(mèng)。
“Hive層還算OK,但是對(duì)于那些打算將Hadoop作為數(shù)據(jù)倉(cāng)庫(kù)使用的人來說,Hadoop慢得嚇人,比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)要慢上十倍!”Johnson說道:”Kudo、Impala和Presto都比Hive好得多,但距離人們的期望依然有很大一段距離。“
更加讓人沮喪的是,Hadoop社區(qū)目前對(duì)Hadoop的復(fù)雜性和性能低下并沒有多大作為,Hadoop生態(tài)系統(tǒng)依然掌握在一小撮專家手中,對(duì)于能寫代碼的技術(shù)專家來說,Hadoop的功能非常強(qiáng)大,但是對(duì)于大多數(shù)的用戶來說,Hadoop就是一個(gè)大坑,每次你聽說這個(gè)世界上還空缺數(shù)以萬計(jì)的數(shù)據(jù)科學(xué)家的消息,那差不多是對(duì)Hadoop的一種控訴。
Hadoop是首個(gè)在業(yè)界被廣泛采納的開源分布式計(jì)算平臺(tái),不計(jì)其數(shù)的軟件廠商、用戶、專家跳上了Hadoop這艘“泰坦尼克號(hào)”,但最糟糕的消息并非泰坦尼克號(hào)注定要沉沒,而是海面上壓根沒有第二艘泰坦尼克級(jí)別的船只可以用來救援。前雅虎Hadoop系統(tǒng)開發(fā)者Phu Hoang認(rèn)為:在能夠替代Hadoop的計(jì)算平臺(tái)出現(xiàn)之前,我們能做的只能是盡量屏蔽復(fù)雜性,讓Hadoop變得更加易用。企業(yè)不關(guān)心架構(gòu),企業(yè)只關(guān)心數(shù)據(jù)處理速度和分析結(jié)果,Hadoop這樣的底層難題滾的越遠(yuǎn)越好。
Hadoop這艘泰坦尼克號(hào)上的成員也不是完全沒有希望,類似Kafka這樣的更優(yōu)秀的大數(shù)據(jù)處理技術(shù)正在快速成長(zhǎng)。Kafka的開發(fā)者Jay Kreps在創(chuàng)辦Confluent之前,曾經(jīng)負(fù)責(zé)LinkedIn的大型Hadoop集群,他認(rèn)為Hadoop堆棧的搭建極為復(fù)雜,這是一個(gè)純粹的技術(shù)性問題。如今雖然大量Hadoop發(fā)行版本中都包含了Kafka,但是Kreps建議人們?cè)诖罱↘afka是盡量避免對(duì)Hadoop的任何依賴,“Kafka是一個(gè)完全獨(dú)立的系統(tǒng),跟Hadoop沒有任何聯(lián)系。明白這一點(diǎn)對(duì)于那些開發(fā)生產(chǎn)應(yīng)用的人來說非常有益。