底層基礎平臺主要解決的是數據存儲、計算的問題,是整個大數據生態的基石。采集到的數據,首先要能高效、快捷地存起來,才能進行數據分析和數據挖掘。
這一層非常重要,同時也是技術含量最高的一層。以底層技術中明星Hadoop為例,用Hadoop的公司很多,能做Hadoop發行版的公司鳳毛麟角。
底層基礎平臺細分領域里的大數據公司眾多,有專注Hadoop發行版的星環科技、紅象云騰和天云大數據,有傳統數據庫廠商人大金倉和南大通用,有研發新型分布式數據庫的巨杉數據庫,還有唯一來自中國的Apache社區頂級項目Kylin背后公司Kyligence。
接下來為您重點闡述國內外Hadoop生態的現狀。
Hadoop興起的原因:便宜才是硬道理
進入新世紀的第一個十年,各大企業都在大力投入IT設備,建設自己的機房,上線各套辦公系統。第二個十年,經濟下行,傳統企業的盈利下降,對IT設備的投入已經不像上個十年那般狂熱,大型企業采購IT設備的經費受到控制,開始核算成本,意圖在滿足需求的情況下,降低投入。
以Hadoop為代表的新底層技術能夠興起,拋開技術原因,最主要的原因是便宜、擴展性強。利用分布式架構,將一些性能一般的機器串聯起來,達到與高性能單機同樣的效果。隨著公司發展,數據量增大,不需要更換全套設備,只需要再增加機器就可以達到目的,省時省力。
分布式架構的技術很多,為什么Hadoop最后勝出?還是因為便宜,用的人多。以微軟的Cosmos為例,這套系統本身優于Hadoop,主要是針對大型機房,設計理念很好,上萬臺機器的機房,拿出幾十臺做別的事情,來提升系統運營效率。但如果是幾十臺機器,仍然需要拿出很大一部分來做別的事情,機器使用效率就很低。
實際應用時,用上萬臺機器的公司少,用幾十臺機器的公司多,因此Hadoop的應用面更廣。用的人多,自然幫助優化架構的人多,社區貢獻的人多,技術發展快,漸漸成為主流。
國外Hadoop三駕馬車,商業模式各有差異
Hadoop三駕馬車,數據源:公司公告,愛分析整理
提到Hadoop,必然要提到國外三家圍繞Hadoop技術的公司:Cloudera、Hortonworks和MapR。三家公司都成立時間不長,Cloudera和MapR都是2009年成立,而Hortonworks是2011年從雅虎獨立出來。
三家公司都在資本市場上受到追捧。Hortonworks在2014年上市,IPO當天市值接近11億美金;Cloudera獲得英特爾7.4億美金的投資,估值近50億美金;MapR最近剛剛獲得5000萬美金融資,估值也超過10億美金。
Hadoop技術是開源的,為什么還有公司會提供Hadoop相關服務?這是因為開源技術的兼容性和穩定性比較差,同時,企業在實際應用中需要將開源技術和自身系統、產品相連接,這就是Hadoop發行版的市場所在。三家公司利用自己在這領域的技術、經驗積累,幫助企業更好地應用Hadoop技術。
盡管三家公司都是提供Hadoop相關服務,但是商業模式區別不小。Cloudera和MapR都研發自己的Hadoop發行版,只不過MapR的技術完全閉源,不會對外開放,而Cloudera的產品分為免費版和企業版,只有企業版的核心組件不對外開放,其他技術均提供給社區。Hortonworks將自己的技術完全貢獻給社區,不靠產品獲利,靠派駐技術人員到客戶現場提供服務盈利。
因為MapR的技術不開源,所以對社區貢獻有限,目前對Apache Hadoop社區影響最大的是Cloudera和Hortonworks這兩家公司。
國內市場處于跑馬圈地階段,新興大數據公司剛剛起步
正如開篇所言,盡管近年大數據行業風起云涌,創業公司如雨后春筍般冒出,卻少有專注底層基礎平臺的公司。
星環科技是業內的明星公司,創始團隊來自原Intel開發Hadoop發行版的部門,成立三年已完成1.55億人民幣的B輪融資,估值超過10億人民幣,目前主要服務金融、電信領域客戶。
天云大數據和紅象云騰同樣在做底層基礎平臺,發展速度略遜于星環科技,都在尋找適合自身的發展路線。天云大數據的業務在向上層遷移,除了提供Hadoop發行版,目前也涉足復雜神經網絡等算法技術;紅象云騰將業務下沉,基于芯片層提升系統處理數據的效率。
當前,銀行等大型企業紛紛喊出“去IOE”(IBM小型機、Oracle數據庫、EMC存儲設備),盡管國產企業的產品尚不能滿足大型企業核心系統的要求,但是必然會有大量新業務的IT系統采用國產品牌,舊有業務面臨更新換代也會優先選擇國內廠商。
數據庫等底層設施不同于上層應用,更換成本較高,客戶黏性很大,非萬不得已不會進行替換,同時Hadoop這類新技術迭代速度快,需要后期維護。因此,各家公司都在大力開拓市場,跑馬圈地。
新興公司服務客戶的方式類似,前期以產品為內核,用項目制的形式幫助企業搭建系統,后期每年收取20%的維護費。各家企業都在降低初裝費,意圖占據市場,靠后期維護費用收回成本。
巨頭環伺的市場,大數據初創公司突圍不易
在去IOE的趨勢下,中國大型企業都在面臨IT設備的更新換代,整個底層基礎平臺市場潛力巨大。新興大數據公司利用其技術優勢和初創公司的高效決策機制,迅速搶占一些市場份額,占據一席之地不成問題。
這類公司主要服務金融、電信、交通、電力等領域的大型企業,這些領域原本是傳統集成商的地盤,因此新興大數據公司不可避免地將與集成商正面競爭。華為、浪潮、亞信等公司之前主要是為大型企業提供硬件基礎設施,近年看到大數據領域的巨大潛力,紛紛成立了大數據部門,為客戶提供全套解決方案。
未來幾年在底層基礎平臺領域誕生一家估值10億美金的獨角獸公司是可以預見的,但是這些大數據公司中出現類似Oracle這樣的巨頭公司可能性不大,基于以下幾點:
第一, 產品同質化嚴重,市場競爭激烈
底層基礎平臺不同于上層應用,客戶需求類似,產品很難體現出差異化優勢。各家公司主要比拼產品性能的優劣,這種技術上的差異,新興公司最初會占據一定優勢,隨著開源技術的普及,華為等公司會逐步趕上,技術的差距會逐步縮小。
這個市場并非全新市場,華為、浪潮、亞信等公司在這領域盤桓多年,新興公司發展到一定程度,勢必會侵入集成商的地盤。最近這段時間,星環科技和華為競爭非常激烈,價格戰打得火熱。
第二, 技術迭代更新快,長期保持技術領先不易
Hadoop誕生于2006年,Spark于2009年出現,2013年Hadoop已經發布2.0穩定版本,兩種技術從誕生到成熟時間之短,令人震驚。在當今這個技術快速發展的時代,新興大數據公司一方面要應對市場競爭,另一方面還要保持技術的領先地位,難度不小。
Hadoop等分布式架構顛覆了傳統單機架構,很難說未來不會有新技術出現顛覆掉Hadoop。一旦大數據公司賴以生存的根基遭到顛覆,謀求轉型勢必困難重重,公司大概率會失敗。不過目前Apache Hadoop社區運作良好,Hadoop經過這些年的改善優化,性能和穩定性上獲得很大提升,Spark等新技術大多都會對接在Hadoop上面。未來幾年這方面風險較小,畢竟技術發展到現在,獨自造輪子的難度很大。
第三, 產品銷售能力遜于傳統巨頭公司
企業級市場,產品銷售能力將成為影響公司發展的重要因素。以Oracle為例,早年與Oracle競爭的Sybase和Informix,其技術實力不遜于Oracle,Informix的技術甚至領先于Oracle。這兩家公司最后在競爭中出局,落得被收購的下場,主要是輸在市場推廣上,市場推廣的失利直接影響到公司的技術革新,最后導致衰落。
在這方面,華為等傳統巨頭公司占據絕對優勢,一方面他們與客戶有長期合作關系,另一方面銷售團隊長期服務大型企業,經驗豐富。
那么,什么樣的公司有機會突圍成功,成為中國的Oracle。
具備以下幾點的公司機會最大。
第一, 開源心態有助于保持技術領先地位
以Hadoop為代表的開源技術正在改變世界,但開源和可持續盈利模式總是存在著一些矛盾,近期RethinkDB公司的倒閉值得警惕。國內專注Hadoop技術的公司效仿國外找到了一條盈利模式,但目前仍然存在一些風險。
公司要不要保持開源的心態,開放自己的技術給更多人使用?對大數據公司而言,技術是核心競爭力之一,特別是對于這些做基礎平臺的公司,開放技術無疑是削弱自身競爭優勢,降低產品的附加值,減少公司的毛利,短期來看,開放技術會對公司的營收造成不良影響。
但是,從公司長遠發展來看,完全閉源會增大公司風險,其嚴重后果遠遠大于開放技術的影響。大數據公司最擔心的是路線圖出現偏差,自身技術與時代發展相左,喪失技術上的優勢。一旦發生公司的技術發展方向背離整個行業發展方向,需要停止已研發的項目,掉頭追趕行業腳步,這對創業公司來說是非常致命的。
如果向開源社區開放自己技術,讓更多人了解、研究,有助于自身技術的發展,保證路線圖的正確性。同時,不斷向開源社區做出貢獻,還能提升公司在社區的話語權,進而提升公司在行業的影響力。這也是為什么Cloudera和Hortonworks愿意開放技術,爭奪在Hadoop社區的話語權。影響了開源社區,就會影響到整個行業技術發展進程,可以讓公司的發展始終保持在正確的軌道中。
第二, 商業拓展與技術研發同等重要
企業服務市場是銷售驅動型市場,而非技術驅動型,大數據這個細分領域同樣如此。技術實力再強,產品功能再多樣,也需要有客戶買單才行。有些創業公司只重視研發上的投入,輕視市場推廣,公司每年訂單少,營收自然不高,團隊規模上不去,融資困難,公司發展緩慢。
單純技術上的優勢,在企業級市場并不是絕對影響因素。很多公司在POC階段都曾遇到過技術標第一,卻因為商業談判階段不理想而錯失訂單的事情。特別是現在市場處于跑馬圈地階段,搶占位置比什么都重要,更是需要大力進行商業拓展。一旦市場格局穩定下來,到時候再切入市場難度很大。
另一方面,即使是基礎平臺技術,也需要在實際應用中進行改進優化,各行各業中應用同樣的技術還是有一些差異,在應用過程中才會真正了解企業的痛點,更好地服務企業。在做項目過程中,大數據公司可以積累經驗,將這些經驗內化成產品的一部分,做出更適合中國企業用戶的基礎平臺產品,筑起公司的壁壘。
第三, 效仿Oracle,建立適合公司的小生態
建立生態這一點并不是適合初創公司,是公司發展到一定程度后需要考慮的。擴大自己合作伙伴的隊伍,與其他公司共同開發產品,讓其他公司承擔一定銷售任務,有些時候要比單打獨斗更適合企業級市場。
Oracle這樣的巨頭公司,剛進入中國市場時也遇到不小的阻力。當時采取的做法是與中國本土公司合作,建立圍繞Oracle的小生態,借助本土公司的力量敲開中國市場的大門。
做底層基礎平臺的公司,作為連接硬件和應用的中間層,更需要與其他公司合作。平臺上對接的應用越多,越有助于平臺產品的推廣,開辟新的市場。