說起大數據就不得不提Hadoop(也就是我們經常看見的大象的標志,注意不是飛豬是飛象),Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,專門針對海量非結構化數據處理的需求(Hadoop是以Apache首席設計師兒子一個大象玩具的名字命名)。
以IOE體系(Oracle,IBM和EMC)為核心的傳統數據計算存儲和讀寫方式越來越不能滿足目前互聯網和物聯網發展帶來海量數據分析的需求,而Hadoop被認為是適應未來大數據應用的全新架構體系,同時Hadoop也成為大數據的代名詞(今年開始已經能在A股公司的年報和調研紀要中找到它了)。
Hadoop是個開源體系,任何開發者都可以依托它的基礎架構開發新的大數據工具和應用,使用Hadoop體系對傳統IT架構替代就是IT界傳說的“去IOE”(在國內就變成了國產替代了“囧”)。企業網基礎體系的替換是一個漫長的過程,IOE體系經過30-40年的積累才有了目前一統江湖的地位,Hadoop最早始于2005年到目前為止也有十年的開發時間,其開源的屬性可能使得在普及過程中會更大激發開發者的熱情并推進產業的快速變革(參考andriod的快速崛起),幾家比較典型的Hadoop公司近兩年收入開始步入爆發期,不少公司也逐步開始IPO進入普通投資者的視野,也許在未來十年時間就有可能出現幾個市值媲美IOE(Oracle市值1800億美元,IBM市值1537億美元,EMC+Vmware市值920億美元)的Hadoop公司。
目前美股市場上也有不少貼上大數據標簽的公司,比如Splunk(SPLK,市值67億美元),Tabuleau(DATA,市值55億美元), Qlik(QLIK,市值26億美元),Tibco(TIBX,市值39億美元)(公司市值以2014年12月12日收盤價為參考),此外目前大數據的參與者還有Oracle,IBM,SAS,Teradata這類偏向于BI(商業智能化的公司,簡單來講就是快速生成報表和各種數據分析的軟件),已經上市的這一批公司中雖然被冠以大數據的名義但是更多是基于傳統基礎架構開發的大數據應用的公司,比如Tabuleau,Qlik,Tibco主要是做數據可視化(可以理解為一個智能化的excel,點點鼠標就可以畫各種高大上的圖表,戰略部門和領導的需求,技術壁壘相對有限),而Splunk則主要是做服務器日志文件分析的工具,在集群式服務器管理和服務器日志文件的批量檢索分析中都能用到,技術壁壘較高,也是這類公司中估值最高的公司,市銷率接近20倍。
而剛剛IPO的Hortonworks以及未上市的Cloudera和MapR則是Hadoop全新計算架構的三家馬車,從概念上講他們是更加純粹的新型基礎架構的大數據公司,當然像Tabuleau這樣的公司也在積極的向新基礎機構方向轉型。
Hortonworks與Cloudera和MapR三家被看做是大數據技術市場的領頭羊,三家都圍繞Hadoop框架進行產品開發,從業務模式來看,Hortonworks采取開源產品服務模式,收入端更加依賴于產品支持和服務(因為Hadoop是開源的,基礎工具免費,Hortonworks主要教你怎么使用工具),而Cloudera和MapR走的是工具產品路線(他們依托于Hadoop的基礎開發更加專業的應用工具),收入依賴軟件授權費用。Hortonworks于上周五IPO,該公司以每股16美元的價格發行625萬股股票,募集1億美元資金,開盤首日上漲幅度達到60%,市值接近11億美元(估值大概在15倍PS)。大數據投資向來受到資本市場的關注,雖然Hortonworks在IPO方面先聲奪人,但是其主要競爭對手也不“省油”,Cloudera迄今已經融資12億美元(包括今年年初以18%的股份換取英特爾7.4億美元投資),MapR和從EMC分離出來的Pivotal也都有巨額融資支持。
Hortonworks于2011年從雅虎剝離,2014年前9個月,Hortonworks的收入比去年同期翻了一倍多,從1590萬美元增長至3340萬美元,但是公司額運營成本也幾乎翻倍,從4840萬美元飆升至8790萬美元,公司目前還處于虧算狀態。Hortonworks的大多數收入都來自與其他科技廠商的技術合作和分銷協議,最大的三家客戶占到Hortonworks年時候入的37.4%,其中微軟一家客戶的收入雖然呈下滑趨勢,但依然占到Hortonworks2014年迄今收入的22.4%(與微軟的合同2015年7月到期)。
由于基礎數據庫和操作系統等基礎IT工具市場的缺失,國內計算機公司一直無法擺脫IOE體系的束縛,工作內容大都屬于IT外包的工作,地位比較屌絲,這也是國內沒有大市值計算機公司的主要原因,沒有基礎軟件的支撐,企業網客戶的競爭就集中到關系層的競爭,計算機公司很難突破地域上的限制,區域化和行業屬性比較突出。在今年估值大幅提升的情況下,恒生電子,東華軟件和用友軟件市值終于突破300億人民幣的大關,相比于美國高達千億美元的計算機公司還是相去甚遠。“去IOE”計算機基礎架構的變革對國內計算機公司是一個歷史性的重大機遇,能否借助產業變革改變無基礎軟件的尷尬局面是關鍵。國內互聯網經濟的快速發展使得互聯網公司對適應新一代海量數據處理IT系統的需求比海外更加迫切,互聯網公司也在基礎IT方面有巨大的投入,而應對像雙十一這樣爆發性需求的場景則成為IT架構的天然練兵場,國內計算機公司應該積極尋求和互聯網公司的合作將互聯網公司應對海量數據的經驗快速和國內企業網客戶的需求對接開發國產屬性的基礎軟件產品,而不是陷入到國產化去“IOE”的陷阱中無法自拔。我們期待著國內軟件公司擺脫“集成”,“外包”和“實施”等IT界屌絲的代名詞,成為擁有市場定價權的IT領航者,為投資者帶來豐厚的回報。
2013年大數據公司收入排行榜
介紹幾個有意思的大數據應用的公司
Palantir:反恐秘密武器
Palantir創立于2004年,由數位前支付巨頭PayPal的員工創辦,早期只是一家幫助非技術人員解決問題之間復雜聯系、識別網絡欺詐的軟件公司。如今,Palantir一躍成為政府和金融公司的“寵兒”,其客戶包括美國國家安全局(NSA),美國中情局(CIA)和聯邦調查局(FBI)等,主要提供人物關系圖譜的分析報告。2013年公司收入超過1億美元,估值超過60億美元。Datasift:社交網絡數據的掘金者
DataSift源自Twitter信息過濾平臺Tweetmeme,主要是篩選、挖掘和分析Twitter、Facebook、輕博客Tumblr和YouTube的數據并進行整合(目前只有Gnip獲得了同樣的授權),然后再把數據出售給分析社交媒體的商業公司。DataSift的客戶包括了戴爾等公司。消息人士透露,DataSift 2014年營收將超過2500萬美元。迄今為止,DataSift已通過數輪融資募集到超過7000萬美元。
Inrix:交通數據大玩家
Inrix實際上是以規模取勝的。Inrix有近一億臺車輛和設備來收集實時數據資源,而這一億的用戶實際上也充當了Inrix傳感器的角色。通過規模的出租車、運輸車、卡車等資源,Inrix收集每個用戶的實時信息。提供實時交通信息還不是Inrix的核心價值,利用大數據預判未來交通信息與路況才是它的核心價值所在。