從云計算、大數據、物聯網、人工智能等新一代信息技術創新歷程可以清晰地看出,開源模式活躍在各個領域,更為重要的是,隨著全球各大科技巨頭的競相加入,開源模式正逐漸成為推動大數據等各領域技術創新的主導力量。
開源已成為大數據技術創新的主要模式
大數據源于開源,并基于開源不斷演進發展,自身就已具備了開源基因。經過若干年的發展,開源軟件和開源工具已經覆蓋了大數據產業發展的各個環節,基于開源軟件,企業可以快速構建大數據應用平臺,提供豐富的大數據開發和應用工具。當前,從小型初創企業到行業科技巨頭,各種規模的企業都在使用開源軟件和工具做大數據處理和基于數據的預測分析。由此可見,開源不僅驅動著大數據技術的創新演進,也推動著大數據產業的不斷進步,對繁榮大數據應用生態起到了不可忽視的作用。
嚴格來說,大數據并不是一個產業或市場,而是一類問題,或者一種思維。從這些思維和問題中獲得價值,需要完整的信息基礎設施,并配套以相關的技術和工具,這些共同構成大數據應用的生態。因此,把大數據當作產業來看待,其生態體系的外延是非常廣闊的。
狹義來看,按照應用流程,大數據生態鏈包括數據采集、數據存儲、數據應用和數據可視化等環節;從廣義來看,大數據生態鏈貫穿數據的整個生命周期,包括各種基礎設施和軟件系統,從數據的產生到采集、傳輸、分享到存儲,再到分析挖掘,直至最終的呈現與應用。從技術的應用范圍和重要性可以看出,數據的存儲、數據處理、價值挖掘和數據可視化等是大數據產業環節中的重點領域。
開源技術創新引領大數據基礎平臺演進
對于云計算發展而言,開源基礎平臺如openstack、cloudstack的發展是推動云計算技術創新和行業應用的關鍵。與之類似,大數據的發展與開源軟件的不斷創新密切相關,在大數據處理平臺這個基礎性并處于核心地位的環節,開源技術的創新成為了引領其不斷演進的主要動力。
hadoop是推動大數據應用的基礎平臺,是基于gfs和mapreduce的開源實現。盡管在hadoop之前也有一些類似的分布式存儲和計算平臺,但真正能實現工業級應用、大幅降低應用門檻、帶動各行業大規模部署的無疑當屬hadoop。受益于mapreduce框架的易用性和容錯性,以及對先進存儲系統和計算系統的集成,hadoop成為大數據處理平臺的主要基石。
在大數據產業發展的初期,hadoop可滿足90%以上的離線存儲和離線計算需求,它成為各大公司早期大數據平臺的首選。可以說,沒有hadoop就沒有今天的大數據產業發展。自hadoop起,大數據平臺幾經升級及更替,發展出兩主線、多支線的演進態勢,但不管是主線亦或是支線,開源都是大數據平臺技術創新的主要模式,開源軟件始終是大數據基礎平臺的重要屬性。
主線一是hadoop生態,主要組成包括hadoop、pig、hbase、zookeeper、hive、yarn和impala,主要組件提出于2008年之前,yarn和impala分別提出于2011年和2012年。pig是一種開源編程語言,可加載數據、表達轉換數據和存儲最終結果,其內置操作可處理半結構化數據;hbase是一個分布式的、面向列的開源數據庫,在hadoop之上提供了類似于bigtable的能力,是一個適合于非結構化數據存儲的數據庫;zookeeper是一個分布式的開源分布式應用程序協調服務,可提供配置維護、名字服務、分布式同步、組服務等功能;hive是一個基于hadoop的數據倉庫工具,可以將結構化的數據文件映射為數據庫表,并提供簡單的sql查詢功能;yarn是一個全新的mapreduce框架,可為從根本上解決傳統mapreduce框架的性能瓶頸,對促進hadoop框架應用發展發揮重要作用;impala可以直接為hadoop數據提供快速,交互式的sql查詢。
主線二是spark生態,包括spark、shark、sparkstreaming、bagel、graphx、sparksql等,spark提出于2009年,主要生態組成提出于2011年至2014年。
spark是開源類hadoop框架,可將中間輸出結果保存在內存中,因此計算速度較hadoop有幾倍到幾十倍的提升,在成熟之后得到了迅速普及;shark可通過hive的hql解析將其翻譯成spark上的rdd操作,具有運算速度快、兼容性強等特點;sparkstreaming、bagel、graphx、sparksql等開源軟件均以spark為基礎,從實時計算框架、圖計算模型、圖模型api、數據查詢等方面對原有平臺進行了優化或補充。
除hadoop、spark之外,還涌現出了一批支線平臺,絕大多數是開源的,主要代表有hypertable、cassandra、dryad、s4、kalka、haloop和storm。其中,storm完全擺脫了mapreduce架構,重新設計了一個適用于流式計算的架構,以數據流為驅動觸發計算,計算時效性高,適應有向無環圖計算拓撲的設計,計算方式較為靈活,在業界得到了一定的部署應用。
科技企業是大數據開源軟件發展的主要力量
表面上看,大數據基礎平臺和主要環節的技術創新均是基于開源模式推動的,全球各界人士均有平等的參與和應用機會。但是,從技術演進的確定權和影響力來看,大數據領域的技術創新離不開全球主要科技企業的參與。
科技企業既是大數據技術創新的主要力量,同時也圍繞開源世界的游戲規則不斷擴大行業影響力,緊抓技術創新前沿,搶占大數據技術發展和標準制定的話語權,培育發展形成以企業核心競爭力為中心、以開源為主要方式的新型產業生態。