支撐電信、金融、醫療、安全、電力等關鍵行業大數據應用的基礎軟件平臺將呈一體化形態,它以數據為中心,將操作系統、分布式存儲、數據庫等產品融合起來,對結構化、半結構化和非結構化等全數據進行高效存儲與管理,并對應用提供統一的數據服務支撐接口。大數據環境下的基礎軟件平臺很像一個“泛OS”,將傳統操作系統、存儲、數據庫等等產品和組件有機融合,做到存儲資源、計算資源等有效管理和調度,同時為上層數據應用提供統一、易用接口,實現數據采集、存儲、計算、應用等全周期的高效易用、安全可靠和易管理。
圖 1 行業大數據處理基礎軟件平臺“一體化”框架圖
國際上一體化融合的大數據處理平臺已經成為主流趨勢。國際IT巨頭們在積極發展以平臺為核心、面向新型應用模式的一體化行業解決方案和生態系統。2013年,EMC公司發布了自身的Apache Hadoop發行版—Pivotal HD,它將大規模并行數據庫技術與Apache Hadoop框架集成,同時發布了一個名為HAWQ的技術,將Greenplum分析型數據庫與Hadoop分布式架構進行緊密地融合,實現了HDFS上SQL并行數據庫處理,提高了性能并使Hadoop平臺與SQL開發者實現了接軌。惠普則發布了大數據解決方案HAVEn分析平臺,該平臺是惠普大數據產品的組合,它整合了Hadoop/HDFS、HP Autonomy語義處理引擎、HP Vertica列存數據庫、EntERPrise Security安全技術等形成大數據處理方案。
圖 2 Pivotal HD架構圖
圖 3 HAVEn Platform結構圖
圍繞行業大數據應用構建大數據處理基礎軟件平臺的關鍵問題是如何解決結構化和非/半結構化不同類型的數據融合,以及實現不同類型數據處理模式的整合。單一的MPP數據庫或Hadoop產品一般很難滿足行業用戶對結構化和非/半結構化數據融合的業務需求,這兩種方式的界限正在實際應用部署被打破,市場上正逐步形成以全數據處理為核心,垂直整合操作系統、MPP數據庫、Hadoop、統一數據服務的基礎軟件平臺產品。
在國內,業界的主流思路是:用基于MPP架構的新型數據庫集群(如EMC GreenPlum、南大通用GBase 8a、HP Vertica等)管理結構化大數據,側重于行業大數據分析型應用場景;用基于Hadoop的技術擴展和封裝(如HBase數據庫)管理非/半結構化大數據,側重于互聯網大數據應用場景。MPP集群與Hadoop產品混搭部署、相互融合,共同支撐大數據應用。
MPP與Hadoop的應用融合是大數據處理基礎軟件平臺需要解決的一個核心技術問題。為了讓平臺能夠更好地支撐行業大數據應用,不改變用戶習慣的SQL這種更易于理解的、交互性更好的訪問接口,架構需要以MPP數據庫及計算框架為核心,將MPP運算調度引擎完全融入非關系型運算調度框架,實現可以同時調度關系運算和非關系運算的調度引擎,構建統一的結構化信息提取和數據類型轉換框架,將非/半結構化數據映射為關系模型,實現面向關系模型的全數據統一視圖,從而平滑的實現MPP數據庫和Hadoop的統一調度和處理,為新型的基礎軟件平臺和上層應用提供數據服務。
當前,國家的大數據戰略、信息安全戰略,以及大數據行業應用引發了對國產大數據處理基礎軟件平臺的強勁需求。國產基礎軟件廠商應協同作戰,抓緊市場與技術的雙重時機,發展國產化大數據處理基礎軟件平臺,并在國計民生的大數據應用系統中成為重要支撐。與此同時,在關鍵發展時間窗,國家應及時給予大力支持和幫助,避免大數據領域基礎軟件平臺幾年后再次走上“國產化”替代的老路。