海綿數據的大數據操作系統Sponge為用戶提供了一個簡單易用的高性能大數據平臺,同一個平臺可以滿足用戶不同層面的需求。Sponge是一個劃時代的產品,代表了大數據未來的發展方向。
5月20日,海綿數據科技有限公司(以下簡稱海綿數據)在北京發布第二代大數據操作系統Sponge。海綿數據CEO朱曉明稱Sponge是全球首款基于內存計算技術的大數據底層操作系統:“我們希望利用公司技術團隊在IT領域二三十年的技術積累,在大數據底層技術上實現突破,同時拋磚引玉,吸引更多合作伙伴共同投資于大數據基礎技術的研發,推動大數據應用快速落地。”
加速大數據落地
當前,大數據已經從概念炒作的階段過渡到應用落地的階段。用戶迫切需要高效、簡單、易用、成本優化的大數據平臺和工具。但是,目前用戶正在使用的第一代大數據操作系統比較復雜,在數據同步和一致性、數據安全、數據處理性能等方面存在不足。為此,海綿數據才潛心研發新一代大數據底層操作系統Sponge。有人說,Sponge的矛頭直指Hadoop。“從市場角度講,Sponge不會刻意與Hadoop競爭。有人擔心能否將應用從原來的Hadoop平臺平滑遷移到Sponge平臺上。其實,在Sponge推出后,已經有用戶這樣做了。”朱曉明說。
Sponge在性能、部署和使用的簡便性等方面明顯優于第一代大數據操作系統。實際測試和使用過Sponge的用戶都有這樣的感覺。舉例來說,第一代大數據操作系統在不出現任何問題的情況下,至少也要半天才能完成部署,而Sponge從下載到安裝最多也就十幾分鐘,大大改善了用戶體驗。“我們的目標不是與誰競爭,而是希望盡快在中國建立大數據應用和推廣的生態鏈。”朱曉明表示。
第二代大數據操作系統與第一代產品之間的區別在哪里?“兩代產品在技術架構和設計理念上完全不同。”海綿數據CTO李東介紹說,“第一代大數據操作系統15年前就誕生了,其技術架構是在滿足當時用戶的需求和技術條件下設計的。隨著時間推移,用戶需求改變了,技術也在不斷發展,從底層架構到上層應用,大數據都發生了巨大改變。”
舉例來說,第一代大數據操作系統的工作方式是先進行大量文件的抓取,然后進行存儲,再對這些文件進行處理和分析。隨著社交網絡的發展,大量智能設備不斷涌現,傳統的文件批處理方式已經轉變為現在的交互式處理、實時處理。用戶端也要求數據處理的手段更加多樣化。“正是看到了技術的變化和當前用戶的需求,我們決定重新開發一套大數據底層操作系統,用一個統一的平臺滿足用戶不同的數據處理需求。”李東表示。
注重用戶體驗
評判一個軟件產品優劣的標準是什么?強大的性能,還是豐富的功能?是用戶的體驗。李東表示,第一代大數據產品技術架構比較復雜,應用比較困難,性能調優更是難上加難。海綿數據在開發第二代大數據操作系統Sponge技術框架時,特別注意了架構的簡化與整合。用李東的話說,Sponge技術框架短小精悍,功能齊全。
Sponge在以下幾方面實現了突破和創新。在存儲層,Sponge整合了高性能的存儲,可同時處理結構化和半結構化的數據,并結合了云對象存儲和軟件定義存儲,采用統一的核心,擴展性非常好。在分析計算層,Sponge與Apache Spark緊密集成。Sponge提供的分布式NFS與POSIX完全兼容,可以更容易集成現有的系統、應用和腳本。Sponge擁有支持Hadoop文件系統的接口,可以很容易地與Hadoop生態系統兼容。由于底層的存儲架構支持細粒度的數據塊,Sponge還實現了CDR(持續數據復制)功能,其集群的拓撲結構采用Masterless,消除了單點故障和文件數目的限制。
讓大數據應用變簡單是Sponge的最終目標。Sponge在設計之初就秉承讓大數據平臺簡單實用,同時又不失豐富功能的原則,各功能模塊基于同一個核心,實現了高度整合,開發和使用都基于同一個平臺界面。Sponge之所以與Apache Spark集成,也是希望將用戶的使用、維護和開發融為一體,提供一個簡單高效的平臺。
從產品開發難易程度來看,基于Hadoop平臺開發一個大數據工具肯定比自主開發一個大數據底層操作系統要容易得多,但海綿數據并沒有“取巧”,而是選擇了一條比較艱辛的道路。為什么呢?一是海綿數據看到了大數據應用推廣難的癥結所在,就是因為沒有一個簡單易用的大數據操作系統;二是IT領域許多底層或核心的系統都是國外廠商開發的,作為中國廠商,海綿數據愿意做這個“吃螃蟹”的人;三是,海綿數據在國內外擁有強大的技術研發能力。“很多人可能認為,開發底層操作系統是一件枯燥乏味的事。但對于大數據應用來說,底層操作系統是不可或缺的。我們希望從這個層面實現全新的突破。”海綿數據COO劉棟表示。
Sponge是一個底層操作系統平臺,包括豐富的技術和功能,比如文件系統、分布式NFC技術、數據分析引擎、數據實時同步技術、軟件定義存儲、SWIFT云集成等。這些技術和功能合在一起構成了一個高性能、簡單、易用的大數據平臺,分開也可以成為獨立的產品,比如現在十分流行的軟件存儲等。“有些功能模塊確實可以變成獨立的商品化軟件。”劉棟舉例說,“有的用戶只關注存儲,那么就可以直接采用Sponge軟件定義存儲產品。我們的銷售策略十分靈活,既可以提供打包的整體解決方案,也可以單獨提供其中的某個功能模塊。”
不開源 但開放
Hadoop之所以在大數據領域擁有極高知名度,主要是因為Hadoop是開源的,而且已經建立了一個龐大的生態系統。海綿數據在推廣其大數據操作系統時,是效仿Hadoop的成功模式,還是另辟蹊徑呢?
海綿數據已經在產品落地、技術推廣、生態鏈構建等幾個方面開始了積極嘗試。第一,海綿數據希望培養更多的大數據專業人才,為此將與國內眾多高校合作,并為高校免費提供大數據產品。第二,海綿數據還會與高校合作建立一些產業園基地,最快今年6月就會有集產學研用于一體的基地投入建設。第三,在杭州當地政府的支持下,海綿數據正籌劃建立一個推動大數據應用實踐的產業聯盟實體,如果這一模式能夠成功,還計劃在北京、上海等地復制和推廣。“目前,中國的大數據市場規模還不夠大,主要原因是炒作概念的人多,而真正落地的項目少。從技術角度講,缺少大數據底層的操作系統也是一個掣肘。”朱曉明強調說,“我們只做大數據底層操作系統,包括核心的文件系統、存儲等,而不會涉及上層應用開發。我們的產品策略是不開源,但開放。我們會開放API接口給合作伙伴,由它們結合不同行業的應用需求進行二次開發,這樣也避免了與生態鏈上的其他廠商競爭。”
海綿數據的核心技術團隊在美國硅谷,其技術專家很多曾參與過第一代大數據操作系統的開發,不僅具有很強的開發能力,而且可以密切跟蹤國際最新的技術發展潮流。目前,海綿數據申請的自主知識產權已有20項左右。
“我們應該感謝第一代大數據操作系統的開發者和使用者。因為站在他們的肩膀上,我們才能用更短的時間開拓并建立大數據操作系統2.0生態圈。”劉棟表示,“我們在努力開拓大數據操作系統2.0的新市場的同時,對于第一代大數據操作系統的客戶也志在必得。一方面,我們會用更先進的產品解決用戶遇到的技術難題;另一方面,我們的大數據操作系統2.0全面兼容第一代大數據操作系統,方便用戶從原有系統平穩遷移到新的平臺上。”
海綿數據的中長期戰略目標是,爭取在五年內成為全球最大的大數據廠商,占據全球市場50%的份額。海綿數據哪來的這種霸氣和自信呢?朱曉明表示:“我們研究發現,大數據2.0時代潛在的市場規模比1.0時代大得多,至少是5倍左右。如果我們能按預期的年均50%的速度增長,5年后我們應該能夠與Hadoop平起平坐。”