大數據技術快速進化,各種跡象顯示2015年仍將持續。MapR的聯合創始人兼CEO John Schroeder預測,在2015年里,五大發展將會主導大數據技術。
在短短幾年里,大數據技術從炒作的概念變為新數字時代的核心破壞者。2014年,公司里越來越多的大數據舉措從測試步入生產。2015年,大數據將在企業里進一步推進,使用更多的用例(特別是實時用例),Hadoop分布式專家MapR的聯合創始人兼CEO John Schroeder說。
Schroeder說:“今年,機構將覆蓋之前的初次批量實現,進行大數據實時部署。現有的行業領導者和那些后起之秀已經付出了巨大努力,它們通過將新的大數據平臺合并到‘動態’數據分析中來影響業務,這些實現將驅動行業的發展。”
Schroeder說五大發展將會主導2015。
1.數據敏捷性成為焦點
對于許多需求來說,遺留的數據庫和數據倉庫的處理過程過于緩慢和僵化,因此數據敏捷性是大數據技術發展的驅動力之一。在2015年,Schroeder認為,隨著機構將他們的注意力從捕獲和管理數據轉換到使用它們,數據敏捷性將會更加集中。
他說:“遺留的數據庫和數據倉庫如此昂貴,以至于需要DBA對數據進行全面綜合和結構化。前期的DBA成本推遲了對新數據源的訪問,而隨著時間的推移,這剛性的結構也很難改變。最終的結果就是,遺留數據庫不夠敏捷,不能滿足今天多數組織的需要。”
他補充說:“最初的數據項目集中在目標數據源的存儲。機構將會把自己的注意力轉移到數據敏捷性上,而不是關心正在管理著多少數據。執行和分析數據的能力又是如何影響操作的?當用戶偏好、市場條件、競爭行為和操作狀態發生變化時,如何才能快速適應和響應?這些問題將會在2015年指引大數據的投資和規模。”
2.機構從數據湖泊轉移到數據處理平臺
從某種程度上來說,2014年是數據湖泊(或者數據中心)的一年。基于對象的存儲倉庫以其原生格式(無論是結構化的、非機構化的或半結構化的)保存著原始數據,直到可以使用。數據湖泊有著強烈的價值主張,它們代表著一個可伸縮的基礎結構,這樣的結構經濟(降低了成本)又敏捷。
Schroeder認為,隨著處理數據的多計算和執行引擎就位,數據湖泊將會在2015年繼續發展。它不僅會更有效,它還會創建一個單點管理和一個單點安全。
“在2015年,隨著機構從批處理轉移到實時處理,將Hadoop、數據庫和基于文件的引擎集成到他們的大規模處理平臺,數據湖泊將會有所發展”,他說。 “換句話說,它并不是關于數據湖泊中支持大量查詢和報告的大規模存儲。2015年的大趨勢是,圍繞事件和數據的實時持續訪問和處理,以此來獲取穩定的狀態和及時采取行動。”
3.自助服務大數據成為主流
大數據工具和服務的進步意味著,在2015年,商業用戶和數據科學家訪問數據的瓶頸將逐漸緩解,Schroeder說。
2015年,IT將會擁抱自助服務大數據,允許商業用戶使用大數據自助服務,他說。“自助服務授權開發者、數據科學家和數據分析師直接控制對數據的探索。”
“之前,需要IT技術來建立集中的數據結構”,他補充道。“這是一種耗時和昂貴的做法。對于一些用例,Hadoop已經使得企業適應了‘結構準備好’。高級一點的機構將會轉移到執行上的數據綁定,遠離中心結構,以此來滿足持續的需求。自助服務加快機構利用新數據源以及回應機會和威脅。”
4.Hadoop供應商整合:新商業模式的發展
早在2013年,因特爾引入了它自己的Hadoop版本,聲稱這個版本將會與原版有所不同,它采用一種增強的方法,將Hadoop直接置入到因特爾的機器中。但是一年后,因特爾放棄了它自己的版本,然后重磅推出Hadoop發行版供應商Cloudera。
當時,因特爾注意到,客戶們都在觀望Hadoop市場如何打開。Hadoop的選擇實在是太多了。Schroeder相信,Hadoop供應商的整合在2015年將會繼續,而失敗者將會停止它們的發行版,將注意力轉移到其它地方。
“現在,我們已經貢獻開源代碼20年了,它為市場提供了巨大的價值”,Schroeder說。“技術處于成熟階段。技術生命周期始于創新和高度差異化產品的創造,止于產品最終商業化。[Edgar F.] Codd于1969年使用創新而建立了關系數據庫概念,1986年也導致了Oracle IPO,而起始于1995年的第一個MySQL版本。所以歷史上,數據庫平臺技術成熟之前,為了看到商業化,它花了26年時間的創新。”
“在技術成熟周期中,Hadoop是比較早的,自Google發布萌芽的MapReduce白皮書起,僅僅只有十年的時間”,他補充道。“在初級概念發布僅10年后,Hadoop在全球被采用,超越以往任何其它數據平臺。Hadoop正在創新階段,所以供應商誤采用‘Red Hat for Hadoop’策略已經在市場上出現了,尤其是因特爾和最近的EMC。”
Schroeder相信,2015將會見到一個嶄新的、更微妙的開源軟件的發展,它們會結合深度創新和社區開發。
“開源社區對于建立標準和共識是至關重要的”,他說。“競爭是催化劑,它將Hadoop從最初的批分析處理器轉換成一個全功能數據平臺。”
5.企業架構師不再炒作大數據
2015年將會看到,企業架構師會成為焦點,因他們對Hadoop技術的深入理解,得到定義更好和更成熟的大數據應用需求說明,包括像高可用性和業務連續性等元素。
“在數據中心中,隨著機構快速從試驗轉移到實際應用,企業架構師將前臺和中心轉移到實際應用”,Schroeder說。“IT領導在決定適應SLA的基礎架構、提供高可用性、業務連續性和適應關鍵業務需求上就很重要了。在2014年,圍繞Hadoop蓬勃發展的生態系統,擁有大量的應用、工具和組件。在 2015年,市場將集中在將Hadoop集成到數據中心,并交付業務結果所需的跨平臺差異和架構上。”