在短短幾年里,大數據技術從炒作的概念變為新數字時代的核心破壞者。2014年,公司里越來越多的大數據舉措從測試步入生產。2015年,大數據將在企業里進一步推進,使用更多的用例(特別是實時用例)。
數據敏捷性成為焦點
對于許多需求來說,遺留的數據庫和數據倉庫的處理過程過于緩慢和僵化,因此數據敏捷性是大數據技術發展的驅動力之一。在2015年,隨著機構將他們的注意力從捕獲和管理數據轉換到使用它們,數據敏捷性將會更加集中。
遺留的數據庫和數據倉庫如此昂貴,以至于需要DBA對數據進行全面綜合和結構化。前期的DBA成本推遲了對新數據源的訪問,而隨著時間的推移,這剛性的結構也很難改變。最終的結果就是,遺留數據庫不夠敏捷,不能滿足今天多數組織的需要。
最初的數據項目集中在目標數據源的存儲。機構將會把自己的注意力轉移到數據敏捷性上,而不是關心正在管理著多少數據。執行和分析數據的能力又是如何影響操作的?當用戶偏好、市場條件、競爭行為和操作狀態發生變化時,如何才能快速適應和響應?這些問題將會在2015年指引大數據的投資和規模。
機構從數據湖泊轉移到數據處理平臺
從某種程度上來說,2014年是數據湖泊(或者數據中心)的一年?;趯ο蟮拇鎯}庫以其原生格式(無論是結構化的、非機構化的或半結構化的)保存著原始數據,直到可以使用。數據湖泊有著強烈的價值主張,它們代表著一個可伸縮的基礎結構,這樣的結構經濟(降低了成本)又敏捷。
隨著處理數據的多計算和執行引擎就位,數據湖泊將會在2015年繼續發展。它不僅會更有效,它還會創建一個單點管理和一個單點安全。在2015年,隨著機構從批處理轉移到實時處理,將Hadoop、數據庫和基于文件的引擎集成到他們的大規模處理平臺,數據湖泊將會有所發展。換句話說,它并不是關于數據湖泊中支持大量查詢和報告的大規模存儲。2015年的大趨勢是,圍繞事件和數據的實時持續訪問和處理,以此來獲取穩定的狀態和及時采取行動。
自助服務大數據成為主流
大數據工具和服務的進步意味著,在2015年,商業用戶和數據科學家訪問數據的瓶頸將逐漸緩解。2015年,IT將會擁抱自助服務大數據,允許商業用戶使用大數據自助服務,自助服務授權開發者、數據科學家和數據分析師直接控制對數據的探索。
之前,需要IT技術來建立集中的數據結構。這是一種耗時和昂貴的做法。對于一些用例,Hadoop已經使得企業適應了結構準備好。高級一點的機構將會轉移到執行上的數據綁定,遠離中心結構,以此來滿足持續的需求。自助服務加快機構利用新數據源以及回應機會和威脅。
Hadoop供應商整合:新商業模式的發展
早在2013年,因特爾引入了它自己的Hadoop版本,聲稱這個版本將會與原版有所不同,它采用一種增強的方法,將Hadoop直接置入到因特爾的機器中。但是一年后,因特爾放棄了它自己的版本,然后重磅推出Hadoop發行版供應商Cloudera。
當時,因特爾注意到,客戶們都在觀望Hadoop市場如何打開。Hadoop的選擇實在是太多了。Hadoop供應商的整合在2015年將會繼續,而失敗者將會停止它們的發行版,將注意力轉移到其它地方。技術生命周期始于創新和高度差異化產品的創造,止于產品最終商業化。
在技術成熟周期中,Hadoop是比較早的,自Google發布萌芽的MapReduce白皮書起,僅僅只有十年的時間。在初級概念發布僅10年后,Hadoop在全球被采用,超越以往任何其它數據平臺。Hadoop正在創新階段,所以供應商誤采用Red Hat for Hadoop策略已經在市場上出現了,尤其是英特爾特爾和最近的EMC。
2015將會見到一個嶄新的、更微妙的開源軟件的發展,它們會結合深度創新和社區開發。開源社區對于建立標準和共識是至關重要的,競爭是催化劑,它將Hadoop從最初的批分析處理器轉換成一個全功能數據平臺。
企業架構師不再炒作大數據
2015年將會看到,企業架構師會成為焦點,因他們對Hadoop技術的深入理解,得到定義更好和更成熟的大數據應用需求說明,包括像高可用性和業務連續性等元素。
在數據中心中,隨著機構快速從試驗轉移到實際應用,企業架構師將前臺和中心轉移到實際應用。IT領導在決定適應SLA的基礎架構、提供高可用性、業務連續性和適應關鍵業務需求上就很重要了。在2014年,圍繞Hadoop蓬勃發展的生態系統,擁有大量的應用、工具和組件。在 2015年,市場將集中在將Hadoop集成到數據中心,并交付業務結果所需的跨平臺差異和架構上。