伴隨著“互聯網+”熱浪來襲,存儲領域廠商不約而同的注意到“互聯網+大數據”市場的商機,由此誕生了“數據湖”,幾乎所有的存儲廠商都為這一概念炒作,業內很多專業的存儲廠商開始抓住數據湖針對大數據業務展開新一輪的攻勢。實際上,數據湖是一套兼顧大數據和客戶業務的存儲解決方案。
數據湖讓存儲“暢游”
破冰的關鍵
數據湖概念的提出,起初是基于客戶在大數據業務應用處理之上,受傳統應用、現代應用、傳感器和智能設備數據增長驅動。“我們發現,‘互聯網+’概念誕生之后,很多客戶通過新媒體去挖掘全新的公共數據,但是,客戶原有的存儲設備是無法幫助客戶挖掘有效信息的,如何幫助客戶在原有基礎存儲設備的基礎上,滿足其無限計算需求的增長?如何通過新應用和產品讓實時分析與直連行動成為可能?現有的存儲設備是否有可能捕獲并處理這類數據?這些問題都成為存儲廠商亟需要為客戶解決的關鍵。” EMC Isilon大中國區技術經理楊峰如是說。
就是在這樣的背景之下,數據湖解決方案破冰而出,成為存儲、分析技術、海量數據處理的組合體。
業務數據湖正成為存儲廠商為企業構建最優存儲解決方案的核心業務,因為它能夠填補傳統數據倉庫留下的一個關鍵空白。“業務數據湖包含結構化和非結構化數據,來源各種各樣,但就應用而言,數據湖主要聚焦于建立模型從而預測未來。有一些已經部署了數據湖的公司,從他們的業務運行上分析,主流客戶是在利用數據和預測模型構建新產品、應用和創建新的業務,更有一些客戶利用數據湖分析市場,從而研發產品并重新定義他們的重點行業,期望通過這些手段,占有更多的市場并獲取更多的利潤。”北京中科科技股份有限公司存儲業務部經理黃志強如是說。
構建有難度
那么,數據湖能帶給客戶什么樣的功能呢?楊峰說:“一個充分有效的業務數據湖將提供三項關鍵功能:首先是存儲,它能夠面向所有種類進行分析,存儲許多不同數據源的結構化和非結構化數據,為分析用例提供所需的混合容量和性能。其次是分析,具備分析場景的功能,包括基于Hadoop的、In-Memory No-SQL和橫向擴展MPP,提供現代化的數據管理和分析工具。最后,才是回饋和總結,它必須向用戶提供數據和應用,實現結果的實時變化并影響關鍵決策。”
數據湖方案可以為企業帶來好處很多,例如:高效的存儲,消除存儲豎井,簡化管理,提高利用率;強大的可擴展性,基于可大規模擴展的scale-out架構構建,易于管理;更高的操作靈活性,多協議和下一代訪問能力支持傳統和新興應用;通過高效和彈性的備份、災難恢復、安全選項保護數據;無時無刻的進行大數據分析,利用共享存儲并支持像HDFS這樣的協議,就地進行劃算的分析,并更快形成結果。
但是,好處和困難總是并列存在的,構建一個高效的數據湖解決方案并不容易而且具備一定復雜性。“對那些嘗試部署數據湖的方案商而言,他們必須為每個分析用例部署并配置正確的分析平臺,以及相對應的存儲,從Hadoop(是一個能夠對大量數據進行分布式處理的軟件框架)到實時。一旦設置環境被創建,數據必須在所有正確的訪問權限和管理應用到數據集的情況下加載。環境和數據集的部署是一個復雜且耗時的任務,但目前方案商很難滿足業務使用者的需求。
積極構建聯合方案
確實,存儲企業雖然擁有很好的存儲技術,但要做到全面應用處理數據確實有些難度。也正是基于此,在采訪中,EMC透露,將同Pivotal和VMware合作,研發并推出一套完整的工程解決方案。
“我們希望新的數據湖方案能夠快速自動化配置,讓客戶能夠及時從數據中把握業務需求。”據楊峰介紹,他們的聯邦業務數據湖方案分析層是完全虛擬化的,通過運行在Vblocks上的VMware實現,帶預定義的分析用例,以及自動化安裝與配置。EMC Isilon為數據湖提供存儲基礎,實現容量和性能的理想平衡。
“這一方案可在短至七天內實施 ,聯邦業務數據湖可極大簡化構建一個數據湖所需的大量復雜任務,是專為企業需要的速度、自服務和可擴展性而設計,讓組織能夠通過使用大數據分析,開始更好地進行業務決策。作為一個來自EMC聯邦的融合解決方案, 聯邦業務數據湖將重新定義基礎設施,最大化部署混合云和數據湖的速度和敏捷性,加入企業混合云解決方案。” 楊峰如是說。