大數(shù)據(jù)對于商務(wù)人士來說是讓人興奮的產(chǎn)物,許多的大數(shù)據(jù)殺手級應(yīng)用將不斷出現(xiàn)。對于存儲管理員來說,存儲基礎(chǔ)設(shè)施將不斷增長,這是毫無疑問的。你一直都在所有客戶中收集終端用戶每毫秒的行為數(shù)據(jù),想象一下如果你可以立即查看所有數(shù)據(jù),不需要考慮數(shù)據(jù)監(jiān)管、數(shù)據(jù)管理、數(shù)據(jù)保護和其它所有相關(guān)的煩惱,你需要做的只是把你所有的數(shù)據(jù)放到一個相對廉價又具備擴展性的Hadoop存儲中,這是多么令人期待的事!
大數(shù)據(jù)湖能夠滿足不斷增長的數(shù)據(jù)需求,并為你的業(yè)務(wù)提供有價值的服務(wù)。通過將不同來源的數(shù)據(jù)集采集到一個集中平臺,使用容易擴展的大數(shù)據(jù)方法提供多租戶的分析服務(wù),還會創(chuàng)造許多新的數(shù)據(jù)挖掘機遇。數(shù)據(jù)湖的總潛力值隨著可用于分析的數(shù)據(jù)量增加。一個大數(shù)據(jù)和大數(shù)據(jù)湖的關(guān)鍵原則是你不需要提前建立主數(shù)據(jù)模型,非線性增長是不會出現(xiàn)的。
企業(yè)數(shù)據(jù)湖或hub的概念最初是由Cloudera和Hortonworks這樣的大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但你的數(shù)據(jù)量越大,你越可能需要各種不同種類的存儲。最終,所有的企業(yè)數(shù)據(jù)都可以被認(rèn)為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價的HDFS集群之上的。
所以,今天傳統(tǒng)的存儲廠商正在分析大數(shù)據(jù)湖的前景。從存儲市場的角度來看,數(shù)據(jù)湖就像另一個云計算一樣。“所有人都需要一個數(shù)據(jù)湖,你怎么能夠沒有一個(甚至兩個、三個)?”但企業(yè)使用存儲有多種選擇,可以采用支持HDFS和Hadoop虛擬化的企業(yè)級存儲,這種存儲可以將其它存儲協(xié)議轉(zhuǎn)換成HDFS。也可以采用可擴展的軟件定義存儲。
大量,快速,現(xiàn)在
數(shù)據(jù)湖的一部分價值是把不同種類的數(shù)據(jù)匯聚到一起,另一部分價值是不需要預(yù)定義的模型就能進行數(shù)據(jù)分析。現(xiàn)在的大數(shù)據(jù)架構(gòu)是可擴展的,并且可以為用戶提供越來越多的實時分析。在商業(yè)智能(BI)和數(shù)據(jù)倉庫還沒有被淘汰的今天,大數(shù)據(jù)分析和大數(shù)據(jù)湖正在向更多類型的實時智能服務(wù)發(fā)展,這些實時的智能服務(wù)可以支持實時的決策制定。Hadoop和它的生態(tài)系統(tǒng)已經(jīng)度過了它們的理論研究階段,它們已經(jīng)可以為實際的應(yīng)用需求服務(wù)了。數(shù)據(jù)管理和數(shù)據(jù)分析的應(yīng)用程序已經(jīng)開發(fā)得非常友好,高級的向外擴展機器學(xué)習(xí)技術(shù)也已經(jīng)投入應(yīng)用并嵌入至只需要用鼠標(biāo)就能簡單操作的大數(shù)據(jù)挖掘軟件中。然而,IT仍然需要對數(shù)據(jù)湖里的所有數(shù)據(jù)負(fù)責(zé),所以在這里我們列舉了幾個企業(yè)數(shù)據(jù)湖的幾個關(guān)鍵特點:
保存一份集中的數(shù)據(jù)索引(或元數(shù)據(jù)),包括數(shù)據(jù)源、版本、精細(xì)度和準(zhǔn)確度。如果在這方面沒有自動化的支持,一個數(shù)據(jù)湖會很快被沖垮。
對數(shù)據(jù)進行安全的授權(quán)、審計和訪問控制。Hadoop生態(tài)系統(tǒng)在數(shù)據(jù)安全性方面正在快速發(fā)展,因為這是企業(yè)的強制性需求。有許多新產(chǎn)品為大數(shù)據(jù)資產(chǎn)提供一定的安全性,也有許多產(chǎn)品致力于保護數(shù)據(jù)湖中的大量新數(shù)據(jù)、用戶和不斷增長的資產(chǎn)價值。
對數(shù)據(jù)湖中的數(shù)據(jù)啟用監(jiān)管功能,并強制啟用保留(retention)和處置(disposition)策略(以及追蹤個人可識別信息)。最優(yōu)秀的產(chǎn)品(如Dataguise)會強制使用監(jiān)管和合規(guī)需求,無論數(shù)據(jù)湖中有多少數(shù)據(jù)或是什么類型的數(shù)據(jù)集。
為操作可用性和BC/DR需求確保一定規(guī)模的數(shù)據(jù)保護。遠(yuǎn)程復(fù)制是必要的嗎?已經(jīng)成為了一個關(guān)鍵業(yè)務(wù)運營平臺的數(shù)據(jù)湖里的大量實時數(shù)據(jù)流對遠(yuǎn)程復(fù)制來說就是洪水猛獸。
使用多種大數(shù)據(jù)分析方法(不僅僅只是Hadoop)和工作流利用數(shù)據(jù)湖提供敏捷分析。在某種程度上,Hadoop和HDFS實際上是軟件定義存儲產(chǎn)品,它們具有數(shù)據(jù)感知功能,可以提供內(nèi)置的大數(shù)據(jù)分析服務(wù)。但也有其它產(chǎn)品也能提供很好的數(shù)據(jù)湖解決方案,如Spark和一些專有的OLAP或在線分析處理大數(shù)據(jù)分析平臺(如HP Haven等)。
我們在今天的企業(yè)級存儲產(chǎn)品可以找到上面提到的這些功能,它們說明了為什么許多廠商熱衷于數(shù)據(jù)湖領(lǐng)域,因為云和大數(shù)據(jù)會帶來很大的經(jīng)濟效益。注重質(zhì)量的企業(yè)級軟件定義存儲會成為這一領(lǐng)域的領(lǐng)導(dǎo)者。
前景還不清晰的數(shù)據(jù)湖
數(shù)據(jù)湖真的是一個好的方案嗎?一個我們最開始可能會問的問題就是我們是否真的需要把所有的數(shù)據(jù)都匯聚到一起?在一個地方建立整個企業(yè)的數(shù)據(jù)聚集點會帶來巨大的風(fēng)險。另一個的問題是數(shù)據(jù)湖真的是一個節(jié)約成本的解決方案嗎?特別是像Google、Facebook這種具有海量數(shù)據(jù)的公司。
數(shù)據(jù)湖的方案最好是慢慢來實現(xiàn),而不是大規(guī)模的重新設(shè)計整個數(shù)據(jù)中心。數(shù)據(jù)湖的價值取決于我們的數(shù)據(jù),大規(guī)模的部署向外擴展的共享架構(gòu)將使許多組織從數(shù)據(jù)湖(至少是數(shù)據(jù)池)中汲取養(yǎng)分。