隨著Hadoop數據資源池的概念進入主流IT,越來越多的企業開始試水Hadoop。但很多只是將一部分數據池化,還沒有開發出成熟的Hadoop環境。
數據資源池使用基于開源Hadoop框架和商業硬件,以池化資源的形式處理、存儲和管理大數據,尤其是支持分析應用。支持者認為數據池架構提供了一個更便宜的替代傳統數據倉庫的選項,能夠處理結構化、半結構化以及非結構化數據。不過,數據資源池的概念還相對較新,帶來利益的同時也隱藏著陷阱。關注BI和大數據的咨詢公司Eckerson 集團首席咨詢師Wayne Eckerson表示:“在過去七年里,Hadoop取得了長足的進步,但它仍有很長的路要求。”
在接受TechTarget采訪時,Eckerson講述了他個人對于數據資源池的理解,以及可能影響該進程的阻力。對于公司是否適合采用Hadoop資源池的問題,他也給出了建議。
TechTarget:從您接觸到的公司來看,Hadoop資源池到底有多流行?
Wayne Eckerson:很 多公司已經或打算使用Hadoop.只有當你把所有數據都放入Hadoop集群的時候,數據資源池才是真實的。公司當然對它有興趣,尤其是目前還沒有數據 倉庫的公司,它們會選擇從Hadoop開始,而不是關系型數據庫,當然前提是它們有掌握Hadoop的人才。不過我認為,供應商推Hadoop的力度大于 用戶對Hadoop的需求。泡沫的成分還是有的。
TechTarget:公司為什么要考慮數據池,數據池能夠給公司帶來的最大好處是什么?
Eckerson:理論上這種方法大有裨益。你把數據放入資源池,不需要再移動它。你需要做的只是把數據提取到支持業務的正確的處理系統中。數據資源池的好處是你把數據存儲在 數據產生的地方,然后把處理流程加在數據上,這樣能夠讓公司更少地移動數據。但是問題是,在過去二十年里,我們積累了如何從數據中提取答案的經驗,但這些 經驗并不完全適用于數據資源池。公司要重新確認流程,保證能得到正確答案。不過因為成本低,所以人們還是很愿意去嘗試它。
企業在部署Hadoop時,對數據資源池的概念是否會有誤解?
Eckerson:對 于任何新技術,人們都不免會希望它能“包治百病”。但事實并非如此,Hadoop需要專業的技術人才,而且有很多功能還不成熟,比如安全、管理、容災和恢 復、交互查詢等。現在,這些功能正逐漸被添加到Hadoop平臺上,它現在正在向企業級方向發展。不過它仍然沒有傳統數據倉庫環境那么成熟。你不能只給人 們一個生數據的入口,就期望他們能完成任何事。你需要構建不同的數據視圖,不同的結構,不同部門的人員看到不同的數據。這和數據倉庫的道理是一樣的,只是 用到的技術不同。我認為最大的誤解是認為Hadoop是適用于業務用戶的環境,其實不是,Hadoop還是需要掌握固定技能的專家的。
數據資源池適用于所有企業嗎,還是只適用于部分企業?
Eckerson:任何公司,只要有時間和資源,都可以嘗試數據資源池。公司要以開放的心態迎接新技術,需要花費時間進行試驗,了解數據資源池能夠給自己帶來什么。早期的Hadoop使用者已經在大范圍部署Hadoop了。但也有公司忙于應對已有的數據倉庫,無暇考慮Hadoop。這是企業文化的問題,有些對新技術比較積極,有些則不然。
我們一直都在努力堅持原創.......請不要一聲不吭,就悄悄拿走。
我原創,你原創,我們的內容世界才會更加精彩!