如果詢問十家公司他們為了運行大數據負載需要使用怎樣的基礎架構,那么可能會得到十種不同的答案。現在這個領域當中幾乎沒有可以遵循的原則,甚至沒有可以參考的最佳實踐。
不管是從資源還是從專業性方面來說,大數據分析已經成為基礎架構領域當中真正的難題。顧名思義,大數據分析工具所針對的數據集合,規模將會非常龐大,并且需要大量的計算、存儲和網絡資源來滿足性能需求。但是這些大數據工具通常是由超大規模企業開發的,這些企業并不存在普通企業需要考慮的同等級安全問題和高可用性問題,而主流IT企業還沒有深入了解這些工具,再加上大數據在投資回報率方面的不確定性,導致只有非常少的企業愿意在大數據方面進行投入。
此外,即便對于曾經在Hadoop、Spark和類似產品上運行過大數據集群的部分企業來說,也會在大數據基礎架構方面遇到技術和業務方面的挑戰。
大數據帶來大問題
一家大型遠程通訊提供商正在構建一種新的數字服務,預計在今年年底正式推出,并且準備使用Hadoop來分析這種服務所產生的內容、使用情況和收入(廣告服務)數據。但是由于這種服務是全新的,因此很難分析應該使用哪種大數據基礎架構,負責這個項目的技術副總裁表示。
“對于一個還沒有推出的項目來說,我們不可能進行任何容量規劃,”他說。
確實,現在很多大數據項目仍然處于初級階段。“大多數大數據項目的性質比我們想象的還要低,” 可擴展存儲基礎架構提供商Coho Data CTO Andrew Warfield表示。
即便企業還不是十分了解大數據技術,但這并不意味著企業不應該在大數據方面投入精力。“但是運行這種技術可能面臨著很大風險,提前認識到這點非常重要,” Warfield說,他認為企業應該提前考慮基礎架構方面的因素。
對于這家遠程通訊提供商來說,他們將會采用一種漸進的方式,使用來自于BlueData Software的軟件在商用硬件環境當中運行大數據集群,這樣就能夠從現有的存儲系統上訪問數據了。
無處不在的數據
如果數據來自于云,那么當然可以直接在云中進行分析;如果數據全部位于本地,那么底層的基礎架構也應該位于本地。但是如果數據分散在不同位置,那么無疑會使得基礎架構更加復雜。
遠程通訊提供商的服務將會同時使用來自于云和本地的數據。對于任何大數據解決方案來說,考慮到合規性、節省時間和網絡帶寬等因素,能夠同時支持兩種數據來源都是十分重要的。“同步生產環境當中的數據是一件非常困難的事情,”這位副總裁說,“我們希望將所有的實例全都指向一個單一數據源。”
此外,雖然數據科學家想要分析的信息是可用的,但是現在還不能進行使用,因為其位于大數據計算工具無法訪問的存儲基礎架構當中,Warfield說。一種解決方案是存儲硬件使用Hadoop Distributed File System或者RESTful API這樣的協議公開這些數據。
注意延遲
對于特性類型的大數據分析來說,將數據從存儲陣列移動到計算環境所花費的時間將會對性能造成嚴重影響。但是如果不將數據跨越整個網絡移動到計算環境當中,而是將應用程序移動到數據附近以降低延遲,將會怎樣呢?
將計算環境移動到數據附近并不是一種全新的概念,但是現在出現了一種前所未有的實現方式:Docker。比如Coho Data和Intel通過合作證明了這種概念的有效性,在一個大型金融服務公司當中,使用Docker格式封裝計算節點,之后在上面直接運行Hadoop負載。
在存儲陣列上直接運行Docker容器,這樣做的意義在于直接對附近的數據進行分析,而不再需要跨網絡移動數據,同時利用任何可用的計算資源。“相比于其他存儲平臺來說,大數據平臺的CPU使用率通常會很高,” Warfield說。“更何況如果你將閃存加入其中,那么問題就會變成‘我該如何從這種資源當中獲得更多價值?’”
直接在存儲陣列當中運行容器化應用程序是一件非常有趣的事情,但是需要提前對負載進行認真評估,以確保其能夠很好地適應當前環境,為建筑行業提供文檔管理服務的Signature Tech Studios公司副總裁Bubba Hines說。這種服務基于Amazon Web Services,使用來自于Zadara Storage的存儲服務。這家公司最近開始評估新的Zadara Container Service,其中容器化應用程序運行在存儲陣列上,可以直接訪問本地磁盤。根據Hines的想法,現在有幾種可能的使用情況:在存儲陣列上運行其災難恢復軟件的容器版本來持續監控用戶數據和工作方面的變化,更改或者驗證主要存儲數據。
但是如果使用Zadara Container Service處理全部數據將沒有什么意義。Signature Tech Studio的系統正在按照計劃執行數據轉換,并且已經實現大規模容器化了。但是“我們可能不會將所有Docker容器移動到Zadara容器服務當中,因為從體積和規模方面考慮這樣做并沒有意義,”Hines說。“我們必須尋找能夠真正從降低延遲當中獲利的負載。”