隨著大數據的深入應用,大多數企業大數據應用案例尚處于實驗和試點階段,對于少數首次在生產環境部署Hadoop系統的用戶來說,最常遇到的就是擴展問題,此類問題往往導致企業因噎廢食,終止大數據應用項目。
部署和擴展Hadoop系統是一件高度復雜的事情,如果用戶能提前對Hadoop擴展可能會遇到的各種問題和危險信號有所了解,就能避免很多“救火”場面。
以下是關于Hadoop大數據系統出現擴展問題的七大危險信號:
危險信號一: 永遠進入不了生產階段
大數據應用從概念驗證到生產環境是一個巨大的飛躍,Hadoop系統的可擴展性將面臨巨大的挑戰。生產環境的數據規模產生的一些問題實驗環境很難碰到。另外數據本身也存在差異,概念驗證階段使用的測試數據集往往是不真實的,或者類型單一。
在進入生產環境前,大數據團隊需要對Hadoop系統進行模擬真實數據規模的壓力測試,此類測試能夠檢驗大數據應用的可擴展性和容錯性能,還能幫你做出更加準確的性能(資源需求)規劃模型。
危險信號二: 分析計算任務不斷超時
當Hadoop集群中運行的大數據應用很少或者只有一個時,一切都行云流水,按部就班,但是隨著Hadoop集群的增長,數據分析任務的運行時間變得難以預測起來。一開始,只是有零星的超時現象,問題容易被忽視,但隨著時間增長,超時問題會越來越嚴重,最后導致危機。
在危機爆發前,你必須提前采取行動,根據任務峰值調整計算性能規劃模型。
危險信號三: 你開始告訴人們不要保留所有數據
危機出現的另一個征兆是數據保留時間窗口不斷縮水。一開始你想保留13個月的數據進行年度分析。但是由于空間限制,你開始減少保留數據的月份數。到最后,你的Hadoop系統因為沒有足夠多的數據而不再是“大數據”系統。
數據保留窗口的縮水是因為存儲的擴展性遇到問題,這與前面的計算性能問題類似。當你的容量預測模型出現問題時,需要盡快調整。
危險信號四: 數據科學家被“餓死”
任務負荷過重的Hadoop集群會扼殺創新,因為數據科學家們將沒有足夠的計算資源來開展大型任務,也沒有足夠的空間來存儲中間結果。
性能和容量規劃通常會忽略或者低估數據科學家的需求,在加之前面提到的對生產環境任務的估計不足,會嚴重限制數據科學家的開拓性和創新性工作。
危險信號五:數據科學家們開始查看Stack Overflow
在Hadoop系統部署的早期,你的運營團隊與科學家緊密協作。運營團隊隨時為數據科學家提供支持。(編者按:類似串聯的協作模式)但是當Hadoop 系統成功上線后,系統的運維和擴展任務就會讓運營團隊疲于奔命,這時候數據科學家遇到Hadoop問題就只好自己解決,例如經常去技術問答網站Stack Overflow查看問題帖子。
危險信號六:數據中心越來越熱
數據中心服務器的電力都不是按服務器的功率峰值配置的,但是一個Hadoop集群運行任務的時候經常會連續“拷機”數小時,會燒壞功率不匹配的供電線路,同樣的問題也存在于制冷系統中。部署Hadoop系統時請確保數據中心支持其長時間全速運行。
危險信號七:費用超支
基于IaaS的Hadoop部署,例如AWS,在支出上是失控的。一個月的費用很有可能是上個月的三倍,遠遠超出你的預算。
性能規劃對于基于IaaS的Hadoop部署來說也是非常重要的,但是好的性能規劃只是開始,如果你需要擴展IaaS上的Hadoop系統,那么你需要學習Netflix在成本監控和優化系統上投入大量資金。
D1Net評論:
可以看出,對于廣大用戶而言,Hadoop大數據系統出現擴展問題的七大威脅信號不容忽視,當然除此之外,Hadoop大數據系統存在的問題也有很多,需要在實踐中進行總結。