Hadoop管理正在成為大數據用戶和供應商首先考慮的分部署處理框架,它在企業的業務運營中中扮演著越來越重要角色。
Comcast公司的IT團隊在對Hadoop數據湖泊進行性能管理時,考慮的十分周全。
數據湖泊是一個大量信息的集合體,此外還包括成千上萬的CPU和超過30 pb級的存儲容量。為了保證其平穩運行,IT團隊實現了主動Hadoop監測和數據治理過程,此外還包括一系列集群管理工具。
“為確保Comcast'的Hadoop用戶可以正常的運行應用程序,我們開始使用數據治理功能,”Michael Fagan說道,他是位于Philadelphia的電視電影集團的首席大數據架構師。管理工作主要包括服務協議,用于限制業務單元的Hadoop資源利用率,此外還包括自動化的執行機制和月度審核機制,用來評估Hadoop的性
對Hadoop集群使用和數據存儲的管理是一個很熱門的話題,在San Jose, Calif舉辦的Hadoop 2016峰會上,這個話題被廣泛討論。Fagan 和其他演講者認為,對于那些試圖從大數據中獲益的企業來說,有效的Hadoop管理是必須的。一些供應商正在開發新技術,旨在實現集群監控、管理和治理任務的自動化。
舉例來說,會議的組織者Hortonworks發布了一個Hadoop的預覽版,它集成了Atlas 和Ranger。Apache開源技術可用于給數據配置元數據,加強用戶訪問權限控制。Hortonworks數據平臺(HDP)2.5版本,將于本月晚些時候發布,它增加了系統日志的搜索功能,通過使用Apache Ambari(一個開源的Hadoop管理工具),提供了基于角色的訪問控制功能。
Hortonworks的競爭對手MapR Technologies推出了Spyglass Initiative項目的第一個組件——Spyglass Initiative項目旨在創建可定制的儀表板,監控大數據平臺。此外,MapR還將發布更新各種開源工具,作為其平臺季度更新“包”的一部分,以簡化部署流程;第一個MapR Ecosystem Pack 和MapR Monitoring儀表板都將在本月發布。與此同時,數據集成和分析軟件供應商Pentaho發布了連接到Hadoop數據湖泊的基礎設施參考藍圖。
Hadoop管理的多個方面Comcast 在它的數據湖泊上運行HDP和Cloudera的Hadoop分布平臺——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理軟件。為了在Hadoop監測數據上完成更高級的聚合,該公司還建立了一個本地管理控制臺,稱為Comcast Command Center。
“雖然我們可以從不同的工具中得到很多答案,但我們很難得到一致的答案,”Ray Harrison,Comcast Hadoop平臺團隊的一員說道。
數據湖泊是一個多租戶的數據環境,各種用戶“聚集到一起,在同一個一沙盒里操作數據,”Harrison說。但是這種方法給性能管理帶來了一定的挑戰。Hadoop團隊今年部署500個節點的集群,為公司數據科學家的高級分析應用程序服務,但這是必須的,因為這些科學家正在大型數據集努力尋找“未知的未知”,這需要強大的計算能力,現有的資源難以應付,Harrison說道。
為了跟上集群變化的節奏,Comcast 特意更新了其資源使用的治理策略,“且在過去的一年內更新了數次,”Fagan說到。下一步是數據治理:Hadoop團隊開始推進數據治理項目,依靠Atlas技術來確保每個用戶所使用信息的一致性。
治理為要,科技次之數據治理是Blue Cross Blue Shield of Michigan的首要任務,該大數據平臺將于五月上線。在會議的另一次會談中,Detroit一家公司的分析主管,數據工程師和數據管理者Beata Puncevic說道,她的團隊在2015年4月,項目初期就首先開始著手制定新的數據治理流程和策略,而真正開始實施技術細節已經是五個月之后的事了。
“如果你在部署大數據工具之前,沒有制定一個強有力的數據治理過程,你很有可能會步履維艱”Puncevic說道。數據治理涉及如下步驟,根據常見數據定義,創建業務術語表,制定數據使用的新規則,解決數據質量和元數據管理的問題。“上面說的這些都很無聊”她開玩笑道。“我們一開始做的這些工作與具體技術無關。”
原始數據被輸入到Hortonworks-based Hadoop集群,然后根據數據治理機制進行精煉,以供分析。該系統最初被用來支持的分析應用程序包括用藥和臨床病例記錄系統,Puncevic補充說,這可能需要額外三到五年才能完全建立起大數據架構。
Hadoop監測和治理在University of Texas MD Anderson Cancer Center的大數據待辦事項上優先級很高 ,他們在3月份將一個運行HDP的Hadoop集群投入了生產環境。這家位于Houston的癌癥治療和研究機構使用集群存儲一些重要的統計數據,這些數據收集于病人的床邊傳感器;大數據平臺的其他用途還包括對不同實驗室數據系統的集成,這些實驗室在以前是完全獨立的,沒有任何聯系。
傳統的IT管理,治理和安全實踐仍然適用于大數據環境,Vamshi Punugoti,MD Anderson負責信息系統研究的副主任表示。
“從我們的角度來看,沒理由做例外的事,”他說,我們雖然剛剛開始大數據的旅程,但這并不意味著我們能以隨意的方式去做。”