數據湖中大量的原始數據可用于不受約束的探索和分析。但一切并非那么容易:為了避免信息混亂,所有數據需要編目和管理,而這項工作通常需要大數據團隊手動完成。
在很多企業中,數據湖管理和治理框架正處于形成階段,IT和數據管理團隊都在加強治理工具和機制的組合,確保大數據環境的有序性。
在2006年4月部署了Hadoop數據湖的芝加哥保健服務公司HCSC就是這樣,它向數據科學家和其他分析師提供自助服務功能,用于分析整個芝加哥公司運營的源系統數據。但Hadoop集群中的自助服務并不意味著可以自由使用,HCSC的數據建模和架構高級經理Susan Swanson解釋說,“我們需要加強管理和控制,這樣用戶最終可以使用具有一致性的數據。”
標準化工作包括一定程度的數據集成、清理和準備工作,以及數據質量規則、可用數據的目錄和用于跟蹤數據沿襲和填充公共數據字典的元數據存儲庫。Swanson表示:“數據管理很有必要,特別是在大數據和數據湖的運用中。但有效的治理技術在數據湖環境中依然匱乏”
這意味著,與公司現有的數據倉庫相比,HCSC的數據架構和管理團隊必須花更多的時間完善與數據湖治理相關的技術,這樣可以更多地關注解決數據質量問題和其他治理任務。“我們做了很多概念驗證項目”,Swanson說,“這是一種試點方法,我們需要弄清楚如何解決問題,然后引入工具實現自動化。”她舉例說,HCSC最初“拼湊”了一個元數據存儲庫,將HCatalog(一種開源元數據管理工具)與HBase數據庫和Hive查詢引擎相結合。
現在,保險公司正在安裝Apache Atlas,這是一款針對Hadoop的更廣泛的數據治理和元數據框架,該框架于2015年首次發布,仍被Apache軟件基金會指定為“孵化”技術。“這項技術并沒有完全搞定,你仍然需要做很多的變通方案,但我很喜歡其中涉及的很多概念。”
深入數據湖最近的調查顯示,數據湖采用率達到了相當可觀的水平。去年底由IT研究和教育機構TDWI進行的一次調查,252個受訪者中有23%的人表示,他們的企業正在數據湖平臺上運行生產應用,而24%的受訪者表示預計在未來12個月內將開始使用數據湖。Forrester在2016年的調查中也發現了更高的部署率,543個受訪者中有48%表示已實施或正在實施基于Hadoop的數據湖,而31%的受訪者表示計劃在一年內建立。
然而,在TDWI調查中,缺乏數據治理被認為是數據湖部署的最大障礙,41%的受訪者將其列為可能的障礙。TDWI分析師Philip Russom在調查結果的網絡研討會上發表了一篇關于這項調查結果的報告,他指出其中一部分原因是,如果你以前沒有這樣做,這只是一個未知的領域。
提供信貸服務的CoreLogic公司的首席數據官Robin Gordon表示,她希望為在加利福尼亞州的公司采用“工廠裝配線模型”,用于數據湖管理和治理流程自動化。該模型將自動跟蹤數據沿襲和使用權,因此,CoreLogic可以確保數據不會太混亂。“但是現在,在公司基于Hadoop的大數據環境中管理和治理數據,更加需要手動完成。” Gordon補充說。
更多的數據,更大的挑戰位于倫敦的通信和電視服務提供商BT也有類似的情況。BT在2013年部署了一個Hadoop集群,現在將其擴展到企業數據湖,處理來自2500個應用程序的數據源,并支持數千個數據分析人員和業務用戶的自助分析。Jason Perkins是BT的業務洞察和分析架構主管,他表示,無論是在幫助用戶查找數據湖中的相關數據和監控系統中的數據,數據治理都將面臨更大的挑戰。
為了應對這些挑戰,BT采取了一些措施。該公司通過設立一個分析審查委員會來擴充其現有的數據治理計劃。該委員會將審查在數據湖中創建數據沙箱或單個數據視圖的請求。Perkins是該委員會成員,也是數據管理和IT代表,他和他的團隊創建了一個文件,詳細介紹了向數據湖中添加數據的過程。除此之外,他還組建了一個內部Hadoop用戶組,以便討論數據湖的相關計劃,分享關于分析和數據管理最佳實踐的想法。
此外,數據湖團隊正在建立一個名為Midas的本地化元數據存儲庫,該存儲庫包含諸如Oracle Data Integrator和Cloudera Navigator的商業軟件,這是一款與Atlas形成競爭的Hadoop數據治理工具。Perkins說,BT正在外部尋找可能在Midas之上提供額外功能的新興的數據湖管理和治理平臺。
“我不認為BT是元數據軟件公司,”Perkins說,“我們只想填補如今面臨的行業差距。”他說,本土系統至少讓BT完成一些數據治理,確保沒人能夠用BT不想要的數據來污染數據。