“安全與隱私”自大數據概念誕生以來便一直伴隨其左右。
在這個數據大爆炸的時代,企業通過大數據可以更加高效的洞察和預見消費者行為以及行業趨勢,但同時也伴隨著安全性的困擾。能否保護自己的隱私安全、信息安全,成為了企業部署大數據之前擺在面前的首道難題。
Hadoop作為大數據的首選平臺,從開發之初也一直被籠罩著安全性問題。
曾有開發者指出,“當Hadoop在2004年開始開發的時候,對如何創建一個安全的分布式計算式環境上沒有考慮,Hadoop框架對用戶及服務的驗證和授權嚴重不足,用戶可以仿冒任意一個HDFS和mapreduce上的用戶,惡意的代碼可以以任何一個用戶提交到Job tracker”。他還提到,到了2009年,關于hadoop安全性的討論已經接近白熱化了,安全被作為一個高優先級的問題擺了出來。
雖然,Hadoop在面對多數據源的數據聚合與數據分析方面性能表現得十分高效,但也不能忽視由此帶來的安全性風險。
國外專家指出,Hadoop在應對企業的海量數據分析時,表現得靈活自如。但也不能忽視Hadoop引入的一系列新問題,包括安全性,數據訪問,數據監控,HA,業務數據連續性等各個方面。這些問題是企業必須面對的問題。
在惠普公司企業安全產品部北亞區總經理姚翔看來,大數據現在是一個很大的趨勢,預計未來五年之內,大數據在中國市場將平均增長51%。而其中,安全一定是不可回避的話題。雖然大數據尚處于初級階段,但在構建數據庫和數據中心云的時候都必須有安全的考慮,如果沒有安全,構建再大的業務系統可能最后的損失也會很大。
雖然業界普遍關注安全問題,但往往都是在實施后或者在實施過程中開始考慮。
實際上,在啟動大數據項目之前要考慮安全問題,才能做到未雨綢繆從容應對。不應該等到發生數據突破事件之后再采取保證數據安全的措施。
大數據的安全性問題應在部署之前便加以考慮
分析機構Dataguise最近發布了Hadoop十大數據安全措施,其中首條便指出,數據隱私措施越早越好。分析認為,通過及早啟動并建立敏感數據預案,企業能盡早發現Hadoop環境中的敏感數據,分析合規風險并合理采用數據保護技術,這不但能大大降低數據泄漏和合規風險,還能提高大數據項目的投資回報。
以下是Dataguise列出的十大數據安全措施:
1.數據隱私措施越早越好。在規劃階段就明確數據隱私保護策略,最好在將數據導入Hadoop之前完成,這可以防患未然。
2.明確你所在企業中哪些數據元素屬于敏感數據。充分考慮企業的隱私政策,相關行業規定和政府法規。
3.審視分析環境和裝配Hadoop系統的過程中是否藏有/夾帶敏感數據。
4.收集足夠信息來明確合規風險。
5.明確業務分析是否需要訪問真實數據,或“脫敏”數據能否使用。然后選擇合適的敏感信息遮擋和加密等矯正技術(masking or encryption)。遮擋(masking)技術提供最好的安全性能,而加密則更具靈活性,視將來的需要而定。
6.確保數據保護方案能夠同時支持遮擋和加密兩種數據矯正技術,尤其是當需要將經過遮擋處理和未經遮擋的兩個版本的數據分別存放于不同的Hadoop目錄下的時候。
7.確保數據保護技術對所有數據文件提供一致的masking方式,這樣可以保證在各個數據匯聚維度上的分析的準確性。
8.確定特定數據集是否需要定制的保護方案,出于數據單元安全管理的需要,可以考慮將Hadoop目錄劃分成更小的群組。
9.確保你選擇的加密方案與企業的訪問控制技術能夠互操作,這樣特定級別和身份的用戶只能訪問Hadoop集群中特定的數據范圍。
10.當需要使用加密技術的時候,確保部署合適的技術(Java、Pig等)實現無縫加密,同時確保對數據的無障礙訪問。