對于大數據,你必須明白,它不僅意味著更多數據,它也意味著更復雜的數據,更敏感的數據,它還意味著可能向成功滲入網絡的攻擊者暴露更多數據。如果潛在攻擊者知道你有大量高質量數據,這可能會增加你的攻擊面,因為你被視為是極具吸引力的目標。當你進行企業風險分析時,應該考慮這一點。支持大數據的IT部署與支持數據的操作更相關,而不是數據的安全性。可擴展基礎設施、并行處理、數據復制和大量內存中處理只是關于大數據操作的一些討論。但對于我們這些安全人員來說,大數據安全意味著什么?
1.了解數據
你擁有大量數據,但是你了解這些數據嗎?你有PCI數據,還是PHI數據,還是隱私企業數據/客戶數據?在你擔心別的事情之前,你需要了解大數據中包括哪些數據。了解大數據可以幫助你更好地管理這些數據,并讓你能夠發現異常數據。清理不相關的或者錯誤的數據是不可以掉以輕心的工作。
2. 基礎設施問題
可用性絕對是一個安全問題,所以請確保你具有適當大小的基礎設施。你的網絡速度足夠快以支持數據吞吐量需求嗎?你具有足夠的CPU容量來支持數據在應用程序、數據庫和存儲設備間的移動和管理嗎?你有足夠的磁盤空間來存儲這些數據嗎?你有足夠強大的硬盤管理程序嗎?這些都是管理大量數據所需要考慮的標準IT問題。在很多方面來看,數據越多,越難保護,你的解決方案需要隨著數據的增加和數據需求來擴展。你可以實時加密PB級或EB級的數據以確保數據滿足業務要求(包括會議時間要求)嗎?
3. 了解時序限制
時序是非常重要的因素。你的數據有生命周期嗎?例如,從時序性來看,臨床醫療信息顯然要比典型的制造業指標數據更重要。更直白地說,有些數據如果不能及時管理和分析的話,將會失去部分價值。你認為如果Phalanx導彈防御系統花五分鐘來評估威脅和響應,這個系統還會有任何價值嗎?答案顯然是否定的。這無疑推動了IT容量和吞吐量要求,有時候,時序性并不重要,不過在很多情況下,舊數據可能已經不相關了,數據的生命周期比我們想象的更重要。
4. 了解內容數據
這是對上述三個問題的直接擴展,幫助我們了解大數據。當數據有具體內容,我們可以將其作為信息來管理,而不是字節和比特。它是PHI數據,還是PCI數據,或者個人信息?我們可以更深入地挖掘這種數據,通過內容來管理這些數據,而不只是將其作為“數據”對待。以智能的方式來處理這些數據還可以讓我們以類似的方式來處理具有類似內容的數據,我們可以在這些數據間建立關系。
我們需要處理大量具有潛在價值、動態的、復雜的數據,然后對這些數據進行內容分析。這些分析本身,以及用于創建這些分析的流程,也是非常有價值的。畢竟,如果我們不能從大數據分析中得到相關情報信息的話,大數據真的只是一堆數據。這也讓我們認識到有必要保護這些分析建模和結果,以及對它們的訪問。