數據湖架構面向多數據源的信息存儲,包括物聯網在內。大數據分析或歸檔可通過訪問數據湖處理或交付數據子集給請求用戶。但數據湖架構可不僅僅是一個巨大的磁盤而已。
盡管IT部門起初更多擔憂的是數據湖的成本,但數據持久性和安全卻是需要優先考慮的因素。很多選擇都能交付一個合理的成本,但并非所有都能滿足數據湖的長期存儲需求。挑戰就在于數據湖中很多數據永遠不會刪除。這種數據的價值在于它要那來分析以及和年復一年的數據進行比對,這將抵消其容量成本。
這就是所謂的數據持久性——對于那種一經存儲未來5-10年都有價值的數據,它必須是可讀的。所有形式的介質都將隨時間推移降級。數據湖存儲系統必須通過持續的檢查避免這種降級。如果發現有損壞或降級的數據集,系統就會利用復制或糾刪碼制造副本。
在數據湖架構中,信息安全作為另一項挑戰往往被人忽視。相比于其它,這種類型的存儲安全要更加重要。數據湖架構從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數據。很多數據都以已于讀取的格式存儲,像是JPEG、PDF文件——如果你的數據湖架構不夠安全,那么信息損失很容易。
因此建議實現多個級別的安全控制,例如:
加密數據湖中所有數據。由數據類別和單獨的鍵值生成的加密將有效的限制數據泄漏,并不影響應用訪問。
數據湖中所有數據副本應離線存儲于另一位置。