當前位置：大數據 → 方案 → 正文

非結構化數據需安全保護的“三態”

責任編輯：editor004 |來源：企業網D1Net 2014-02-07 11:25:28 本文摘自：TechTarget中國

目前企業已經進入全新的大數據時代。在高帶寬、移動的、網絡環境中工作和生活的我們，會產生大量的數據，這些都成為大數據的來源，而這些信息很少存在于同一個地方。在幾微秒中，信息就能夠發布給世界各地的很多人。企業的高管門（包括CEO、CIO、CSO等）都必須面對因為大數據帶來的風險和安全挑戰，并規劃好如何去應對他們。本文將討論如何看待非結構化數據相對于傳統的結構化數據帶來的安全風險和挑戰以及多層面防護方法。

識別非結構化數據與結構化數據安全保護的差異

信息通常被歸類為結構化形式的或非結構化形式的。不同的類型有不同的保護方法。舉個例子來說，非結構化的Excel電子數據表實際上包含結構化的數據。在經典的術語中，結構化的數據是指數據符合某種嚴格的數據模型和限制的模型。比如，模型可以定義一個業務流程控制信息流經過一些面向服務的架構(SOA)系統，或者也可定義數據如何在內存的一個數組中存儲。但是對于大多數IT和數據庫管理專家來說，結構化數據是駐留在數據庫中，并基于數據庫架構和相關數據庫規則被組織的信息。而作為一個安全專家來說，這就意味著兩個重要的事情：

數據庫駐留在數據中心，周圍是物理安全設施（包括磚墻、金屬柜子等）、網絡防火墻和其他安全措施，允許你能夠控制對數據的訪問。數據本身的結構化方式通常允許對數據的簡單分類。舉個例子，你能在數據庫中識別一個特定的人的醫療記錄和應用相應的安全控制。

所以，因為你知道結構化數據是什么樣的以及它駐留在哪里，你有嚴格的控制機制來決定誰能訪問它。對于結構化數據定義和應用安全控制相對簡單，要么使用結構內置的特性或者專門為特定結構設計的第三方工具即可完成控制。

而在相比之下，非結構化數據的管理和安全更加困難。非結構化數據能在任何地方、以任何格式、在任何設備上存在，并且在大數據時代能夠跨越任何網絡。舉個例子說明非結構化數據的應用復雜性，一個病人的記錄從數據庫中被提取出來顯示在一個網頁上，從網頁拷貝到數據表格中，附在電子郵件中，然后發送到另外一個網絡的郵箱中。

并且，非結構化的數據沒有嚴格的格式。當然，我們的Word文檔，電子郵件等符合定義它們內部結構的標準；然而，它們其中包含的數據幾乎沒有限制。比如上面列舉的那個病人記錄的例子，假設一個用戶改變內容后把它從網頁上拷貝到數據表格中，可能刪除了某些字段和標題。因為這個信息從一種格式轉變成了另外一種格式，它原始的機構被有效的改變了。

保護存儲成結構化的數據和信息是相對簡單的。但是隨著一個信息從結構化的形式移轉變為非結構化的時候，這個情況就會變得非常的復雜。考慮這樣一個例子，很多分析人士的報告表明在當前的企業組織中，80%或者超過80%的電子信息是非結構化的，還有非結構化數據增長的速度是結構化數據的10到20倍。也考慮一下媒體上的新聞文章不斷強調知識產權的竊取、信息的意外丟失、數據的惡意使用等，最核心的問題就是非結構化的數據。在2010年，全球總的非結構化的數據估計大概有100萬PB(1048576000000GB)，被認為將以每年25%的速度增加。我們顯然需要去理解我們如何保護非結構化數據的安全。

非結構化數據需安全保護的“三態”

非結構化的數據在任何給定的時間總是處在三種狀態中的一種：非使用、傳輸中、使用中。非使用也就是在存儲設備中；它可能在傳輸中意味著它從一個地方被拷貝到另一個地方。或者，它可能在使用中（被一些應用程序打開著）。比如一個PDF文件，它可能存儲在一個USB設備上，不在使用狀態；同一個PDF文件可能從USB設備拷貝，并附在電子郵件中發送到因特網上。PDF從USB設備上被拷貝，通過很多州到電子郵件服務器，通過網絡從發件箱到收件箱。最后，收件人收到郵件并打開PDF文件，在那個時刻非結構化數據處于使用狀態（駐留在內存中），在一個應用程序的控制下(例如Adobe Reader閱讀器)，并被呈現給可以交互的用戶。

關鍵字：非結構化數據安全數據增長