根據三星公司的調查,2016年全球互聯網流量超過了1ZB,即10億兆字節。這個數字是巨大的,但這個數據量與全球各企業正在存儲的全部數據相比還相差甚遠。
更重要的是,在大多數公司中,數據處在“管理之下”的這個用詞有些不當。
數據管理挑戰的關鍵領域是:
•理解暗數據
•數據保留
•實現最佳分析結果的數據集成
•數據訪問
IT部門在這些領域進行艱苦努力的原因如下:
•所有類型的輸入數據流(其中大部分是非結構化的)太大,無法每天進行管理,因此最終將數據放在任何地方。
•電子發現和行業法規對歷史數據的法律和審計流程的要求使得業務決策者不愿放棄數據,最終用戶并不喜歡在年度審查會議上討論數據保留政策。
•數據集成是IT部門面臨的最困難的任務之一,像數據聚合這樣的概念在分析中發揮更大的作用才會加強,因此看似不同的數據集合可以組合成可搜索的存儲庫,用于新型的業務查詢。
•快速訪問數據是一種業務需求,但是高端存儲在現場或云端的價格昂貴,因此一些數據必須歸檔到速度更慢,成本更低的存儲空間中。為了解決這些問題,組織管理層將項目的人力物力主要放在了其他重要的目標上。
現在的問題是:機器學習、人工智能(AI)和分析學是否能在數據管理方面提供幫助,特別是對于大量非結構化數據?
以下是機器學習,人工智能和分析可以在以下幾個方面提供幫助:
(1)暗數據排序
每個企業系統和每個業務部門都有一些積累的數據,但是人們對此一無所知。通過使用機器學習并結合其功能與算法,可以解決如何排序和處理存儲在服務器上的不同類型的電子郵件,文檔,圖像等文件,機器學習,人工智能(AI)和分析可以對這個未發布的數據進行處理,而經驗豐富,知識淵博的工作人員可以查看和回顧自動化推薦的數據分類方案,調整并執行方案。該過程的一部分還可以解決數據保留問題,其分析將產生一組可能從文件中清除數據的建議。
(2)決定丟棄哪些數據
機器學習,分析和人工智能(AI)可以客觀地識別那些很少使用或從未使用過的數據,并建議工作人員將其丟棄,但它并不具備與工作人員相同的識別能力。例如,這些進程可以選擇未訪問五年以上的數據或記錄,表明數據可能已過時。這樣可以節省員工的時間來查找這個潛在的過時數據,因為現在他們需要做的只是確定是否有任何理由保留它。
(3)匯總數據
當分析開發人員確定需要聚合查詢的數據類型時,他們常常為應用程序生成一個存儲庫,然后從不同的源中提取各種類型的數據,以形成一個分析數據池。要做到這一點,他們必須開發集成方法來訪問不同的數據源。機器學習可以通過自動開發數據源和應用程序的數據存儲庫之間的“映射”,使這種人工過程更加高效。這減少了集成和聚合時間。
(4)組織數據存儲以獲得最佳訪問
在過去的五年中,由于低成本固態存儲的發展,數據存儲供應商已經在自動化存儲管理方面取得了重大進展。這些技術進步使IT部門能夠使用“智能”存儲引擎,使用機器學習來查看最常使用哪些類型的數據,哪些數據很少使用或從不使用。根據插入到機器算法中的業務規則,自動化能夠以快速存儲或慢速存儲來自動存儲數據。自動化可以讓存儲管理員不必人工解決存儲優化問題。
數據管理是一個主要的IT挑戰,在大多數組織中并沒有很好的解決方案,這是因為隨著數據的不斷流入,數據管理將會變得更糟。
首席信息官,數據架構師,以及存儲管理者需要向企業高管強調這個問題,但數據管理項目并不容易通過花費費用來解決。
然而,IT經理通過指出數據管理的分析時間,以及可以降低人力和存儲成本的價值,至少在與企業管理者討論如何提高戰略敏捷性并降低運營成本的同時,這將成為一個至關重要的切入點。