今天數據正在以前所未有的速度產生,每一個新的技術都將進一步推動這種趨勢。物聯網(IoT)、機器學習和醫療保健數字化,產生數據的速度很快就達到每秒數百萬千兆字節。根據IMB的一項研究,自動駕駛汽車也將很快加入——到2020年每秒將生成350MB的數據。
數據的產生與收集已經在企業中根深蒂固,時刻上演著大量數居的記錄與分析。但是,這些數據的存儲庫并不總是結構化和一致的。事實上,未知的和未使用的數據催生了一個新的術語——“黑暗數據”。
如果我們不改變存儲、管理、結構和分析數據的方式,大部分數據都將變得毫無價值。IMB同一研究表明,今天收集的所有數據中有80%是“黑暗的”,也就是說,這些數據是無效和不連貫的。未來數據量越大,“黑暗數據”引發的黑洞也就越大,導致的問題與挑戰就越嚴重。
存儲和安全
最大的挑戰是,“黑暗數據”不僅難以分析,而且也容易導致存儲問題。大量的非結構化數據——MS Office文件、即時消息、電子郵件、社交媒體帖子等形式獲得的數據就屬于此范疇。
目前存儲大數據的方式包括混合云、閃存存儲、智能軟件設計存儲(I-SDS)和冷庫歸檔。雖然存儲本身相對便宜,但是大型數據中心的維護和能源消耗產生的成本可能是一個天文數字。
安全性是與數據相關的另一個問題——無論是存儲在云上還是本地基礎設施上。由于數據源繁多,以及分布式計算在數據分析中的普及,均為數據泄露提供了眾多機會。
質量與數量
對于大數據來說,組織迫切需要關注質量數量。一般來說,數據集越大,其質量越低。這樣清理數據將比分析數據涉及更多的工作。但是,通過僅收集有意義的數據可以減少這種精力消耗。組織應努力收集來自內部和外部來源的高質量數據。但是,這種嘗試減少“暗數據”的收集并不總是可行的,在這種情況下,數據探索成為重要的一步。
數據探索是確定數據集質量的過程,即使我們不知道我們正在尋找什么,也能有效地從數據中提取知識。在大數據分析中,最小的錯誤可能會引發隨后的錯誤計算,從而使整個分析無法使用。使用數據探索,分析人員可以識別在進行清潔和策劃的昂貴且耗時的步驟之前可能存在的任何錯誤。
大數據分析肯定會在未來幾年甚至幾個月內發生變化。認知計算已經準備好利用人工智能挖掘出幾乎零錯誤的短距離數據集。然而,盡管如此,減少和簡化收集的大數據的需求仍然比以往任何時候都重要。