今年四月,西雅圖的氣溫已經達到華氏90度。這不是抱怨,但人們絕對相信全球變暖正在發生,需要做出一些改變來解決它。但本文并不討論關于氣候變化問題,而是關于數據的問題。具體而言,這是關于非結構化數據的增長問題,如果我們繼續否認這個問題,并忽略警告的話,將會面臨悲觀的命運。這聽起來是不是很熟悉?
人們很難對非結構化數據增長的證據進行爭論,估計會與研究機構所公布的有所不同,但普遍的共識是,直到2020年將會產生40-50澤字節,其中非結構化數據將占80%-90%。
是什么推動了非結構化數據的增長?
數據增長來自于很多地方。當然也有像4K高清電影、電視節目、電影、圖片,以及我們每天都在使用的智能手機的圖像,但是非結構化數據的增長源要這些廣泛得多。還有在各種不同行業的大量機器和傳感器,例如,工程和設計,金融服務,地理空間探索,醫療保健,以及更多的數據驅動的行業日常產生的大量數據。隨著攝像頭分辨率和保存時間的增長,單是視頻監控每天產生的非結構化數據幾乎達到艾字節。
這些不同的數據集具有一些共同的特點。通常情況下,它們分別是:
·大文件的組成;
·即不可壓縮的數據,如重復數據刪除技術無法有效降低數據;
·對創造數據的公司、部門或用戶有一定的價值;
·保存多年。
與全球變暖的相似之處
那么,非結構化數據的增長如何像全球變暖一樣?
人們所表現的就像是不存在這樣的問題:公司每天產生的數據都在噴涌而出,越來越多的非結構化數據進入到他們的IT環境,但是當它涉及到管理這種增長時,一切照常。盡管所有證據與之相反,許多企業仍在嘗試使用數據存儲,他們一直使用相同的方法來管理和存儲非結構化數據集,他們把數據都存儲在磁盤上。這種方法開始分解在數據的規模和比例。超出生長成本以外,隨著時間的推移,將內容攝取到存儲系統的速度不夠快,隨著時間的失衡,其能力下降,而傳統的備份方法不再足以保護數據。
對于這些龐大機器和傳感器生成的數據集,明確了不同的方式來存儲和管理這個數據是必需的。
這樣的例子不勝枚舉,但問題是,對于這些類型的數據集,冷數據變得更有價值或變得更“熱”,需要改變數據的存儲方式。即使需要保持用戶訪問的歸檔數據。
·有關電影或電視演播室生成的視頻內容,可以重新利用并重新分配,想想“幕后”你最喜歡的電視真人秀節目。
·零售企業分析視頻監控錄像,跟蹤購物模式,并使用洞察力,以增加銷售。
·科學家們能夠在幾年前的數據集上進行分析,以獲得新的見解,并在他們的領域推進新的創新。
·自主轎車開發者使用在早期試駕生成的視頻和傳感器數據,使自動駕駛汽車更加安全高效。
對于這些類型的數據集,因為冷數據變得更有價值或“升溫”,該數據的存儲方法需要改變。即使存檔的數據需要保持用戶的訪問。
現在有必要行動。在你下一個大訂單的磁盤存儲之前,現在是停止和考慮其他的替代品。堅持現狀是最簡單的方法,也是一個導致多余的存儲成本和效率低下的問題。
這個解決方案是什么?
為了解決這個問題,我們首先介紹一下可能是一個新的術語:數據工作流。在某些行業中,這是一個共同的術語,但對于許多行業來說,它可能是一個新概念,盡管是一個直觀的概念。所有這些非結構化的數據集,這是迄今為止與之相關的一個工作流。它看起來像這樣的東西:數據被產生或捕獲,攝入到存儲系統,并進行存儲和處理,以達到一定的結果(通常需要許多用戶之間的協作),然后數據歸檔長期保存和重新使用。這個過程對使用存儲系統更加有效,該存儲系統從一開始就為特定的數據集的工作流程所定制。
當需要時,工作流存儲必須處理高性能攝取。在網絡上共享也同樣關鍵,以獲得協作的能力,以及降低存儲的成本,例如采用磁帶,同時保持在網絡上的用戶和應用程序需要訪問的數據。這是最后一塊真正能走出來的存檔數據的方式,不會破壞其價值和能力。
這個以工作流程為基礎的存儲方法,與將所有數據保存在閃存或機械磁盤相比,其結果顯著降低了成本,并使其他組織可以存儲更多的自己的數據。
而且兼顧環保節能
通過使用分層存儲,可以將這些數據保存在低成本、低功耗的存儲介質中,例如磁帶,你實際上是在做一部分有益于環境的事,以應對全球變暖。