存儲的數據只是大量混雜的信息,直到人們可以將其轉化為可操作的信息,并且有時需要多年的收集數據才能夠達到這一點。需要長期收集的數據的例子包括:采用新工藝、藥物或設備進行的醫學試驗,基于不經常發生的外部因素的團體行為,以及氣候變化等。
對于數據就是知道自己不知道的事物。一個很好的例子就是“垃圾DNA”,這個術語來自20世紀70年代和80年代,是用于描述處在染色體之間的DNA。到了2000年代,人們發現一些“垃圾”DNA能夠調節染色體復制的方式和時間。人們存儲這些數據的好處是,當時每個字節的存儲成本很高。這在當時成本很高,而更高的成本是測序DNA的成本,這也是它需要保存的原因。從歷史上看這很常見,收集數據的成本很高,存儲數據的成本也很高,所以人們需要感謝那些之前做正確事情的人。他們存儲了這些原始數據,因為人們從中學到了很多東西。
人們知道天氣預報中心每天都會收集所有氣象數據,其中包括預測模型的輸出。當這些網站有一個新的預測模型時,他們通過新模型運行舊數據,并查看模型輸出和觀察結果,以查看新模型是否比舊模型好多少。在一個城市實施似乎很容易,但在國家范圍和全球范圍內做這件事需要處理和對比大量的數據和信息。
因此,存儲和數據架構師面臨的挑戰是通過開發滿足性能、可擴展性和治理需求的體系結構來保存這些數據。
什么是信息管理?
自從數據收集開始以來,收集數據的重點就是要了解所收集的所有數據。人工收集數據并進行分析是非常耗時的事情,將數據轉換為信息花費的時間既耗費時間又成本高昂。
信息的現代起源于1890年美國人口普查使用Hollerith穿孔卡片,雖然它們是空白的,不像人們可能目前看到的格式化卡片,而在當時,大量數據沒有工具來分析數據,并且將其轉化為信息的成本相當高昂,而在1890年人口普查之前,這都是人工完成的。
顯然,按照現在的標準,1890年人口普查中產生的信息非常簡陋。但根據19世紀90年代的標準,人們可以如此迅速地觀察人口普查結果并作出決定(例如基于數據的可操作信息),這是一種革命性的舉措。
如今,人們不會將1890年人口普查數據信息中的數據列入表格。信息的定義(僅僅與數據相比)應該以時間標準為基礎,現在很多領域的定義正在迅速演變。
信息分析市場的規模和范圍正在不斷擴大,從自動駕駛汽車到安全攝像頭分析,再到醫療發展。在每個行業中以及人們生活的每一個部分,都發生了迅速的變化,并且速度在加快。所有這些都是數據驅動的,而收集的所有新舊數據都用于開發新類型的可操作信息。而圍繞收集的所有數據和開發的信息,有很多問題被需要詢問。
這對組織意味著什么?
人們所擁有的信息和數據的類型有很多要求。有些可能會涉及到使用所謂的DAR(空閑時數據加密),它需要加密存儲設備,以防從系統中刪除時,數據幾乎或完全不可訪問(其難度取決于加密算法和大小、設備的密鑰或密鑰的復雜性和熵)。
從數據治理的角度理解數據或產生的信息所需的內容是基于組織所在的行業或法規以及美國國家標準局(NIST)、ISO、HIPAA、SEC、GDPR等機構的最佳實踐。由此產生的體系結構或程序變更是組織作為架構的一部分需要解決的事情。
組織的合規團隊很清楚自己需要保留數據或信息多長時間,但還需要解決許多其他需求,以確保在性能、可用性和數據完整性方面滿足業務目標,所有這些都需要在數據和信息的生命周期內解決。
最后的想法
遵守法規并不容易,也不是免費的。其成本取決于很多因素,但是在架構規劃和構建之后嘗試強制遵從總是比預先制定的成本要高得多。
在確定合規要求時,組織應該關注未來發展,而不是現在,因為事后必須承擔成本并面臨挑戰。這意味著需要不斷研究組織所在行業的合規要求以及最佳實踐。數據只會在未來變得更加重要,人們將會面臨這些挑戰。