幾乎每個經歷了數字化轉型的企業都在努力地利用收集到的大量數據。實際上,對于大多數企業來說,85%~95%的數據從未得到充分利用,因此會造成浪費。
數據的生命周期有許多階段,其中包括數據獲取、創建數據工程/數據集以賦予原始數據意義、大容量存儲數據以供進一步使用和分析、創建數據庫以探索數據,最后,還可以使用高級分析或機器學習從數據中提取見解,同時保持數據安全和完全的合規性。許多企業面臨的挑戰是如何更好地組合這樣的系統,同時保持合理的成本并最大程度地減少部署和運營的時間,以及如何以更具意義的方式呈現數據,以便人們能夠從中獲得見解。
企業需要的是處理從數據采集到分析的整個數據生命周期的方法,同時還要保持開源的優勢以及利用內部部署或混合云計算的能力。數據倉庫可以處理存儲和交付,但它們不能提供完整的解決方案。許多組織已經實現了數據云,無論是通過純粹的開源產品(如Apache Hadoop)還是商業產品(如Talend、Informatica、Amazon Redshift、IBM、SAP、Oracle等),但這并不能解決整個數據生命周期方面的挑戰,通常會迫使企業使用許多可能難以集成的附加異構產品。
盡管開源軟件/系統似乎非常有吸引力,尤其是從成本角度來看,但“自行開發”實施功能解決方案的方法通常充滿挑戰,而其“免費”并不是真正的“免費”。通過選擇一個完整的解決方案,可以顯著減少全面運營的時間,同時也降低了持續運營和支持的復雜性。從長遠來看,這種方法可以為企業部署節省大量的投資。根據調查,復雜性和集成挑戰會導致多達50%~65%的企業系統達不到預期或全部失敗。此外,非優化系統的持續維護成本會對運營預算造成重大影響,估計這些成本可能是完全集成的解決方案成本的2~5倍。
除了增加以及對多種技術和可用資源有更多的需求之外,還有一個問題是,導致洞察延遲,并且可能永遠無法實現。而采用基于開源的解決方案要有效得多,它已經創建了所有必要的集成,以構建可以輕松快速地實施并最終得到有效支持的完整系統。
作為更完整的數據生命周期解決方案的一個例子,Cloudera公司創建了一個與其Cloudera數據平臺(CDP)的集成方法,不僅包括數據采集和存儲,還支持機器學習和縮短洞察時間,同時還包括一個配置文件驅動的分層數據安全方法。它將數據采集、數據流、數據工程、數據倉庫、數據庫和機器學習(ML)集成在一個可擴展的框架內,并允許根據需要從不斷擴大的合作伙伴生態系統中集成其他功能。它可以在內部部署、混合云或公共云上工作,當部署為云計算實現時,它實際上可以消除與單個組件部署相關的延遲,從而可能節省獲得數據洞察的時間。
在許多企業中,這一點至關重要,因為這種延遲可能會面臨高昂的成本或重大損失。例如,欺詐檢測延遲幾分鐘或幾小時可能會導致巨大損失。根據美國銀行家協會發布的2019年存款賬戶欺詐調查報告,美國銀行領域在2018年阻止了針對存款賬戶高達223億美元的欺詐攻擊。雖然金融欺詐分析通常被認為是此類數據分析系統的主要應用,但這只是冰山一角。
對健康數據/趨勢的延遲分析可能會造成病毒在未被發現的情況下傳播,同時也會因為缺乏適當的診斷和后續治療措施而帶來挑戰。隨著醫療機構越來越多地使用遠程醫療會話程序,并越來越依賴遙感器監測和動態的健康分析,準確地收集數據至關重要,因為任何由于錯誤數據而導致的誤診都會給患者和醫療系統帶來重大損失。
研究表明,誤診損失的費用占到醫療總費用的30%。美國2018年在醫療保健方面的支出約為3.6萬億美元,平均每人約支出11,000美元。為了使遠程醫療系統發揮更廣泛的作用,就必須擁有更強大的數據生命周期解決方案,從而消除或至少在很大程度上減少誤診及其相關問題。此外,采用在不同組織間共享個人數據的方法,以便更好地評估趨勢并提供更精確的分析,這是加強數據生命周期管理過程至關重要的另一個原因,它可以保護機密性并滿足所有相關的法規遵從性問題。零售業、制造業、制藥業、運輸業等行業領域都將從這種數據生命周期管理方法中受益。
結語
當人們進入一個數據驅動和數字化轉型的世界時,必須具有一個更具包容性的數據生命周期管理平臺。在許多企業中,容易因為缺乏及時的洞察力會造成重大的財務或物理損失。企業應該采用一種平臺方法來管理數據生命周期,這種方法不需要廣泛的內部集成,也不需要延長部署周期,無論是對于大型跨企業項目,還是對于快速啟動的單個或小型團隊項目。為了實現這一目標,采用集成的數據生命周期平臺解決方案至關重要。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。