大數據策略會失敗嗎?是時候該討論一下這個問題了。企業才剛剛掌握如何集成ERP(企業資源規劃)及其他業務應用來消除業務流程中妨礙效率的孤島。面向服務架構、軟件即服務、云計算及其他現代化解決方案在協助企業實現大型應用集成過程中都發揮了一定的作用。但是如今,在大量數據的環境中組織正面臨新的一系列挑戰。更清楚地說,它不是一條數據流。它是由許多獨立的數據流組成的,使數據互相分離或者就像以前的企業應用那樣將孤立起來。
這不是因循守舊
這些數據中有許多都不像那些企業用處理的數據那樣。在大規模結構化數據環境中,數據激增所面臨的大部分挑戰都可以通過擴展、冗余及分析而得到解決。大數據時代,以上這些挑戰僅僅是企業必須解決的小部分問題。如今收集到的數據類型來源非常廣泛。數據通過嵌入式傳感器、RFID芯片、箱子和音像供給、文檔和圖像文件、圖像等其他方式而傳輸到數據庫中。社交媒體會改變數據應有的形象。這還不包括業務伙伴之間所共享過的大數據。
組織不再描述或者規定數據所要展現的形式。實際上,如果嘗試這樣做,會大大地降低數據本身的價值。企業僅能預測一定數量的潛在情節或者反應。無論他們創建了多少復選框或者數據文件,總會有數據溢出的現象。從競爭的角度來說,忽視那些非傳統數據的后果是極具破壞性的。最近麥肯錫全球研究院進行了一項研究,題目為:大數據是創新、競爭、生產率領域的下一個研究方向,研究表明如果企業未能充分利用現有的數據,那么該企業將虧損數千億美元。
關系數據庫僅能提供部分解決方法
由于數據量大而且種類不同,因此采用工具和技術管理非結構化數據就變得非常困難。非關系型NoSQL、XML以及關鍵/數值數據存儲都可以協助企業解決多數大數據的可伸縮性和可訪問性問題。例如Hadoop這樣的解決方案使用MapReduce及Hive Query Language,為企業提供管理大數據的一個起點,并獲取商業情報。如MongoDB和Cassandra這樣的NoSQL數據庫管理系統已經實現Hadoop集成,使客戶獲得至少一個客戶端接口或者覆蓋連接不同的數據流變得更加容易一些。
如今數據本身在企業中變得更加靈活。并行流程及智能數據將JitterBit這樣的工具分塊應用,將其設計成允許數據從一個應用程序傳輸到下一個應用程序,并保證傳輸的數據質量。這種通過數據類型及應用進行的集成對于時間敏感的企業活動來說非常重要,這些活動中也會涉及即時分析。一般地,這種形式的分析必須查詢當前數據和歷史數據,來識別新趨勢。這就是SQL經常再次發揮作用的原因。
SQL、NoSQL以及大數據技術
新型數據的來臨并不是否定過去幾十年精心收集并整理出來的業務數據。SQL數據存儲中的內部企業數據可以解釋大數據與其他數據在精確性及相關性之間的差異。多數組織發現他們仍然需要為了企業數據而保持SQL結構,來支持企業最佳業務實踐。將一切數據變為非結構化格式并不是集成,這僅僅是趨同化處理。與此同時,試圖迫使結構化數據向非結構化數據轉變也都是白費力氣的努力。
從企業角度來說,集成的目標并不是關注數據結構化而是關注組織化。像新型Oracle Data Integrator這樣的工具試圖通過加載和轉換數據的Hadoop來尋找平衡點,所以,結合傳統企業數據就更容易進行分析。分析流程中,這種方法使得來自多種信息源及存儲中的數據相融合,此時就更需要數據集成。這種折中的方法使得原始數據比最初的狀態更加自由,維持這種隱含價值可能更適合于未來分析的新方法。