大數(shù)據策略會失敗嗎?是時候該討論一下這個問題了。企業(yè)才剛剛掌握如何集成ERP(企業(yè)資源規(guī)劃)及其他業(yè)務應用來消除業(yè)務流程中妨礙效率的孤島。面向服務架構、軟件即服務、云計算及其他現(xiàn)代化解決方案在協(xié)助企業(yè)實現(xiàn)大型應用集成過程中都發(fā)揮了一定的作用。但是如今,在大量數(shù)據的環(huán)境中組織正面臨新的一系列挑戰(zhàn)。更清楚地說,它不是一條數(shù)據流。它是由許多獨立的數(shù)據流組成的,使數(shù)據互相分離或者就像以前的企業(yè)應用那樣將孤立起來。
這不是因循守舊
這些數(shù)據中有許多都不像那些企業(yè)用處理的數(shù)據那樣。在大規(guī)模結構化數(shù)據環(huán)境中,數(shù)據激增所面臨的大部分挑戰(zhàn)都可以通過擴展、冗余及分析而得到解決。大數(shù)據時代,以上這些挑戰(zhàn)僅僅是企業(yè)必須解決的小部分問題。如今收集到的數(shù)據類型來源非常廣泛。數(shù)據通過嵌入式傳感器、RFID芯片、箱子和音像供給、文檔和圖像文件、圖像等其他方式而傳輸?shù)綌?shù)據庫中。社交媒體會改變數(shù)據應有的形象。這還不包括業(yè)務伙伴之間所共享過的大數(shù)據。
組織不再描述或者規(guī)定數(shù)據所要展現(xiàn)的形式。實際上,如果嘗試這樣做,會大大地降低數(shù)據本身的價值。企業(yè)僅能預測一定數(shù)量的潛在情節(jié)或者反應。無論他們創(chuàng)建了多少復選框或者數(shù)據文件,總會有數(shù)據溢出的現(xiàn)象。從競爭的角度來說,忽視那些非傳統(tǒng)數(shù)據的后果是極具破壞性的。最近麥肯錫全球研究院進行了一項研究,題目為:大數(shù)據是創(chuàng)新、競爭、生產率領域的下一個研究方向,研究表明如果企業(yè)未能充分利用現(xiàn)有的數(shù)據,那么該企業(yè)將虧損數(shù)千億美元。
關系數(shù)據庫僅能提供部分解決方法
由于數(shù)據量大而且種類不同,因此采用工具和技術管理非結構化數(shù)據就變得非常困難。非關系型NoSQL、XML以及關鍵/數(shù)值數(shù)據存儲都可以協(xié)助企業(yè)解決多數(shù)大數(shù)據的可伸縮性和可訪問性問題。例如Hadoop這樣的解決方案使用MapReduce及Hive Query Language,為企業(yè)提供管理大數(shù)據的一個起點,并獲取商業(yè)情報。如MongoDB和Cassandra這樣的NoSQL數(shù)據庫管理系統(tǒng)已經實現(xiàn)Hadoop集成,使客戶獲得至少一個客戶端接口或者覆蓋連接不同的數(shù)據流變得更加容易一些。
如今數(shù)據本身在企業(yè)中變得更加靈活。并行流程及智能數(shù)據將JitterBit這樣的工具分塊應用,將其設計成允許數(shù)據從一個應用程序傳輸?shù)较乱粋€應用程序,并保證傳輸?shù)臄?shù)據質量。這種通過數(shù)據類型及應用進行的集成對于時間敏感的企業(yè)活動來說非常重要,這些活動中也會涉及即時分析。一般地,這種形式的分析必須查詢當前數(shù)據和歷史數(shù)據,來識別新趨勢。這就是SQL經常再次發(fā)揮作用的原因。
SQL、NoSQL以及大數(shù)據技術
新型數(shù)據的來臨并不是否定過去幾十年精心收集并整理出來的業(yè)務數(shù)據。SQL數(shù)據存儲中的內部企業(yè)數(shù)據可以解釋大數(shù)據與其他數(shù)據在精確性及相關性之間的差異。多數(shù)組織發(fā)現(xiàn)他們仍然需要為了企業(yè)數(shù)據而保持SQL結構,來支持企業(yè)最佳業(yè)務實踐。將一切數(shù)據變?yōu)榉墙Y構化格式并不是集成,這僅僅是趨同化處理。與此同時,試圖迫使結構化數(shù)據向非結構化數(shù)據轉變也都是白費力氣的努力。
從企業(yè)角度來說,集成的目標并不是關注數(shù)據結構化而是關注組織化。像新型Oracle Data Integrator這樣的工具試圖通過加載和轉換數(shù)據的Hadoop來尋找平衡點,所以,結合傳統(tǒng)企業(yè)數(shù)據就更容易進行分析。分析流程中,這種方法使得來自多種信息源及存儲中的數(shù)據相融合,此時就更需要數(shù)據集成。這種折中的方法使得原始數(shù)據比最初的狀態(tài)更加自由,維持這種隱含價值可能更適合于未來分析的新方法。