云計算公司Replicon聯合創始人兼CEO Raj Narayanaswamy指出:“今天,每一個行業和企業都面臨著將數據轉化為明確的成果的艱巨任務。數據的指數級增長意味著,每一個組織都極其有必要去建立合適的體系結構來使得數據的利用達到最大化。獲得成功的關鍵是建立一個全面的數據產業價值鏈,包括數據發掘、集成和評估,而不是按照傳統的做法部署以應用程序為中心的模式。”
對于一個企業來說, 理解數據集成的重要性是創造新的價值的前提。假若對數據的理解仍然維持在單一和特定用途的層面,那么在數據開發過程中容易出現缺乏靈活性、信息不全面的情況,在利用數據開發未來機遇方面,組織或將會陷于被動的境地。而成功的例子的則要數亞馬遜和Salesforce了,這兩家公司借助策略性的數據管理方式而在短期內獲得了規模式的增長。
數據應用的周期或許可以劃分為七個步驟:發現、獲取、加工、篩選、集成、分析和揭露。其中每一個步驟都至關重要,每一個有效用的策略也許都是建立在由上述七個步驟組成的數據體系之上的。云計算公司LiasonTechnologies的首席執行官Bob Renner對此作出了總結性分析“人們大部分的注意力(市場價值觀)都放在了分析和結果量化的最后階段——蘊藏著商務決策的階段。這也確實是數據分析在歷經萬難之后最終的價值所在。但是,沒有了前面的準備步驟,我們也不可能一步登天地就能在最后一步獲得想要的結果。事實上,在開始使用分析算法來對數據進行解讀之前,數據科學家都要花費大量的時間進行數據清理,以保證數據的質量。”
良好的數據科學離不開高質量的數據資料和管控數據質量的必要步驟,尤其是往往遭到忽視的數據集成。通常來說,有價值的大數據都是在這一個步驟里發現的。如果組織在一開始就以另一種心態(非如今固化的理念)來著手數據管理,他們就能夠在控制成本和效用上掌握主動權。
那么,我們將如何可以從當前宣傳大于實用的狀況中獲得突破呢?首先,如前文所述,充分理解大數據應用完整的操作周期,做到不忽視任何一個步驟的重要性,然后從傳統的以應用為中心的傳統思想中解放出來,建立靈活的、可持續利用的數據分析框架。“數據驅動的發現從根本上改變了我們工作和生活的方式,而那些掌握了大數據應用的人可以說是掌握了一項和同齡人競爭的優勢。”(《大交易:市場回報最大化的簡單策略》 彼得·范)那些在大數據技術迸發時期就獲得了巨大利益價值的組織,他們不僅關注那些外界一直在炒作的功能,而且對想要實現的營收、利潤以及其他業務成果都投入了認真的思考。