在大數據時代,我想沒有人會不知道數據的重要性,對于企業來說,數據可以幫助決策者更加了解市場,輔助制定發展方案。不過,大數據的技術與商業模式還處于探索階段,企業若是不得其法的話很可能會帶來負效果。
數據可能存在偏差
統計學家NateSilver表示:沒有毫無偏差的數據,偏差是數據的自然狀態。企業中的絕大多數數據都是存儲在數據庫中的結構化數據,這些數據通常是在原始數據階段被收集,然后從非結構化格式轉換為結構數據存儲起來,數據的結構通常是由應用程序(包括數據庫)或技術人員的個人習慣來確定的。
例如,在基于活動的成本計算分析中,如果應用只能捕獲開始和結束時間,不能捕獲活動的全過程,那么對于活動的分析幾乎是不可能實現的。因此,數據的上下文預先確定或失真就意味著捕獲和存儲的原始數據不僅是模糊的,而且還有可能是有偏差的。
數據管理昂貴且耗時
雖然企業一直想要通過有質量的數據來獲取洞察,但是數據質量的獲取和管理是十分昂貴的,數據的創建、存儲、處理、共享、聚合、清理、復制等操作都是需要時間和金錢的。根據MITHowardRubin博士的研究:金融服務部門的92%的業務成本是與數據有關的。
即使數據質量得到了改善,整個數據的生命周期中也還是需要管理的,因為數據質量會以每年7%的速率下降。數據管理是一場馬拉松,而不是沖刺,所以如果企業需要高質量的數據,那么數據管理計劃應該被提升到企業級持續改進計劃的層面。
數據可能會約束創新
數據只是在揭示過去的事情,但是并不能改變未來?!禛ettingChangeRight》的作者SethKahan曾說過:只依據數據來做決定就像是只利用后視鏡來駕駛汽車。如果企業在困難時期,想要利用過去的決定來擺脫困境,那么只能是越來越倒退,過去只能表示你去過哪些地方,并不能為你的未來指路。
數據永遠不會是實時的
現在很多公司都在談論數據實時分析,但是其實數據永遠都不可能是實時的,數據實時分析本身就是個偽命題,因為數據在發起和捕獲之間總是有時間滯后的,在plant/SCADA/PoS系統中這種時間滯后可能是幾微秒,但是IT/OLTP系統數據庫中的數據的格式化、清理、驗證、策劃和提交可能需要幾個月。另外,在對BI/OLAP數據集執行分析操作之前,需要從不同的系統合并并聚合數據,所以時間延遲會進一步延長。
聚合數據分析與流數據分析雖然截然不同,但是在這兩種情況下,數據的發起和分析之間都存在時間滯后,聚合數據的時間滯后的單位可能是天、周或月,而流媒體數據的時間滯后的單位可能是分鐘或者小時。所以即使企業設法做到了實時獲取數據,但是通過數據進行的趨勢、規范和預測分析也還是需要時間的,有意義的數據分析永遠不會是實時的。
數據對于企業來說固然有價值,但是如果盲目投入時間和精力建設數據驅動型企業有可能會徒勞無功,因此,企業應該有個長遠的規劃,對維持數據管理有自己的計劃,對數據分析有客觀的理解。