大數據時代的到來并不是很突然,但是卻讓人措手不及。不少企業完全沒有做好準備,就已經進入了一個所謂的“數據操控一切”的時期。他們有過恐慌、畏懼,甚至在一些企業的宣傳中認為沒有跟上大數據的腳步,結果就只有淘汰。可事實真的如此嗎?筆者認為,大數據服務,至少有四點還值得存疑。
數據采集
所謂大數據時代,數據采集是第一步,也是最關鍵的一步。大數據的采集是利用了多個數據庫來接受來自客戶端、App、Web以及傳感器的數據而獲得的。可是這些數據真的可靠嗎?
誠然,在互聯網企業中,客戶終端和網頁的數據十分重要。這些數據在確實可以通過數據庫來準確獲得,但是大數據的特點就是大。一旦遇到客戶峰值,如雙十一或者春運等,數據采集并發數極高,用戶操作和訪問同時進行,這就需要大量的數據庫才有可能支撐,那么這些資源從何而來?數據庫之間的負載均衡如何實現?
其次,數據采集的難題在其他行業中會變的更難。物聯網落地至今尚未獲得大規模成功,所謂的工業4.0目前依然只是我們想象出來的烏托邦,數據如何采集?采集到的數據如何確保正確性?
再者,涉及到人的服務行業中,數據往往與隱私并存。用戶的數據是在變動的,大數據分析所需的數據卻是越多越準的。要確認用戶的數據正確性,提高數據分析正確性,則很容易事實上形成對人隱私的侵犯,大數據會不會成為作惡的表現?
數據保值
數據采集的困境和難題可以突破,也確實有一部分公司成功突破。但是,數據采集后的保值問題卻成為了更大的難關。
大數據公司偏愛這樣宣傳“數據是企業最大的財富”,可是企業卻很少有能成功使用的。所以現在的企業普遍多了一個愛好——囤數據。那么,數據存儲的成本從何而來?隨著360個人云盤的倒下,數據存儲的成本之高已經超出了很多人的想象,這筆投資真的物有所值?
更可怕的是,由于社會和環境的改變,普遍來講數據的保質期只有3個月。當數據超過3個月后,其有價值的部分將只剩下10%。也就是說,費勁千辛萬苦所采集到的數據將有90%會被淘汰,那么這部分數據要如何甄別?過期的數據真實性要如何判斷?數據本身出了問題,分析又如何談正確性?
數據處理
大數據的大,在于非結構化數據占用空間較多。可是,非結構數據主導時代是無可爭議的事實。非結構化數據的價值能為企業所用的有多少呢?企業又能用的了多少呢?
在互聯網企業數據庫中往往能夠得到結構化數據,這部分數據占用空間較小,分析容易,價值較高,因此也得到了用戶的青睞。但是,結構化數據存在著其最大的弱點,不易轉化。結構化數據的這一特點反而成了一種限制,在未來的發展中很可能會不如非結構化數據。
非結構化數據在大多數行業中都是主流存在,但是其處理難度要比結構化數據高太多。非結構化數據在處理的過程中,分類、檢索、處理等方法多種多樣,而且,包含信息量巨大,不同方式處理的結果很可能存在較大差異,因此價值雖高,但正確性都可能存疑,那么其產生的價值究竟能有多大呢?
數據應用
大數據經過多層包裝處理最終可以得出很多結果,但是數據結果的應用卻是個值得商榷的存在。
一般來講,大數據分析的結果經過可視化等處理之后可以有一個比較直觀的呈現。可是,數據的使用卻往往是企業高層決策者的專利。而占據了公司絕對主體的企業員工卻很少能夠直接獲取大數據創造的價值。而如果開放數據給全體企業員工,那么數據安全該如何保障呢?
而從成本角度來看,企業百尺竿頭更進一步誠然可貴,可是如果大數據分析結果只是一種企業決策者的靈光一現,那么這筆投資真的能比高層培訓更有價值嗎?對于中小型企業來講,大數據投資的意義又在哪里呢?所謂的知己知彼又是否真的能讓企業百戰百勝呢?
結束語
中國在大數據方面的發展形勢十分樂觀,但是對于企業來講,每一筆投資都應當讓他有所價值。數據的價值呈現可以有很多種,那么大數據是否真的像部分廠商所宣傳的那樣“數據操控一切”呢?