《企業(yè)網D1Net》11月26日訊
如今,大數據時代饋贈于人們太多價值和便利,以至于很多人都在迷信大數據,認為只要擁有大數據就無所不能,其實并非如此,“臟數據”的出現,讓人們對大數據的迷信產生了信仰危機,而“臟數據”的出現也有多方原因。
能力不足,不可避免地弄臟數據
人為的非故意的差錯也會導致數據失真。比如要人為地去統(tǒng)計某個營業(yè)廳一天的人流量,若這流量成千上萬,即使再細心的工作人員,在數的過程中也難免出現差錯;如果這個人本身的算術能力有問題,對100以上的數字計算不過來,那么這數據就更難準確;更有甚者,在數了半天后覺得這工作實在枯燥無聊,于是開了小差,最后虛報了一個估計的數字。
無論是主觀故意,還是客觀能力,是人都會出錯。那計算機就不會出錯么?計算機同樣會出錯,且計算機出錯的新聞比比皆是。比如在銀行ATM機上取1千元,然后吐鈔1萬元。一方面,這取決于計算機編程人員對計算規(guī)則的理解;另一方面,這還依賴于計算機程序編寫人員的能力與細心,若出現編程人員的理解偏差或者編程時未想象到的情形,計算就可能出錯。
“臟數據”無處不在且危害大
當數據使用者將“臟數據”當作好數據,加以分析利用,作出決策,并輔以強有力的執(zhí)行時,“臟數據”帶來的后果是極其嚴重的。通過“臟數據”,會得出錯誤的結論,錯誤的結論會導致錯誤的決策,錯誤的決策加上強有力的執(zhí)行,比沒有數據、沒有結論、沒有決策更糟糕,不但不會對事物發(fā)展起到積極作用,甚至還可能產生消極作用。
舉兩個簡單的例子,如果購買了上述刷來的黃鉆賣家的產品,你可能會覺得名不副實;如果付費找擁有大批僵尸粉的大V來傳播商業(yè)信息,你的錢可能就會打水漂;如果運營商無視套取酬金及囤卡行為而對銷售數字津津樂道并為此樂觀的話,不僅讓酬金白費,還會得出市場發(fā)展良好的錯誤結論并采取下一步措施。
“臟數據”無處不在且危害之大,因此必須要警惕“臟數據”。當然,這不是一概否定大數據,不是說大數據毫無價值,而是想提醒大家一方面要盡可能提高數據質量,另一方面也不能完全依賴大數據。
無論是淘寶、新浪,還是電信運營商,都對數據造假者深惡痛絕,都想出了很多辦法來消除“臟數據”。顯然,這是道與魔的關系,是一個不斷糾纏、不斷提升的過程。沒有任何一種制度或者技術能百分百消除“臟數據”,但只要態(tài)度明確并不斷采取措施,就能將“臟數據”控制在一定程度,確保所用數據偏離不會太多且具有使用價值。
D1Net評論:
“臟數據”的出現,打破了大數據萬能論的神話,人們逐漸意識到大數據并非是無所不能的,伴隨著“臟數據”的大數據更不應該被迷信。大數據的使用還需要與經驗、實證相結合。