進入大數據時代后,數據統計、分析被視作兼具“前景”和“錢景”的行業。一時間,擅長發布各種數據的機構和單位如雨后春筍般層出不窮。可是,數據真的那么可信嗎?
之所以有這么一問,是因為近期連續遇到幾起數據“烏龍”事件。例如,某網絡平臺發布報告稱,平安、民生、廣發、天津等4家銀行在上海停止發放房貸,停貸銀行占按揭銀行總數的13.33%。可真相是工、農、中、建、交五大行約占上海所有銀行網點的六成,這些網點都正常接受房貸申請;而天津銀行在上海的網點總共才7個,其他3家所謂停貸的銀行也是從年初起就調整經營戰略、壓縮房貸業務。從這些基本的情況不難推斷出,13.33%的停貸比例是站不住腳的。還有一個數據是今年“雙十一”過后第二天,某互聯網機構稱“雙十一”退貨率已達25%。然而,當時大多數網店還沒開始發貨,消費者又怎么可能退貨呢?
大數據時代,搶著挖掘金礦的企業和機構越來越多,應聲而動的商業敏感自然值得贊賞。但對他們提供的數據乃至一些所謂完整的調查報告,則需要謹慎分析。
一方面,那些數據發布方是否嚴格按照統計學的原則進行調查研究依舊值得商榷。據筆者了解,數據統計和分析行業內的企業和機構多如牛毛,規模大小不一,水平參差不齊。有些調查機構為了盡快完成數據收集和調查報告,不惜違背隨機、客觀采集樣本的根本原則,通過花錢買樣本的方式進行數據收集。根據這些數據得到的報告,顯然與事實有很大的誤差。
另一方面,很多數據發布方的立場也值得商榷。絕大多數發布方都標榜自己中立第三方的身份,可不要忘了,發布的根本目的是用數據換金錢。所以實際運作時不可避免地會牽扯各種商業利益,從而可能影響數據的準確性。更有些不靠譜的發布者,則把數據變成商戰中的武器,或者以發布聳人聽聞的數據來擴大自身影響。
與其他評價方式和表述手段相比,數據無疑最直觀。也正因為此,社會對數據的真實準確性抱有很高的期待。大數據時代需要我們拿出更加謹慎的態度,對數據的收集、統計以及發布者立場多問幾遍“準確嗎”,而不是一味貪圖數據的簡明扼要。只有這樣,才能從浩瀚的數據海洋中找出真正有價值的部分。