一則題為《阿里巴巴大數據:女生胸越大越“敗家”》的新聞,這兩天引發熱議。今年夏天,數據分析師在對阿里巴巴內衣銷售數據分析后發現,購買大號內衣的女性往往更敗家。將這些內衣購買者的消費數據進行整理后,分析師發現,65%B罩杯的女性屬于低消費顧客,而C罩杯及以上的顧客大多屬于中等消費或高消費買家。報道還稱,在阿里巴巴每天上百萬的訂單量中隱藏著許多類似的大數據,而另一大電商巨頭京東也很重視大數據分析應用。
報道給出的女性消費者網購消費支出的數據圖顯示,不同身材的女性消費者依照網購消費支出,大部分都分布在均值的“中等”和“中低”兩檔。而E罩杯的顧客支出在“較高”和“高”兩檔的人數比例,也僅僅只有26%和7%,兩項比例都僅僅是略高于其他身材的女性消費者。當然,在網購支出“中等”、“較高”和“高”三檔,自B至E罩杯確實都呈現出一定的增幅。
但這并不能得出大號內衣的女性消費者更有購買力、更敗家的結論。原因在于,不管是內衣產品,還是其他各類服裝商品及配飾、帽襪類商品,人們更容易買到均碼和各類身高的標準碼、較小或較大碼。女性消費者比男性消費者更熱衷于逛街,這在不同國家、不同規模城市已經得到過廣泛驗證。很顯然,那些身材符合或接近均值的女性消費者,更容易通過實體店鋪買到適合的內衣及其他服裝,其他尺碼的產品畢竟是小眾需要,挑選余地更小。
互聯網的普及,為那些身材超出均值尺碼的女性,購買適合自己內衣及其他服裝商品提供了便利。按照著名的長尾理論,這部分消費者與相應的廠商因此獲得了雙贏,企業方創造了寶貴的利基市場。她們有理由在網購上花更多時間,相應支出更多也就順理成章了。很顯然的道理,另外那些在網上購買內衣及其他服裝、其他各類商品的女性消費者,也完全可能在實體商業機構花出同樣多甚至更多的錢,不存在根據兩類群體較小的數據差異得出誰更敗家結論的道理。
寫出《女生胸越大越“敗家”》這樣的新聞標題,當然很能吸引人們的眼球。要是誰說這個新聞不正經,人家還會拿大數據來忽悠一番:這是很嚴肅的數據應用,是你自己想岔了吧?
這個新聞是談數據分析應用的,但要說從分析到結論很嚴謹,是不成立的。納入阿里巴巴數據分析范疇的,是那些通過天貓、淘寶等阿里巴巴平臺購物的女性消費者,并不是所有的(中國或中國都市)女性。這些女性消費者,是否具有對中國所有有內衣等商品購買需求的消費者的代表意義,是否符合統計學意義上的隨機性,都是無法確定的。用不能滿足隨機性要求的調查對象數據,來概括所有消費者的消費傾向,然后再加以提取應用,這樣的分析思路,就跟在上海陸家嘴區域的咖啡館,統計調查顧客人均收入,然后聲稱這個數據可以反映中國居民收入水平與分層的操作方式一樣,相當不規范。
完全可能存在這樣一種情況,即喜歡通過阿里巴巴平臺購物的很多女性消費者,不僅會購買大號內衣,而且還喜歡買下身邊更多人不會買的稀奇物品。也不排除另一種情況,也就是包括女性消費者在內,消費者習慣在某個電商平臺購買一些類別的商品,其他類別的商品則青睞其他電商平臺,或通過實體商業渠道購買。如果這兩類情況的確存在,一家電商平臺的客戶消費數據,拿來分析應用的意義就很值得懷疑。
以暢銷書《黑天鵝》走紅的美國學者納西姆·尼古拉斯·塔勒布在《反脆弱》一書中對時下流行的大數據概念表現出嗤之以鼻。塔勒布指出,更多的、相對更全面的數據并不足以充分反映隨機性,很難甚至不可能讓人們找出所謂的規律,反而可能在“噪聲”中誤入歧途。“女生胸越大越‘敗家的噱頭,言之鑿鑿以大數據分析結論的名義走紅,某種意義上佐證了塔勒布的判斷。