2009年,人類學者Tricia在與外來打工者、街頭小販和網吧等地和低收入者混跡數月之后,給當時她的老板,NOKIA,寫了一份詳盡的市場報告,告訴NOKIA自己觀察并捕捉到的大量市場信號——低收入者已經準備好為更為昂貴的智能手機買單——建議NOKIA投入研發價格適中、面向低收入者的智能手機。
NOKIA總部本來還挺欣賞Tricia的報告,但看到她的樣本只有100個的時候就糾結了,最后放棄——和他們成百上千萬的樣本量相比,Tricia的報告完全微不足道。后面的事情大家顯然都知道。
NOKIA的案例問題不在于報告本身,而在于面對有場景、有故事、有標的的小規模數據, 不論數據本身多么說明問題,NOKIA選擇相信更抽象的大數據。 在人人都提大數據、乃至迷戀大數據,不提大數據無以為營銷、無以為新商業模式的今天,關于厚數據(thick data)的逆向思維或許不僅僅是新意,更是對數據的一個重新定義。
厚數據是由已故人類學者Clifford Geertz最早提出的,Tricia去年開始引用厚數據,指用人類學定性研究法來闡釋的數據,旨在揭示感情、故事和意義。Tricia現在是PL Data公司聯合創始人,并參加了著名設計公司為期3個月的駐地專家計劃。PL Data是一家致力于幫助企業組織在大數據時代進行創新的初創公司。 大數據則是剔除了個性化元素和背景信息的標準化數據,需要龐大的數據支持,以備發現,是定量研究法,厚數據是通過小樣本分析找出特定人群的需求;大數據呈現的是數據,厚數據呈現的是故事;前者揭示的是“是什么”,后者展現的是“為什么”。 厚數據的確缺乏廣度,但大數據缺乏深度也是不爭的事實,兩者結合似乎才是數據挖掘的未來之道。
早年采訪過一位來自英國的數據挖掘專家,一直記得他為當地超市做的最重要的一個貢獻就是,通過大數據發現超市里西班牙食品總是伴隨著清潔用品一起被消費,經過實地調查后終于搞明白,當地大量雇傭西班牙女傭,他們再幫主顧家采購清潔用品的時候,順道總是要給自己采購食品。超市就此調整貨架安排邏輯,銷量果然大漲。
當然,回顧下大家各自在淘寶的購物經驗就會發現,淘寶上最成功的推薦從來不是你買一件衣服,它就為你推薦同款或者同風格其他衣服,你在淘寶上搜索珍珠飾品,接下來的淘寶推薦都是整屏的珍珠飾品,而是在你買驗孕棒的時候給你推薦葉酸,買孕婦裝的時候,幫你推薦新生兒的內衣、玩具、紙尿布、乃至奶粉等一應產品。因為服裝選擇個人風格可以多變,但孕產期整個生理過程的場景推薦卻是大同小異。
IDEO在一次樣本調查中發現,新技術的狂熱者,除了傳說中的技術愛好者,即“高科技極客男”,實際上可能還有一波俗務纏身的“效率極客女”,這部分用戶并非科技追隨者,卻是效率死忠粉。此后經過嚴格的大數據調查,他們發現在科技潮人領域內,效率極客女還是一批不小的族群,占到早期使用者14%的份額,這波人和其他極客一樣生活中片刻不離移動設備,她們有類似喜好,受超過20個價值驅動因素影響,而且是第一代pad中使用頻率最高的。有了這個深入的人群定位和分析之后,后面的研發、推廣自然順理成章。
無論是從定性的厚數據開始還是從定量的大數據開始,所有成功的數據挖掘似乎都在證明一件事, 光有大數據是不夠的,大數據給人以洞察,厚數據則給人以靈感,幫助人們找出數據之后的原因,并支持靈感走向現實。
想象下當年的Henry Ford如果也有大數據,他得到的應該和他觀察到的相差不大,“如果我問人們需要什么,他們會說要一匹跑得更快的馬。”只有加上更人性的調查,才有T型車橫空出世,改變人類的出行規則。
大數據的風險在于,人們會傾向于過分依賴從某種算法得到的結果來做決策,只關注到顯著相關的部分,而忽略了算法本來就帶有一定的主觀性。而且數據在標準化過程中,去掉了所有與人性相關的部分,它的確是事實,但也只是部分的事實。
更不論在這個虛擬和現實越來越交融的世界里,長尾的重要性遠非昔日可比,因為關注大部分而放棄小部分人的選擇并不見得明智。就像交朋友一樣,大部分人不需要,至少不追求有成千上萬的朋友,你只需要和你脾胃相投的幾個朋友;做生意的當然希望有更多客人,但現代商業已經不都是大商超,越來越多商業成為追求特定目標群體的伙伴式營銷/商業。
據說,公司在大數據上每投資1美元,帶來的回報僅為55美分,而他們最初的期待回報是3.5美元。 不一定都是大數據的錯,或許只是我們需要一個更多維的角度去看數據,還有數據所揭示的人本身。那么,厚數據顯然是值得一提的一個緯度。