蒼井空都30歲了,但真的還會有下一個蒼井空嗎,在此我要接力《用數據分析AV女優,尋找下一位蒼井空》一文,和虎兄虎妹一同挖掘——乘“大數據”的快車與數據分析的力量,如何能發現或者創造下一個蒼老師;但更重要的是由此分享一些對大數據誤解的辯證和認知。
辯證大數據之一:來處與去向在先,占有和挖掘在后
按照《犯罪心理》的模式描述下一個AV女神的特征是富有娛樂性的,但同時缺少操作性,試問星座、血型、家境,甚至臉型真的就是造就蒼老師的原因嗎,或者我們傳統的數據分析誤區也存在于對大數據的使用。如果不明晰蒼老師是誰,她從哪兒而來,是找不出下一個蒼井空的。
蒼老師是填充國內AV女神的名號,未來是否還有全民女神的名號是一個問題,但如果要打造下一個蒼井空,拼臉型是行不通的,最直接的方式就是搜集迅雷云點播、快播,以及p2pSearcher等的點播和下載數據,然后推出一部略有差異化的作品,找最密集的搜索時段,搶占用戶的視野,比如電驢退役了就投放草榴社區的置頂加亮,再使用技術手段提升在VaGaa和p2pSearcher等搜索器的排行,就最有可能抓住國內AV用戶的心,走進他們的硬盤;在有了一定知名度之后,積極參與公益事業,然后投身普通見光的影視圈,新的蒼老師可能就此誕生了。
當然這種方式也不一定能造出下一個蒼井空,但是一定比分析星座、血型和臉型來的靠譜一些。回歸大數據的應用也是如此,不是有了更多數據,我們就能解決更多問題,而且數據搜集和處理本身也包含了物質成本與機會成本;有時候方向要是出了問題,活兒再精也達成不了目標,使用大數據的出發點還是要先明晰我們需要解決什么問題,然后再試圖從相關數據與方法中挖掘答案;而不是根據獲取的數據和結構化的處理,就直接把結果對號成我們現有問題的答案。
辯證大數據之二:大數據只是回答的開始,而非答案
大數據只是信息,是現象與結果的呈現,不是現成的答案。比如還是分析AV女優的問題,星座、血型等基本信息,身材、年齡和作品數目等職業信息也都只是結果,如果要問下一個蒼井空會是什么星座、身材和作品數目?這是新的問題,已有的數據不能直接地回答你。有兩個事例可幫我們理解本不存在的因果邏輯。一是羅振宇在《邏輯思維》所講的——不能從“所有游泳運動員的身材都好”的現象得出“游泳就能身材好”的結論,因為很多人成為游泳運動員的原因正是身材本來就好,所以想通過單純的游泳來減肥不一定能成功;二是塔勒布在《黑天鵝》一書中講的事例,你投一枚硬幣正面的概率是50%,如果你聯系99次都得到了正面,在第100次投出正面的概率還是50%,這是數學理論中的獨立隨機事件,下一個蒼老師名號的觸發和上一個蒼老師名號沒有直接的因果聯系。歸納起來就是,現在大數據的結果都是已發生事件的必要條件,不是未發生事件的充分條件;而你要問的“用戶期待的下一款產品是什么”等問題都是純粹的未發生事件。
可能是數據越多,我們就越容易自主構建本不存在的因果聯系。比如你分析近幾十年來日本AV女優的變化,發現整體身高漸長、罩杯漸豐,但不限于AV界,國內外的影視明星群體也會出現“身高漸長”和女性三圍趨向“兩凸一凹”的結果,可是這些因素早已融進當代社會的審美與時尚傾向,AV界也只是跟隨潮流的一部分而已(PS:影視界的標準限定在視覺效果,熒幕之外的真實情況不好確定,畢竟AV界的職業要求不容造假,身材要求就會更嚴格)。有些事情即使你不用大數據和數據分析,貌似也能分辨明白,但大數據的意義在何處?
第一,大數據回答不了未發生事件的問題,但能讓你客觀而全面地了解已發生的事情;第二,大數據不能告訴你正確答案,但在很多時候能幫你排除一個錯誤答案,比如你要問“2014年服裝界的流行元素會是什么”,或者你瀏覽近幾年的數據都不會有直接的結果,但你至少確定明年基本不會再重復今年和去年的套路。
辯證大數據之三:大數據適用于控制與防御,與創新和創造是兩回事
大數據本身是用比特描述世界的方式,我們能由此全局地審視已知,但不能直觀地預見未知,就好比你能分析年度Top100歌曲的聲譜頻譜,然后再智能地寫出一套樂譜,就真的成為明年的Top嗎?我們借助大數據,能發現一些我們本身在乎但容易忽視的現象,比如黑莓及時利用公有云數據洞察消費者對觸摸屏的接受速度,就不會動作遲遲導致錯失重要的一班車了。但針對更多微觀的垂直產業而言,中小企業和創業團隊獲取和解析大數據的成本就是高昂的,而且大數據適合發現危機與審視漏洞,對單點突破沒有直觀的意義。在蘋果和谷歌實驗室的任何一款產品,都不會是由已知數據直觀推斷出來的,在下一個轉角處的iPod、iMac、iPad、Google Earth、Leap Motion,甚至下一個蒼老師,都有可能是冒險和冒進的嘗試,或者是復合因素的結果:來自我們生活中的真實痛點,以及根植在我們DNA的人性本身,即使沒有大數據這般出色的定量驗證工具,不妨礙你去定性地發現些什么,而在投放產品、接觸用戶等嘗試的過程中就已經會得到驗證了。
如果完善的公有云系統提供了一張完整的社會數據圖譜,所有的參與者只要根據數據做出相應的反應即可,商業世界就會無趣了。“大數據”是年度流行概念之一,在此分享簡單的方法論就是“聚焦核心,掃視全局”,找出自己真正需要明晰的核心問題是什么,然后借助數據與工具去探尋答案(當然也要好成本方面的考量),其他更加宏觀和多元的數據,掃視了解即可。