我的觀點是,在大數據的數據源得到全面性保證之前,迷信大數據是一件極具風險的事,最起碼不像人們吹捧的那么有價值,那么偉大。顯然,在媒體的熱捧下,大數據正走在一條自以為無所不能的危險道路。而大數據要實現數據源的全面性則必須“去中心化”,回歸“開放與共享”的大數據本質。
互聯網的發展產生巨量數據,傳感技術的發展讓數據更加多元,網絡技術的發展讓數據傳輸突破限制,存儲技術的發展讓巨量數據保存得以實現,數據處理技術的發展讓我們得以高效處理巨量且復雜數據,這些構成了大數據的基礎,讓人們歡呼“歡迎進入大數據時代”。
而事實上,反觀我們身邊擾攘多時的號稱“大數據革命”,到底給我們帶來了多大的價值,是否真如其傳說中“未來的新石油”“像能源、原材料一樣,大數據已成為提高未來競爭力的關鍵要素”那么偉大,我理解目前我們的大數據距離人們期待中的大數據還有很遠的距離,人們常常引用的“利用大數據分析觀眾興趣以制作《紙牌屋》”的案例跟真正意義上的“大數據改變世界”比起來不過是“奇淫巧技”而已。(另外,大數據里通常以交通為例來說明大數據的運作價值,通過在街道布置傳感器檢測碳排放來實時車輛的流量以及交通狀況,但其實那還是囿于傳統數據分析的范疇,只是通過技術手段的提升增加了一個數據維度而已,我理解若能實時通過監控某地理位置內人們的社交信息、加油站信息、購物刷卡信息、甚至衛星拍攝信息等加以分析則更像“大數據應用”,這些數據的分析結果就不光支撐交通控制了,可應用于更多的社會管理及商業應用層面。)
現在的問題是,我們布設了無數傳感設備,設計了無數用戶觸點,搭建了無數數據傳輸管道,到最后這些數據并沒有“百流入海”地匯入統一的海洋,而是流進一個一個孤立的池塘,然后各自從各自的池塘中調取數據進行大數據分析以支撐企業運營決策,我不得不說,人們自以為自己正朝向遠處的高山奔跑,卻沒有意識到自己卻在一個環形跑道上。
大數據之大并不在于其數據量有多大,不在于其能處理“結構化”和“非結構化”的復雜數據,而在于大數據是融合各種各樣來源的數據,描述事實各個方面的數據,以使得分析結果能夠更真實、更全面地接近真相,這才是大數據真正的價值所在。而如果我們只能從自家的“小池塘”里調取數據,大數據無法發揮其真正的價值,甚至有可能輸出偏差甚至錯誤的結果引導瘋狂的大數據信徒走向危險的道路。
《大般涅盤經》三二:“爾時大王,即喚眾盲各各問言:‘汝見象耶?’眾盲各言:‘我已得見。’王言:‘象為何類?’其觸牙者即言象形如蘆菔根,其觸耳者言象如箕,其觸頭者言象如石,其觸鼻者言象如杵,其觸腳者言象如木臼,其觸脊者言象如床,其觸腹者言象如甕,其觸尾者言象如繩。”
這是著名的盲人摸象的故事,如果我們把每個盲人視為一家企業,盲人通過手掌觸摸獲取到的信息視為企業通過自身渠道獲取到的用戶數據,盲人基于獲取到的信息加以分析得出了對大象的描述,企業基于獲取到的信息加以分析得出對客戶的描述,以這樣的邏輯來看,企業迷信“基于單一數據來源的大數據”跟盲人摸象沒多大差別。
從本質上來說,大數據價值的體現必須是基于“數據的開放與共享”的,甚至是“數據分析結果的開發與共享”的,但在商業應用上,現實情況可能跟我上面說的“小池塘”情形相仿,各個大數據的運營企業、行業在數據的共享上各種壁壘,數據的共享目前還僅限于企業內部的共享,甚至企業內部的共享都尚不充分,以中國移動為例,中國移動擁有龐大的用戶數據,分別產生/存放于B/O/M域等IT系統、各基地/專業公司業務平臺以及統一DPI系統中(DPI數據規模巨大,蘊含豐富的用戶行為信息,挖掘潛力巨大,對計算、存儲網絡資源提出巨大需求),但由于部門壁壘、接口實現難等原因,就目前我了解到的情況來看,這些數據并沒有得到充分的共享和調用,可謂“坐擁金山而入山乏徑”。
“以窄數據源支撐大數據分析及應用”人們往往抱有寬容的態度,認為這是一個過渡階段,雖然可能無法發揮大數據的最大化價值,但總是有促進作用,至少是無害的。這是一個錯誤的觀點,“以窄數據源支撐大數據分析及應用”是一件相當危害的事情。
單一企業/行業的數據是具有片面性的,如電商企業的數據只能反應用戶的消費水平,購買偏好等屬性,社交運營企業的數據只能反應用戶的社交屬性,圈子屬性,金融企業的數據只能反應用戶經濟屬性,由于數據源的限制,數據池的孤立,各企業/行業往往只使用內部各種系統、平臺的客戶數據進行分析,最多會結合一些通用的、容易獲取的行業數據(如第三方咨詢報告等),得出的結論只能對單一企業/行業有價值,應用的層面很單一。舉個例子,游戲企業想要制作一款面向年輕人的社交游戲,但它只有目前的游戲玩家的數據,基于此分析出來的結果只能迎合固有的游戲玩家的喜好而不能挖掘非游戲玩家的需求以實現新的市場的突破,這就如同“盲人摸象”例子里說的,摸到象頭的認為大象像石頭,摸到尾巴的人為大象像繩子,一旦迷信大數據的能力和價值,并在企業運營中應用,這將是一種很危險的錯誤。
數據是具有欺騙性的。再舉一個通俗點的例子,在周浩暉的懸疑小說《套子里的人》中,警察根據社交數據+嫌疑人表現進行分析,社交軟件的聊天記錄清楚地指向A有殺死B的傾向,而現實生活中A也說過“氰化物質用作毒藥可真是不錯”,而死者的死因也確實是氰化鉀中毒,基于這樣的數據信息作出A是兇手的結論是合情合理的,其實這就是大數據分析的結果,只是不是機器分析,而是我們大腦進行的大數據分析,而實際上,這個判斷是錯誤的,因為社交軟件使用了昵稱,窄數據源的大數據分析無法判斷昵稱指代的是誰,同時A實際上說的是“氫化物”而非“氰化物”,這一點窄數據源的大數據分析也識別不出來。其實利用大數據分析去解決問題就如同偵探破案,數據源越少誤差越大,只有充分調用方方面面的數據信息才能更靠近真相。
數據具有欺騙性。但數據本身是無辜的,是純潔的,邪惡的是強行解讀它的人。
是什么限制了數據的共享?
數據源的限制讓大數據陷入了“盲人摸象”的困境,那到底是什么限制了數據的共享?這是問題的關鍵,也是大數據面向未來發展的瓶頸所在。
一是出于競爭的考慮,企業的市場信息、用戶信息、產品信息一向以來被視為企業的核心機密,是競爭的基礎,目前看來很難實現數據的共享,如運營商與OTT共享用戶數據這是不可想象的事情。
二是即使不存在競爭關系(如銀行與制造業),不同企業對彼此數據安全保護并不信任,企業會擔心,大數據系統收集海量未分類、未經分析的數據,這些數據由于過于龐大,無法得到像傳統數據庫對數據部署的相同級別的保護。
三是數據共享的成本太大,由于不同企業/行業對數據的收集、存儲的標準不一,系統數據庫的構建也不同,系統間接口功能實現難度大,數據收集后的清洗、整理的“加工成本”龐大,而大數據應用產生的價值可能尚無法匹配,性價比并不樂觀。
四是不同企業的大數據部署進度不一,數據共享對企業產生的價值不一樣。如很多傳統行業目前在大數據上仍處于起步階段,而很多互聯網公司、金融機構在大數據的部署上已經相當成熟,實現數據共享對彼此的價值迥異,這也造成在數據共享上門檻。
五是大數據的合法性目前還缺乏法律支持,數據的共享及分析應用尚存在倫理上的問題。
那怎么來解決這個問題?
大數據交易平臺是解決數據源問題的一個探索,目前已有很多實質性的進展,如貴陽大數據交易所于2015年4月15日正式掛牌運營并完成首批大數據交易,預計在未來3至5年,交易所日交易額將突破100億元。
大數據交易平臺將數據標價出售,這給數據多元性、全面性的實現提供了一個渠道,但這同時是一種限制,想要進行大數據分析以指導經營行為的企業在購買數據前會進行人為的判斷,而“人為”的判斷的過程則是對大數據的一種褻瀆。舉個例子,醫藥公司想要生產一種抗病毒的藥,經過分析,購買了因病毒而就醫的人數的數據,數據顯示近年來人數呈遞減趨勢,故而做出減少生產的決策,而事實上,由于氣候問題,當年因病毒而患病的人數劇增,到時供不應求。而“人為”的判斷忽略了氣候的數據。
好吧,上段論述可能有點鉆牛角尖了,新事物的發展具有無限可能性,大數據交易平臺可能演變成為社會基礎設施,如現在的證券交易平臺。我依然覺得解決問題的終極思想是“去中心化”,企業不以自我為中心去實現數據共享,以追求大數據的整體價值的最大化,實現大數據改變世界的夢想。當然,這短期內來看有點理想化了。
“用數字說話”似乎是顛撲不滅的真理,這讓人們養成了迷信數據的慣性,認為數字就是真理,我們希望每一個問題都可能用可量化的數字來回答,這不光存在于分析工作中,甚至在很多戰略工作、管理工作中我們希望實現“量化”,但最重要的問題是,如果我們只將世界以數據來詮釋,尤其是在數據來源全面性得不到保證的情況下,那其實是在冒著盲目迷信數據的風險,強行賦予其實不存在的道理與意義。我們必須要警惕自己不被數據欺瞞,或被“量化每一個問題”的虛假魅力所誘惑。
最后,大數據不是一種技術,而是企業理解世界、融入世界、改變世界的手段。