今天,我們正處于決策成本產生巨變的爆發點,過去那些想盡辦法都無法獲取的數據,在今天唾手可得,而當有些表面上完全不相關的行業數據關聯起來時,居然產生了新的商業價值。更重要的是,過去,我們更多地是帶著問題去尋找能夠驗證自己觀點的數據,而今天我們卻可以使用數據去預測可能出現的問題。海量數據可以使人的智慧得到更大的發揮,并變得更加規模化。大數據的本質是人,數據研究的極點就是莫測的人性。我們一旦掌控了數據之后的數據,就會擁有制勝未來商業的無敵利器。
假定數據是臟的
在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源臟了,還是因為數據提煉過程做得不好?
美國有一家初創公司,專注于與地理位置相關的數據收集、整理和查詢服務。它將地理位置的相關指標,按照酒店和旅館等屬性劃分為不同細類,對外提供基于位置信息的實時查詢,為包括美國最大點評網Yelp在內的多個知名應用提供底層數據服務。
這家公司最令人印象深刻的是,它對于所收集來的數據會提供一個數據質量評分,以反映數據的可信度和質量水平。它會對這些數據的源頭以及對處理數據階段所用的算法進行評分。也就是說,這家公司在提煉數據的每一個階段都進行了數據化管理。
這家公司的做法讓我們看到了一個趨勢,也是一個非常重要的趨勢。因為它首先已經接受了數據源肯定是臟的和數據源一定會被污染的事實。所以,它在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源臟了,還是因為數據提煉過程做得不好?這個過程我們一定要區分,而且這樣的區分是可取的。這家公司是假定數據是“臟”的來做數據管理,而不是假定數據是穩定的。而且,假定數據是“臟”的來處理數據,在大數據時代將是一個非常重要的趨勢。
事實上,我們今天在處理的大數據,依然只是冰山一角,而更大的數據都隱藏在我們的語言中,比如我們說的話和寫的字。所以,將來我們要準確地從互動中抓取數據,也一定要依賴對自然語言的處理。現在,美國的很多數據研究人員都在瞄準非結構性數據,即語言處理這一領域。
學會慢慢淡化數據
數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以,我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據。
想要確定數據的優先值,就要先解決以下幾個問題。一是數據的標準化。在大數據時代,我們需要一個標準化的東西供我們進行交流。二是我們到底如何對接和交換數據,如何在交換的時候保持數據的穩定性。比如自然語言,比如在無線和PC不同場景下受到的影響,這些情況都會滋生出許多新問題。
第三個重要的問題是數據的存儲,這將涉及數據的時效性這一問題。有人曾經提出過一個很有價值的觀點,即現實中,網站最大的場景變化就是網站改版。因為重新設計網站,本身就影響數據,比如公司的詳情頁和首頁,任何改變都在影響數據。如果在1~3年后,你才說得出數據的這一改變是由于促銷、用戶行為或是改版引起的,那這一數據就已經沒有任何價值了,這就是數據的時效性。
所以,美國出現了一個概念叫數據淡化(DataDecay),意思很明顯,數據會慢慢淡化。我們要更清楚地認識到,數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據,這是一個非常重要的趨勢。
數據的標簽化管理
數據的屬性標簽是人類經驗判斷的數據,是數據后的數據。
數據的屬性標簽是人類經驗判斷的數據,是數據后的數據。例如,當你要為一件物品打上標簽時,其實就已經動用了你的經驗數據分析,并進行了歸納總結,結合當下的環境給出了判斷。如果沒有考慮環境的影響及準確性的評估,這種經驗加上直覺的判斷是不穩定且又難以解釋的。但從數據收集的角度去看,數據的屬性標簽又是一個潛力極大的數據。
在數據屬性的管理上,對于用戶來說,每個人身上貼的標簽都是多種多樣的,但是對于企業來說,如何將這些標簽歸一,如何用一個點去將之串聯,又如何把這些點連起來去描述這個用戶,這才是核心問題。
比如說,你要去應聘一家公司,A公司對你的評價是“很可靠”,B公司對你的評價是“不可靠”,而C公司準備雇用你,然后C公司看到了A公司和B公司給你貼的兩個標簽:“可靠”和“不可靠”,它就會困惑。
這樣的問題常常發生,那么,我們要怎么去做標簽的管理呢?
首先,我們要明確的是,“可靠”這個概念是沒有標準化意義的,除非在定義標簽之前,我們就界定清楚這個“可靠”的標準是什么。否則,“可靠”的標準是準時還錢、說話算數,還是他向來都很守時,我們就無從得知了。如果這些標準是“可靠”,就給予了我們一種可以還原數據的能力。所以,在屬性管理中,假如屬性是“×”,那么我們一定要定義清楚什么是“×”,在沒有清楚定義的情況下,這個數據的屬性是毫無價值的,而且,將來你也依然不知道怎么使用這一數據。
標簽在觀察之后加進平臺和直接加進去是不一樣的。在電商平臺中,就有一些標簽是在觀察后加進去的,如果由賣家自由地加標簽進去,必然會造成混亂。所以,標簽的屬性管理,在運營數據中非常重要。
標簽化管理,是一個非常重要的趨勢。電商企業今天面對的一些問題在美國的電商企業中同樣存在,可見,我們發現的問題,別人也在面對,不過這些問題并不需要現在就去解決
屬性管理的層級化十分有必要,但是在使用數據前,必須要了解數據的場景、數據是如何放進去的和數據的場景是什么。在這一切未知之前,就說數據如何好用的話,是不可能的。所以,現在企業運營數據的趨勢是,我們應該找出一些屬性進行歸類,然后再慢慢地考慮如何提煉,這對于未來非常重要。
重要的是數據和數據之間的關系,而不是數據本身
大數據價值的實現,在于數據與數據的連接。
Google做了一件非常驚人的事情——Google甚至能在不明白某個網頁語言的情況下,知道其內容是什么。試想一下,如果你懂俄語,看出俄語網頁里在講什么當然很簡單。但是,如果你僅僅通過看字詞的排列和網站的分類,就知道網頁的內容,這是不是很令人驚嘆?
這就是知識圖譜,它是一個無窮無盡的世界。事實上,知識圖譜并不是數據,而是數據和數據之間的關系。但這里有一個非常大的弊端,就是數據的儲藏量非常大、儲存的方法也很復雜,且稍微改變一點點關系的定義,整體就會產生巨大的變化。
比如說,有一個知識圖譜在說電商平臺用戶之間的關系,那數據信息就非常龐大了。試想一下,今天電商平臺里有多少個用戶跟你有關系?假如說有25個人,那么25個人的關系就演變成了25×25條關系。這時候,我再問你“什么是關系”、“見過就算關系,還是一起買過東西叫關系”的問題就具備了一定的難度。
建立的維度是無限大的,而且定義稍微改變一下,整個存儲和整個數據庫都會發生變化。所以,知識圖譜的把控是有難度的。舉個貼近我們生活的例子,比如說銀行很早之前就給你開辦了信用卡,決定銀行這一決策的不是你的個人關系而是總關系。銀行決定是否貸款給你,是要看你愛人做什么職業以及你家中其他人的經濟情況如何。當這種種關系關聯起來時,就會產生一個極為重要的知識圖譜。
以往我們談大數據時候的本錢,莫過于“我有這種數據,你沒有”。在未來,數據和數據之間的關系才是重中之重,而不是單純的數據本身。
數據的實時化與實時性分層
我們千萬不要把所有的能力都用來處理實時化的問題,因為我們依然會有大量的數據需要在恰當的時機(RightTime)處理,有的數據是重要的,但不緊急。
以上講到的很多內容都是關于數據收集和管理層面的,而在數據的處理上,我在LinkedIn上看到了一個很有趣且有價值的做法。LinkedIn在處理數據時,會把公司的數據服務分為幾層,一方面是緊迫度,另一方面是重要不重要。比如,它會把數據分為“快數據緊急”、“快數據不緊急”和“慢數據重要”等。
我覺得對數據實時性分層的做法是合理的,而有人覺得數據的實時化處理是趨勢,但是我持有一定的懷疑態度。RealTime是“實時”,RightTime是“恰當的時機”。但是,據我看來,數據處理不一定要實時。比如,我們常見的情況是,每家公司都有財務的相關數據,這類數據的處理都是“T+1”,意思是你想要的數據在第二天才可以拿到。因為在其他數據沒有到位的情況下,數據實時化的價值也不大。
但是,換個場景來看,銀行若要判斷某個人的信用卡是否被盜用,那么肯定要對之進行實時化處理。數據的實時化,讓我們從商業的角度去認知數據,值得注意的是,在具備了實時化的數據處理能力后,很多以前不能解決的場景開始變得能夠解決。在未來的某一天,編碼的工程師能夠在編碼時直接寫上“如果一個三天前只瀏覽未購買的客戶回來了,我要不要給他一個兩元錢的紅包”。這個程序是完全編好的,用戶登錄本身就成了一個實時標簽,快速的運算會讓每個網站都具備最強的時效性。
我們再換一個角度來思考,如今手機、電視、游戲機和PC等多屏運作的時代下,作為一個網站,有多大的能力在非常快速的情況下,讓自身在非常小的時間點里抓住消費者,賣出產品,這種實時的能力會在未來的商業中變得越來越重要。
一個網站必須要讓自己的實時能力更高,甚至用戶接下來的每一步你都應該猜到,但我們千萬不要把所有的能力都用在處理實時化上,因為依然會有大量的數據需要在恰當的時機(RightTime)處理,有的數據是重要的,但不緊急。
未來是人機的結合體
人和機器的結合,或者人和數據的結合將是未來的一種進步模式,人類將通過數據變得更加智能。
很多人會問,大數據目前發展到什么階段了?我的答案是——水分太多的階段。但毋庸置疑,大數據已經極大地影響了我們的社會,但還遠遠沒有達到它的爆發點。因為有了大數據,人的經驗開始和數據結合,兩者相互激活,讓人的智慧得到了規模化地放大,這也使得整個社會開始伴隨著數據的發展產生巨大的改變。但是,在大數據的使用上,未來的發展空間注定會比現在取得的成績更加宏大,“數據化運營”和“運營數據”這個數據與人之間的閉環系統也會越來越完善,人機結合仍然有巨大的空間讓我們去挖掘。
未來,數據的種類將超出我們的想象。以前的數據更多集中在外部行為的監控上,不論是網絡購買行為,還是網上社交行為,都是用戶在“遠距離”提供數據,即便這樣,我們仍然還沒有運用好這些數據。隨著可穿戴式設備的出現,數據和人將真正融為一體,類似谷歌眼鏡這樣的設備,將讓我們看到的東西即時數據化;類似健康手環類設備和可以深度收集腦電波數據的設備,將隨時會使我們人體的活動轉化成數據。目前,記錄睡眠狀況只是其初步的應用,在不遠的未來,用數據記錄我們每一秒鐘的生活也將成為可能。
當萬物皆數據的時刻到來時,商業發展的更多新機會將會出現,數據將會幫助我們更好地做出判斷,比如,什么時候最適合吃飯、什么時候身體疲憊適合睡覺和什么時候記憶力最好等,這些都能通過數據來進行預判。甚至于,當記錄了人的足夠數據之后,數據就可能告訴我們此時此刻應該做些什么及最佳的策略。也許在那時,決定人是否聰明的指標,已經不是IQ,而是是否擁有足夠優質的數據。
人和機器的結合,或者人和數據的結合將是未來的一種進步模式,人類將通過數據變得更加智能。
最后我想用兩句話來總結:
當下,我們要學會人機分工,讓人做人最擅長的事情,讓機器做機器最擅長的事情;
未來,我們要相信人機結合,人機的界線已經模糊,無人駕駛汽車已經變成可能。未來人類的身上流動著的是血液以及數據。
忽略了趨勢,過去的價值一文不值
我們通常都認為,經驗應該是越多越好。一個有經驗的人總是更能夠在很多事情上做出正確的判斷,因為積累使然。但事實上,我們發現,有時候經驗越多,似乎越容易讓人犯一些低級錯誤。這就好像,你會發覺往往天天研究彩票和股票的人總是發不了大財,而往往是一個菜鳥莫名其妙地就中了大獎和買了一只牛股。
為什么經驗有時會使人犯低級錯誤呢?在這里,我們應該將其分成兩種情況來看待:一種是信息不對稱;另一種則是邏輯錯誤。
當我們討論信息的不對稱時,首先要講的就是經驗。經驗是對過去的度量,但不是所有經驗信息的質量都很好。在經驗的數據庫里,肯定有一些信息是正確的,有一些是錯誤的。當經驗中混有很多噪音干擾時,我們會跟隨錯誤的經驗做出判斷,此時,我們就會發現自己變笨了。
比如,在使用沒有評估過的經驗時,你用A方案獲得了成功,用B方案卻失敗了,而且在評估的過程中也不是單純的0或1,而是用0~1的范圍來度量的。說到這個,就要提到數據分析師了。一般而言,數據分析師對于信息是很有潔癖的,也就是在對于經驗的累積上,他們對質量把控得十分嚴格,如對于數據信息的排序、分析可靠的信息源進行多次使用、了解信息的出處和知道信息的提供者等。根據這些,數據分析師在它們的輔助下做出了決定。這意味著,你所有的信息來源都需要有正確的途徑和渠道,不然,這個決策也會出現偏差。
除此之外,還有一個因素導致經驗使人變笨,那就是在分析時忽略了趨勢,這個道理可以用賽馬的故事來舉證。
在香港,你經常會發現拿著一大堆材料的人會分析馬匹的數據。比如,有人會根據一匹馬進行1200米跑的時間,來計算它未來可能跑完全程所需要的時間。但我們發現,還是有很多人因算錯導致賭馬失敗。為什么呢?因為歷史數據和我們今天面對的情況中出現了一些假象。香港大多數賭馬的人,他們最終收集到的數據都是受到影響的,而不是經過清洗的,當然是不準確的。每一個賭馬的人都在看過去的數據——馬會會給每一個賭馬者提供前三場賽馬的數據,大家只會關注這個結果,而不會去關注賽馬當天發生了什么。如果是我,則會去回看錄像,就可能發現其他的情況。比如,如果這匹馬本來想發力,但前面有馬匹擋住了它,它才被扣除了兩秒鐘;或者騎師揚鞭,鞭子掉了,扣除5秒鐘;再或者有些馬發脾氣偏離跑道,也要扣除秒數。當排除所有意外算出的時間,就是干凈的、沒有影響因素的真正經驗了。這時候,我們得到的第1~3名的數據和最終比賽結束公布出來的第1~3名的數據就會不一樣。
除此之外,還要觀察有關賽馬成長的趨勢問題。事實上,在每一場賽馬里都會出現很多意外,如果這些意外都不出現,也會直接導致結果的不同。因為每匹馬幼年和成年的狀態是完全不同的,因此它的數據價值評估也是不一樣的。一匹馬3~4歲等同于我們人類18~25歲,體能上會出現非常大的變化;又或者,年幼的馬匹對于騎士的體重非常敏感,多1~2磅就會有非常大的影響,但長到5歲后,負重對其的影響則會慢慢降低,這就是硬趨勢。即便有很多過往經驗的數據都不能很好地匹配今天你要做的事情時,意味著經驗需要將數據進行清洗——把當天的影響因素都找出來,并還原,這時候得到的數據才是正確的經驗。
結論就是,經驗使人變笨的原因在于你之前的經驗本身就存在誤差,即數據源本身就存在問題,而這種誤差一般人看不出來。因此,在過去的經驗積累本身就有問題的情況下,根據經驗得出的結論自然會使人犯低級錯誤。