本文根據美國LinkedIn公司的數據分析部資深總監Simon Zhang在3月7日的阿里巴巴西湖品學大數據峰會的演講整理而成,他著重分享了LinkedIn對體內數據的搭建、產品化和矩陣化的構想。文章未經演講者審閱。
現在的大數據的后面是個大冰川,海平面上的普通人一般能看見,海平面以下是專業人士能看見的。Linkedin內部大約有起碼20種不同的數據庫,就是完全不同的技術的數據庫,還不包括同樣一種數據庫有不同的應用。但實際上我們真正的內部企業用戶,包括Linkedin本身,需要的不是一個大冰川,需要的最后是冰激淋,就想把結果出來就行,他不需要大冰川。
怎么能做到這個冰淇淋呢?咱們講講數據分析的變革。基本大數據分析的三個原則,這個基本的原則是我大約加入Linkedin9個月以后我們決定下來的。我們如果要做一件最重要的事的話,那個事需要有三個屬性:
第一個簡單,他出來的結果必須要非常非常簡單,沒有任何花哨的東西,任何人都能夠看明白看懂。
第二個迅速,就是剛才說的速度的問題,越慢結束度越低,越快接受度越高。當然在Linkedin使用的是藍圖法則,3秒鐘的法則。
第三就是要規模化,規模化各這的角度來說,我們當時思考的方法是這樣的,希望Linkedin內部所有的員工每一個人都能夠用數據來分析幫他們做決策,很快的做決策。
怎么做到這一點?
第一步,我們需要建立一個真正的金字塔。分析師不應該從數據開始,他必須要從客戶、產品、市場、銷售開始,也就是說明白公司怎么能做到這件事。他必須要明白如何在這種層面標記未來的事物,標記比數據本身重要得多。分析師本身要分析自己以后要分析什么,這樣才能把正確標記加到數據庫里面去。他還必須要明白,數據庫之間的公用,流程,每種數據是怎么分工的。
下面就干活了。在Linkedin有一個不成文的共識,你做的東西不僅僅是有趣是不夠的,必須要注重執行性。我分析到這個結果以后到底能做什么,這是很重要的。說完了做以后咱們就走到決策,決策本身一定要實現增加商業的價值,或為團隊增加價值。
第二步是規模化。需要用科技來把金字塔變成一個非常小的底,而大的中心,最小的一個尖的一個過程。舉個例子,Linkedin我待的九個月之內和另外一個同事合作,完成了500個不同的需求項目和模型,但是當年我們其實直接支持兩百個人,500÷200,每年我才回答2.5個問題,這絕對是非數據驅動。后來我們決定是把整個做一個系統,來模擬以前我們兩做的大部分工作,這個系統響應3秒鐘,簡單的規模化了,大概花了三個月,五個人,在內部支持銷售的,在今天為止每天這個系統可以服務1000個銷售員工,大約用這個系統十次,用一次大約時間是3秒到一分鐘,這個系統一天就能做到以前我們兩個人做不到的事情,這就是一個規模化的結果。當年出來結果是我們銷售增長了175個百分點。
第三步,產品化。內部的東西大致做到OK了,就要把內部積累的這些實踐、經驗和產品和規模化的東西,要做到網站上去,要進來大量自然的用戶、企業的用戶,比如說我們前面講的那個支持內部銷售的分析系統,在去年Linkedin就對外開始了一個新的業務,用數據幫助全世界所有的銷售人員變得更有效率。
第四階段,不斷的開發新的數據產品。我們發現了第一個數據產品后,做第二個就非常容易了,然后第二個產品會利用第一個產品的結果,第三個又用第二個結果,結果造成了數據產品內部的網絡化、矩陣化,推動人與人之間的交流、互動、合作。這就是下一步我們準備要做的,就是把所有的產品關聯起來,讓它們互相提供價值。實際上這都是建立在一個平臺上面的,數據是一致的,產品是多樣性的,服務的對象既是同一個人又是一個同樣一個人不同的面,比方說,作為一個父親來說需要為我的孩子花錢上學,我作為上班族來說我需要買汽車上班,所以人的需求是不同的,做同樣的產品挖掘不同的數據。