編者按:本文來源于知乎,作者鄒昕,Facebook數據科學家,主要工作為用戶增長數據分析,微信公眾號再生談(reborn_chat)。著作權歸作者所有。轉載請聯系作者獲得授權。
本文內容來源于作者在知乎的一場直播,內容關于如何通過數據分析驅動用戶增長。由于 Facebook 有嚴格的保密要求,所以這次直播內容不會透露屬于內部消息的數據、產品或者策略。直播里提到的例子如果涉及到 Facebook ,都會是已經公開的信息(一般是 Facebook F8 大會提到過的或者 Engineer blog 上的內容)。
先簡單介紹一下我自己。我是清華生物系本科和碩士畢業,之后去北卡大學念藥物藥理學的博士,中間發現自己不適合走生物科研的路,所以在博士開始兩年多的時候決定轉碩士走人。很幸運的是當時的導師也很理解和支持我,拿到碩士之后我重新申請了北卡州立大學的數據分析的項目。畢業之后在 Discover 公司做信用卡風險模型和數據分析,大概工作了兩年多。
最后在今年年初的時候跳槽到 Facebook 做數據科學家,我們組是做用戶增長的,我負責的一塊主要是跟用戶好友關系、好友推薦系統相關的數據分析。今天的分享就是關于通常情況下互聯網產品是如何用數據分析來驅動用戶增長的。
一、行業特點
說到互聯網產品的用戶增長,可能大家都有所耳聞。與傳統行業相比,互聯網相關的產品有幾個不一樣的特點。一是由于網絡效應,由于互聯網相關產品更容易擴展,更有可能出現爆炸性增長的局面。二是互聯網行業更容易出現贏者通吃的局面,比如優酷和土豆的合并,攜程和去哪的合并,立馬形成行業壟斷。三是在行業發展前期一旦有一個好的產品領先,后來者就很難翻盤了,所以互聯網行業會出現前期大量燒錢搶占市場和用戶的局面,比如 Uber 是一個特別典型的例子。
二、Retention / 用戶留存
對用戶增長來說,什么是最重要的呢?有人說是用戶最重要,有人說是 Acquisition 也就是新用戶獲取最重要。對很多互聯網公司來說,不管是熱門 Startup 還是已經比較成型的公司,首先需要解決的問題的是 retention,也就是用戶留存。這也是為什么十幾年前,大家通常用的指標都是注冊用戶,而Facebook 創始人 Mark Zuckerberg 從一開始就給公司定了明確的目標,注冊用戶并不是最重要的,最重要的應該是活躍用戶。
用戶留存曲線
好的產品和不好的產品用戶留存是什么樣子的呢?有這里就需要提到一個概念用戶留存曲線。如下圖所示,橫軸是從注冊開始到現在的天數,縱軸是活躍用戶的比例。這里用的例子是月活用戶,也就是說如果過去一個月之內你用過這個產品,那么你就算是一個 active user。很顯然,注冊開始第一天,大家都是月活,第二天第三天直到30天都是如此,從第31天開始,有一部分人不是月活了,因為他們只在第一天用了,之后就再也沒用過,以此類推第32天33天等等。一個好的產品,應該是像藍色曲線這樣,隨著時間的推移會有下降,但是到一定程度之后會趨于跟 x 軸平行。如果你看到一條綠線這樣的用戶留存曲線,那就你就需要好好研究一下你的產品了,因為這意味著隨著時間的推移,所有注冊用戶都會放棄你的產品。那么即使你把全世界的人都抓來注冊了,終究月活用戶數也會變成0。
用戶留存 vs. 新產品
推出新產品的時候,用戶留存曲線是非常重要的,以確保有一個足夠好的產品,接下來才是把這個產品推向更多用戶的時候,很多互聯網公司比如 Airbnb 都有類似的策略。當然不同的產品,關注的指標很有可能是不一樣的。比如說微信,假如你看月活的話,那可能意義就不是很大了。一個月用一次微信的用戶,說有不了什么問題,更應該關注的可能是日活,或者發了多少條信息這種。那么對于 Airbnb 來說,月活則是一個比較適用的指標,其它比如每個月有多少房間預訂之類,也是應該關注的指標。
神奇時刻 -- magic moment / Ahhhaa moment
假設現在你有一個很好的產品,用戶注冊之后過一了段時間也還是有很多人留下來繼續使用。那么接下來怎么做用戶增長?
很多社交網絡產品都提到一個概念叫 magic moment,直譯過來的話就是神奇時刻。什么算 magic moment 呢?比如對于 Facebook 來說,你注冊之后,在上面看到你現實生活中認識的好友,看到他們的照片,狀態等等。這個時候對新用戶來說,心里想的是啊!原來 Facebook 是干這個用的。比如對于知乎來說,可能是在答了一個題之后,看到小紅點顯示有人點贊,或者是感謝,或者是關注等等。同樣,對于LinkedIn,Twitter,微信,微博也是類似,新用戶或者是找到他們想要聯系的好友,或者是找到他們想要粉的人,這一時刻讓用戶有繼續使用下去的動力。
例子 -- 用戶留存率 vs. 好友數
對于很多社交網絡產品,比如說 LinkedIn 來說,一個很簡單便是很有效的分析方法,就是看用戶留存率跟好友數的關系。當你的好友數低于某一個值的時候,用戶留存率會非常的低。當好友數量達到一定數量的時候,再增加好友數對留存率的影響就很小了。那么確定下來這個值之后,工程師們要做的就是以這個為目標進行各種產品改進、優化、新產品開發等等。有人可能會問了,這里面有個很顯然的問題,就是你只能說明這是相關性,而不是因果性。但是最終解決辦法其實很簡單,不管 Facebook 也好,LinkedIn 也好,微信也好,如果你沒有好友的話,肯定是沒有人會繼續用的。所以這里面肯定有因果性在里面。同時肯定也有相關性,很大程度上二者肯定是相互影響的,通常來說好友越多,更有使用產品的動力。產品使用的更好,好友也更多。
三、A/B 測試
上面一段提到在設定某一個目標之后,工程師們接下來就要通過各種產品改進、優化、新產品開發等,互聯網公司基本上都是通過 A/B 測試來確定是否發布產品,是公司產品開發非常重要的一環。在灣區這邊有一個 meetup 小組就是專門講 A/B 測試的,像 Uber, LinkedIn, Netflix 等等都在這個小組介紹過各個公司是怎么做 A/B 測試的。
接下來就以 Airbnb 為例子來說明 A/B 測試為什么重要,如何做 A/B 測試,以及中間可能遇到的問題。
例子來源:http://nerds.airbnb.com/experiments-at-airbnb/
為什么要做實驗
實驗是最有效的證明因果關系而非相關性的工具。以 NBA 為例,數據顯示,當科比出手10-19次時,湖人的勝率是71.5%;當科比出手20-29次時,湖人的勝率驟降到60.8%;而當科比出手30次或者更多時,湖人的勝率只有41.7%。
根據這組數據,為了贏球,科比應該少出手?并不一定如此。有可能科比出手少的時候是因為隊友狀態好,并不需要他出手太多。也有可能是因為球隊早早領先,垃圾時間太多。而出手太多的比賽是因為比賽艱難或者隊友狀態不好,需要他挺身而出。當然,以上也只是可能之一,具體是什么情況光靠這組數據并不能得出任何結論。
A/B 測試的用處
對 Airbnb 來說,很多時候一個新產品的發布,是很難說明結果到底是新產品的呢,還是別的因素。如下圖所示,紅色部分是新產品發布和撤回的時間段,這期間的變化到底是因為產品呢,還是別的因素?有可能用戶受到時間的影響,比如周中和周末的區別,是否假期,天氣等等。對于 Airbnb 這種旅行相關的公司來說,這些外在影響尤其大。通過實驗則可以把產品的影響跟別的外在因素的影響區分開,產品做一個小的改變,跟對照組進行對比,這就是 A/B 測試。
實驗需要跑多久?
A/B 測試的老大難問題:實驗跑多久最合適?結束太早可能產品的真正效果還沒有足夠時間體現出來,實驗拖太長會影響產品迭代改進的效率,這對諸如 Airbnb 這樣的初創公司還是 Facebook 這樣講究 move fast 的公司來說,都是很麻煩的事情。
例子 -- 搜索價格范圍
Airbnb 曾經測試過把價格選擇范圍從最高的$300改成$1000。一周之后,根據下圖的紅線顯示,實驗效果顯著 (p<0.05),也就是說改成$1000之后預訂會增加。但是事實上實驗繼續進行下去的話,你就發現這個改變其實是沒有效果的,最終也沒有統計顯著 (p>0.05)。
不過雖然這個測試的結果是中性的,考慮到有一部分用戶的確需有查找高端房源的需要,Airbnb 還是決定把最高搜索價格從$300改成了$1000。那么到底實驗應該進行多久呢?通過各種復雜的統計分析,Airbnb 總結出了一套動態決定邊界(Dynamic decision boundary),綜合考慮p值和實驗進行的天數。
四、全面理解實驗結果
通常來說,選定一個或幾個指標(metrics)來分析實驗結果,以免主觀挑選實驗結果(cherry picking)。但是僅僅看一個指標也是不行的,很容易就錯過全局,一葉瞕目。比如 Airbnb 做過一個非常大的改動,在用戶搜索的結果顯示里,更加強調房源的照片和在地圖上顯示的地點。項目非常大,大家都認為結果會很好,用戶調研顯示也是如此。
盡管如此,Airbnb 還是決定如常做一下 A/B 測試,然后發現了問題:結果基本是中性的。幸好 Airbnb 的數據科學家們并沒有就此結束,相反,他們看了看不同的方面,包括在不同瀏覽器的效果,發現 IE 是最大問題所在。很快進一步發現,新產品在某些老版本的 IE 上會有 bug,以至于預訂率了超過3%。修復了在 IE 上的 bug之后,立馬預訂率就變成提高超過2%,與其它瀏覽器上效果類似了。這是一個非常典型的例子。很多時候看到中性的實驗效果,不妨根據不同的維度進行細分,比如瀏覽器、同家、用戶類型等等。
問題: Twitter 2015 年用戶增長為 11%,這是否存在增長的危機?為什么?
結果 too good to be true
不管是自己打造的 A/B 測試系統,還是使用第三方的系統,都是有可能出問題的。如果默認系統都是有效的話,有時候麻煩就來了。有時候可能是使用過程中出了問題,有時候可能是系統本身的問題。最簡單的辦法是跑個 A/A 測試,也就是實驗組和對照組都是一樣的產品,然后看系統結果怎么說。
Airbnb 做過一系列 A/A 測試,發現在實驗組和對照組的用戶數量基本一致的時候,系統是正常工作的,顯示中性的結果。但是當對照組的用戶遠超實驗組(75% vs. 25%)的時候,結果顯示高達-15%的偏差。最后發現原因在于對用戶的追蹤問題,很大一部分用戶沒有正常的記錄到實驗組里去。未必每一個公司都會碰到完全一樣的問題,不過適當的進行 A/A 測試,確保系統正常工作是非常重要的。
五、據驅動用戶增長的前提
首先需要有一個好的產品。其次在創業初期,所有人都需要有這個概念。最后需要要 infrastructure 的支持,諸如 logging,dashboard,A/B 測試系統等的建立。例如:Uber 的 A/B 測試系統(推薦看 Uber 的 A/B 測試系統是個什么樣子的GIF圖)
六、問答環節
Q: 數據分析的用戶量達到多少,分析結果才靠譜。
A: 通常對大的互聯網公司來說是百萬級別,當然這對于多數公司是沒法有這么大的用量的,所以通常情況下來說需要看產品本身用戶量的大小,個人感覺一般一萬以上是一個基準。當然除了用戶量大小以外還需要看統計檢驗的顯著性,以及實驗的時間來綜合考慮。
Q: 工作中主要使用的分析工具是什么?除了 Python, R, SQL,平時工作中是否還有更多或者更有針對性的工具使用要求?
A: 工作中最主要使用的分析工具是 SQL, SQL 和 SQL。通常 ad-hoc 的一些分析基本都是 SQL 來做,如果數據量大了之后通常就是 Hive,但是 Hive 基本語法跟 SQL 的類似的。再就是用 Python 寫 pipeline,這里面 python的作用是寫一個自動跑 SQL 的腳本,所以其實還是寫 SQL。除此之外數據可視化也是一個比較重要的方面,通常 Excel 和 Tableau 是很有效的兩個工具。也有人會用來 R 或者 Python 來做數據可視化這一部分。總體來說最基本也最重要的工具就是 SQL。
Q: Facebook 如何通過旗下不同平臺 (messenger, WhatsApp, Snapchat, Facebook Timeline) 收集、管理和使用同一用戶的信息。
A: 具體怎么收集和管理同一用戶的信息不太清楚。如果用過 Facebook 和 Instagram 的話應該會發現如果在 Facebook 上加了一個好友,同時你們也上 Instagram 的話,那么會收到提醒說要不要 follow 他/她的 Instagram 之類。另外 Snapchat 不是 Facebook 旗下的 :)
Q: 一般如何選擇 A/B testing 的 sample group?
A: 涉及到以下幾個方面,首先是需要考慮 sample size,可能一開始是 1%, 然后增加到更大比如 5%, 10%, 50% 之類。其次是需要考慮到產品會影響到哪一部分的用戶,比如 iPhone 或者 Android 用戶,或者是只影響到某一個國家等等。最后是需要考慮到 testing 的時間,根據不同產品不同測試的要求,可能是幾天或者幾周不等。
Q: Facebook 有什么著名的基于數據的 User Growth Campaign?
A: 一個例子是用戶好友推薦系統。解釋一下這個功能就是根據用戶的情況來推薦好友,可能很多人非常不喜歡這個功能,比如說會覺得推薦的人不是很相關啊或者推薦了現男友的前女友啊或者前男友的現女友啊之類。當然推薦系統有很多提高的地方,但總體來說這個功能是非常成功的。一方面在幾年前的 F8 大會上公司介紹過對新用戶來說,在初期達到某一數量的好友數是非常重要的,這其中好友推薦系統就是一個很重要的功能,給用戶省了很多事。另一方面在 Facebook 推出這個功能之后,別的很多公司也有類似的功能,比如 LinkedIn 推薦 connection, Airbnb 推薦房間等等。
Q: 對于一個具體的目標(例如“好友推薦”, DAU,乃至“盈利”等),如何建立相關的數據模型、設立相關指標,如何完成數據的難與改進的流程。
A: 首先需要考慮的產品組設立的具體目標跟公司的總體目標是不是相一致的,如果提高了這個產品的具體目標,但是對公司總體的目標卻沒有影響,甚至是反面的影響,那就需要考慮一下哪里出了問題了。其次是設定了一個具體目標之后,最好在一段時間內堅持這個目標,而不是經常做一些改動,否則的話會影響到數據分析的效率,比如說要構建新的 dashboard / report / pipeline 之類。最后每過一段時間需要再回過頭看具體產品組的目標跟公司的長期發展目標是不是一致的,包括 back test 以及 long term holdout 等測試。
Q: 一個優秀的數據分析師應該具有哪些基本功和特質?優秀的數據分析者和平庸的數據分析者的差距在哪里?
A: 一個優秀數據分析師具備的基本功首先是在技術上達到一定的要求,其次是對產品有一定的了解,包括產品開發從頭到尾的整個流程,這是基本的要求。那么要成為一個優秀的數據分析者,我覺得最重要的一點是能夠對身邊的人產生影響。比如對工程師的影響,讓他們也能通過數據分析來發現問題,因為他們是具體開發產品的,對產品的理解是非常深刻的(通常情況下對產品和細節的理解要比數據分析師深的多)。所以如果把自己的經驗分享給工程師、產品經理等,讓他們一起利用數據來分析問題解決問題,這樣的話對開發、改進產品是非常有效的,會成為一個非常優秀的數據分析師(向這個目標努力)。
Q: 數據分析在產品改進、公司決策應當處于什么位置,當兩者出現了矛盾的時候如何解決?
A: 通常來說對于短期目標來說是由數據分析的結果來決定的,當然前提數據分析的結果是正確有效的,這種情況下一般來說是數據說話。那么對于長期的目標來說數據分析的作用會小一些,更多的是由公司的決策層來決定整個方向。比如說互聯網產品從桌面端向移動端的變化,這個通過數據分析是很難體現出來的,因為現有的數據不一定能說明將來的發展,當初大部分人使用電腦,但是最幾年用戶更多轉到手機等移動端,那么這種情況是很難通過數據來體現的,這個時候就需要看決策層的眼光了。比如說從騰訊的重心從 QQ 轉到微信,Facebook 從桌面端轉到移動端這種大的方向轉變,個人感覺數據分析起的決定性作用都比較小。
Q: 當前硅谷來說,數據分析的主流運用場景在哪里?未來數據分析的趨勢是怎樣的。
A: 主要幾個場景:第一是各種 A/B testing,這是用得最多最廣泛的場景,也就是產品改變好還是不好,都需要通過 A/B testing 來決定。另外一個就是通過數據分析來監控一些異常情況,通過過去的趨勢來看是不是有異常情況,比如說過去一天或者一周用戶突然增加了 10% 或者 減少了 10%,那么就需要通過數據分析來看這到底是正常的波動呢,還是某些方面出了問題。最后就是通過數據分析來尋找機會,比如產品哪些地方可以改進之類。未來數據分析的一個重要的趨勢是如何從大量的數據里找出有用的信息,因為現在數據實在是太大太雜太亂太快了,如何從這些數據里挖掘出有價值的信息變得非常重要。另外一方面是如何根據產品的需求尋找新的數據來源,為改進產品服務。
Q: 數據分析項目(或產品)的研發過程中,分析師和業務人員有哪些合作?
A: 如果這里面的業務人員指的是產品經理以及工程團隊的話,合作是非常緊密的。一個典型的研發過程是通過數據分析發現產品某個方面或者流程有改進的機會,然后產品經理以及工程團隊(程序員)溝通是否可行,其中可能還會涉及到設計人員對產品的改進,最后由程序員來實現需求。接下來再通過實驗比如 A/B 測試看效果,有需要的話會有多次的迭代、改進。效果好的話那么就可以發布新產品,同時后續還會通過數據分析來追蹤產品的表現 (performance),整個流程下來數據分析跟產品經理、設計、程序員都是緊密相關的。如果說業務人員指的是運營相關的話,那基本是沒太有什么交集的。
Q: 對于小公司、小行業來說,最大的競爭對手網站每天的日活量也就 10 萬上下,這樣想做數據分析,分析的用戶量應該確定到多少呢?
A: 如果是做 A/B 測試的話,1 萬以上的用戶量差不多是下限了,再少如果幾千的話,那需要測試的差異非常明顯才能夠比較明確的說這個差異是真的差異呢還是一些背景噪音。如果是做類似漏斗分析或者用戶轉化圖這種的話,那么上千的用戶量就可以開始有這個概念了。當然需要注意的是數據分析是有局限性在里面的,尤其對于產品、公司發展初期來說,不要把過多的精力放在數據分析上面去追求統計顯著之類,而應該是更多的打磨好產品,找到產品合適的市場。
Q: 現在的工作都是 SQL 做 CRM 的 report,有 adhoc 有 regular,但覺得都沒什么創造性,很機械沒前途啊。。。該怎么往更偏 solution 方向的職位跳呢?
A: 需要改進的方面最重要的一點是對產品的理解。因為數據分析的最終目的是改進產品本身,或者說讓更多的人使用產品。不管做 report 也好 adhoc 也好,數據分析最重要的結果是這些對產品有什么意義,比如提供哪些可以改進的方面,哪個步驟是有問題的等等。為了做到這一點首先就需要對產品有一個很深刻的了解,而不僅僅是把目光集中在數據分析這一點上。另外還可以通過自己的特長和經驗來影響合作的人,比如說產品經理、程序師等,讓他們也能方便的使用數據來幫助產品開發。
Q: 在金融場景中,由于風險的滯后性,導致測試周期非常長,有什么方法能較好解決這類問題嗎?
A: 總來說這是由于行業特性決定的,基本上很難有什么好的解決辦法。我之前在信用卡公司做風險控制,比如說看用戶的壞帳率,基本上都是看長期的結果,比如說 6 個月,一年或者兩年這種。再考慮到開始設置實驗對照組,模型開發、數據分析的時間,還有之后看模型表現 (performance) 的時間,整個過程就更加的長了。假設是看 6 個月的風險,現在開始設置實驗對照組,那么要能看到用戶的表現的話至少需要等到 6 個月之后,再開始花幾個月半年(這算比較快的)做模型和數據分析,之后再等 6 個月看結果,所以一個項目完整的流程下來都是至少一兩年的。基本上是由行業特性決定的,不可能像互聯網行業的一些項目周期這么快。
Q: 想問怎么看待 FB 用戶增長降低,原生內容分享減緩,用戶流向 Instagram 的情況呢?
A: 首先根據每年的公開數據來看 FB 用戶的增長并沒有降低,當然這個增長速度是不可能一直持續增長十幾年,因為世界上一共就那么多人。至于原生內容分享減緩,這個的確有一些這樣的報道,個人感覺對于 Social network 來說基本都會有這樣的趨勢,比如說十幾年前最開始大家用 Myspace,然后 Facebook 出來之后大家覺得這個比較酷就都使用 Facebook 了,隨后有 Instagram, Snapchat 等的出現,用戶又有一部分轉到這些。國內的互聯網市場基本也有這個一趨勢,比如十幾年前我上大學的時候校內網也就是后來的人人網非常的火爆,后來微信出來之后大家一窩蜂的涌到了微信。對于這種情況來說,就公司領導層的動作來看一個應對方法就是通過收購,比如 Instagram 和 Whatsapp 都被收購了,所以如果說有內容流向 Instagram 的話那是沒什么太大的問題的。此外根據公開的報道,對收購 Snapchat 也是有過興趣的,只是最后沒有談成。第二個應對就是公司自己需要持續開發新的產品。比如說微信是一個很好的例子,騰訊并沒有因為有 QQ 的存在就一直把目光局限在這上面,而是從自己內部打破,開發出了微信這款神級產品。因為對互聯網產品業說,如果停步不前不保持改變的話,那么終究是會被別人打破超過的。與其這樣不如自己開發出新的產品來超過原來的產品。
Q: 2B 的業務有成熟的數據分析驅動客戶的案例么?
A: 一時想不起來有特別典型的案例,感覺比較接近一點是 Uber。雖然 Uber 的最終目的是給打車的人提供服務,但是他們很重要的一點策略是通過先打開大量的司機的市場。因為司機數量上來之后,首先是大家會發現打車的等待時間會變得非常短,另一方面是司機之間的競爭變得更強,更容易提供優質的服務,所以客戶的體驗會有一個大大的提高。另外一個例子大家可以關注一下國內的一個公司收 GrowingIO,是 LinkedIn 前 business analytics 老大回國創立的 startup,他們主要做的是給公司提供數據埋點、分析的服務,大家可以關注一下,我覺得他們長期來看是會有一個很好的發展的。
Q: 能分享一下在工作中各項任務的時間占比例嗎?
A: 這個根據不同的時間段會有不同。 如果是在定期做規劃的時候,會有很多跟產品組其他人員的溝通,比如說產品經理、工程人員、設計等,大概 50% 的時間的樣子。另外一半的時間就是把之前一段時間的分析整理總結一下,通過這些結果來找到下一個階段的產品需要改進、集中資源的地方。這個時間段的話,那基本是大概 20% 的時間用來跟產品組其他人員溝通,剩下 80% 的時間做分析。做分析的時間里面大概一半是一些 adhoc analysis,20%-30% 做一些對長期來看有好處的工作,比如說 pipeline 的工作把一些過程自動化。還有一部分時間就是看已有的一些 report/dashboard,包括監測有沒有異常啊,產品的 performance 是否符合預期等等。
Q: 請問國內哪些行業對數據分析師需求量特別大?游戲行業怎么樣?
A: 個人了解的比較多的是互聯網和金融行業,當然這個是有 bias 的,因為我之前在金融行業,現在在互聯網行業,那么自然認識的這兩個行業的人也會比較多,國內聯系我的獵頭基本也是這兩個方面的。比如說一些機會像阿里,支付寶,螞蟻金服等,要么是跟互聯網相關,要么是跟金融相關,要么就是互聯網金融。至于游戲行業的話對于國內不太了解,美國這邊也有一些相關的工作職位。不過個人感覺總體來說最大的還是互聯網和金融這兩個行業,此外還有管理咨詢行業也增加了很多數據分析相關的職位。
Q: 一個優化目標對應的可驗證的改進點有很多,比如一個簡單的注冊指標,需要考慮注冊界面的各個因素,還有很多其他因素。請問怎么確定應該驗證哪些點?以及如何確定驗證的優先級?
A: 首先需要考慮的是做一個整個流程的數據,比如以注冊為例,有多少人到這個頁面,多少人開始這個流程,每一步一直到最后有多少人確認了注冊整個過程。之后看一下各個步驟的轉化率,找到特別低的一個或者步驟。另外還可以跟類似的產品的對比,不同地區、不同用戶的比較等等,看哪一個步驟的轉化率相對來說特別低,那么這就需要優先考慮的地方。
Q: 數據分析能用在微信公眾號或者視頻內容嗎?如果可以,能分別舉個例子嗎?
A: 關于微信公眾號或者視頻內容我個人沒有什么經驗,公眾號也是前段時間才剛開的。不過我感覺跟互聯網產品是相通的,最重要的一點還是 retention retention retention。初期的時候需要保證有一個好產品,有好的內容,確保用戶來了之后會留下來繼續保持關注你的內容。如果沒有做到這一點的話,那很有可能拉來很多新用戶,但是一段時間之后他們發現內容沒有什么特別的,那么接下來要么就取消關注,要么就不再打開內容了。所以最開始需要先把內容做好,在保證留存率的基礎上再開始做推廣。當然我對這方面的產品并不太熟悉,只是根據其它互聯網產品的經驗的一些想法。
Q: 機器學習中的算法在數據分析中的應用現狀是怎樣的,所占比重大嗎?會與產品的設計掛鉤嗎?鄒老師怎么看機器學習在數據分析中的前景?
A: 機器學習跟數據分析二者是相關,因為機器學習的算法做出來最終終要看的是對產品的影響。比如說一個排序系統,最終要看它是否增加了更多的用戶,增加了用戶的活躍度、增加了用戶的粘性。機器學習對產品的影響我覺得是長期來看肯定是會非常大的,比如說 Facebook 的 Newsfeed,它不是按時間來排序的,因為最近發生的事情不一定是用戶最關心的。這個產品不管對公司來說還是對用戶來說都是有好處的。比如說公司可以有巨大的廣告機會在里面。對用戶來說可以優先看到機器學習排序出來的最重要、用戶最感興趣的那部分內容。當然這個機器學習的結果永遠不會是完美的,需要不停的改進,也正因為這樣個人以為它的發展前景是非常好的。跟產品設計是直接相關的,一般來說機器學習這一塊是跟工程組在一起的,也就是程序員/碼工們一起的,跟產品的聯系非常緊密。(知乎也可以按機器學習的結果來排序 Newsfeed,不過不是強制的。個人猜測終有一天會是強制按機器學習的結果來排序)
Q: 硅谷現在有哪些專門做數據的公司?主要業務是什么呢?
A: 最有名的應該是 Palantir Technologies 了,專門給政府、軍隊、國防部門提供數據服務的,創始人是 Paypal 黑幫那幾個像 Peter Thiel 等等。非常有意思的一個獨角獸。
Q: 工作中有遇到用戶增長/產品數據分析的KPI和公司sales business KPI不同的情況。想問鄒老師有沒有遇到過類似的情況,有沒有協調的方法?
A: 這個在現在的公司沒有遇到過,因為我們產品組這邊跟 sales 基本是沒什么交集的,所以也不存在 KPI 打架的情況。在之前公司有 risk 跟 marketinng 的 KPI 不同的情況。因為 risk 部門的一指標就是用戶的風險高低,也就是最后看到壞帳率,而對于 marketing 來說最重要的是有多少新增用戶,這兩個很多時候是相愛相殺的。如果需要獲取更多的新用戶的話,那很有可能就要降低風控的標準,壞帳率就上去了。如果要控制壞帳率在一個較低的水準的話,那么獲取新用戶的難度就加大了,因為畢竟只有那么優質用戶在外面,要么用高成本獲取新的優質用戶,比如說各種 promotion,要么就只能降低風控 (underwriting) 的標準了。碰到這種情況的話基本根數據分析關系就不是太大了,主要是老大們說了算。
Q: 請問數據分析師從長遠來看會取代傳統的user 和 user testing嗎?
A: 我覺得暫時來看是沒法取代的,因為數據分析更側重在產品這一塊,而 user research 或者 user testing 更側重在用戶這一塊。雖然對產品的分析可以了解到一些用戶的想法,user research 還是更直接一點,比如說用戶的想法這種是很難通過產品本身的分析來發現的。再者 user research 還有可能發現一些新的領域,也是對現有產品分析的一個補充。所以個人感覺幾年之內是沒法取代的。
Q: 請問有沒有數據分析相關的專業書籍或者書籍推薦呢?
A: 首先可以參考統計基本的東西,說實話我自己沒有看過什么跟數據分析相關的專業書籍,只是學過一些統計的東西。至于數據分析相關的可以推薦的話首先可以參考一下管理咨詢方面的案例,從這里面找找靈感,比如 Case in Point。其次除了書籍以外還可以參考一些網上的信息,比如知乎也好一些微信公眾號也好,都可以找到一些很不錯的資源,有時候知識系統更新會比看書更快一點。
Q: 請問知道一些在學術機構應用數據分析的案例嗎?比如科學計量或者數據管理一類的。
A: 對學術界不太了解具體的案例,不過就我所知現在很多商學院發 paper 什么的也是有數據支持的話會更容易發好雜志一些,別的像計量相關的學科也有很多都要用到數據分析,算是一個趨勢。
Q: 能分享一下國內或者國外數據分析這個行業職業發展的情況嗎,比如什么行業/公司會設置專職的數據分析職位,發展情況如何呢?
A: 首先講講在美國這邊的發展,基本上職位空缺是挺多的,主要是集中在互聯網和金融行業,現在管理咨詢行業相關的職位也越來越多,至少近期幾年來看發展情況還是相當不錯的(當然沒法跟碼工比了)。國內的話也是集中在互聯網和金融行業,比如阿里、螞蟻等等。
Q: 在用戶推薦上,如何解決多個不同場景推薦問題,場景可能會非常多,幾十個,幾百個,上千數萬。
A: 對用戶推薦系統的開發不熟,個人感覺是針對不同場景,可以把場景作為一個輸入 (input),這樣來達到每個場景有針對性的推薦。
Q: 數據分析跟產品經理的配合是怎樣的?目前很多互聯網公司都還沒有數據分析師,在有數據分析師的公司,數據分析師和產品的合作方式也不是很清晰。
A: 不同的產品或者不同的組會有區別,也要考慮到產品經理和做數據分析對產品以及數據的理解。通常來說二者是合作的關系,一個比較理想的合作流程是數據分析師基于對產品的理解,通過數據分析發現產品可以改進的地方,同時產品經理也懂數據,這樣溝通起來更順暢。當然具體到實際工作中會有區別,比如說如果產品經理比較資深的話可能更多的是產品經理提出需求,然后數據分析師來回答這些問題。反過來如果數據分析師比較資深的話,那么可能會更獨立一點,不太理會產品經理的問題。總體來說比較理想的狀況是二者互相合作,同時對對方的領域也有一定的理解,便于溝通。
Q: 如Facebook一開始沒那么多的用戶量,只有哈佛學生時數據分析還能用嗎?數據分析是只能在用戶量十萬以上時才能發揮最大作用嗎?
A: 很顯然我沒有經歷過 Facebook 的階段。根據對一些案例的學習來看,在產品用戶量非常少的情況下,只需要做非常非常基本的數據分析,也就是用戶來使用產品之后是否留下來。其它的比如 A/B test 也好,通過數據分析找機會也好都是不需要的,因為這些涉及到很多成本,尤其是時間上的成本對產品初期的快速迭代是有害的。只有在用戶量達到一定階段之后,才需要 A/B test 之類的介入,以達到數據分析的最大作用。
Q: 一家互聯網公司的數據分析團隊應占這家公司員工的比重是多大呢?對于小型初創公司,數據分析團隊是必要的嗎?
A: 我覺得理想的比例是這樣的,一個產品經理,一到兩個數據分析,10-20 個工程師,以及一個設計方面的。對于小型初創公司來說,并不需要數據分析團隊,而是團隊里每一個人都應該懂一些最基本的數據分析(像上一條提到的,這時候的數據分析也不需要太復雜),然后通過這些基本的分析把握一個大的方向就可以了。像 A/B test 這種更多的是進行一些優化這種,對于小型初創公司來說是沒有必要甚至有害的。如果產品的效果需要做 A/B test 才能看出差異的話,那么用戶增長可能也是很緩慢,對于初創公司來說是很危險的。
Q: 做數據分析如果想進Facebook的話,您有什么建議嗎?招聘時看重哪些標準呢?比如說發論文參加比賽之類的。錄用國內的學生可能性大嗎?
A: 如果指的是做數據分析也就是 analytics 方面的話,發論文參加比賽包括算法比賽,Kaggle 之類用處是不大的。最重要的幾個方面,一是對產品的理解,比如說用什么指標來看產品的好壞,怎么設計實驗,如何分析實驗結果等等。二是技術方面的,這個最主要的就是寫 SQL 了。另外還有就是一些基本的數學、概率、統計方面的知識,以確保做的分析是正確的。對于從國內直接過來的機會相對比較小,一是因為不同的工作環境、文化的差異,二是涉及到工作簽證的問題。現在工作簽證(H1B)都是需要抽簽的,也給國內直接應聘美國這邊的工作帶來了很大的障礙,暫時還沒有接觸到做數據分析的這樣的例子。
Q: 傳統行業(零售)的區域銷售經理,平時也會用Excel分析自己的銷售數據,如何轉行到互聯網企業做數據分析呢?是不是去讀一個專門的碩士比較好呢?剛才聽您講的內容,感覺很多方法都和傳統行業是相通的。應用場景不一樣。
A: 首先最重要的一點是技術方面需要一個變化,最基本的 SQL 是需要會的,Excel 是肯定不夠的,其次別的諸如會 Python 之類也是很有幫助的。如果有一些大數據方面的經驗比如 Hive 之類也是很有幫助的。從傳統行業到互聯網行業做數據分析的思路應該是有很多相通的地方的,需要加強的更多的是對產品的理解,數據來源的理解。至于讀一個專門的碩士的話我覺得是沒有特別的必要,當然如果時間短見效快的話可以考慮,可以參考一下以前畢業生的去向,如果很大一部分都去了互聯網行業的話那可以考慮,如果只有很少一部分甚至沒有畢業生去這個行業,那就要謹慎考慮了。你可以用數據分析的思路研究一下相關項目。
Q: 除了職業發展相關,從你的經驗看,數據分析(或者相關的工具方法)在生活中有沒有應用的場景,幫助個人提高效率, 理財之類。
A: 這個實在是沒有想到什么好的例子。
Q: 請問如何培養自己數據分析的思維?感覺數據分析需要有很全面,邏輯的思維?
A: 的確如此,數據分析需要很全面、邏輯的思維,這也是為什么這邊數據分析招的很多人并不是從統計專業過來的,因為傳統來說統計跟數據分析完全相關的,但其實不完全是,統計對數據分析來說更多是一個基礎,還需要看分析的思路。很多以前一些理工科的比如說學物理啊之類的在做這一塊。比如說以前讀 PhD 的時候一些研究問題的思路是很有效的,雖然中途 quit 了,但是后來工作的時候發現這些提出問題解決問題的思路是很相通很有幫助的。至于如何培養自己數據分析的思維,我覺得最有效的辦法是去念一個 PhD(開個玩笑,念 PhD 時間實在是太長了,五六年就過去了,還是不要念了)。我在之前的一篇文章里提到一個例子,也就是在使用 google map 的時候,到了目的地之后會顯示目的地的街景,那么這個時候你就可以問自己很多問題,比如說為什么要顯示街景,除了街景還可以顯示什么?比如顯示附近的停車場?那么什么時候應該顯示目的地的街景,什么時候應該顯示附近的停車場,如果來測試哪個效果好等等。就跟小孩子一樣多問幾個為什么,平時多做這種思維訓練還是很有幫助的。