【編者按】如果看過前FB工程師覃超的(《關于神秘的Growth Hacking,F(xiàn)acebook都做了什么?(中)》)的朋友應該對于里面Facebook首頁和人人網(wǎng)首頁改版的例子印象深刻。這里Facebook使用的一大法寶就是灰度發(fā)布和 A/B testing,讓Facebook的日活達到了10億用戶。本文作者Fan,在美國卡耐基梅隆大學完成博士階段學習,曾任職Facebook與Google Switzerland,專注于廣告與推薦排序的研發(fā)。2015年底加入美圖公司擔任數(shù)據(jù)總監(jiān)。文章來自Fan的線下數(shù)據(jù)交流會的分享,介紹了美拍是如何做好數(shù)據(jù)驅(qū)動的。
大家好!很高興能有這個交流的機會。準備這次主題的時候,我想的是去了解大家對產(chǎn)品中的數(shù)據(jù)指標是否熟悉,以及在日常研發(fā)的過程中怎樣與數(shù)據(jù)打交道。所以我針對我們的主打產(chǎn)品美拍做了一個關于數(shù)據(jù)的簡短調(diào)研,今天也結合自己之前的工作經(jīng)驗講講這個調(diào)研的過程、結果和體會,希望能對大家有所幫助。
|通過數(shù)據(jù)來佐知——美拍的基礎數(shù)據(jù)
“Data-informed and data-driven”這個題目來自選擇到Facebook工作之前交流時的一個問答。我的問題是 “有的公司是數(shù)據(jù)驅(qū)動的,有的公司是得益于創(chuàng)新的設計,那么對FB最重要的一個方面是什么?”回答的一部分談到了數(shù)據(jù),因為印象比較深,所以就借用過來——“不同的領域?qū)Υ龜?shù)據(jù)的方式各異,比如廣告后臺的迭代改進更加需要數(shù)據(jù)驅(qū)動,而開發(fā)一個全新的產(chǎn)品可能更多需要對數(shù)據(jù)有所感知,即是在產(chǎn)品方面有要個做什么的想法時通過數(shù)據(jù)來佐知我們的觀點。
既然是要講產(chǎn)品研發(fā)中的數(shù)據(jù),我也就通過收集一些數(shù)據(jù)來讓自己明了。
我關注的產(chǎn)品是美拍,因為它是我們最受歡迎的應用產(chǎn)品之一,不僅數(shù)據(jù)的種類豐富,總量也很大。除了用戶注冊、活躍、訪問數(shù)和一些簡單的交互,作為一個短視頻分享的服務,美拍特有的數(shù)據(jù)就包括用戶的上傳、播放、搜索,對一個視頻的點贊、評論、轉(zhuǎn)發(fā),以及用戶和用戶的交互,包括評論的回復、關注、私信等。美拍的用戶可以分為明星、達人和眾多普通的用戶。用戶也會根據(jù)自己的興趣選擇不同的頻道。這里面有很多很豐富的數(shù)據(jù),為了支持這些體驗,數(shù)據(jù)部門的職責之一,就是通過個性化的推薦讓用戶更容易看到自己喜歡的視頻和關注到感興趣的發(fā)布者。
美拍的數(shù)據(jù)從一些基本的數(shù)字看起,比如每日、每周、每月的活躍用戶數(shù),每天的新增用戶數(shù)和留存比。留存的定義是,如果今天新增的用戶明天仍然用到了美拍,則計入今天的次日留存,類似的用戶在未來一周內(nèi)至少有一天活躍則計入今天的周留存。另外的數(shù)字包括播放總數(shù)和播放時長等。統(tǒng)計的總數(shù)可以來自客戶端,或者包括客戶端、移動端與非移動端的網(wǎng)頁版的總數(shù),來源是美圖的統(tǒng)計后臺以及第三方平臺。
|美拍數(shù)據(jù)調(diào)研與結果簡述
在準備好這些數(shù)字之前,我想到可以在自己不知道標準答案的時候找負責美拍的技術、產(chǎn)品、運營的同學做一個相關的調(diào)研。于是就準備了單頁的問卷打印出來,到每人的工位旁打擾他們15分鐘來做訪談,最后一共有17位同學參與。
在談到調(diào)研結果前先談下過程中的體會。
首先是數(shù)據(jù)收集的過程中要考慮到可行性與代價。比如在調(diào)研中問一些很細節(jié)的或者目前后臺沒有加入統(tǒng)計的數(shù)據(jù)指標,可能不會有信息量。在研發(fā)中類似的情況比如說在設計推薦和排序用到的特征時,優(yōu)先級不僅取決于該特征可能產(chǎn)生的效果,也依賴于產(chǎn)生特征需要的數(shù)據(jù)能否在保證性能的前提下獲得。
其次是關于測量方式,尤其是在有多個相關的指標時如何做選擇,比如這次調(diào)研中的一個問題是平均每日用戶對視頻點贊的總數(shù),如果換一個方式,每天的活躍用戶的平均點贊數(shù),由此推出的答案非常可能會與前一種問法有差異。類似的情況在技術實踐中也時常遇到,比如測試性能的時候就不僅僅需要了解一個請求延遲時長的平均數(shù),相應的百分位數(shù)p50, p95, p99都是常見的指標。
最后有一句話是“Done is better than perfect”,也就是說在一次訪談還沒做之前去花時間糾結怎樣把問卷設計的更完美,不如在過程中迭代改進。事實上訪談問卷經(jīng)過前幾次訪談后做了一次簡化,很大提升了后面完成的效率。
下面是經(jīng)過可視化處理的數(shù)據(jù),每一行對應一個數(shù)據(jù)指標,每一列對應一份問卷。上面的顏色用來指示答案的準確程度,越接近真實值顏色越深。可以清楚的看出有一些指標的顏色更深,尤其是最下方的兩排,分別對應每周和每天的活躍高峰期。大多數(shù)同學對這兩個指標的了解都相當準確。
本段后的兩排單獨列出日、月活躍用戶數(shù)兩項指標。日活被了解的比月活更多。這可能是因為目前月活數(shù)通常是按照自然月統(tǒng)計,盡管它還可被定義為過去30天內(nèi)的活躍用戶數(shù)。另外,美圖統(tǒng)計后臺和第三方平臺的計算方法也有所不同,在問卷中沒有明確數(shù)據(jù)源也造成了一定的誤差。
另外有意思的比較是上傳數(shù)和播放數(shù)的回答情況。作為短視頻的分享平臺,美拍的播放數(shù)和播放時長是比上傳數(shù)更有意義的指標——盡管它們都彼此相關——因此播放數(shù)被關注和了解的更多。如果美拍僅僅是一個視頻處理工具,那么上傳數(shù)就會是關鍵指標了。
| 調(diào)研體會:前提是準確、理解應一致
下面就不再每項指標的去羅列,而是以調(diào)研中遇到的情形談談數(shù)據(jù)分析中的幾點體會。
首先是數(shù)據(jù)工作的前提是準確。
無論是用于報表分析、推薦算法或是這次分享,收集得到的數(shù)據(jù)指標應該與定義相一致。比如下面的曲線左邊是三個星期的注冊數(shù),其中有一個是前后平均值兩倍的高峰,這個是真實的增長嗎?如果再看右手邊同時段內(nèi)手機號的注冊數(shù)占總注冊數(shù)的比例就會發(fā)現(xiàn)有5倍的增長,這樣大的增幅相當可疑。真正的成因是某個舊版本被刷了注冊數(shù),多出來許多虛假賬戶,當問題解決時指標水平又恢復正常。對這個具體的例子,可以根據(jù)平日手機號注冊所占的比例修正得到基本準確的注冊總數(shù)。其他情形如統(tǒng)計算法或數(shù)據(jù)源的bug就無法能通過簡單的數(shù)據(jù)清理而解決。
在迭代上線的時候,A/B測試實驗有時會看到意外的結果,可能是意外的好也可能是意外的壞,意外的壞常常在分析時比意外好的情形更得到重視。但從數(shù)據(jù)準確性的角度而言,意外的好與意外的壞是相同的情況,只有在確認數(shù)據(jù)正確解決了可能存在的問題之后,意外的好才會是真的提升。
同樣重要的一點是大家對于數(shù)據(jù)指標的理解是否一致。
舉個在之前的公司的例子,產(chǎn)品廣告質(zhì)量中用到一個產(chǎn)品“參考價格”的概念。這個概念非常直觀,大家都喜歡用,可是在之后的溝通中的過程中會因為彼此的理解不同造成問題,比如它可以指產(chǎn)品價格的中位數(shù),即于大多數(shù)商家選擇的價格接近,也可以指在有信譽商家所提供的最低價格。對于美拍而言, “有效播放”也是個模糊的概念,可能存在各自有價值的幾個相關的指標,比如播放長度是超過幾秒,或者是超過視頻長度的百分之多少,能盡早分別定義、命名清楚能夠避免后續(xù)的混淆。
| 調(diào)研體會:數(shù)據(jù)分布、界面的影響與及時的指標測量
數(shù)據(jù)還能夠幫助我們了解進展與建立優(yōu)先級。
對一個快速發(fā)展的產(chǎn)品而言,可以優(yōu)化的點很多,想法也就更多了,然而資源和時間是有限的。了解重要指標的數(shù)據(jù)分布可以是一個入手點,比如如果目標是增加美拍的總播放數(shù),那么就可以先了解哪個頻道的播放數(shù)占的比例最高。除此之外,具體的比例數(shù)據(jù)的絕對大小也不應該忽略。之前工作中曾經(jīng)做過一次實驗,希望上線的測試組比對照組的各項指標均沒有明顯變化,但轉(zhuǎn)化數(shù)有1%的統(tǒng)計顯著的增長。因為轉(zhuǎn)化數(shù)是產(chǎn)品廣告質(zhì)量非常相關的一個指標,起初這個結果看著很不錯。因為轉(zhuǎn)化數(shù)的絕對值沒有在界面中顯示,等查到發(fā)現(xiàn)1%的增長只對應少幾百個時,就進一步調(diào)查得知這個轉(zhuǎn)化數(shù)指標的統(tǒng)計是依賴商家主動報上來的,很不完全,所以1%的增長對實際效果的影響并不能得出明確的結論。
另外一個體會是關于界面的。
用戶界面的改變可能對下游的數(shù)據(jù)產(chǎn)生極大的影響,而一個好的設計對主要指標的貢獻的程度會是后臺迭代中很難見到的。比如在用戶添加好友時取消確認框能夠把損耗率降低兩位數(shù)的百分點,而提升廣告CTR的有效途徑是設計吸引人的創(chuàng)意。與界面相關的特征也是機器學習模型的重要輸入,而當用戶界面有較大變更時,相應的A/B測試會需要獨立的模型,這不僅僅因為有這些特征的存在,也是因為組成其他特征的數(shù)據(jù)分布和目標函數(shù)的分布都會有顯著變化。
還有一句話是“If you can’t measure it, you can’t fix it”。
就是要求先發(fā)、及時的數(shù)據(jù)測量,如果問題無法測量,那也失去了解決的途徑。這次調(diào)研其實有一些重要的用戶體驗數(shù)據(jù)沒有包括在內(nèi),比如和用戶使用體驗很相關的平均視頻加載時間及其分布。還有一些分解的指標沒有加到現(xiàn)有的統(tǒng)計后臺中,后面會盡快補上。
|結語
大數(shù)據(jù)是現(xiàn)在常聽到的一個詞,甚至被用得有些過頭了。擁有海量、多樣的數(shù)據(jù)確實有很大潛在的價值,但要用好還是要定義、采集、存儲、清理等一個個環(huán)節(jié)入手,才能為之后的分析、推斷、預測提供可靠的基礎。
數(shù)據(jù)感知的前提是:數(shù)據(jù)是有的;數(shù)據(jù)是正確的;理解是相一致的;在哪兒是找得到的;怎樣變化是看得來的。而數(shù)據(jù)驅(qū)動則要求數(shù)據(jù)收集、處理和應用的整個過程都能夠及時(甚至實時)而有效,這需要數(shù)據(jù)相關的上下游團隊的共同努力。數(shù)據(jù)之所以有用是因為當產(chǎn)品夠大時就不存在一個典型用戶。A/B測試就是說明這點的很好的例子。每個人在做決定的時候會代入自己的判斷,而良好設計的實驗得到的客觀指標,能夠指引我們做出有依據(jù)的選擇。從另一個角度講,雖然數(shù)據(jù)是提升用戶體驗的一個指標,但總有它的局限性,例如依賴不完整的數(shù)據(jù)測量可能無法做出最優(yōu)的選擇。而用戶的信任取得難失去易,從數(shù)據(jù)的角度而言就是要格外注意數(shù)據(jù)的隱私,這是非常重要的!