本文作者:單元明, GrowingIO聯合創始人、產品VP。單元明畢業于復旦大學和華盛頓大學,先后就職于Coursera、LinkedIn和Rocket Fuel,主要從事互聯網產品和移動分析、用戶增長和貨幣化等方面的工作,有多年數據化業務驅動經驗。原文發于GrowingIO技術博客,授權36氪發布。
作為一個數據分析人員,有沒有經常被業務人員抱怨報表出的太慢、被工程師嫌棄埋點溝通不精準、甚至被老板懷疑并沒有創造什么商業價值.......
好好學習這四步分析精髓,從樹懶慢先生變成一部行走的AlphaGo,真正的人工加智能,數據分析又快又準!讓你一舉成為公司頭牌,用數據驅動業務增長,快到飛起來!
直接上干貨!
一、定目標
首先要設定好業務目標,不但能明確接下來分析究竟是為了什么,而且在人人都加班加點不怕猝死的環境下,可以盡可能的優化時間,放到最能產生價值的地方。
比如下面這些:
1. 每次開會前有明確的目的
2. 接受任務時想過真正的需求是什么
3. 定義指標時想過以后怎么用
4. A/B測試前都設好成功標準
5. 制作報表前想過結論是什么, 推薦什么行動
6. 分析產品時是要讓用戶更滿意,更多付錢, 更長時間使用, 還是更經常使用
同時,作為數據分析師還要注意團隊合作中可以實現高效溝通,讓搭檔和老板清楚了解回報是什么,為什么要支持這個決定,為什么要分配資源,為什么要放下手中別的活,清晰的目標就是溝通的核心,價值就是讓對方眼睛發亮的關鍵,至于背后處理了多少數據,提交了多少SQL,估計了多少模型參數,制作了多少漂亮圖表,沒人在乎。
數據分析,結果導向。做事前先想想要創造啥價值,最好能直接產生業務增長,滿足人的欲望。沒有目標,光在那炫酷玩屠龍術,遲早被老板砍掉,被客戶踢開。
二、用產品
培養分析師的用戶視野
定好了分析目標,就要從數據分析的基礎,用產品起步了。用產品可以幫助分析師獲取缺失的信息,培養同理心,站在用戶的角度看問題。
數據的顆粒度再細也是有限度的,而且是冷冰冰的,反應的是抽象后的狀態。當看到一個注冊漏斗有很大比例用戶離開時,說明了什么?數據上也許說明了有需要改進的地方,但注冊流程中究竟哪里需要改進?用戶到底想要什么樣的體驗?用戶現在的感受如何?這些形象具體的信息,或者說沒能記錄的“數據”,就需要按照用戶的方式,實踐幾遍,才會有所感悟。
當自己試著去注冊,卻發現輸入幾次密碼死活通不過,是不是自然而然心中跑過一萬頭草泥馬?為什么至少要8個字符?為什么又要大寫,又要小寫,還要數字,特殊字符? 又不是銀行帳號。而且密碼要求怎么不明確顯示出來?
更要命的哪些算特殊字符可能也沒不說清楚,用戶估計槽都不想吐了。親自使用產品,通過眼睛,耳朵,大腦,和心,體驗那些被數字抽象掉而流失的感覺,也就明白了用戶的沮喪,改哪里,怎么改也就變得清晰。而這一過程,也培養了分析師多角度觀察問題的能力,成為連接用戶和公司的橋梁。
理解數據定義和業務邏輯
數據如何生成?傳統方法是靠工程師寫事件處理函數。數據需求哪里來?業務人員要看得指標。那么觸發條件是什么呢?業務和技術的理解是一樣的么?銷售說,我想知道這個廣告位點擊率多少。工程師說,廣告位的點擊次數和瀏覽數已經有了。馬上就拿這兩個數據除一下就去給銷售么?銷售是怎么定義點擊率的?分子分母分別是什么含義?瀏覽次數是指眼睛看了多少次么?如果親眼去看下廣告,可能發覺廣告位只要渲染了,即使未在顯示器中出現也算。這一進一出,點擊率翻個倍都有可能,工程師知不知道銷售的確切意思?銷售知不知道工程師的實現?如果客戶問起如何回答?
通過產品使用,才能體會到數據整個上下游中的定義問題,增強一致性,而不是默認工程師給的就是業務需要的。隨著無埋點技術的發展, 現在數據分析已經能做到由業務人員直接進行數據定義,而無需工程師過多參與。
但在定義中,仍會涉及到具體的定義細節,只有通過實實在在的使用產品,才能體會這些細節上的差異和因此帶來的蝴蝶效應。
體會細節差異
除此之外,用產品還可以快速檢查數據質量和邊界條件,特別適合高速迭代。點下按鈕會否生成重復記錄?有沒有漏掉的觸發?輸入框最小幾個字符,最大有沒有設限,哪些情況會產生錯誤數據,定義的標識符是否正確記錄,用下產品,看看下游接收到的數據,馬上就能知道。
三、看原始數據
有明確的目標,也了解自己的產品,還需要什么?統計?編程?算法?忽悠?這些當然重要,但更重要,也往往更容易被忽略的是建立起對數據本身的感覺。對數據的感覺,說穿了,就是對數據結構, 具體數據形式的熟悉和敏感程度。
數據分析師需要通過看原始數據找感覺
列舉些常用的方面如下。
表格
常用表的作用;
數據庫總體數據量;
每天會增加大約多少數據量;
一個時間范圍內的全表掃描需要的大致時間;
是否需要采樣,或安排到半夜進行事務數據和分析數據的誤差;
有否超過允許范圍合計表的數據源;
合計邏輯是什么更新頻率和相對現實交互的延遲映射表的關系,一對一,一對多,還是多對多記錄的是快照,還是所有歷史變化可用索引原始數據的結構;
哪些信息是鍵值形式,哪些是數組形式原始數據留存政策和時間。
列
常用列的意義;
列之間的關系列值的分布;
不對稱情況,是否合適作劃區哪些有效,哪些過期的;
哪些有問題的如果是枚舉值,常用的值,代表什么意思是否有0,負值,空值,特殊值的排除和處理時間存儲的形式;
UTC還是本地時間,單位是秒,毫秒還是微秒級字符串中可能含有的列分隔符;
亂碼值是否應該獨特唯一、是否做到獨特唯一數據類型,顯示的都是數字,但是否錯誤的存成字符串
其他
產品迭代中,新舊數據的區分點;
不同的業務邏輯線下上傳;
第三方的離線數據源;
常用的黑名單、白名單、測試名單;
授人以魚不如授人以漁,看原始數據,就是建立對數據感性認識的最好方法。
讓分析師沉下去,了解公司數據生態圈的各種主要細節,從而能高效產生新的聚合信息。而不是浮在上面,只知道一些歸并抽象后的現存量化值。需求千變萬化,總有很多情況,沒有可以直接使用,合計好的表格,這時就需要去建新的業務邏輯,生成新的合計表,對數據細節的高度把握,對流暢完成這一過程有很大幫助。
另一方面,挖掘洞察的過程中,很大一部分時間都是在搞數據清理:檢查正確性,去除污染,轉變成可用形式等等。
而對數據的熟悉程度就直接影響這些工作的效率。而每當需要記錄新的跟蹤,也能知道新信息加在哪里更利于使用。
日常工作中, 推薦兩個方法去熟悉原始數據,一是根據實際需求,去觀察相應的數據來培養感覺。二是可以有意識的,刻意的投入一些時間去看當前職責之外,但和公司主要業務產品緊密相關的各種表格,各種原始數據的具體內容和形態,會對以后的工作產生很大幫助。
四、記業務指標
作分析除了需要各種軟硬通用的能力,比如統計,編程,算法,忽悠等,還得對公司的業務非常熟需。從分析的角度看,增加業務的熟悉程度最直接有效的辦法就是記指標。如果不看報表,下面這些問題有幾個能立即回答出來。
數據分析師的基本功:熟記指標
常見的業務指標
公司平均每天/每周/每月營業額,活躍量,流量大小;
周末和周中關鍵差別和特征;
早上,中午,晚上用戶關鍵差別,活躍數,流量;
北京和上海,各主要地域的市場份額,消費能力,平均每用戶營業額;
公司下個季度預期增長率,預期今年的營業額;
桌面和移動的活躍比例,收入比web和app的比例免費用戶和付費用戶比例、主要差異、80%的營業額由前百分之幾的用戶提供;
主要漏斗,如注冊,登錄,付費,提交等,每一步的轉化率,流失率主要產品的客戶留存;
獲取用戶的成本,用戶的生命周期價值公司平均每天/每周/每月營業額,活躍量,流量大小周末和周中一般差別;
以上這些指標,很多互聯網公司都有,但能不能記住,是區別一個分析師水平的重要方面。好的分析師,這些都爛熟于心,幾乎成為了第二本能。
熟記指標的優勢
熟記關鍵的指標,在看到異常波動時,才會敏感的察覺有地方不對,也就是我們通常說的“感覺”。這一點在公司人與人交互中尤其有效,因為交互是實時性的,需要有立即的反應。
比如開會中討論新的方案,需要立即指出可能存在的問題,并給出質疑的原因和證據,引導會議成員的思路并提出解決方案。而如果對業務指標不熟悉,很難有這種感覺,或者就算有所察覺,但因為不夠熟悉不夠自信,就需要去翻看報表,找到相應的關鍵指標,前前后后可能需要十幾分鐘。這在一個人做分析時,沒有太大問題,但在會議,討論等實時性很強的互動中,顯然是不合適的。
熟記指標另一個巨大優勢是能給分析師帶來巨大的可信度。
分析師相比其他職位最大的優勢是能接觸到數據,海量的數據。在規劃戰略,定位產品時,很多觀點都是基于邏輯推理,行業經驗,類比假定,而分析師就有機會提供更加量化的指標,為合理的觀點提供強有力的支撐。所謂事實勝于雄辯,“我們隨機抽樣,90%用戶支持現在的定價”就要比 “一般大家都這個價位” 要有說服力的多。長期進行以量化事實為依據的交互,分析師能贏得很多的信任,從而更有效的領導跨組合作。
如何記住業務指標
別小看指標的數量,雖然是大數據綜合提煉而成的統計表征,但指標自身可能也是“大數據”。拿活躍用戶這一個指標舉例,看過去7天按每天整合,就有7個數據點。如果再按地點北京上海等分類,可能又有10個點,然后再加上設備,渠道,付費級別,參與程度,訪問來源等維度,以及互相之前的環比,同比等等,那一個指標變成幾千或者幾萬個數據點輕而易舉。如果要把這些全記下來,那基本不用干別的活了。
比較有效的方法就是抓大放小。
首先,如果日活是1234567人,那么后面那些具體數字基本上沒有太大意義,記一個120萬人就可以了,要得是那種大致的感覺,不是銀行出納分厘不差的精確。
其次,各種維度記幾個主要值就行,比如地區就記北京,上海,廣州等。而設備就是安卓,蘋果,桌面等,不需要背黑莓,win phone等各種小眾移動的份額。
最后,優先記整體情況,只有一個維度時的聚合, 如果有時間再看多維度的交叉細分。比如,N天前,北京、蘋果、付費用戶,這4個維度交叉后的指標可能也有價值,但把不交叉時的主要時間、地點、平臺、用戶類別的指標記清楚,覆蓋范圍要廣的多,記的數量也要小得多。如果你能定下清晰地目標、熟練使用產品、熟悉原始數據、熟記關鍵業務指標,恭喜你已經從一名數據分析人員進階為一名合格的數據分析師了。
如果你還會能掌控最新、來自硅谷最前沿的數據分析產品,比如無需埋點、全量實時采集的新一代數據分析產品;恭喜你,不只是一名合格的數據分析師,簡直就是一名數據科學家啦。