在2000年初,做為Oracle 8i的OCP有一個(gè)福利就是能定期收到Oracle的Tech Magazine和ProfitMagazine。在Yahoo統(tǒng)治下的以EditorContent為主的Internet時(shí)代,這是一個(gè)不錯(cuò)的了解灣區(qū)工業(yè)界技術(shù)趨勢(shì)和產(chǎn)品的渠道。當(dāng)然也是能和ACM期刊一起Zhuangbility的工具。記得Profit某期討論的一個(gè)話題,讓我這個(gè)初出茅廬的工程師,對(duì)Data有了不一樣的理解(Everything in tech stack changes time from time, exceptdata).其實(shí)這也包括Oracle自己。
做為一個(gè)有想法的碼農(nóng),當(dāng)然不會(huì)把自己的職業(yè)生涯和某一個(gè)產(chǎn)品或者語言綁定起來,同時(shí)也希望有幾個(gè)清晰的領(lǐng)域可以持續(xù)研究和學(xué)習(xí)。而這個(gè)討論,讓我意識(shí)到在數(shù)據(jù)存儲(chǔ)、處理、高性能獲取之外,更應(yīng)該考慮數(shù)據(jù)背后所存在的實(shí)體的實(shí)際意義,以及數(shù)據(jù)整合后的實(shí)用價(jià)值。伴隨著最近這幾年BigData, AI, Machine Learning概念的火爆,數(shù)據(jù)驅(qū)動(dòng)(Data Driven)做為一個(gè)策略被IT界滄海拾珠 , 重新翻炒。
在這個(gè)大趨勢(shì)下,如何做到數(shù)據(jù)驅(qū)動(dòng)?如何發(fā)揮了投資無數(shù)的DT(Data Technology的收益,而不只是一堆高性能高并發(fā)的一零一零?如何在回答圖靈問題之外,有效的部署機(jī)器算法去解決真實(shí)的問題?“風(fēng)物長(zhǎng)宜放眼量”,回到經(jīng)典的哲學(xué)思維,數(shù)據(jù)從哪里來(從哪里來)?數(shù)據(jù)是什么(是什么)?我們哪里能用數(shù)據(jù)(到那里去)?
利用定量數(shù)據(jù)來透明描述問題
在今天的互聯(lián)網(wǎng)時(shí)代,提到用戶,大家張口就來的一個(gè)詞應(yīng)該就是用戶畫像(User Persona),之前說的是用戶群分(User Segmentation),都是一個(gè)意思,即利用數(shù)據(jù)來定量的描述一個(gè)用戶,無非緯度更多,劃分更細(xì)。而在這個(gè)之前,而我們?cè)谡劦揭粋€(gè)公司、一個(gè)部門、一個(gè)產(chǎn)品、一個(gè)feature的時(shí)候,也需要有量化的數(shù)據(jù)指標(biāo)來清晰的定量描述運(yùn)營(yíng)的健康狀況, 應(yīng)該把這個(gè)定義為公司畫像(Company Profile)。
傳統(tǒng)的BI技術(shù),致力于打造基于業(yè)務(wù)交易數(shù)據(jù)(Transaction Data的數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)。在非常長(zhǎng)的一段時(shí)間里,我們采集的數(shù)據(jù)來源自交易系統(tǒng)背后的RDBMS。而主要工作是通過對(duì)這些交易數(shù)據(jù)的可視化,業(yè)務(wù)方可以相對(duì)清晰的了解目前企業(yè)的生產(chǎn)、庫(kù)存、周轉(zhuǎn),現(xiàn)有效率和財(cái)務(wù)現(xiàn)狀。在WebAnalyzing 2.0的平臺(tái)和方法出現(xiàn)之前,基于交易的數(shù)據(jù)產(chǎn)品其實(shí)沒有辦法回答用戶是誰,用戶在那里和用戶需要什么。
換句話說,我們只擁有整個(gè)Datalife cycle里一小段數(shù)據(jù)。當(dāng)時(shí)通過調(diào)研,市場(chǎng)雙盲測(cè)試的方法,企業(yè)可以獲取一小部分的數(shù)據(jù)來支持這個(gè)閉環(huán),但是時(shí)效性,覆蓋面,反饋度都不夠高。這就給了Yahoo,eBay,初期Amazon這樣的第一代Internet公司的機(jī)會(huì)。通過提供內(nèi)容和商品平臺(tái)來收集用戶的數(shù)據(jù),在提供One stop的體驗(yàn)之外,通過采集用戶訪問過程中的數(shù)據(jù),理解和分析用戶的意圖,刻畫用戶在不同階段的屬性,完成完整的數(shù)據(jù)閉環(huán)。
現(xiàn)有的BI工具提供了大量炫酷的可視化工具,基于完整的數(shù)據(jù)采集和運(yùn)算平臺(tái),提供對(duì)從效率指標(biāo)到KPI體系的支持。讓從管理層到一線同事能夠清晰的了解他所負(fù)責(zé)的產(chǎn)品和業(yè)務(wù)目前運(yùn)營(yíng)狀況:增長(zhǎng),趨于平穩(wěn)或者萎縮,盈利或者虧損(blooding), 健康或者冒煙,這是數(shù)據(jù)驅(qū)動(dòng)要解決的第一個(gè)問題。只有了如指掌,才能運(yùn)籌帷幄。工作中遇到的 CEO們都會(huì)說,“數(shù)據(jù)對(duì)我們很重要 ”,大多指的就是數(shù)據(jù)透明化后,他們可以做更好的策略判斷。
定性的分析問題
當(dāng)有了準(zhǔn)確、可靠的基本數(shù)據(jù)后,自然而然會(huì)想做些更有趣和不同的東西。對(duì)于有想法的數(shù)據(jù)從業(yè)者來說,有趣之處在于能夠應(yīng)用到實(shí)際場(chǎng)景上,看到問題的解決。從定量的數(shù)據(jù)解讀,到定性的分析,再到以分析結(jié)果驅(qū)動(dòng)相應(yīng)的實(shí)施行為,最后采集這些Action 的效果并持續(xù)迭代改進(jìn)。
從實(shí)際解決視角的的角度來看,數(shù)據(jù)沒有大小之分,數(shù)據(jù)只有是否被商業(yè)認(rèn)知之分。數(shù)據(jù)驅(qū)動(dòng)是一種信仰,只有讓數(shù)據(jù)產(chǎn)生商業(yè)價(jià)值,數(shù)據(jù)才能在實(shí)踐中反復(fù)迭代變大,從而產(chǎn)生力量驅(qū)動(dòng)改變。
常見的幾類定性分析的應(yīng)用如下。同時(shí)也分享了我們想去解決的問題:
從互聯(lián)網(wǎng)站點(diǎn)誕生以來“流量為王”就是第一公理,無數(shù)初創(chuàng)企業(yè)的估值都來源于DAU/PV。基于現(xiàn)有的流量數(shù)據(jù)以及流量成份的組合,利用7天數(shù)據(jù)對(duì)未來15到30天可以做出一個(gè)可靠的預(yù)測(cè)。
Case: 基于定向流量和意圖的相關(guān)性,意圖和購(gòu)買的相關(guān)性,Google利用了多種不同類型的搜索和廣告點(diǎn)擊量,成功預(yù)測(cè)了計(jì)劃上映電影的票房情況。
Case: 在眾多電商的Ranking Algo里,對(duì)商品本身的售賣預(yù)期是一個(gè)關(guān)鍵因素。商品的歷史展示,點(diǎn)擊和購(gòu)買情況會(huì)做為歷史數(shù)據(jù)的堆積。基于這個(gè)歷史數(shù)據(jù),綜合競(jìng)爭(zhēng)商品,替代商品,搭售商品的堆積,可以對(duì)某一商品未來的售賣做出一個(gè)相對(duì)可靠的趨勢(shì)預(yù)測(cè)。
Problem: 點(diǎn)融做為一個(gè)互聯(lián)網(wǎng)金融公司,我們發(fā)現(xiàn)我們的流量和我們的投資有很強(qiáng)的相關(guān)性。如何有效的對(duì)于未來流量的做出預(yù)估?基于未來流量對(duì)后續(xù)的投資做一個(gè)可靠的預(yù)估是我們有興趣解決的問題。
[page]成份分析/ Decomposition
“天下熙熙皆為利來,天下攘攘皆為利往”,在經(jīng)典的商業(yè)問題里,我們都希望搞清楚購(gòu)買你的產(chǎn)品和服務(wù)的用戶是誰?他們各自喜歡你產(chǎn)品的那些部分?他們會(huì)有多忠誠(chéng)? 他們的各自的滿意度是多少?通過產(chǎn)品特征和用戶特征的關(guān)聯(lián),通過對(duì)流量成份的分析和監(jiān)控,提高收益。
Case: 航空公司作為資源固定的業(yè)態(tài)(PerishableCapacity)是最早采用收益管理/動(dòng)態(tài)定價(jià)(Yield Management/Variable Pricing)的行業(yè)。通過對(duì)需求的售賣周期(Fluctuating Demand),計(jì)劃性(Sold in Advance),成本(Class),變化性(Refund/Return)等因素的分析,制定了一系列定價(jià)上的策略,從而實(shí)現(xiàn)收益的最大化和可管理性。
Case:為了解決配送效率的問題,Amazon提出過把熱門貨物預(yù)先分配到指定地點(diǎn)的策略。國(guó)內(nèi)的某電商同樣基于效率考慮,按照電腦的金額和送貨地址的匹配,以及庫(kù)存周期的預(yù)估,完成了筆記本的配送優(yōu)化。
Problem:在目前互聯(lián)網(wǎng)金融行業(yè)普遍貨客成本高居不下的情況下,如何定性不同的渠道從而在合理預(yù)算的前提下提升推廣和活動(dòng)的效率?如何按照用戶的忠誠(chéng)度和需求劃分,組合不同的金融產(chǎn)品從而提升體驗(yàn)?
Problem:在Risk領(lǐng)域,如果有效評(píng)估現(xiàn)有規(guī)則的效用和效率(Attribution)?如何確定經(jīng)驗(yàn)規(guī)則的使用范圍和周期? 如何在借貸的整個(gè)周期里Cut over現(xiàn)有規(guī)則的效力?
AB Testing的方法
線上的大規(guī)模的流量,在有效的Managing Orthogonal分流后,比較傳統(tǒng)的線下分組測(cè)試,可以同時(shí)進(jìn)行更大規(guī)模的測(cè)試。ABT可以回答很多針對(duì)目前客流人群習(xí)慣和喜好的問題。通常這類問題相對(duì)感性,ABT的方法可以替代簡(jiǎn)單Survey和主觀的判斷。
Problem: 點(diǎn)融計(jì)劃設(shè)計(jì)和部署一個(gè)同時(shí)支持Online和Mobile,同時(shí)支持前臺(tái)和后端的實(shí)驗(yàn)平臺(tái)。通過一個(gè)輕量的EP平臺(tái),以支持業(yè)務(wù)的發(fā)展。
自動(dòng)化干預(yù)
數(shù)據(jù)驅(qū)動(dòng)的終極目標(biāo)是希望利用數(shù)據(jù)能夠直接在生產(chǎn)環(huán)境帶來改變,提供價(jià)值。在厘清了數(shù)據(jù)管理,完成了離線的事后分析后,我們可以利用這樣的數(shù)據(jù)基礎(chǔ)在特定領(lǐng)域完成基于算法的自動(dòng)調(diào)整。
算法的線上部署除了對(duì)平臺(tái)和算法本身的支持之外,還需要考慮一下幾點(diǎn):
·風(fēng)險(xiǎn)約束Constraints– 不同于離線系統(tǒng)的決策和執(zhí)行周期,線上系統(tǒng)需要確定一系列的邊界,例如收益管理的利潤(rùn)率目標(biāo)、系統(tǒng)單位時(shí)間最大損失和單品的單位時(shí)間最大損失;推薦系統(tǒng)的CTR的下線;Score Card的TypeII 的Error rate。在類似Quants的極端高頻交易情況下,系統(tǒng)本身的防線風(fēng)險(xiǎn)完全依賴超過幾個(gè)Unit頭寸的自動(dòng)止損規(guī)則。
·數(shù)據(jù)的及時(shí)性–實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)的組合,如何Decay歷史特征;如何在特定周期下替換歷史數(shù)據(jù);
·異常數(shù)據(jù)的容忍– 線上Algo的輸入無法做到離線的清洗水平,為了防止做出愚昧的判斷,我們需要更健壯的數(shù)據(jù)預(yù)處理模塊。
·Algo的迭代– 需要可靠的離線迭代平臺(tái)來糾正線上Algo運(yùn)行過程中的誤差和偏離。采集線上的數(shù)據(jù)到離線平臺(tái),通過離線平臺(tái)調(diào)整參數(shù)和適應(yīng)性。支持從離線平臺(tái)推送新的algo。
構(gòu)建數(shù)據(jù)平臺(tái)
作為一個(gè)創(chuàng)業(yè)公司,我們目前考慮升級(jí)我們的數(shù)據(jù)平臺(tái):
·系統(tǒng)構(gòu)成簡(jiǎn)潔– 我們擁抱現(xiàn)有的業(yè)內(nèi)數(shù)據(jù)處理技術(shù),同時(shí)希望標(biāo)準(zhǔn)化技術(shù)選型,降低復(fù)雜度。
·自助服務(wù)–提供數(shù)據(jù)獲取的自動(dòng)化能力,讓Data Engineering不只是為業(yè)務(wù)的資源。
·數(shù)據(jù)產(chǎn)品– 整合我們的內(nèi)部數(shù)據(jù)和第三方數(shù)據(jù),提供目前具體問題的加工后的數(shù)據(jù)產(chǎn)品。
我們的目標(biāo)不是構(gòu)建海量數(shù)據(jù)的聚合平臺(tái)。而是構(gòu)建更清晰靈活的支持小數(shù)據(jù)(Micro Data)計(jì)算處理平臺(tái),完成對(duì)商業(yè)有價(jià)值的數(shù)據(jù)應(yīng)用。