發面向企業的高級分析平臺。在加入Alpine Data Labs之前,他曾在西貝爾(Siebel)、Greenplum等公司管理過數據科學家和工程師團隊。
數據正變得空前多元,轉移空前快速?,F在,有效的數據分析需要非常先進的軟件和機器。隨著大數據分析興起,傳統的直覺判斷有何用場呢?要是數據告訴業務經理“往東走”而她的直覺則說“往西走”,怎么辦呢?
這番話出自我口中可能感覺有些讓人意外——畢竟我本身是一位數據和科學研究者,不過我堅信,要實現真正的價值,必須要讓基于數據和商業知識的直覺引導數據分析工作。
有人會說,你只需要將足夠多的數學分析和機器性能應用到數據庫,就能得到最好的模型。但是,以為光憑數據挖掘就能夠產生取得業務進展所需的答案是愚蠢的。在數據科學中,直覺和數據分析相輔相成,相互啟發。
首先,直覺引導分析。洞見鮮少能夠憑空出現。它們是應用數值方法測試源自直覺和觀察的假設和想法的結果。直覺還能夠引導研究人員用于測試這些假想的方法。哪些數據相關呢?哪些變量和轉變是合理的呢?原因與結果很可能是什么關系呢?哪些模型合適呢?
另外,分析啟發直覺。非監督式的建模技術能夠識別數據中的關系和模式,而這些關系和模式通過表面的觀察或者小數據樣本是看不出來的。簡單來說,分析能夠帶來表面觀察無法得出的探索途徑啟示,甚至可能是反直覺的。
如果沒有同時讓數據團隊和業務團隊的聰明領導者引導數據分析過程,根據工作經驗和專業知識對直覺進行平衡,就會出現問題。
下面就來舉幾個例子。
有一消費金融團隊曾想讓我們做一個客戶流失模型,幫助銀行預測哪些客戶最有可能注銷賬戶。從那些數據看不出什么東西來。在存款、貸款和信用卡數據中,我們并沒有發現明顯的觸發客戶銷戶的因素。在創建新賬戶后,消費者的支出和付費習慣基本上沒什么差別。
然而,在銀行家對那些數據進行更加仔細的研究,審閱團隊制作的客戶細分資料后,有一位分析師借助她的直覺突然注意到了一個有價值的新洞見。她認識到,特定的客戶群顯現出不尋常的高價值貸款、長期客戶價值和數個其它的不尋常因素,他們很可能屬于小企業老板。查證那些個人賬戶后,該團隊發現她的猜測的確沒錯。
她猜那些開普通賬戶的企業老板并不知道可能還有比信用卡或者普通貸款賬戶更好的融資方式。于是,該銀行團隊的項目目標改為鑒定這些高價值客戶,向他們提供更加合適的產品。該團隊后來更進一步,要求獲取數據來根據歷史用戶行為向其它的客戶群推薦合適的產品。那些數據促使他們開始向客戶提供量身定做的產品,從而提高客戶的終身價值。
單靠數據就得到那種重要的洞見是沒什么可能的。這種結合數據分析的商業洞見可以說是無價的。
直覺在數據分析中非常重要,但很奇怪,業務團隊往往會被排除在數據分析過程之外。相反,數據研究人員應當一開始就邀請商業分析員參與該過程,相互協作。我已經改變了運作流程,讓整個團隊參與初期的模型評估,甚至讓他們參與更早的原始數據審查流程。
在另外一個案例中,我們的一位大啤酒公司客戶想要預測其在日本市場的未來銷量。我們建立了一個模型來研究未來一年銷量面對不同的市場和定價壓力會出現怎樣的反響。該客戶告訴我們,他們認為其啤酒銷量受經濟直接影響。他們覺得,如果日本經濟緩慢復蘇,人們的軟飲料消費就會增加。
他們讓我們在我們的模型中以日經指數作為一種趨勢變量。該指數一開始提高了模型的準確性——或者說表面上是這樣。但在接下來的一年里,該模型開始作出一些離譜的預測。日本經濟開始反彈,但現在日經指數已經不在訓練數據范圍內,原來的那個模型可能“過度合適了”。
經驗更加豐富的建模師多半不會引入那種變量。有時候直覺更為靠譜,但在該案例中,數據科學專家建議要謹慎,并認識到建模過程的限制和陷阱。我們對模型實施了改變來抑制股市指數的影響,之后我們的模型在指引制定新宣傳計劃和預測營銷效果上都表現得很好。
數據科學家和業務人員之間往往會出現矛盾——特別是數據似乎與直覺背道而馳,新發展計劃的效果似乎微不足道的時候。營銷人員會質問“那個數據從何而來?”,數據科學家則做好隨時反擊的準備,這種情況很常見。
但我認為這種智斗是好事。數學與科學應該能夠經受住質問。有的時候,數據能夠證明直覺是錯誤的。也有的時候,那些基于豐富經驗的第六感能夠找到數據分析過程的缺陷。理想情況下,大家都能從中受益。