深度的數據分析項目通常花費不菲。不過,如果善于創新,CIO們能夠以較小成本順利完成項目。對此,Niel Nickolaisen進行了說明。
目前,IT領袖及其團隊正面臨巨大的機遇,改變企業對自身的價值定位。IT團隊有著現成的資源來實現巨大的業務價值,而成本卻可以非常低。對,沒聽錯,非常低的成本。
在進入正題之前,首先聲明,我要談的東西可能與直觀感覺不符,甚至違返企業傳統文化。許多年來,我們都被反復地告知,如果想要交付高價值服務,就不得不付出高昂成本。對,高價值服務背后往往意味著較高的成本,但這并非金科玉律。下面,我們進入正題。
以較小成本實現高價值服務的場景之一,就是高級數據分析項目。
我之所以能做出這個結論,是因為我有過類似經歷(成本確實很低)。
我曾經是某大學的CIO。當時,該大學的管理團隊有一個最為主要的工作目標,即提升畢業率。不管在什么場合,團隊都會就此展開討論。在某次會議上,我曾經這么表態過:“如果能確保我認識所有的學生,我能保證畢業率達到100%的水平。”當時,所有與會者都很無語,轉而討論課程設置、學生輔導和教學模式等方面的話題。
會后,我繼續就畢業率的問題進行了思考。我們有一個錄取模型,由教育領域的專家開發,用于決定我們接收學生的標準。其中,有三個因素是最重要的:英語、寫作和數據能力的測試分數。所有報考的學生都必須進行這三門考試,而我們擇優錄取。
為此,我開始懷疑我們的數據是否真正支撐了這種錄取模型。我們已經有大量與報名學生、正式入學的學生以及最終畢業的學生相關的數據。如果對這些數據進行分析,進行形成對錄取模型的優化,將是極具吸引力的工作。但是,該如何啟動項目呢?我的團隊中沒有真正的數據科學家,也沒有支撐這項高級數據分析工作的工具和環境。
不過,最終結果證明,其實我并不真正需要這些人力物力。至少,在開始階段不需要。我的做法是,在一個數據挑戰網站把問題和數據(進行了脫敏處理,去掉了學生們的個人識別信息)公布出去,讓全世界的數據科學家、分析師和統計學家來為我構建新的錄取模型。
整個工作最終花費了兩個禮拜的時間,得到了一個超出我預期的更好的模型(以現有數據集來看)。我選定了得到最佳模型的優勝者,并發布了獎勵3500美元(不是3萬5千美元,也不是35萬美元,更不是350萬美元)。如果這個模型最終被證明為失敗,我的損失就是3500美元而已,就我當時所掌控的預算來說,這點錢不是問題。
那么,這個新模型的實際價值如何呢?新模型揭示了現有人為定制模型的問題所在。根據數據分析的結果,我們之前認為的最重要的因素,其實在重要性上僅排名第六而已,而之前第二重要的因素實際應該在第九位。我們進一步了解到,其實很多待錄取的學生沒有必要進行英文、寫作和數據能力測試——如果這些學生在真正重要的指標上合格了,他們根本沒必要進行測試。
就這樣,僅僅花了3500美元,我們就改變了學校運營的模式,并進入了以數據推動決策的階段。我們更新了學校的宣傳和錄取策略(現在,我們已經知道哪些學生能夠順利畢業,就沒有必要在其他人身上多費力氣了)。基于促成學生成功的真正因素,我們開始在相關領域開始發力。比如,之前缺少科學、技術、工程或數據方面作業的學生不予錄取。這也意味著,在這些方面較弱的學生需要我們的特別關注和協助,以此提升其成功畢業的機率。
在這個項目之后,我們啟動了一個有關學生輔導模型的數據分析項目。該項目意在識別出那些面臨困境的學生,而我們則可以根據分析結果將更多的資源投入到這些學生身上,以此幫助其獲得學業上的成功。
這一切成績的背后,起到主導作用的就是IT團隊。
數據分析項目:如何啟動
如果你對此感興趣,下面就介紹該如何啟動一個數據分析項目。首先,定位一些長期困擾企業的、較為含混不清的問題,比如用戶流失、需求預測、精準營銷等等。然后,審視下手頭現有的、與這些問題相關的數據。
是否擁有所需的數據?這些數據的存在形式?還缺少哪些數據,以及該如何解決?之后的事情,就是找到模型開發團隊。比如,數據競賽網站、尋找學生項目的本地大學、具備相應能力的本地大數據/數據科學家用戶組。
有件事需要特別注意:在大學里推動高級數據分析項目時,我們從不在任何大數據基礎架構或環境上進行過多的投入。比如,對于上面提到的識別處于困境的學生的模型,由于只需要每兩周運行一次,我們是通過云租用的模式獲取計算資源的。每個月,我們支付3000美元來讓模型跑一次,對覆蓋約5萬學生的2000個數據元素進行計算。退一萬步說,即便模型所產生的價值很低,這種成本也是極為低廉的。就我們的這個模型來說,這簡直太劃算了 – 把學生退學率降低了10%,節省了數百萬美元的成本。這一切,你也可以做到。