數據科學是一門跨學科的科學,它可以從結構化或非結構化的各種形式的數據中提取知識和見解。隨著數據科學工具自動化程度的提高,無論是在接地氣的零售領域,還是在高大上的基因領域,數據科學都在被用來進行知識發現和預測分析。同時,隨著傳感器、物聯網的發展,未來幾年數據科學對社會的推動有望加速。
那么,數據科學的典型步驟是什么樣的?企業如何最大化其數據資產價值呢?
1.了解目標問題
在進行數據科學的具體操作之前,首先要充分了解你想要解決的問題,征求相關領域專家的幫助,包括解釋業務問題、提供數據集、確定項目目標等。很多數據科學項目失敗的原因就是一開始就沒有非常明確的目標,導致最終效果不理想。為了了解問題,你可能要與市場營銷、財務、運營、IT甚至人力資源部門的同事進行交流,而且會收到各方不同的意見或建議,盡管有時候這會讓人崩潰,但是對于數據項目的健康推進來說,這個過程還是不可或缺的。
開始數據項目的正確方法是找出業務最短板,然后順著這個問題抽絲剝繭,分析數據解決問題。有時候業務問題與數據項目之間會有非常明確的對應關系,但是有時候業務問題和數據項目之間的聯系并不那么明顯,需要分多個步驟來將業務問題與數據項目逐一映射起來。數據項目的發起和最終驅動力,往往都是來自業務部門需求(例如財務、銷售、運營等),因此,多與這些部門的同事交流,會讓之后的數據工作事半功倍。
2.找到合適數據
有些數據可能是來自內部業務,例如電商應用的數據,但是如今隨著社交網絡的發展,數據項目的數據已經不能局限于企業本身的數據,必須包含來自各種外部來源的數據,同時也包括非結構化數據來源、如社交媒體甚至電子郵件。物聯網傳感器是另一個很大的數據來源。因此,數據采集可能需要一定的創造力,在領域專家的幫助下更多地收集有用的數據。
3.數據清洗轉換
在項目早期,數據清洗轉換非常重要,以便將原始數據清理并轉換為更適合機器學習的形式。鑒于一些企業數據的狀態比較差,此步驟可能需要花費相當長的時間和精力,通常可占用高達75%的數據項目的時間和成本。在數據轉換的過程中,記錄所有數據轉換日志很重要,因為轉化過程會成為數據重新利用時的參考。
4.探索性數據分析
探索性數據分析是指使用統計方法和數據可視化來嘗試發現數據中有趣的特征和趨勢。有時,只需要基于原始數據(或原始數據的樣本)的簡單繪圖就可以顯示出非常重要的趨勢或關系,這將有利于指導數據項目的方向。探索性數據分析可以在花費較少的時間和成本的情況下確定你的項目應該采用的特定機器學習算法和使用的最佳特征變量。這一步驟可能需要與業務專家探討探索性數據分析過程中顯示出來的特征,以免發生遺漏,錯過重要的特征和線索。
5.選擇合適算法
確定基本方向后就要選擇適合于解決問題的機器學習算法,將數據分成訓練數據、交叉驗證數據和測試集。在這一階段,需要對很多機器學習類型進行測試,是做定量預測、定性分類,還是只是使用聚類技術進行探索?在測試之后,你就能更容易地選出最適合用于特定應用的算法,如果之前有過此類研究,則在選擇算法的時候會相對容易很多。
6.驗證模型功效
沒有一種算法能夠在處理所有數據集時的各項指標都優于其他算法。在特定的數據集上,一種特定的算法可能最有效,而另一種算法可能在其他數據集上表現更好,選擇最佳算法可能是實踐中數據項目最具挑戰性的部分之一。因此,模型的效率評估對于項目的成功與否至關重要。需要量化給定觀測值的預測響應值在多大程度上接近該觀測值的真實響應值。還需要確定模型在處理不同的數據集的誤差。
7.講述數據故事
數據項目的最終結果可以通過精心設計的可視化作品來獲得最佳的展示效果。能夠直觀、準確傳達信息的可視化作品創建起來難度很大,可能需要多次嘗試才能成功。事實上,建立有效的可視化作品需要一定的創造力和藝術修養。好消息是網上有很多好的可視化的案例可以參考。
完成數據科學過程后,就可以將結果傳達給管理層了。為了達到更好的效果,需要一個會講“數據故事”的人,這個人可以根據數據以更生動的形式將數據作品要表達的意思傳達出去。大多數管理人員沒有數據分析或統計數據的背景,而數據科學家的工作就是將數據全部歸結為業務人員可以理解的形式,因此,講述數據的故事是數據科學的一個組成部分。
結論
在完成這些步驟之后,數據項目并沒有結束,重要的是不斷重復這個過程,get到查看不同特征變量的預測能力,評估不同的模型,評估預測精度的新能力。數據項目可能并非讓人一直有成就感,因為數據科學家的真正目的是不斷地證明自己或企業的一次又一次的錯誤。數據科學是定期尋找現有問題的新答案的過程,當你找到那個新答案時,它給你帶來的成就感也是非常巨大的。