目前說數據科學已經普及可能有些牽強,但就分析技術而言,常常會聽到“下一步將如何發展”的問題。之后,談話內容通常會直接轉向人工智能和深度學習。 為此,梳理一下當前的現狀是當務之急。
簡單的事實是,按照目前的現狀,以數據為中心的企業將努力跨越一個鴻溝——這個鴻溝存在于目前被認為是有效的數據科學,以及分析成為不斷優化的業務運營的基本框架的內在組成部分的主觀感覺之間。如今,數據科學通常是通過一次性努力,或臨時部署到生產環境,從而獲取新的洞察力和模型的流程,并需要定期進行密切的監測和更新。
這并不意味著企業的數據科學計劃沒有走上正軌,而只是表明到目前為止它們已采取的措施將其帶到了必須逾越的鴻溝面前。對于追求進步的企業機構來說,創建一個企業級數據湖,以存儲大量不同形式的數據是一個必要的基本舉措。在此基礎上,再開發數據民主化系統,為尋求洞察力的人員提供便捷的數據訪問服務至關重要。毫無疑問,已經做到這兩點的企業已經獲得了不少收益。
不過,這就是目前的發展現狀,未來可能有更大突破。這也是它們之前準備實現的成果。如今,許多公司都擁有數據,并配備有數據分析家,進行分析和建模,而經過仔細設計的模型可以接入某些可用的業務應用。然而,每一個模型的部署都是一種定制化的、精細的、一次性的工作,需要投入細致的人力資源來確保模型的質量。如果需要改變模型,整個事情都需要重做。通常有用的分析只能執行一次,但不能再現,甚至更糟糕的后果是可以定期重建,但結果卻不一致。如果一個新版本的模型不能正常運作,恢復以前的版本就可能是一件痛苦的事情,更不用說對模型進行系統測試,以不斷改進其功能。
僅僅知道如何處理原始數據是不夠的。公司需要一個能夠持續測試和改進模型的基礎設施,起點是將受到管理且被理解的分析數據集作為輸入。在這個環境當中,標準化數據可讓人們隨時進行任何類型的數據科學研究。
這在以前就有實施過。類似的事情在應用開發和IT層面發生過——在DevOps理念當中,軟件工程師和IT操作人員協力合作,共同開發和部署軟件。
無論是讓未來數據驅動的機會如AI成為業務現實,還是在當今的數據環境中實現投資回報率,靈活性都是至關重要的。一家公司的數據科學團隊可能會擅長在數據中找到正確的提示,并將這些發現應用于流程當中;然而,一旦數據產品公開發布,他們卻不具備維護這種數據產品的能力。IT工程師們希望獲得更精細和更容易部署的產品。現實和期望之間的就是差距。
目前缺失的是新的業務領域——分析操作的內化。分析操作可以將實驗室進行的隔離科學實驗轉變為一套統一的用于整合數據科學團隊和工程團隊的方法論,以及可將分析模型轉變為便于運營層面人員持續消化的框架。
分析操作(Analytics Ops)體現了專注資源密集型一次性勝利和擁有持續的可適應環境變化的“滋養之源”的區別。要實現這個目標,企業機構需要建立跨職能團隊,采用合適的軟件,并執行嚴明的紀律,讓數據科學家、工程師、產品經理和領域專家共同努力,打造一個可為企業帶來價值的持續流程。
下一步將從平衡支出和企業發展開始。這樣就可以對分析操作進行一定量的投資,彌合數據科學和IT工程之間的鴻溝。如果不采用這種前瞻性的方法,企業可能會開展一些有趣的分析項目,這些項目可以運行一段時間,但最終會衰退,變得沒有那么重要,并且無法獲取進展。最令人沮喪的是,企業最終將無法從分析投資中獲得實施和部署層面的回報。
分析技術中的下一步發展將不再僅僅由數據科學家驅動。它需要對技能、實踐和支持技術進行投資,將數據分析從實驗室應用到業務中。分析操作需要有意識地做出決策,不斷進行整合、測試、部署、監控和調整分析,從而實現持續不斷的改進。分析工作,無論多么復雜,都不應被視為一個有終點的項目,而應看成是整個操作框架中一個不可分割的組成部分。