如今,數據科學幾乎都會引起IT和業務主管們的興趣。但數據科學確實會出問題。
事實上,利用科學方法、流程、算法和技術系統從結構化和非結構化數據中獲取各種見解的數據科學項目可能會以多種方式失敗,從而導致時間、金錢和其他資源的浪費。存在缺陷的項目可能會導致決策者誤入歧途,從而導致企業遭受的損害大于收益。
以下是數據科學項目未能如預期那樣成功的一些最常見原因。
數據質量差
不良數據會導致數據科學工作變得很糟糕,因此花時間來確保數據的質量,這是至關重要的。任何分析工作都是如此,數據科學當然也是如此。
“不良數據或廢數據會使數據科學項目無法完成,”數字化轉型咨詢公司 Adaptavist的首席信息官尼爾•萊利(Neal Riley)說。“您必須確保自己的數據是干凈的,并適合于數據分析師使用。如果并非如此,那就完全是浪費時間。”
當企業在數據科學項目中使用不干凈的數據時,他們最終將“看到會產生奇怪輸出的模型,(并且)會看到該輸出并沒有代表實際情況或沒有表現出使事情變得更好的一個過程,”萊利說。
有時,由于數據集中存在偏差或差異,所以數據質量很差。
“對于某些組織來說,他們會使用多個系統來運營業務,”全球公共機構雇員保險(WAEPA)公司的首席信息官布蘭登•瓊斯(Brandon Jones)說。“對于經驗豐富的企業來說,您甚至可能仍會使用一些遺留系統,以供參考或驗證。在許多情況下,業務會隨著每個系統的不同而發生變化,因此導致在業務中計算某一指標的流程和/或方法存在差異。”
瓊斯表示,這可能是導致數據科學出現問題的主要原因。由于基于更改后的業務流程進行了重復計算,從而其結果可能會被夸大。“為了解決這個問題,各個組織必須統一設置他們的數據分析程序,”他說。“這意味著要列出一個可以驗證數據的具體日期,并且每個人都清楚和認同這是他們組織進行工作的通用標準。”
對要解決的問題沒有明確定義
如果團隊成員不了解他們試圖解決的業務問題,那么數據科學項目如何能成功完成?然而,當數據科學團隊在開展某些項目時,他們有時就會遇到這一問題。
網絡安全公司Kenna Security的首席數據科學家邁克爾•羅伊特曼(Michael Roytman)表示:“定義某一問題的過程通常是數據科學家的工作,而實際上,定義某一問題(包括)多種業務情況,既涉及確定工作范圍,又涉及界定潛在的投資回報。”
醫療咨詢公司Impact Advisors的高級顧問兼虛擬首席信息官馬克•約翰遜(Marc Johnson)表示,希望利用數據科學的業務用戶需要就他們想要解決的問題提出一些探索性問題。
“就像任何項目一樣,花時間來鎖定問題的范圍以找到數據的正確來源,”約翰遜說。“幾年前,有人讓我為一家擁有20年歷史的公司設計一款分析產品。沒有對客戶群進行研究,以了解該產品是否有市場。沒有明確客戶想要查看該分析結果的一些指標。這一切都是基于競爭對手聲稱其擁有某一分析產品,以及客戶想要該產品的傳聞。”
約翰遜表示,這個項目在毫無方向的情況下消磨了兩年,“因為對于我們試圖解決的問題定義太模糊。”
缺乏相關數據
數據科學工作必然出問題的另一方式是不提供解決某一特定問題所需的特定類型數據。
對某一問題提供大量數據并不能解決問題。“有一種想法是,大數據會帶來洞察力,但實際上很少有這種情況,”羅伊特曼說。“適合的、定制的且通常較小的數據集常常會帶來完善的和可歸納的模型。”
約翰遜表示,為了從數據科學中獲得價值,您應該不斷努力從最相關的來源收集數據。“創造不是一次性活動,”他說。
約翰遜表示,由于數據是從不同來源收集或購買的,因此團隊需要確保在數據中的任何修改不會歪曲其結果,以及犧牲整個數據集的質量。他們還必須確保數據集不存在任何隱私、法律或倫理問題。
缺乏數據透明度
團隊需要對他們用于構建任何給定模型的數據保持透明度。“當人們不信任該模型或不理解該解決方案時,數據科學項目就會失敗,”新澤西州司法機構的首席信息官杰克·麥卡錫(Jack McCarthy)說。“解決這一問題的方法是,您必須能夠‘說明其數學原理’,并將其傳達給可能不具備技術或統計技能的利益相關者。”
數據科學家需要解釋數據的來源,他們為計算模型做了什么,并要提供對所有相關數據的訪問權。“透明度是項目成功的關鍵,”麥卡錫說。
這方面的一個例子是新澤西州所使用的風險評估算法。“我們會向所有利益相關者提供一份報告,該報告包含某一被告歷史上的哪些案件屬于哪個類別,以及每個案件的評分方式,”麥卡錫說。“這些內容會提供給所有對手,因此他們有機會查看每個案件,并可以質疑其中包含的內容。這一切都是透明的。”
不愿意承認研究結果的不確定性
羅伊特曼表示,有時需要獲得洞察力的業務團隊或數據科學團隊本身根本不愿意承認其研究結果不確定、不清楚或不夠完善,或者甚至無法進行業務應用。
羅伊特曼說:“一個同樣可接受和有價值的答復是,‘該模型不夠好,無法為業務帶來投資回報。”
羅伊特曼表示,Kenna Security公司的數據科學團隊花了兩個月的時間構建了一個漏洞分類模型,該模型會自動為某一漏洞生成一個通用缺陷列表。“該模型很有效;這是對研究生水平課程問題的一個很好的答案,”他說。“但對于我們的客戶而言,它的效果還不夠好,無法帶來價值。(其)精度太低。所以我們放棄了該項目,盡管我們投入了時間并取得了成果。”
缺乏執行負責人
數據科學工作需要一位來自高管層的負責人,以確保項目獲得足夠的資源和支持。
“如果他是首席信息官,那么這會有所幫助,”萊利說。“我們將數據科學視為我們運營工作不可或缺的一部分,我已保證要做這方面工作的負責人。”他表示,即使首席信息官不是數據科學工作的內部負責人,他也應該負責確保所有相關數據的安全。但其參與的工作應該遠遠超出安全性的范圍。
“充分利用您收集的信息,我認為這是現代首席信息官的職責,”萊利說。“憑借手頭上擁有的所有數據,您就有辦法從中獲得一些東西,并可以合理地使用這些數據,而首席信息官就可以利用這些東西來幫助其組織內各個職能部門。”
萊利表示,在對銷售流程制定新策略和做調整方面,Adaptavist公司從其數據科學工作中獲得了最大收益。“這與我們的產品或IT基礎設施、營銷都沒有任何關系。”他說。“從業務流程優化的角度來看,數據科學對我們幫助最大,可有助于內部銷售人員更好地處理和管理潛在客戶。”
人才短缺
技能缺口困擾著IT工作的諸多方面,數據科學也不例外。許多組織機構根本不具備開展項目或獲取最大價值的相關技能。
Beanworks是一家基于云計算的應付賬系統自動化提供商,其工程和數據業務首席信息官Tracy Huitika說:“真正的數據科學家需求量很大,很難找到,而且薪資很高。”“該職位通常需要是物理學或科學博士學位,并且能夠使用R和 Python語言編寫代碼。”
約翰遜表示,數據科學項目失敗(即使項目已經開始部署)的最大原因之一是缺乏持續管理項目的運營人才。“讓一位優秀的數據科學家創建一個模型,而沒有持續改進的運營計劃,以及沒有根據市場和數據變化進行調整,這就像設計一輛汽車,然后將鑰匙交給一個10歲的孩子一樣,”他說。
在某一模型投入使用后,企業需要通過雇傭或利用外部專家(例如精通數據科學的顧問)來獲得適當的相關技能,以對該模型進行維護。
數據科學不是正確的解決方案
如果某個特殊問題起初不需要數據科學作為其解決方案,那該怎么辦?這種對數據科學的錯誤使用可能會導致項目的失敗,因此應仔細考慮何時該使用以及何時不該使用數據科學方法、流程和工具。
“導致數據科學項目失敗的最大因素之一是數據科學、算法和機器學習技術甚至都不是適合的解決方案,”萊利說。
“您可能根本不需要機器學習模型;您可能只是需要回歸分析,然后您可能需要花費大量時間和精力來研究所有不同的排列,而無需使用數據科學,”萊利說。 “我們陷入了這樣一種情況,即我們在研究金融數據科學建模,以可視化預測我們主要業務在未來取得盈利的因素。而事實證明,其最好的方法就是統計回歸。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。