如果在數據清理過程中的某些階段采用機器學習技術,不僅可以使工作流實現自動化,而且可以有助于企業領導的決策,最終獲得更好的結果。
根據調研機構Gartner公司日前發布的一份調查報告,由于數據質量不良的問題,40%的企業無法實現其業務目標。許多數據科學家已經意識到了利用高質量數據進行數據分析的重要性,因此,他們將大約80%的時間用于數據清理和準備。這意味著他們將更多的時間花在數據分析之前的過程上,而不是專注于提取有意義的見解。
盡管有必要在進入數據分析過程之前獲得更好的數據,但必須有一種更好的方法來解決數據集中存在的數據質量問題,而不是人工地糾正每個錯誤。
使用基于代碼的方法
像Python和R這樣的編程語言使編寫基本數據清理工作流變得更加容易,例如:
•刪除對分析過程無用的列。
•更改數據類型。
•突出顯示丟失的數據。
•從列值中刪除分隔線和空格。
•以數字方式排列數據,而不是分類排列數據,
•將字符串更改為日期時間格式等。
使用編程腳本清理數據非常有效,但是必須具備大量的編程專業知識。此外,編程腳本傾向于專門用于特定數據集及其列值。這意味著,當數據值包含相似的基礎模式時,編程函數可以更好地工作。否則,將最終將特定方案硬編程到代碼中,以達到數據清理的目的,而不是實現可滿足多種方案的更通用的方法。
機器學習及其在數據清理中的作用
要清理數據,首先,必須能夠分析和識別不良數據。然后執行糾正措施以獲取干凈且格式標準化的數據集。數據清理過程中有多個階段,采用機器學習和人工智能技術不僅可以使工作流實現自動化,而且可以獲得更準確的結果。
(1)分析數據并檢測錯誤
機器學習在數據清理中起到重要作用的第一步是對數據進行概要分析,并突出顯示異常值。生成直方圖并針對經過訓練的機器學習模型運行列值將突出顯示哪些值是異常值,并且與該列的其他值不匹配。可以在標準字典上訓練模型,也可以提供專門用于數據的自定義數據集。
(2)對數據的清理和標準化提出智能化建議
除了檢測列值中的錯誤之外,機器學習解決方案還可以提出明智的建議,并突出顯示解決數據質量問題的可能措施。這些建議基于同一數據集中遇到的數據的性質。例如,如果兩個記錄的地址完全相同,但郵政編碼不同,則機器學習算法可以將其標記為需要修復的可能錯誤。這是通過在數據集上設置相關性約束來實現的,如果地址相同,則郵政編碼也必須相同。
(3)通過集群突出顯示可能的重復項
記錄重復數據刪除是數據清理工作流程中最重要的步驟之一。機器學習解決方案可以通過基于記錄的相似性對記錄進行集群來幫助用戶執行記錄鏈接。這是通過在非重復數據集上訓練機器學習模型來實現的,該數據集包含匹配項和不匹配項的標簽。一旦訓練完成,機器學習模型便會智能地標記新數據集并創建集群,以突出顯示可能引用同一實體的數據記錄。
(4)影響合并/清除決策以實現單一真相來源
在創建集群的過程中,機器學習算法對記錄屬于該集群的可能性進行評分。這有助于數據科學家做出相應的合并或清除數據記錄的決定。還可以調整機器學習算法中使用的變量,以在產生的假陽性和陰性數量之間設置可接受的閾值。
基于機器學習的數據清理
上面的工作流程顯示了基于機器學習的數據清理軟件如何自動執行清理活動,而且還通過建議智能建議簡化了決策過程。這種利用人工智能強大功能的高級流程對于數據科學家在數據清理和準備方面節省大量的時間至關重要。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。