質量
稀疏性
完整性
接下來,讓我們深入研究其中的每一個,以便大家了解如何克服機器學習的這些挑戰:
1. 質量
許多數據科學家希望利用外部來源的數據。然而,通常沒有質量控制或保證如何捕獲原始數據。
你相信外部數據的準確性嗎?
這是一個很好的例子。漂浮在海洋中的浮標上的傳感器收集有關海洋溫度的數據。但是,當傳感器無法收集溫度時,它將記錄為999。此外,在2000年之前,僅用兩個數字記錄了年份的數字。但是在2000年之后,記錄的數字變為了四個。
因此,我們需要了解數據的質量以及如何準備數據。在這種情況下,分析浮標數據的科學家可以使用平均值、均值、最小值、最大值來可視化原始數據,捕獲這些數據庫錯誤并相應地對其進行清理。
2. 稀疏性
在這種情況下,稀疏適用于元數據。通常,元數據字段不完整,有些字段已填寫,有些字段留空。如果數據是從單一來源生成的,則可能是由于人類缺乏規范或知識所致。但是,如果數據來自各種來源,而沒有元數據的標準定義,則每個數據集可能具有完全不同的字段。因此,將它們組合在一起時,完成的字段可能不對應。
當前,關于捕獲哪些元數據沒有行業標準。然而,元數據與數據本身一樣重要。當您具有填充了不同元數據字段的相同類型的數據時,如何關聯和過濾數據?
如果以浮標為例,初始數據傳感器每十分鐘收集一次水溫,而較新的浮標每三分鐘收集一次水溫。關聯數據的唯一方法是通過元數據在捕獲時公開。當科學家進行歷史分析時,他們需要元數據以便能夠相應地調整其模型。
3. 完整性
數據完整性是數據準確性和一致性的保證。數據保管鏈對于證明數據在流水線和位置中移動時不會受到損害至關重要。當數據的捕獲和攝取受到控制時,您可以相對輕松地驗證其完整性。但是,與他人合作時,很難進行驗證。生成數據時,沒有用于外部數據的安全證書。您也不能確保數據記錄完全符合預期,也不能確保接收到的數據與原始記錄時完全相同。
關于物聯網數據和區塊鏈存在一些有趣的概念,但是,在廣泛采用這種概念之前,數據完整性取決于安全技術和策略的結合。例如,由于數據在靜態或傳輸過程中可能會受到威脅,因此通過網絡傳輸的數據應使用https,并且在靜態時應進行加密。另一方面,訪問控制應受策略驅動,以避免人為錯誤。
如何開始?
數據質量、稀疏性和完整性直接影響最終模型的準確性,并且是當今機器學習面臨的一些比較大的挑戰。擁有清晰數據定義,政策并探索行業特定數據標準的組織將在短期和長期項目中受益。
如果您還沒有,那么您的組織應該首先定義自己的數據收集策略,元數據格式,然后應用標準的安全技術。數據質量和稀疏性齊頭并進。下一步,設置元數據策略,并確??梢允褂貌东@的定性數據來驗證數據的有效性。最后,為了確保數據完整性,可以在生成數據時應用數字證書,應該在傳輸過程中強制使用SSL,并且始終保持啟用加密狀態。
安全數據協作
如果您所在的行業需要與外部組織不斷交換數據,那么最好開放您的數據和元格式的源代碼,因為這些標準比許多專有標準更廣泛。更好的是,您可以發起一個行業開放標準委員會,讓其他人參與和貢獻。一個很好的例子是“開放目標”,這是一種“公私合作伙伴關系,利用人類遺傳學和基因組學數據進行系統的藥物靶點識別和優先排序。”
尤其是研究數據生態系統已經變得高度復雜,組織內部和外部的合作者需要快速訪問數據以及簡化數據管理的方法。機器學習的挑戰很多。第一步是使用正確的數據和基礎結構啟動項目。