在數據分析和機器學習技術進步的前沿世界,大數據正在成為該過程的關鍵依據。然而,大多數組織沒有足夠的內部專業知識來處理算法開發,因此必須外包其數據分析。這引起了許多關于對外傳播敏感信息的擔憂。
麻省理工學院的研究人員提出了一個解決這些隱私問題的新穎解決方案。他們的機器學習系統可以創建不包含真實數據的“合成數據”的數據集,并可以安全地分發給外部人員進行開發和教育。
合成數據是原始數據集的結構和統計模擬,但不包含有關組織的任何真實信息。然而,它在數據分析和壓力測試中的表現相似,從而使其成為數據科學領域開發算法和設計測試的理想基礎。
它是如何工作的
由Kalyan Veeramachaneni領導的麻省理工學院研究人員提出了一個稱為合成數據庫(SDV)的概念。這描述了從原始數據集創建人工數據的機器學習系統。目標是能夠使用數據來測試算法和分析模型,而不涉及所涉及的組織。他概括說:“在某種程度上,我們正在使用機器學習來實現機器學習”
合成數據庫(SDV)使用稱為“遞歸條件參數聚合”的機器學習算法實現這一點,利用數據的分層結構并捕獲多個字段之間的相關性,以產生數據的多變量模型。該系統學習該模型,并隨后生成一個完整的合成數據數據庫。
為了測試合成數據庫(SDV),使用反調試技術對五種不同的公共數據集進行合成數據生成。三十九名自由數據科學家開發了數據預測模型,以確定合成數據和實際數據之間是否存在顯著的差異。其結果是結論性的。15個測試中的11個在實際和合成數據的預測建模解決方案中沒有顯著差異。
合成數據庫(SDV)的優點是它可以復制數據集中的“噪點”,以及任何丟失的數據,使得合成數據集模型在統計學上是相同的。此外,人造數據可以根據需要容易地縮放,使其成為通用的數據。
人們一直在尋找的解決方案?
從分析中得出的推論是,在沒有安全性影響的情況下,實際數據可以被軟件測試中的合成數據成功地替代,并且合成數據庫(SDV)是合成數據生成的可行解決方案。
作為Tableau 2017年白皮書所預測的下一件大事,大數據位于高科技的前沿和中心。因此,能夠安全可靠地使用數據的需要變得越來越重要。麻省理工學院似乎已經通過采用合成數據庫(SDV)避免了這些隱私問題,并確保數據科學家可以設計和測試方法,而不會侵犯真實人士的隱私。
這種原型有潛力成為一種有價值的教育工具,不用擔心學生對敏感信息的暴露。通過這種創造性的建模方法,促進學習,這個階段將以有效的方式教授和培育下一代數據科學家。
麻省理工學院的模型似乎已經有了答案,特別是考慮到范式測試的成功,在理論上它是完美的。研究人員聲稱,它將通過否定“隱私瓶頸”來加快創新速度。實際上,這還有待觀察。