国产精品午夜高清在线观看,亚洲国产成人久久综合一,日韩精品亚洲专区在线影视

改進機器學習預防欺詐的9個實際行動

責任編輯：cres

作者：HERO編譯

2019-11-22 13:06:34

來源：企業網D1Net

原創

Ekata公司戰略與運營副總裁Arjun Kakkar在一次特邀嘉賓的專訪中，為企業的產品經理和業務領導者提供了9條實用可行的原則，幫助他們將機器學習用于欺詐檢測。Arjun致力于推動電子商務、支付、市場和在線借貸等垂直領域的客戶價值。

他表示，全球在線欺詐的損失成本如今已高達250億美元，但是實際價值至少要高出20倍，因為網上交易者和金融機構經常會誤以為欺詐而拒絕為合法客戶服務，這是欺詐行為造成的結果。這種失誤意味著在線商務的收入損失至少5000億美元，更不用說更加寶貴的客戶信任。

在線欺詐檢測的獨特特征包括可獲得具有已知結果的大量多樣數據集、重復模式以及需要快速決策的需求，使其成為機器學習(ML)的良好研究對象。實際上，在機器學習有望解決的許多問題中，在線欺詐檢測已成為最早的成功案例之一。

通過一流的機器學習團隊與許多全球貿易商和支付提供商的合作，Arjun為產品經理和業務負責人提供了以下9條切實可行的原則。

獲得正確的欺詐信號和標簽數據對于企業來說是最具挑戰性的任務，但是如果做得正確，將為企業帶來顯著優勢。

原則1：模型只與測試和驗證集中的標簽一樣好

企業需要制定明確的欺詐定義，為其數據貼上標簽，并確保每個標簽都清晰地反映了既定的定義。機器學習方法通??常可以容忍訓練集中的隨機標簽錯誤，但很容易受到系統錯誤的影響。例如，客戶將合法交易標記為欺詐的“友善欺詐”通常是隨機的，但其他行為(例如人工代理的標簽)可能是系統的。

與訓練不同，團隊必須嘗試甚至修復測試和驗證集中隨機的標簽，以使它們足夠可靠以評估模型的質量。

原則2：獲得獨特功能將使欺詐者難以破解企業的模式

欺詐團隊之間也在展開競爭，他們在重塑客戶身份方面越來越成熟。捕獲這些欺詐者的最佳方法是從多個供應商和合作伙伴收集獨特的數據，并找到識別數字身份背后真正身份的獨特屬性。利用所有有助于風險信號傳遞的數據，其中包括設備、身份、個人和網絡行為模式。

原則3：通過構建集中式數據存儲庫并確保其安全性，使數據成為真正的資產

集中式數據存儲庫將確保數據科學團隊知道可用的資源并可以利用它。團隊還必須致力于確保客戶數據的安全。遵循與歐盟通用數據保護法(GDPR)一致的原則，例如收集組織將用于滿足客戶需求的數據，僅將其存儲到防止欺詐所需的時間為止，并為客戶提供對其數據的完全控制權。為了贏得客戶的信任，企業需要真正相信這些原則。

將防止欺詐的機器學習系統視為人類的替代品是很誘人的。但根據經驗，一流企業將繼續讓工作人員參與其中。

原則4：員工水平的表現仍然是黃金標準，將幫助團隊調整模型

經驗豐富的人工審核團隊在人員層面的表現是對最佳可實現模型表現的合理估計。因此，模型訓練錯誤與人為錯誤之間的巨大差距表明團隊需要減少模型偏差。

原則5：有效的機器學習系統旨在與人類良好協作

良好的機器學習系統知道機器和人類的功能完全不同，因此可以利用這些差異。人類可以處理可能沒有足夠歷史數據或者需要重大判斷力的情況。例如，一家企業可能正在從新的地理位置獲得訂單或表現出獨特的行為模式。在將結果推廣到新的機器學習模型之前，讓人類參與這些案例是值得的。

使用雙向反饋來改善機器和人類的方面。人工反饋可改善模型偏差，并增強模型的可解釋性。同時，機器學習模型可以提供更多信息，使人類的任務更簡單，甚至有助于提高人類的技能。

原則6：發現并糾正模型中的人為偏見是團隊的責任

機器學習系統的最大風險之一是，通過設計，它們利用歷史數據進行推斷。人們通常會標記數據。數據會反映出人類的偏見也就不足為奇了，團隊有責任糾正這些偏見。

第一步是找出潛在的偏見來源，并在數據中明確尋找它們。驗證和測試數據集是否代表真實分布(即沒有樣本偏差)?企業的團隊是否在測試集中包括記錄，以檢查模型是否存在系統性偏見?從更簡單、更透明、可解釋且無偏見的模型開始，然后逐步過渡到復雜的模型。

機器學習是預防欺詐的強大工具，但如果操作不當，則很容易建立起與目標相反的模型。開發組織的機器學習技術至關重要。

原則7：機器學習模型需要一致的目標和符合總體策略的指標

選擇一種將措施和抵消措施結??合使用的度量標準，以防止在某個方向上發生過度反應。例如，團隊可以決定增加模型正確捕獲的欺詐部分(最大程度地提高“召回率”)，同時確定該模型錯誤地將合法客戶標記為欺詐部分的上限(上限為“誤報率”)。