他表示,全球在線欺詐的損失成本如今已高達250億美元,但是實際價值至少要高出20倍,因為網上交易者和金融機構經常會誤以為欺詐而拒絕為合法客戶服務,這是欺詐行為造成的結果。這種失誤意味著在線商務的收入損失至少5000億美元,更不用說更加寶貴的客戶信任。
在線欺詐檢測的獨特特征包括可獲得具有已知結果的大量多樣數據集、重復模式以及需要快速決策的需求,使其成為機器學習(ML)的良好研究對象。實際上,在機器學習有望解決的許多問題中,在線欺詐檢測已成為最早的成功案例之一。
通過一流的機器學習團隊與許多全球貿易商和支付提供商的合作,Arjun為產品經理和業務負責人提供了以下9條切實可行的原則。
獲得正確的欺詐信號和標簽數據對于企業來說是最具挑戰性的任務,但是如果做得正確,將為企業帶來顯著優勢。
原則1:模型只與測試和驗證集中的標簽一樣好
企業需要制定明確的欺詐定義,為其數據貼上標簽,并確保每個標簽都清晰地反映了既定的定義。機器學習方法通??常可以容忍訓練集中的隨機標簽錯誤,但很容易受到系統錯誤的影響。例如,客戶將合法交易標記為欺詐的“友善欺詐”通常是隨機的,但其他行為(例如人工代理的標簽)可能是系統的。
與訓練不同,團隊必須嘗試甚至修復測試和驗證集中隨機的標簽,以使它們足夠可靠以評估模型的質量。
原則2:獲得獨特功能將使欺詐者難以破解企業的模式
欺詐團隊之間也在展開競爭,他們在重塑客戶身份方面越來越成熟。捕獲這些欺詐者的最佳方法是從多個供應商和合作伙伴收集獨特的數據,并找到識別數字身份背后真正身份的獨特屬性。利用所有有助于風險信號傳遞的數據,其中包括設備、身份、個人和網絡行為模式。
原則3:通過構建集中式數據存儲庫并確保其安全性,使數據成為真正的資產
集中式數據存儲庫將確保數據科學團隊知道可用的資源并可以利用它。團隊還必須致力于確保客戶數據的安全。遵循與歐盟通用數據保護法(GDPR)一致的原則,例如收集組織將用于滿足客戶需求的數據,僅將其存儲到防止欺詐所需的時間為止,并為客戶提供對其數據的完全控制權。為了贏得客戶的信任,企業需要真正相信這些原則。
將防止欺詐的機器學習系統視為人類的替代品是很誘人的。但根據經驗,一流企業將繼續讓工作人員參與其中。
原則4:員工水平的表現仍然是黃金標準,將幫助團隊調整模型
經驗豐富的人工審核團隊在人員層面的表現是對最佳可實現模型表現的合理估計。因此,模型訓練錯誤與人為錯誤之間的巨大差距表明團隊需要減少模型偏差。
原則5:有效的機器學習系統旨在與人類良好協作
良好的機器學習系統知道機器和人類的功能完全不同,因此可以利用這些差異。人類可以處理可能沒有足夠歷史數據或者需要重大判斷力的情況。例如,一家企業可能正在從新的地理位置獲得訂單或表現出獨特的行為模式。在將結果推廣到新的機器學習模型之前,讓人類參與這些案例是值得的。
使用雙向反饋來改善機器和人類的方面。人工反饋可改善模型偏差,并增強模型的可解釋性。同時,機器學習模型可以提供更多信息,使人類的任務更簡單,甚至有助于提高人類的技能。
原則6:發現并糾正模型中的人為偏見是團隊的責任
機器學習系統的最大風險之一是,通過設計,它們利用歷史數據進行推斷。人們通常會標記數據。數據會反映出人類的偏見也就不足為奇了,團隊有責任糾正這些偏見。
第一步是找出潛在的偏見來源,并在數據中明確尋找它們。驗證和測試數據集是否代表真實分布(即沒有樣本偏差)?企業的團隊是否在測試集中包括記錄,以檢查模型是否存在系統性偏見?從更簡單、更透明、可解釋且無偏見的模型開始,然后逐步過渡到復雜的模型。
機器學習是預防欺詐的強大工具,但如果操作不當,則很容易建立起與目標相反的模型。開發組織的機器學習技術至關重要。
原則7:機器學習模型需要一致的目標和符合總體策略的指標
選擇一種將措施和抵消措施結??合使用的度量標準,以防止在某個方向上發生過度反應。例如,團隊可以決定增加模型正確捕獲的欺詐部分(最大程度地提高“召回率”),同時確定該模型錯誤地將合法客戶標記為欺詐部分的上限(上限為“誤報率”)。
最后,為了使這些數字具體化,根據拒絕良好客戶的成本和身份不明的欺詐行為成本來估計業務的成本。
原則8:開發多種模型并經常進行重新培訓以與欺詐的真實世界保持一致
機器學習模型試圖模仿現實世界。首先,欺詐特征在不同地區和欺詐類型之間可能有很大差異。如果性能更好,則構建特定于地理和用例的模型。其次,現實世界是動態的,欺詐者不斷發展其戰術。因此企業保持恒定的新數據流以重新訓練模型,以確保模型輸出的質量不會隨時間降低。
原則9:向其他具有類似欺詐特征的機器學習用例學習
團隊在欺詐中面臨的幾乎所有機器學習建模問題在其他領域都有類似的解決方案。
以欺詐中類別分布不平衡為例,其中數據中幾乎所有記錄都屬于非欺詐類別。此問題類似于產品缺陷檢測之類的情況。或考慮生產中的欺詐模型問題使輸出產生偏差,從而影響獲取更多數據以進行持續學習的能力。其評估問題是在線廣告行業面臨的一個問題,團隊需要找到一些想法進行試驗。
為了從機器學習中獲得真正的價值以進行欺詐檢測,企業的團隊必須將機器學習視為組織能力,它要求產品、工程、數據科學和隱私團隊協同工作。企業的成功將取決于實施能夠解決實際業務問題的工作模型。企業從小處開始進行嘗試,然后逐步增強自己的能力。隨著時間的推移,企業的業務將會蓬勃發展。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。