現(xiàn)在越來越多的銀行業(yè)務(wù)依賴大數(shù)據(jù)和物聯(lián)網(wǎng)基礎(chǔ)設(shè)施,比如,移動支付、網(wǎng)上銀行和智能售貨機。但在這些交易過程中存在大量的個人敏感的身份信息需要保護。大數(shù)據(jù)安全是一個極大挑戰(zhàn)的問題,因為作弊者在不斷的尋求新方法來獲取到有價值的數(shù)據(jù)。為了防止這些壞家伙,人們需要不斷的去設(shè)計和發(fā)布新的大規(guī)模預測模型來預測作弊者的行為。不光銀行需要大數(shù)據(jù)安全保護,任何含有對個人用戶信息personally identifiable information (PII)處理的商業(yè)交易都要做好保護,比如,醫(yī)療機構(gòu)和保險業(yè)。
最近有好消息稱,有越來越多的機器學習的專家、新的技術(shù)和工具來提供有效的分析模型,能夠鑒別潛在的 欺詐交易和釣魚式攻擊 。但不是所有公司都擁有機器學習專家來做這方面的工作,因此這些公司就需要從外面請一些專家來建立有效的模型來抵制作弊者。與此同時,他們又不想自己用戶的信息讓其他公司知道。通過匿名用戶個人信息PII還保證不了這一點。那有沒有一種較好的方法能夠既利用外部力量而又不暴露本公司的敏感的數(shù)據(jù)呢?
圖一在紐約最近的一次大數(shù)據(jù)會議上,大數(shù)據(jù)公司MapR的首席架構(gòu)師Ted Dunning發(fā)表了一種新方法來解決上述問題。
找出被盜商家
現(xiàn)在一個新的趨勢是:作弊者通過成千上萬的用戶盜取個人信息來進行許多小批量的欺詐交易。這樣他們可以在很短的時間里盜取百萬美元/英鎊/歐元,通過被盜的商家或者網(wǎng)站來獲取大量的顧客的金融信息。作弊者不是偷一張信用卡然后去購買大宗商品,因為這種行為容易被現(xiàn)在的安全軟件探測到,而是通過欺騙交易來進行大批量的信用卡交易。這些小額購買常常被用戶忽略,但是恰恰會被不良作弊者利用。為了應(yīng)對這種潛在的通過被盜商家來進行盜竊的行為,一家大型金融機構(gòu)采用大數(shù)據(jù)公司MapR的技術(shù)來構(gòu)建新的模型來檢測這種分布式攻擊。他們的目標是改善自己的欺詐檢測的能力:a)探測出更多的可疑事件,b)更及時的檢測,在出現(xiàn)嚴重的影響之前盡可能的快的去關(guān)閉受影響的賬戶。
銀行有海量的個人交易行為數(shù)據(jù),Ted的方法是把銀行的每個顧客的交易數(shù)據(jù)按時間序列轉(zhuǎn)換,在商家出現(xiàn)被盜之前找出來。他采用的相似估計的方法把每個被盜商家的特征點提取出來,然后進行打分。但問題在于即使是出于打擊盜取者,銀行也不太愿意把敏感的數(shù)據(jù)分享出來。
為了克服這個問題,Ted寫了一個可根據(jù)個人需求定制的樣本數(shù)據(jù)生成的代碼 log-synth ,并開源在Github上。通過log-synth生成被盜過的用戶歷史數(shù)據(jù)模擬來找出被盜的特征。在模擬數(shù)據(jù)實驗中,被盜商家有較高的打分。
構(gòu)建好探測模型,并進行參數(shù)調(diào)優(yōu),然后將這個模型應(yīng)用到真實的交易數(shù)據(jù)。真實的數(shù)據(jù)分析更令人振奮,一個商家打分超過80分的(見圖2),經(jīng)銀行核實發(fā)現(xiàn)這個商家的確存在大量的數(shù)據(jù)泄露。
圖2 通過模擬數(shù)據(jù)構(gòu)建的模型運用到真實數(shù)據(jù)中的情況
更好的數(shù)據(jù)模擬的方法
使用人為生成的數(shù)據(jù)來進行構(gòu)建模型并不新鮮,但是這種方法卻經(jīng)常被人忽視。Ted發(fā)現(xiàn),想精確模擬真實世界的行為特征是非常難的一件事,而通過人為生成的數(shù)據(jù)就可以很好的構(gòu)建好的模型,這樣更快更容易。
這種方法不僅僅用于欺詐檢測,也可以用于其它真實的情況。具體怎樣使用開源log-synth,在這里由于篇幅限制就不再細激昂,感興趣的可以去看Ted Dunning和Ellen Friedman寫的書 《Sharing Big Data Safely: Managing Data Security》 ,可免費下載。