人工智能敏感信息檢測服務商Text IQ公司首席執行官Apoorv Agarwal日前在接受行業媒體采訪時,對非結構化數據面臨的潛在風險以及利用人工智能和自動化技術大規模識別敏感數據進行了分析和闡述。
當企業試圖解決漏洞和勒索軟件攻擊時,他們往往忽略了隱藏在其數據中的敏感信息。出現這種情況的主要原因是什么?
Agarwal:在理想情況下,企業應該掌握敏感信息在其擁有的數據中的位置。一般來說,企業將會長時間保留他們收集的信息,即使這些信息對他們沒有真正的用處。我認為這歸結為更廣泛的數據治理問題。
如果沒有實現一定程度的自動化,就不可能有強大的數據治理。例如,企業生成的數據量呈指數級增長,依賴于工作人員對隱藏在其數據庫中的所有未被發現的敏感信息進行評估,而且在通常情況下,非結構化格式的數據需要進行處理,因此無法大規模地開展工作。
數據泄露和勒索軟件攻擊的數量將持續增長,但企業可以利用人工智能技術應對,這使他們能夠主動大規模識別敏感數據和個人數據。一旦識別了這些數據,他們就可以選擇編輯、刪除、加密或采取任何必要的措施進行保護,以確保不會落入居心不良的人的手中。
非結構化數據如何構成風險以及可以采取哪些措施?
Agarwal:80%以上的企業數據是非結構化的——其龐大的攻擊面使其非常容易成為網絡攻擊者的目標。其次,這種非結構化數據充滿了各種類型的敏感信息:商業秘密、個人信息、健康信息、知識產權等;例如,沒有人能夠構建包含商業秘密的結構化數據庫,更有可能散布在電子郵件、聊天記錄、Excel表格和其他形式的非結構化數據中。
非結構化數據帶來的挑戰是數據量巨大,找到其中的敏感信息就像大海撈針一樣,因此需要采用可擴展的機器學習技術。
自動化是唯一的出路還是人為因素仍然有價值?
Agarwal:我認為數據的增長速度顯然比人口增長的速度更快。如果沒有足夠的人力,就沒有足夠的能力來處理任務的數量和復雜性。
我認為同樣重要的是要注意,采用人工智能技術或機器人并不是只需按一下按鈕就可以自動完成這些任務,確實需要人類的幫助。而這項工作不能單獨由機器或人類完成。
能否解釋一下人工智能是如何識別和保護敏感信息的嗎?
Agarwal:人工智能不會保護敏感信息,但是會識別。一旦識別出敏感信息,企業就可以通過刪除、編輯、加密或更改對它的訪問控制來采取措施進行保護。
其挑戰在于識別本身。在識別方面,如今采用的是一些過時的方法和技術,例如RegEx和搜索詞。除了速度慢且可擴展性不高之外,這些勞動密集型方法產生的結果可能并不準確。
但并非每個9位數字都是社會安全號碼(SSN)。另一方面,人工智能系統可以查看信息所在的場景,以更準確地確定信息是否敏感。例如電子郵件。在分析電子郵件的敏感信息時,人工智能能夠考慮場景,例如誰寫的、誰獲得、誰被復制到電子郵件鏈中的人之間的關系網絡,以確定一些電子郵件是否敏感。
在理論上,人類可以對所有這些場景進行評估和衡量,但沒有足夠的人手來實現這一點;此外,雖然人類不擅長計算任務,但更擅長抽象思維。
企業保護數據的方式可能對其整體業務和聲譽產生重大影響。您認為他們對此有多了解?您認為應該改進哪些方面?
Agarwal:很多企業對于數據泄露對整體業務和聲譽帶來的損失和影響非常了解。沒有哪一家企業認為它完全不受數據泄露的影響。企業董事會成員了解這些非常重要。
這是可以改進的地方。長期以來,很多企業一直依賴數據丟失防護、搜索詞和人工審核。他們真的需要轉向并利用人工智能等新技術。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。