5月10日,由企業網D1Net舉辦的2023全國CIO大會盛大召開。本屆大會以“企業承壓,IT怎么干?”為主題,匯集300+企業CIO及IT高管,旨在搭建CIO與同行交流的高質量交流和社交平臺,通過觀點與思想的激烈碰撞,可落地的實戰干貨分享,幫助CIO用戶群化解困惑和焦慮,助力廣大CIO找準數字化機遇、少走彎路,應對數字化轉型過程中的諸多挑戰。主論壇外,另設新安全、數據賦能、新技術增效三個分論壇。包括CIO中年職業危機應對也是本次大會的議題之一。
以下是現場速記。
數安云智創始人 徐剛
徐剛:很高興在美麗的新疆跟大家分享,我的主題是“讓數據安全合規地創造價值”,剛才劉總講的合規是不是給大家帶來了很多壓力?我們做的事情就是想讓合規變得更簡單,讓大家能夠更好地聚焦于業務,而我們把自己的合規體系更容易地建立起來,這是我們希望做的事情。
我叫徐剛,本人在IBM做了十八年,在微軟做了兩年,離開IBM以后是在新奧集團作為高級副總裁主管數字化三年半,數安云智是我創立的專門關注數據安全領域的一家公司。為什么要講數據安全?傳統的講到數據安全,大家想到的就是怎么把數據防護好,不讓別人看,而我認為今天在數字化時代,數據被捆在家里一定不是方向,未來的數據一定需要更好地進行分享和共享,只有分享和共享才能產生價值,所以我們的目標和方向就是讓數據安全合規地創造價值。
2020年4月,國務院第一次提出數據要素化的概念,大家可能都不清楚這是什么意思。其實從國家層面是把數據拉到了一個非常高的層面,認為是核心的生產要素,等同于農業經濟時代的土地和勞動力,或者是工業經濟時代,我們把資本和技術放上去。數字經濟時代,其實數據是最核心的,所以把數據變成一種生產要素。提出數據要素化的時候,大家對這一塊的理解還是非常模糊,反而是在2021年7-8月,各種個人信息保護法、數據安全法都陸續出臺,大家的感覺是對數據管控的要求是不是更高了?我跟團隊很多人都在講,數據安全法、個人信息保護法的出臺是為了以后我們能夠更好地利用數據打基礎,先把規矩做好,告訴大家我們應該怎樣對數據進行分類分級,能夠針對不同的數據進行不同類型的處理方式,所以只有把這些規矩做好才能更好地推動數據的共享。
今天在數字經濟時代,數據有點像石油,原來工業時代的時候通過自然形成的石油存放在地下沒有任何價值,現在的數據基本上都是企業通過業務系統逐漸沉淀下來放在自己家里。我們知道一些企業數字化做得好就在想怎么利用自己的數據推動業務,所以叫做數據驅動業務,怎么把自己沉淀的數據用好。我們可以看到從國家層面不是光有企業內部怎么把數據用好的問題,而是今天到了人工智能,需要大數據,也需要跨業數據融合或者同行業數據整合,能夠在上面產生更多的智能、更多的創新業務,我們到底應該怎樣去做。
不知道大家有沒有注意到,國家最近兩年在各地都在成立數據交易所,數據交易所是干嘛的?就是讓大家把數據開始進行真正有價值的交易,這些是我們看到的國家正在大力推動的。數據交易本身就像原油,拿出來的時候沒有人賣,因為原油本身不能給我帶來什么價值,而我們也可以看到數字化時代有很多公司已經在做人工智能。前兩年我們也覺得很辛苦,就是沒有數據,我們有技術、有算法,但沒有數據就沒有辦法去做。我們發覺真正要想推動的話還是需要靠能夠有一個數據的加工商,通過把這些數據進行加工分享以后才可以讓我們的受用方真正使用到我們這樣的數據。
怎樣把數據安全流通交易起來,這些是我們現在已經遇到的問題。現在企業也有看到一個最實際的問題,雖然說流通是一個很重要的環節,但法律現在也有一個很明確的規定,不是說數據拿出來交易就可以。之前在數據安全法各個方面的法律規定起來就在說,數據需要先進行分類分級,之后就會知道哪些是重要的數據,不能出獄,哪些是個人敏感數據,需要脫敏后才能使用,哪些是普通數據,可以拿來創造價值。我們可以看到企業目前雖然是知道有這樣的法律法規,也在不斷地內部利用我們的數據,但是不是合規地使用這些數據?我們認為很多企業是不清楚的,哪些數據能用,哪些數據能拿出去,未來產生更多價值有沒有方法,這些都是目前我們遇到的問題。
國家對數據安全現在已經有了明確的要求,公司要上市的時候,上市公司要做審計的時候,數據安全已經和財務審計一樣變成了一個必要項,就是要求我們能夠全面自查和定期自查,需要對自己的數據進行全面的分類分級管理,同時對數據生命周期合規與企業管理合規進行整體的管控,而且需要根據監管的動態及時進行風險預判。因為現在監管政策也是不斷出臺的,比如我們有數據需要跨境去做的時候,我們需要嚴格參照監管的要求,看一看哪些數據允許出境,哪些數據嚴格限制。
對標海外的話,國內數據安全合規的需求其實還是剛起步。OneTrust和BigID真正發展是在2018年的時候,當時歐洲正式發布GDPR,是對個人隱私數據進行非常嚴格的管控,美國加州出臺數據安全法案是2018年6月。隨著這些法規的出臺,很多企業開始有困惑,就是到底怎么去做。因為法律對隱私數據怎么使用已經有了嚴格的規定,今天在中國我們自己還有感覺,數據在哪里登錄以后就被賣到哪里,但從歐洲和美國來講很早就已經提出對個人隱私數據的管控要求。隨著國內數據安全法、個人隱私保護法2021年逐漸推出以后,其實企業也有遇到這個問題。以前我們是從采集數據、存儲數據、使用數據,按照我們自己的想法就可以去用了,未來是不是可以按照這種方式合規地去用,已經成為了每個企業都要考慮的問題。因為這些已經牽涉到法律上的問題,如果我們不遵循這樣的法律,哪一天被查到的話極有可能會被駁回,甚至已經上升到刑事責任。
當然,現在還有一個相對比較好的事情,就是國家正在推動數據資產入表。我們也意識到一家企業和另外一家企業,為什么這家企業非常值錢?數字化時代,我們會發覺就像有一千萬粉絲和一百萬粉絲的博主,價值是完全不一樣的。企業沉淀下來的數據也是一種資產,怎樣能夠體現價值?未來怎樣真正變成企業資產,并入資產表?2022年12月財政部頒布的文章也開始推動這件事情,大家可以想像,未來我們能夠保證數據是安全合規,可以拿到,形成資產的話,未來對企業整個自身資產的增值也是非常有幫助,前提就是合規。
前面講的很多都是國家層面或者未來看到的趨勢,數安云智自己在做數據安全的過程中整個理念就是讓數據安全合規地創造價值。我們整體設計數據安全治理的框架,第一步做的事情就是怎樣幫助企業發現和識別我們的數據,這也是為什么數據資產地圖是我們第一步做的事情。有了數據資產地圖,我們可以快速盤點企業到底有什么樣的類型的數據,可以對數據進行分類分級,完成分類分級以后,能夠形成多維的標簽,為未來的合規做好最基礎的準備工作。我們發現識別數據以后就要對數據進行安全的管控,通過安全的管控策略告訴哪些數據是需要的,個人敏感數據在使用的時候是需要進行脫敏才能使用,企業重要數據一定要加密才能使用,這些都是我們在未來的安全策略上可以制定的。在此基礎上,我們再根據未來的用戶對數據的使用行為,判斷、分析這種風險,通過我們的安全大腦知道哪些數據是被非法使用或者違規使用。
我們公司推出的第一個產品就是數據資產地圖,幫助我們納管現有的數據資產,通過主動掃描和被動監聽的方式幫助企業自動化地生成自己的數據資產地圖,告訴我的數據資源在什么地方,都有什么類型的數據,通過智能化識別的手段,通過規則引擎以及人工智能,我們對實體和對數據的理解自動進行分類分級,通過資產地圖就可以形成自己的數據資產目錄和標簽,現在我們打的是安全標簽,我們也可以讓企業知道敏感數據的分布以及未來潛在的合規風險在什么地方。
打造這種數據資產地圖最底層的、需要有的一些功能,我們主要需要考慮幾點:平臺化設計的功能,數據資產地圖絕對不是掃描一遍就給客戶導出一張表,告訴有什么數據資產就結束了,因為數據是一直在流通,不斷增加和減少的過程,所以需要持續監控。我們有這張數據資產地圖以后,我們知道有哪些資產、哪些敏感數據、哪些重要數據、哪些普通數據,未來使用這些數據的時候就可以參照這張表針對不同的數據采取不同的合規策略或者安全管控策略。這些應該是平臺化的設計,能夠讓我們支撐、接入和對接不同的應用系統需要。我們支持多模態的數據,其實對數據的管控不應該僅僅在于關系型數據庫,企業還有大量非結構化數據庫。我們現在正在花時間、花力氣做的就是文檔型數據庫,能夠快速識別出來,告訴這個企業都有哪些文檔含有重要數據、含有敏感數據,針對不同權限的人去訪問這些數據,怎樣進行動態脫敏或者靜態脫敏。當然,針對未來的圖片和視音頻,我們還在持續去做,因為我們也知道人工智能現在發展到了一定時期,對自然語言的理解、上下文語義的理解有了一定的技術,怎樣把一些技術運用到這樣的領域是未來需要考慮的。
我們強調自適應的分類分級算法,也是基于自研的小樣本自學習算法,因為企業不大可能把自己大量的數據扔到公有云或者公開算法平臺去做訓練,很多數據必須在自己的企業內部,而且可能是企業自己特有的。針對這種特有數據,我們怎樣智能化識別和快速適應,也是需要考慮的問題。
最后就是多維度標簽和多領域標準,當我們做這張地圖去看我們自己的數據資產,包括去打安全標簽的時候,我們要看到底符合GDPR的標準還是符合國內數據安全的標準,不同的法律標準以及企業里面有不同的分類分級要求。因為國家是有國家的規范,行業可能有行業的標準,有些企業自己對自己的數據也有一些自己的要求,怎樣對數據進行多維標簽的打造,未來實現不同法律法規的檢測規則的植入?這些是我們在考慮的問題。
人工智能技術怎樣實現未來的算法?這些是我們自主研發的小樣本環境自適應的算法,可以理解為包含兩個最核心的技術功能:一個就是特征工程,我們需要對未來的數據特征進行識別,包括數據實體的特征。另一個是我們需要聚類算法,針對不認識的數據能夠去做一個自動的聚類,通過自動聚類以后的數據形成這一類數據特征的提取以及人工的批量打標,完成整個訓練的過程。我們自己自研的這套體系是整合有監督學習和無監督學習,也是跟行業進行緊密結合的訓練方式,讓我們的很多算法可解釋性是非常好的,也是自適應的,不斷地幫助企業發掘新的類型,通過這種模型能夠快速更改。
通過我們自己的分類分級算法和智能算法,能夠快速地幫助我們找到原來企業不知道的標準或者不認識的內容,通過聚類分類的算法,可以看到我們的準確率可以達到92%。
剛才講的是數據資產地圖,下面講一講我們對數據安全大腦的研發過程。可以把數據安全大腦稱之為數據安全治理下一代安全運營中心的思路,所以也會針對數據安全的整個體系構建打造安全數據中臺,會把所有安全行為數據,包括未來的日志數據、報警數據等等,通過一個安全數據中臺進行統一的治理。這些治理完的數據在安全數據中臺整合以后,我們會通過傳統的規則或者人工智能形成我們對異常事件的判斷,并且對異常事件進行報警和未來的安全事件處理,所以這些是未來整體的架構。
圖中就是我們針對汽車企業,舉個簡單的例子,我們怎么幫助客戶進行行為異常的判斷,能夠根據客戶的行為數據為我們自己的行為建模,形成建模以后可以形成行為基線。所謂的行為基線就是針對不同的用戶、不同的設備、不同的訪問請求,可以形成一個行為基線,針對這種行為基線形成異常事件的判斷。行為基線完全是通過智能的算法完成,然后在此基礎上會形成用戶的畫像和評分,以及為未來的行為追溯去做一個整體的調查。
因為我自己在新奧做高級副總裁,負責數字化,安全這個事情也是原來我一直考慮的事情。在座的CIO壓力更多的是來自于業務,怎樣快速地把業務做起來。今天越來越多的壓力,我們看到安全已經成為一個很重要的話題,為什么?剛才講到合規現在對我們有這樣的要求,國家的法律法規已經越來越健全,如果我們不去做這方面的考慮一定會有問題。原來傳統的安全公司到我這里的時候更多的是給我們介紹一些產品,而我很少看到有人跟我講安全體系到底應該怎么建設,我們應該怎樣打造這樣的安全體系。現在網絡邊界已經被打破,有的在云上,有的在邊緣計算,有的在5G,我們已經不能光靠一個網絡的邊界定義怎樣去打造安全體系。
未來我們的安全體系打造到底應該以網絡為邊界考慮還是應該以數據為核心考慮?我當時跟很多朋友溝通的時候也有提到,未來的安全管控體系要想打造的話,應該打造以數據為中心,以網絡為基礎,并不是網絡安全不行,網絡安全是基礎,必須去看,但未來的安全體系打造一定是以數據為中心打造整個安全體系。今天我們在做自己產品和規劃的時候考慮的是事前利用安全地圖對企業核心機密、敏感數據進行掃描標識、分類分級,形成我們自己的管控基礎,事中也在打造數據安全網關,通過數據安全網關,未來會把安全合規的體系以及權限的控制放到安全網關里面,使得用戶可以細粒度地管控數據哪些人能看哪些人不能看,數據出去的時候是不是有合規的風險。我們希望事中和事后利用安全大腦實現安全實時的運營,通過我們對各種行為數據、各種網絡安全數據的融合和分析,包括通過人工智能找出我們的異常,整合未來我們行動中心的行動能力。之前安全行業都有談到Thor和未來的RPA,形成我們的整個閉環。
由于時間關系,我就簡單分享這些想法,大家如果有興趣的話可以去看一看我們的介紹,當然也歡迎大家加我微信,我們可以有更進一步的交流。