在網絡時代的今天,數據信息是否安全時刻觸動著每個人的心弦。有關專家告訴《中國科學報》記者,盡管大數據已使用多年,但在技術監管領域,各環節仍存在諸多技術難點。
數據來源是否可靠待鑒定
據了解,此次大數據安全整治檢查中一項重點工作是對合法采集內容與非法采集內容進行分類。其中,對于非法采集信息,將進行集中打擊、銷毀;對合法、合規采集的信息,則納入保護監管范圍。
浙江大學網絡空間安全研究中心主任任奎表示,從網絡安全的角度來看,首先,大數據在采集的過程中一方面需要考慮對數據源進行認證,確保數據本身的可靠性,如何在不增加負荷的情況下,特別是針對物聯網中計算處理能力相對較弱的設備,實現有效的認證還有待研究。另一方面需要重視隱私保護,如何有效地對數據進行脫敏仍然存在挑戰,當前比較熱門的方法諸如差分隱私技術仍在積極發展中。
“公民的信息是公民的私有財產,如果不對數據進行溯源來證明數據來源渠道,那么很可能助長非法數據來源的氣焰。”上海交通大學計算機科學與工程系教授朱浩瑾說。
中國科學院信息工程研究所DCS中心副研究員王躍武告訴記者,對于大數據而言,關鍵還是盡量將技術做到更完善,來保證數據分析結果的真實性、可靠性。
非關系型數據庫為數據存儲主流
提及目前大數據存儲環節存在的問題,任奎告訴記者,目前的主要問題是如何在有效保護數據的前提下,完整支持傳統的功能,諸如常見的搜索、排序、聚合分析等,當前相關安全技術與明文應用相比,尚存在功能和性能上的差距,有待提高。
“此外,還應該考慮如何進行安全去重等實際需求,從而減輕數據存儲的壓力,但這與‘備份’這種主動的防災機制是不同的,相關安全技術在安全與性能的平衡方面仍然需要進一步研究。”任奎補充道。
采訪中,針對大數據的存儲技術,王躍武與任奎一致認為,從軟件層面比較主流的是基于分布式系統的非關系型數據庫。
據了解,非關系型數據庫的優點主要在于易擴展、高性能等,但是也存在諸如標準化不足、功能支持不夠豐富等缺點。常見的分類有鍵值存儲、列存儲、文檔存儲以及圖存儲。但是,如何權衡實際應用中的需求,比如系統的一致性、可用性以及分區容錯性等,并提供定制化的技術,仍有大量工作要做。
如何避免“中間人”的攻擊?
任奎表示,數據在網絡中進行傳輸,也需要防止監聽、篡改這類傳統的“中間人”攻擊等,因此端到端加密是很有必要的。但是,端到端加密技術仍然面臨很多新型側信道攻擊來窺探隱私的挑戰,尤其是最近一些以人工智能方法來展開的側信道分析工作也說明了這一領域仍然有很多問題需要解決。“除此以外,端對端加密雖然好用,但同時也給網絡入侵檢測、加密數據防火墻的設計帶來更多的挑戰,如何安全、高效地支持這類應用還需要進一步研究。”任奎說。
360安全專家劉洋曾在接受記者采訪時表示,傳統的網絡安全思路已經無法保障大數據時代的安全。傳統網絡安全的防護思路是劃分邊界,將內網、外網分開,業務網和公眾網分離,用終端設備將潛在風險隔離。通過在每個邊界設立網關設備和網絡流量設備來守住“邊界”,以期解決安全問題。但隨著移動互聯網、云服務的出現,移動終端在4G信號、Wi-Fi信號、電纜之間穿梭,網絡邊界實際上已經消亡。
大數據銷毀并非簡單的“刪除”“清空”
在朱浩瑾看來,在我國,數據銷毀仍是一個不小的問題。他指出,歐盟出臺的《通用數據保護條例》中明文規定了用戶的“被遺忘權”,即用戶個人可以要求責任方刪除關于自己的數據記錄,而國內的法律無此規定。此外,企業究竟有無對數據進行銷毀,在技術上并不好驗證。“比如你的手機移動端可以進行一些設置,但是服務器端你怎么知道有沒有銷毀?”朱浩瑾補充道。
任奎指出,大數據的銷毀是實現數據有效管理的必要過程,其過程并非簡單的“刪除”“清空”,如何保證指定的內容確實被“清除”與“銷毀”,除了技術層面的發展,仍需要建立行之有效的規范,例如美國國防部的DoD 5220.22-M規范。
對此,王躍武表達了不同意見。他表示,大數據時代,數據來源是一個由線到面的過程,銷毀從本質上來講是一種消極的做法。“大數據如同金礦,我們盡力從中淘出金子,然后將其保護好,這才是我們該做的。”王躍武說。