大數據具有數據體量巨大、數據類型繁多、價值密度低、處理速度快的特點。在帶來各種光鮮機遇的同時,大數據也帶來了新的挑戰,尤其是關系國計民生的統計大數據,如應用不慎,達摩克利斯之劍可能隨時落下。
面臨的挑戰
在大數據被討論得最熱火朝天時,“棱鏡門”為全世界敲響了警鐘。但多數人忽視了一個關鍵問題,正是有了大數據,才讓“棱鏡”項目得以順利實施,大數據技術在帶來機遇的同時,帶來很多問題。
巨大體量使得信息管理成本陡增。海量數據的管理是每一個大數據管理者的極大挑戰。在互聯網上,大數據是非常容易被發現的目標,已成為網絡黑客攻擊的首選對象。大量數據的集中存儲增加了泄露風險,黑客的一次攻擊成功就能獲得比以往更多的數據,黑客的攻擊收益遠遠大于進攻成本。在大數據時代,數據加工和存儲鏈條上的時空先后順序已被模糊,可擴展的數據聯系使得安全防護更加困難。
在國家統計局聯網直報平臺上,有企業一套表、采購經理調查、工業生產者價格調查等網上直報項目,數以萬計的被調查單位的數據匯聚在一起,是實實在在的統計大數據,這里面蘊藏著更復雜、更敏感、價值巨大的信息。從微觀角度來看,被調查單位的指標直接反映了自身生產經營狀況;從宏觀角度來看,如果通過專業人員分析,透過這些數據更可以對經濟運行狀況和未來走勢一探端倪。目前,網上直報項目的登陸賬號多為被調查單位的法人代碼,默認密碼一般為法人代碼,初次登陸后一般修改為“12356”、“11111111”等過于簡單的密碼,這些數據在某種程度上會引來潛在攻擊者。
類型繁多加大了信息有效性驗證難度。大數據時代,由于不再拘泥于特定的數據收集模式,數據來自于多維空間,各種非結構化的數據與結構化的數據混雜在一起。太多無用的信息造成信息不足或信息不匹配,如何從海量的數據中去偽存真,提取需要的數據,是每一個大數據應用者面臨的挑戰。
日常統計調查工作收集了大量統計數據,通常可以依托算法處理得出走勢和預測。但是,如果被調查單位上報的數據存在人為失誤,或者在收集數據的過程中出現了偶然的非人為失誤,導致數據本身出現了問題,通過數據分析得出的結果也將不盡準確。
低密度價值分布使得安全防御邊界有所擴展。第一,大量的數據匯集,包括大量的企業運營數據、個人隱私和各種行為的細節記錄,數據的集中存儲增加了泄露風險。第二,一些敏感數據的所有權和使用權并沒有被明確界定,很多基于大數據的分析都未考慮到其中涉及的個體隱私問題。第三,大數據對數據完整性、可用性和秘密性帶來挑戰,在防止數據丟失、被盜取、被濫用和被破壞上存在一定的技術難度,傳統的安全工具不再像以前那么有用。
統計調查工作涉及了大量企業、家庭和個人的隱私數據,如企業投資方向、人員信息、家庭收入、日常支出、消費記錄等。《統計法》第九條明確規定:“統計機構和統計人員對在統計工作中知悉的國家秘密、商業秘密和個人信息,應當予以保密。”而在大數據時代,任何人都可以是信息的提供者和維護者,這種由先天的結構性導入設計所帶來的變化,要采取必要的技術手段實現隱私保密。
快速處理要求使得獨立決策的比例顯著降低。大數據時代,對事物因果關系的關注,轉變為對事物相關關系的關注。大數據系統是一種輔助決策系統,事實上,大數據分析日益成為一項重要的業務決策流程。
宏觀經濟失衡的發生,會給國民經濟發展造成巨大損失,并引起經濟大起大落、強烈波動。國家統計局發布的經濟預警指數包括工業生產指數、固定資產投資、城鎮居民人均可支配收入、居民消費價格指數等十余個指標。在經濟運行過程中,如何快速準確地對經濟的發展變化情況進行預測,在失衡發生前發出警報,事先采取措施加以調節,避免不良后果,是檢驗統計大數據運用效果最直接的體現。
應對的策略
通過安全評估體系確保統計大數據安全。一是打造一支可靠的專業團隊。大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂技術、懂管理、懂指揮的統計大數據建設專業團隊,為統計大數據管理人才提供保障。二是使用基于威脅特征建立實時匹配檢測,基于統一的時間源消除高級可持續攻擊(APT)的可能性,精確控制大數據設計規模,削弱黑客可以利用的空間。三是建立安全評估體系,對于不同安全域要進行準確評估,加強保護關鍵信息索引,做好重要數據多重災難備份工作,應對大數據的災難性損毀。
通過有效性驗證確保統計大數據可靠。固定的傳播渠道所發布的數據往往有其針對性和傾向性,甚至帶有誤導性,這時就需要數據使用者具備一定的甄別能力,才能真正充分利用大數據實現自身價值。一是通過研究相關的算法,確保數據有效性,盡可能使數據類型具體化,增加對數據更細粒度的了解,縮小數據的聚焦范圍,定義數據的相關參數,對數據進行精細篩選。二是進一步健全特征庫,加強數據的交叉驗證,通過邏輯沖突去偽存真。
通過確立權限邊界確保統計大數據隱私。一是在流程設計上,一定要將數據分散存儲,任何一個存儲單元被黑客攻破,都不可能拿到數據的全集。同時,使用過濾器監控,一旦發現數據離開了用戶的網絡,就自動阻止數據的再次傳輸。二是確立權限管理邊界,構建一體化的數據安全管理體系。使用加密手段把數據使用與數據保管分離,把密鑰與要保護的數據隔離開,通過USBKEY等硬件輔助對敏感數據的調用啟動身份驗證機制,定義產生、存儲、備份、恢復等密鑰管理生命周期,實現對數據的動態加密管理。
通過科學建模實現統計大數據快速預警。大數據分析技術經過這幾年的發展,已經形成了一些比較成熟穩定的模型算法,常見的模型算法有關聯規則分析(Apriori)、決策樹、神經網絡、K-MEANS聚類等。這些算法模型有的適合預測趨勢和行為,有的適合關聯分析,有的適合聚類分析。每種模型算法都有其優劣性,我們可以針對不同的需求,選擇合適的算法模型進行統計大數據分析挖掘,從而利用實時數據進行快速、精準的經濟預警。