“大數據”是當今最熱的概念之一,有人把大數據形容為未來世界的石油,有人宣稱掌握大數據的人可以像上帝一樣俯瞰整個世界,美國政府甚至已經把對大數據的研究上升為國家戰略。喧嘩的背后,實際上,隨著信息與通訊技術的發展,“大數據”正進入與我們息息相關的每一個角落。近日,記者參加中國科協主辦的第36期科學家與媒體面對面活動,采訪相關專家,請他們暢談了大數據時代的技術特色與隱私保護。
大數據是什么
故事一:無法完成的任務
大數據是一個時髦的新詞,也是一個古老的現象。因為,對某個時代來說,超出當時社會信息處理能力的數據,就可以說是大數據。
以人類遇到的第一個大數據人口普查為例。中國在公元2年就有史書記載的人口普查數據(《漢書 地理志》):全國103個郡國,人口是59594978人。對當時的古代中國來說,近六千萬人口的普查無疑就是一個難以處理的大數據。美國憲法曾規定,美國人口普查十年一次。1880年開始,美國人花8年完成了一次人口普查,并預計1890年做下一次人口普查大概需要13年時間。也就是說,人口普查成為當時一項無法完成的任務。不過,危機常常帶來新的技術革命。有人發明了穿孔卡片制表機,使得這個任務僅用一年時間就可以完成。穿孔卡片制表機就是今天計算機的前身。
“大數據不是今天就出現的,你對付不了的就是大數據。”工業和信息化部電信研究院互聯網中心主任何寶宏說:“今天所說的大數據革命也是2008年之后,這5年來信息發生了翻天覆地的變化。大數據讓物質世界變得可計算,這是整個人類的目標。”
無法完成的任務,帶來的是前所未有的技術突破。如今,移動互聯網、物聯網、基因測序等采集數據的工具越來越多樣化,使我們對物質世界的描述越來越精確,擁有的數據量越來越大;云計算等處理數據的工具越來越經濟,又使得大數據的應用走入百姓身邊,對我們的生產和生活方式產生深遠的影響。
目前大數據最成熟的應用是互聯網廣告營銷。近一年中,老百姓在搜索或者瀏覽網頁時會發現,網上推出的廣告越來越精確。這是因為互聯網廣告已經進入到完全自動、實時競價的狀態,通過對個人上網行為的分析,推導出這個人的性格特征和可能需要,并有針對性地投放廣告。廣告請求、競價邀請、受眾篩選、申請出價、中標投放的全過程,僅需120毫秒也就是0.12秒即可完成,而在傳統媒體完成這樣的工作,很可能需要幾個月的時間。
互聯網金融也是近一年的大熱點,根基就是由于大數據技術的成熟。互聯網金融在面對中小企業的貸款業務中,擁有獨特的優勢。據一份對中國互聯網金融的調查報告顯示,互聯網金融對小微企業貸款時,不良貸款率僅為1.02%,單筆放款成本為2.3元;而傳統銀行對小微企業的貸款不良率為5.5%至6%,單筆成本達800元至2000元。這種低成本、低壞賬率、全時服務(機器可以全天候開啟)的金融服務,使廣大中小企業變成了互聯網金融的客戶,可以解決小微企業貸款難的問題——這其實也是一個過去無法完成的任務。
大數據怎么用
故事二:不懂外語的翻譯
百度公司發展研究中心副主任率鵬給記者講了一個有趣的故事。“百度翻譯”這個工具,目前已經提供了24種語言的自動翻譯服務,翻譯質量在行業中領先。“但這24種語言中有12種語言,整個百度翻譯的團隊沒有人能懂。”率鵬說,“大數據的技術使我們完全在不了解、不懂得、不能夠理解這種語言的情況下,僅僅靠技術本身就開發出一個非常好的翻譯工具,這在以往的時代是難以想象的。”
不懂外語的外語翻譯,這個聽起來很天方夜譚的故事,其實精準反映了如今大數據技術的一大特點——不需要知道為什么,只需要知道是什么。
這個技術特點,是由如今大數據本身的特點決定的。中國通信學會副理事長兼秘書長張新生表示,大數據有四大特點:一是海量,大到“以目前的技術無法管理的數據量”;二是多樣,數據種類復雜,非結構數據占到所存儲數據總量的75%—95%,這些非結構數據無法以現在的技術手段與關系分析的數據庫來處理;三是速度,數據產生的頻率和傳送頻率非常快,需要進行實時處理;四是價值密度低,需從大量的低質量、低價值的數據中獲取知識,猶如大海撈針,獲取數據成本很高。
事實上,大數據還將越來越大。在過去兩年中,全球產生的信息占到人類整體掌握信息總量的90%,現在每天全球產生的數據相當于國家圖書館館藏總量的1500倍。而互聯網數據中心IDC預測,到2020年全世界將有300億個物聯網終端。中國在這一市場上將占據至關重要地位,屆時中國普通家庭將擁有40個到50個智能設備或傳感器,每年創造出20TB的數據。而中國國家圖書館藏書是2631萬冊,信息量相當于41TB。也就是說,屆時一個普通中國家庭每年產生的數據,就相當于半個國家圖書館。
我們如何才能不被大數據所淹沒?
“大數據的核心重點在于深度挖掘,通過挖掘產生新的應用。”張新生表示,大數據的處理技術是一個工具,它有幾個新特色:不再是小樣本、隨機樣本,而要全體數據;接收數據有混雜性,不再追求精確性;關注事物之間的相關性,可以只知道是什么,不知道為什么;對所獲數據可多次、反復利用,并可擴展,具有互用性,也就是未來可能知道為什么。
大數據產業也在變得越來越大。大數據的采集和傳感、物聯網領域有很大關聯性;大數據的處理,又和云計算等產業相關;大數據的應用和醫療、金融等各個行業相關。未來將有越來越多企業發展成大數據企業。
“大數據應該是我們的戰略性新興產業中新一代信息技術重要的產業部分,和互聯網產業、物聯網產業、電信產業都有很大關聯性。”中國聯通網絡技術研究院首席專家唐雄燕表示:“大數據本身和很多產業相關,現在可能已經有幾千億元的產業規模,將來會無處不在。大數據的從業者,未來也將不止是高科技人員,也會有很多藍領。大數據是一個材料,和石油、礦藏一樣,需要有采集數據的人員,需要有探礦的人員,各種各樣的人都需要。”
大數據怎么管
故事三:應該保護的隱私
我國大數據應用面臨著數據資源難以開放共享、數據安全和隱私急需保護、大數據技術創新人才不足等諸多挑戰,其中個人隱私如何保護,是大眾最為關注的問題。
事實上,真正好用的大數據技術,應該是用加工實現增值,用分析來指導決策,而非販賣用戶個性化隱私這種原始數據信息本身的低層次濫用。
中興通訊首席架構師、業務總工程師羅圣美表示:“使用這些數據的企業,其實有兩大類,一類是互聯網企業,第二類是電信企業。企業有安全保護措施,有技術解決方案,做只針對群體,而不針對個體的信息挖掘,這是應遵循的基本原則。”
率鵬認為,在隱私保護問題上,大數據技術要重點強調符號化和用戶特征這兩個概念。“符號化,是當我們去識別一個用戶時,用和他真實信息不相關的符號標記這個用戶。符號通過算法來保證,是單向的識別,使我們能識別出兩次登錄的是同一個用戶,卻無法通過此符號反推出該用戶在真實生活中的姓名、電話和住址,這就基本享受了大數據帶來的優勢,同時又規避了信息安全的風險。用戶特征,是在大數據時代,企業感興趣的往往是這個用戶的特征,而不是家庭地址、電話號碼真正敏感的信息。比如說,我希望知道你是一個20歲到30歲年齡段,生育過子女,有高等教育學歷的女性,這些都是你的特征,但是我并不想知道你姓甚名誰,今年多大,有幾個小孩。如果在數據使用過程中嚴格遵循符號化和用戶特征原則,我們就能規避掉不良風險。”
除了技術以外,政策和立法才是大數據時代個人隱私保障的重要憑借。2012年12月28日,《全國人民代表大會常務委員會關于加強網絡信息保護的決定》審議通過。2013年,工信部根據全國人大的決定,出臺了關于互聯網和電信網個人信息保護的條例,提出了數據保護的一系列要求。
數據需要保護,數據也需要交易。大數據的保護與交易需要遵循什么樣的標準,是當前政策制定者面臨的挑戰。
張新生說:“有價值的數據是非常重要的資源,但前提是要建立交易規則。我國的幾大互聯網運營企業都在做大數據分析,并且都想把數據作為可交易的產品,這需要我們盡快建立數據交易有關的法律法規。”
何寶宏認為,目前的大數據分為兩類。一類是公共數據,比如政府所掌握的數據,或者公益企業的數據,公共數據面臨的是開放和共享的問題。一類是商業數據,商業性數據需交易,因為這是資產,交易產生新的價值。“標準和政策的制定是不斷摸索的過程,需要隨著市場去探索,我們已經深度地介入到關于目前國內數據交易的活動中,去探討這方面的政策、標準制定。”
對于用戶來說,提高信息安全意識、注意個人隱私保護也十分重要。不過,鑒于大數據時代個人隱私保護的困難程度,已有專家提出了“遺忘”的必要性。牛津大學教授、大數據領域權威專家維克托就在他的著作《刪除》中表示,對于人類而言,遺忘一直是常態,而記憶才是例外。然而,由于數字技術與全球網絡的發展,這種平衡已經被打破了。大量數字化的私人信息不僅可能在今天被濫用,在幾年甚至幾十年后仍然可能被濫用。
羅圣美說:“在大數據時代,建議國家相關部門在制定產業政策時,需要重點考慮涉及個人隱私的信息,采取刪除、鎖定,或者安全加密等多種級別的保密措施,避免個人隱私被檢索、發現、濫用和擴散。”