2015 年1 月7 日我們正在經歷一場由大數據引發的社會革命。人類生活中的一切活動,每次購買,每次對話,每次社交,每次移動,甚至我們的身份和身體的變化都成為信息收集、存儲、分析和使用的對象。多樣化的數據、巨大的數據量以及它們潛在的商業價值已經開始對公共政策的制定,對社會經濟和公民隱私產生深遠的影響。毋庸置疑大數據會帶來巨大收益,無論是企業創新還是消除疾病。當大數據快速向社會的各個方面滲透,當數據分析技術快速發展和數據利用范圍迅速擴大時,政府與公民、政府與企業、政府與政府之間的關系正在發生變化。如同任何一種新科學(如核物理)出現一樣,政府的政策會對這門科學的應用產生深遠的影響。
作為世界上最大的數據收集者和最大的數據使用者,同時又是公民基本權利的守護者,各國政府對數據科學和大數據的舉措,會嚴重影響到它的發展方向和發展速度??茖W既能造福人類也可為害人類,大數據也不例外,有遠見的國家戰略和政策一定是在保護公民隱私權的前提下,加速數據信息的自由流動,鼓勵創新、催生新產業創造新就業、進而促進國家的經濟繁榮。中國現代化進程的起點和中國的文化造就了我們善于利用“后發優勢”。因此從借鑒比較國外政府的經驗入手,研究制定適合國情的大數據發展戰略和發展路徑,是繼續深化政務電子化,加快實現中央提出的健全國家治理體系與治理能力現代化的明智之舉。
以美國為代表的發達國家在推進大數據上已經形成了從發展戰略,法律框架到行動計劃的完整布局。
2009 年1 月21 日現任美國總統奧巴馬宣誓就職后的第一個工作日就簽發了“開放政府”備忘錄(Memorandum on Transparency and Open Government),指導新一屆行政當局從開放政府數據源、建設開放型政府入手,以數字革命帶動的政府變革。“開放政府”的目的簡潔明了:改進公眾服務,提升公眾信任,更有效管理公共資源和增進政府責任?;ヂ摼W時代的開放型政府,首先必須開放政府數據。5 月20 日,美國政府開放數據的門戶Data.gov 上線,第一批47 個政府數據源向社會開放。2009 年12 月8 日,總統簽發“開放政府數據”行政令 (The Open Government Directive),要求在45 天內所有政府部門無一例外的必須向社會開放3個有價值的數據源。2010 年5 月經過12 個月的運行,Data.gov 升級到2.0。政府開放的數據源達到2.5 萬個。2011 年9 月20 日白宮正式啟動 “開放政府國家行動計劃 1.0”,首批26 個開放政府項目向社會公開。2012 年3 月29 日,在公開政府數據源的22 個月后,啟動聯邦政府大數據行動計劃,宣布了由政府資助的分布在13 個部委的84 個大數據項目,其中多數項目基于不同部門的開放數據源,聯合民間企業協同展開,如癌癥和心血管疾病研究。2013 年5 月9 日,總統簽署開放數據政策(Open Data Policy)。2013 年12 月5 日“開放政府國家行動計劃”進入 2.0,又添加 23 個政府開放項目。
在逐步擴大開放政府數據源,啟動開放政府項目和部署政府主導的大數據項目后,2014 年1 月17 日,美國總統指定白宮法律總顧問波德斯塔,由他領導行政當局與總統科技顧問委員會合作,邀請科技專家、隱私法專家、企業界學術界和政府領導,綜合評估 “大數據”和公民隱私交集后已經帶來和將會帶來的新問題。作為綜合研究的一部分,總統要求超前思考“大數據”對人類社會的影響,重點研究現有技術和未來技術會對現行法律帶來哪些挑戰,那些法律和政策需要修訂或制定以適應變化。評估探討“大數據”會從那些方面影響我們的生活方式工作方式,影響和改變政府與公民之間的關系??偨y希望得到建議,如何在政府和民企之間合作推動創新,在最大限度地降低公民隱私風險的前提下,保證信息的自由流動,創造更多的商業機會和就業機會。
2014 年3 月,美國政府向全社會發出公開征詢,希望民眾從不同層面提出看法,為政府的大數據戰略獻計獻策。
征詢從五個緯度展開:
1. 收集、存儲、分析和使用大數據對公共政策的影響是什么?例如,當政府利用大數據后,美國目前旨在保護消費者隱私權的法律框架和以及隱私保護策略,能化解大數據大分析帶來的新問題?
2. 如果政府采取更多地舉措、給大數據的科學研究更多的資助,能為政府帶來哪些可量化的收益?那些類型的大數據分析技術會對公共政策帶來新挑戰?有哪些政府部門和特定行業在使用大數據技術時,應該被政府和公眾更多的關注?
3. 那些關鍵技術和技術趨勢將影響大數據的采集、存儲、分析和使用?那些新技術或新做法,在保護隱私的同時能實現大數據的有效利用?
4. 監管政府和私營部門處理大數據的政策框架及法規應該有何區別?例如,執法部門,政府服務,商業,學術研究等。
5. 跨行政區、跨國家使用大數據會帶來哪些法律問題?如當前的國際法律,法規,或規范的適當性?
2014 年5 月,由總統科技顧問委員會執筆的報告提交總統。報告提出五大建議:
1. 政府政策制定應更多關注大數據的實際使用較少放在數據收集和分析上
2. 在政府各個層面的政策規范制定中,不應關聯特定技術而應指明希望得到的結果
3. 為推進大數據技術的應用,白宮科技政策辦公室和政府網絡信息技術研發部門需大力合作,強化國家在用于保護隱私技術方面的研究,加強與隱私相關的社會科學的研究。
4. 白宮科技政策辦公室還應與高等教育和職業教育合作,鼓勵和增加培養隱私保護專業人員
5. 美國應當在立法上保持在國際上的領先地位,加快修訂國內法律法規,鼓勵采用新方法新技術應對新的隱私需求。換個角度講,總統科技顧問委員會的評估結論是,單靠技術無法保護隱私,政府必須制定新策略,修訂現行的隱私保護的政策法規??偨y科技顧問委員會建議:新的政策應該側重于的對個人信息的具體用途是否會對個人隱私產生不利影響;政策制定的重點應放在利用數據的結果上,也即用個人數據分析在“做什么”,而不是“如何做”,以避免政策成為技術進步的障礙;政策框架應能加快開發和商業化大數據技術,這些技術不僅包括新的研究領域和潛在的技術選項,而且應包含能消除對隱私權不利影響的新技術新方法。通過政策的引導,能更有效地利用大數據技術,讓美國在立法和商業上在全球繼續保持領先地位。只有解除對個人隱私受到侵犯的擔憂,才能最大限度地利用大數據的好處。
最后,總統科技顧問委員會呼吁,更多的科學和專業人士共同努力,以對隱私充分尊重的方式,開發和使用大數據技術。
美國政府的經驗給了其他國家很多啟示。
首先,國家的大數據發展戰略不僅僅是一個技術發展綱要。盡管它針對一門新興科學和相關技術而來,但它是站在此項技術會給未來社會和公民生活帶來的沖擊的角度,以完善法律框架、政策框架為要,配之以恰當的財政計劃項目計劃以及合作計劃。
第二,因為政府是集數據收集,數據使用和公民隱私保護為一體的最終仲裁者,所以政府必須充分考慮科學與公民、科學與政府、科學與工業以及科學與科技之間的互動關系,制定的法律政策既要能鼓勵利用這項技術更多的造福人類同時又能抑制利用其為害人類。
第三,政府資助的重點應放在科學研究(如數據科學),應當用諸如合同或購買的方式激發鼓勵民間企業開發應用技術。
第四,科學和技術是現代文明的基礎,歷史上每次重大科學技術的出現,都引發了巨大的社會變革,因此,政府在關注特定科學和技術的同時,要資助和鼓勵相關社會科學的探索爭鳴。目前無論從哪個角度看,大數據仍處在初始階段。盡管企業和媒體對大數據時代的到來表現出了空前的熱情,但政府的政策制定者,社會法律學者和科技人士應當對此保持清醒并對已經面臨的和將會出現的問題有所準備。今天數據積累的速度遠遠超過數據能被處理和能被利用的速度。2013 年全球產生的數據中約22%有可能被用作分析,但結果只有5%實際被分析用到(IDC)。照目前數據產生的速度預計到2017 年,全球又會積累超過四倍于今天的數據量。結果導致存儲設備、數據中心和電力消耗的快速膨脹。截至 2014 年7 月僅美國就有290 萬個被稱之為服務器農場的數據中心,面積達6.66 億平方呎,兩年后將達7.27 億平方呎。絕大部分數據在分立分治的系統中快速堆積,這些數據互不相識互不來往,除了消耗資源,還沒有產生任何價值??v向累積的、缺乏多維度關聯的數據的確越來越大。但這并不是 “大數據”而只不過是“數據大”而已。在我們剛剛步入大數據社會時,不妨做一些前瞻性思考。這些思考應當以數據為源頭以人類社會為終點。簡單說,應當從物理層面審視和規劃數據如何收集、存儲、處理、傳輸和共享;應當從數字產品生產層面考慮研發什么樣的分析工具、使用什么樣的軟件平臺和基于什么樣的環境(如開放代碼);從使用層面考慮引進培養什么樣的人才和訓練什么技能,以及在更廣義的范疇考慮如何形成大數據思維和文化,大數據將會對未來企業與人、政府與人的關系有何影響。
大數據社會要求人們學會用一種全新的方式打量這個世界,工具、技術、技能和人才缺一不可。要及早部署和投資在以下方面:
數據分析工具和軟件平臺:人工智能(AI)技術,自然語言處理、模式識別、機器學習、預測分析、數據熔煉、信號處理和元數據管理等等;大數據要求同時在數十數百甚至數千臺服務器中進行大規模并行運算的軟件,目前使用的大多數關系數據庫管理系統、桌面數據庫和可視化軟件包已很難滿足需求,因此仍需關注MPP 數據庫、分布式文件及分布式數據庫的發展。
數據分析人才和算法模型:培養訓練會使用大數據分析語言工具如ECL, Cassandra,Hadoop,Hive、MongoDB 等的人才只是整個需求的表層。再深入一層,要讓大數據發揮作用,跨行業顧問、分析師和有行業經驗的編程序人員缺一不可。圖形及視覺表展現在人機對話和數據表達層作用極大,但融合技術和藝術、能將“抽象”形象化的語言、工具及人才尚不多見。沒有數學模型很難想象數據如何“大”起來,數據只有通過算法模型才能被電腦解讀,但數學模型在政治、社會和金融等領域只能逼近現實無法百分之百的重合現實。對于解讀數據關聯的隱喻而言,這些模式非常有用但必有局限性。所以如何建立能精準模擬世間萬物的數學模型,是集理論研究與應用開發的重要地帶。
當人類讓數字講話、把決策權更多的移交給“大數據”時,第一個重要問題就是數據的質量。“垃圾進、垃圾出”(Garbage-In, Garbage-Out)這句話早在50 年前就被用來描述自動化處理數據時的質量問題,此話今天依然有效。研究表明,知識工作者平均花近一半的時間在尋找數據、驗明數據、修正數據、剔除不靠譜的數據。數據質量問題可能發生在收集、存儲、處理、傳輸和分享整個過程中的任何一個環節,但第一個關口仍是數據錄入端(記錄或采集口)。大多數情況下,數據輸入端很少知道數據使用端為什么需要這種數據,用這些數據做什么。當使用端發現問題時,除非是系統性問題,大多被隨手解決,少有追根溯源從源頭糾正問題。那么數據的質量如何保證,誰應對質量負責呢?解決數據質量的問題,更多的是在管理不在技術。行之有效的方法是把數據質量的管控權更多地轉給使用端(業務條塊),建立數據“原料方”和“生產方”之間的直接的客服關系,形成制度和方法從數據源頭和元數據層面控制質量。
進入大數據時代,一個“大”字很容易掩蓋一切?,F實情況是,我們可用的數據越來越多樣化,但其中大部分的數據是使用者在只知其來源不知其如何產生、質量被如何管控的情況下而被使用的。因此,要想讓人們信賴基于大數據的決策,對所有數據源提前測試試驗必不可少。不管數據是大是小,真實可靠最重要。只有逼真的模型、精準的分析,才能體現大數據的價值。過去沒有數據是瞎子摸象,現在數據太多是大海撈針,瞎子摸象和大海撈針的結果相差無幾。大數據很容易使人們的關注點從因果關系移動到相關關系。大數據分析的結果常常能幫助人們回答“是什么”而不是“為什么”。膚淺的使用大數據,有可能引導人們止步于探究事件背后的深層原因,滿足于了解現象之間的聯系并利用這種聯系得出是對非對的解讀。
綜觀世界上所有政體和政府,他們都是最大的公民信息收集者、數字產品的生產者同樣又都是保護公民隱私的最高管理者。實現真正的數據共享是大數據騰飛的基礎,主管部門應該多多關注數據開放和共享的規則,公民信息安全和隱私的保護。在可預見的未來,我們面臨諸多挑戰:技術挑戰會出現在從信息搜索、數據捕捉,存儲,傳輸、存儲、共享、分析直到可視化全過程。另外必須面對大數據對社會人文的挑戰。法律層面,更開放的網絡會帶來更多的數據竊用、濫用和非法監控。一旦強大的新型數學數據工具出現,如何控制它不會被用在惡意方面。在人文倫理層面,在數據越來越多地獲得否決權的人工智能社會,如何對待人的經驗積累和直覺判斷?大數據技術日新月異,由大數據、深度學習(Deep Learning)引發的新一輪人工智能技術會對人類未來造成什么樣的沖擊,是擺在科學和社會學者面前的另一個重大課題。實事求是地講,不論擁抱或排斥這種新形式的數據科學,“精靈”再也裝不回瓶子里了。