來源于網絡和云的海量數據,為發現價值、創造價值,以及幫助商業智能支撐機構決策提供了新的機遇。不過,大數據也面臨復雜性、安全和隱私風險等新挑戰。企業部門正引導大數據應用的發展,公共部門也開始關注迅速增長的大數據,以期為實時決策提供幫助和支持。本文首先比較了政府和企業在大數據應用的目標、任務、決策制定過程、組織架構和戰略方面的差異;其次,考察了部分技術領先國家當前大數據應用的狀況,這些國家包括美國、英國、韓國、新加坡和日本等;最后,提出了關于國家和政府部門未來建設大數據戰略應用項目的建議。
企業和政府大數據應用追求異曲同工
政府使用大數據是為了提升和改善公共服務,這與企業利用其追求利潤異曲同工。政府在應用大數據時,最大的挑戰就是數據搜集。
雖然企業和政府的主要任務并不沖突,但各自的舉措具有不同的目標和價值。企業的主要目標是通過提供產品和服務獲取利潤,發展或維持自身的競爭優勢,創造令消費者和其他利益相關者滿意的價值。政府的主要目標則是維持國內穩定,實現可持續發展,確保公民的基本權利,改善國民福利和促進經濟增長。
在競爭的市場環境下,大部分企業著眼于制定短期決策,并且執行人員數量也很有限。而政府的決策制定過程通常需要更長的時間,經過不同群體(包括官員、利益集團和普通民眾)反復討論和磋商,在彼此間達成一致后才能有最終結果。因此,政府制定決策要完成很多程序性步驟,以降低決策風險,提高決策效率和確保其效果。由此看來,大數據在政府部門和私有部門的應用具有很大不同。
對于很多企業特別是中小企業來說,分布式技術是一個挑戰。因為這些中小企業往往不具備應用大數據所需要的專業人員和經驗,他們需要外部資源的幫助。應該看到,大數據應用需要的不是純粹基于技術的技能,找到正確的分析大數據的方法,或許是企業應用大數據面臨的最大難題。對于大部分企業來說,發現和選擇勝任的數據專家(在數據挖掘、可視化、操作和發現等方面)是困難而昂貴的。
大數據有多個來源,包括互聯網、產業部門、視頻、電子郵件和社交媒體。許多白皮書、期刊論文和商業報告已經提出了政府利用大數據以幫助其服務公眾和應對傳統挑戰(如醫療成本上升、創造就業、自然災害和恐怖主義等)的路徑。
政府在應用大數據時,不僅要處理多個來源、不同格式數據的集成等一般問題,而且還面臨一些特殊挑戰。首先,最大的挑戰就是數據搜集。因為政府搜集的數據不僅來自于多種渠道(如社交網絡、互聯網、眾包),也來自于不同的來源(如國家、機構和部門),搜集難度可想而知。其次,在國家之間分享數據和信息也是一個特殊的挑戰。跨國分享信息,由于涉及語言轉換和不同的文化背景(內容的表現形式),分享和傳遞的信息有可能失真。再次,另一個挑戰是在一個國家不同的政府部門和機構之間分享數據。政府數據與商業數據最重要的不同就在于范圍和區域,這種差異近幾年還在擴大。政府(包括地方政府和中央政府)在實施法律和規章、提供公共服務和監管金融交易的過程中積累了大量數據。這些數據的屬性、價值和帶來的挑戰,都不同于公司運營中產生的數據。政府的大數據特征屬性可以表述為存儲、安全和多樣性。通常,每個政府機構或部門都有自己的存儲機構,用于存儲公共或機密信息,而且并不愿意分享各自的專有信息。
每個系統都保存有與其他系統隔絕的信息,這使得政府機構和部門之間的數據集成更加復雜。彼此溝通的失敗有時是影響數據集成的重要原因。例如,在英國,警察機構和醫院之間曾經打算在暴力犯罪方面分享信息,但這一項目最終失敗了,其原因就是兩者之間溝通不足。另一個分享政府信息的挑戰是建立統一的數據格式,能夠允許不同的機構進行分析。盡管大部分政府數據是結構化的,但是從多種渠道和來源去搜集數據仍然存在困難。缺乏標準化的數據格式和軟件,以及從多個政府機構的離散數據庫中提取有用信息的跨機構解決方案,也是政府推進大數據應用面臨的挑戰。但由于政府的財政緊縮措施,導致其缺乏相應的資金去推進解決上述問題。
在使用大數據時,政府必須解決相關的法律、安全和許可要求等問題。在搜集和使用大數據用于預測分析與保障公民隱私權之間,應該有一條清晰的界限。
在美國,美國愛國者法案允許合法監控,有時還可以監控公民;電子通信隱私法案允許相關部門不經授權便可進入電子郵件系統。要對網絡情報共享和保護法案(CISPA)加以注意,它將允許安全機構和私人網絡公司之間的信息共享,這增加了人們對信息不適當應用的關注。
數據安全是政府大數據應用最基本的屬性,因此,搜集、存儲和使用大數據時都需要特別注意。然而,目前大部分大數據技術,包括Casandra數據庫和分布式技術,都缺乏足夠的安全保護工具。對政府而言,確保安全是又一個挑戰。
對于政府的大數據項目而言,確保獲取高度管制行業(比如金融服務和醫療機構)信息的合規性,是搜集數據的另一個障礙。比如,當從與醫療相關的大數據獲取有效信息的時候,必須解決醫療管制制度對數據保護的問題。針對醫療行業的大數據分析,美國與醫療相關的兩個法案——健康保險攜帶和責任法案(HIPAA)、醫療信息技術促進經濟和臨床健康法案(HITECH)均設置了很大障礙。
HIPAA保護涉及個人隱私的健康信息,并提出了保護電子數據和病人檔案的國家標準,而且制定了在分析病人安全事件中保護病人的身份和信息的規則。2009年,HITECH延伸了HIPAA在保護醫療記錄和醫療信息被不同機構以電子方式使用方面的規定。這些法律法規限制了醫療記錄數據信息用于大數據分析的數量和類型。因為大數據定義涉及大范圍的數據,而這些法規把搜集數據和進行分析限定在一個狹小的范圍。目前在美國,能夠用于大數據分析的醫療信息只能來自于志愿者的提供。
企業使用大數據,目的是了解消費者的需求和行為,發展獨有的核心競爭力,并創新產品和服務;政府使用大數據,是為了通過預測性分析,提高政策透明度,增加公民對公共事務的參與度和預防犯罪,改善國家安全,通過更好的教育和醫療服務提高居民的福利。
開發從大數據中提取更多價值的技術,對于政府和企業來說都是持久挑戰。然而,對于政府的挑戰來得更尖銳,因為其必須打破部門間的阻隔以推進數據集成,實現各部門信息共享,并建立統一的數據調控中心(如美國聯邦數據中心)。
技術領先國家已實施大數據應用項目
技術領先國家或地區已實施大數據應用項目,以提高政府的運行效率和透明度,提高民眾的福利和公共事務參與度。
目前,世界上一些發達國家已經在政府部門開始推廣大數據應用。通過分析和比較這些發達國家的大數據應用,我們能了解當前和未來需要大數據應用聚焦和服務的地方,并為其他國家開展大數據應用提供借鑒。
美國:頒布大數據研究
和發展計劃
2010年,美國總統科學技術顧問委員會(美國聯邦政府負責協調信息技術投資的主要機構)在《規劃數字化的未來》中建議,“聯邦政府的每一個機構和部門,都需要制定一個應對‘大數據’的戰略”。這標志著大數據時代已經正式來臨。
2012年,奧巴馬政府頒布了“大數據研究和發展計劃”,通過提高從大型而復雜的數據集中提取知識和觀點的能力,進而加快美國科學技術進步的步伐,加強國家安全,并改善教學研究。這是一個數額高達2億美元的投資計劃,涉及多個聯邦部門和機構,包括白宮科學技術政策辦公室、美國國家自然基金會、美國國立衛生研究院、美國國防部、美國能源部、美國衛生與公眾服務部、美國地質調查局等機構。這個投資項目的主要目的是提高大數據核心技術的發展水平,加速科學和工程開發,加強國家安全,轉換大數據教育和學習方式,擴展開發和使用大數據技術的工作力量。
截至2014年2月,美國國立衛生研究院(NIH)在亞馬遜網絡服務中心已經積累了數以百萬億字節的人類遺傳變異數據,研究人員因此能獲得和分析巨量數據,而不用再去發展自身的超級計算能力。在2012年,美國國家科學基金會聯合美國國立衛生研究院實施了大數據核心技術規劃,目的在于推進在多樣化、分布式、異質性的大數據集合中管理、分析和提取有用信息的核心技術。
美國其他聯邦政府機構也開始進行大數據分析。美國國家稅務局已經在它的返回審查程序中集成了大數據分析能力。通過分析大量的數據,美國國家稅務局能夠檢查、預防和處理避稅和詐騙案。美國國防部也在大數據相關項目上花費了數百萬美元,其目標之一就是利用大數據發展自主機器人系統(學習機器)。
美國地方政府也開發了大數據項目。例如,在2011年,美國紐約州錫拉丘茲市政府與IBM合作開展了一個智慧城市項目,使用大數據幫助預測并降低住宅空置率。密歇根州政府信息技術部門構建了一個數據庫,提供密歇根州居民的相關信息,以便政府機構為居民提供更好的服務。
歐盟:建立統一
“數字市場”
2010年,歐盟正式發布了“歐洲數字化議程”,旨在建立一個統一的“數字市場”,推動歐盟內部高速互聯網的互聯互通和應用共享,進而促進歐盟經濟、社會的可持續發展。2012年,歐盟委員會在“歐洲數字化議程及其挑戰”中制定了大數據戰略,并強調了公共數據安全及挖掘公共機構數據的價值潛力,以及滿足日益強烈的對個人數據安全保護的訴求;該戰略還強調發展物聯網,確保網絡安全及在線交易的數據安全。
英國:HSC提升
數據處理能力
英國政府是最早推進大數據規劃的歐洲國家。2004年,英國設立了水平掃描中心(HSC)項目,以提升政府應對跨部門和多學科挑戰的能力。2011年,英國水平掃描中心(HSC)啟動了“氣候變化的未來國際影響”計劃,通過對多數據源進行深度分析,研究解決氣候變化對食品和水的可獲得性以及對地區或國際形勢的影響等問題。英國政府發起的另一個項目是2009年建立的http://data.gov.uk公共網站,來自7個政府部門的1000多個既有數據集對外開放,后來增到8633個數據集。
英國和荷蘭、瑞士等17個國家與IBM合作開發了一個名為DOME的超級計算系統。該系統每天能處理超過1EB的數據,數據來源于射電望遠鏡平方公里陣列(SKA),旨在通過百億億次計算、數據傳輸和存儲等新興技術,對每日采集的數據流進行讀取、存儲和分析,以解決一系列宇宙科學問題。這個大數據項目的總部是位于英國曼徹斯特的Jodrell Bank天文臺。
韓國:ICT戰略委員會
發起大數據倡議
2011年,韓國總統國家ICT戰略委員會發布了“大數據倡議”。該委員會是最高層次的政府信息通信技術協同機構,其使命是在建立必要的基礎設施過程中發揮領導作用。“大數據倡議”旨在建立泛政府大數據網絡和分析系統,推進政府與私有部門之間的數據共享融合,建立公共數據診斷系統,培養合格的大數據專業人員,保障個人信息安全,以及改善相關法律,發展大數據基礎設施和技術,發展大數據管理和分析技術。
很多韓國政府機構已經提出了相關的行動計劃。例如,韓國衛生部建立了社會福利綜合管理網絡,以分析來源于35個機構的385個不同類型的公共數據集,綜合管理中央政府和地方政府提供的福利和服務。
韓國農林水產食品部、公共行政與安全部(MOPAS)計劃推出預防手足口病的綜合系統。該系統依托于分析與動物疾病相關的海外大數據以及海關出入境記錄、養殖場的跟蹤調查、牲畜遷移和養殖工人活動等相關大數據,實現預防該病的目的。MOPAS的另一計劃是推出災害預報系統,該系統基于過去的災害記錄和自動實時的天氣和地震預報進行預測。此外,韓國生物信息中心計劃開發國家DNA管理系統,該系統將集成大量的DNA和病人醫療信息,為個人提供個性定制化的診斷和治療。
新加坡:實施風險評估
和水平掃描計劃
2004年,針對國家安全、傳染病和其他國家層面關心的問題,新加坡政府與國家安全協作中心合作發布了風險評估和水平掃描計劃(RAHS)。通過對大數據的采集和分析,積極把控威脅國家安全的相關問題,包括恐怖襲擊、傳染病傳播和金融危機等。風險評估和水平掃描計劃實驗中心(REC)于2007年開放,它聚焦于風險評估和水平掃描計劃相關政策制定的新技術工具,并通過大數據基礎設施系統升級來維持和強化這一能力。為了通過大數據研究、分析和應用創造價值,新加坡政府還推出了門戶網站http://data.gov.sg/,50多個政府部門的5000多個數據集通過此網站向公眾開放。
日本:啟動多項利用
既有大數據計劃
日本政府已啟動多個利用既有大數據的計劃。從2005年到2011年,文部科學省與相關的大學和研究機構合作,設立了信息爆炸時代的新IT基礎設施項目。從2011年起,日本政府優先解決地震、核電站災難、受污染區域的重建和災民安置以及相關的社會和經濟救濟等問題。文部科學省與國家科學基金會合作研究利用大數據的技術,以預防和減輕自然災害。作為內務省的兩個分支機構,信息和通信委員會和ICT戰略委員會把“大數據應用”作為日本面向2020年的關鍵使命。日本已經成立了一個大數據專家組。