大數據正在成為國家的重要戰略資源,已是社會各界關注的焦點。從大數據的概念入手,界定了大數據概念的內涵、外延,指出政務大數據應用應成為政府管理改革的全新階段。基于國內外政務大數據發展現狀,在評述國內外政府大數據應用發展的基礎上,提出中國政務大數據發展需堅持整體性政府、透明化政府和服務型政府三個基本方向,需避免將將大數據等同于開放數據、共享數據和海量數據三大認識誤區,需警惕數據權的惡意使用或過度濫用、大數據帶來的信息歧視和互聯網公司侵害國家數據主權三大潛在問題。
近年來,大數據在全球范圍內受到追捧。著名的管理和咨詢公司麥肯錫(McKinsey)認為,“大數據已經滲透到工業和商業領域的各個方面,成為影響生產的一個重要因素”,大數據的應用涉及經濟、文化、教育、醫療、公共管理等各行各業。正是由于大數據的廣泛應用及其背后蘊藏的巨大潛力和價值,許多國家紛紛將“大數據”的建設和發展上升為國家戰略,積極推動大數據應用的發展。
一、國內外政務大數據發展現狀
2012年3月29日,美國正式發布了《大數據研究和發展倡議》(Big Data Research and Development Initiative)[14],該倡議書中提到,大數據計劃的實施,旨在幫助美國獲得從海量復雜數據集中萃取知識的能力,借此提高國家應對急迫挑戰的能力。這一計劃類似于過去美國聯邦政府在高性能計算和互聯網等領域的戰略性投入,并旨在推動國家在科學研究、教育和國家安全等領域的能力提升。
該倡議書的發布,標志著大數據已經上升成為美國在計算服務領域的國家戰略。英國、加拿大、新加坡、日本、韓國等國家紛紛推出了以開放、融合、創新為特征的新一輪信息技術革命推進政策。
如英國政府所宣布的一項價值1.89億英鎊的“大數據”發展計劃,意在推動“大數據”在商業、醫療、農業和科學研究等方面的應用;法國政府發布的“數字路線圖(Digital Roadmap)”,計劃投資1000余萬歐元用于支持包括大數據在內的7個尖端領域的研究;澳大利亞聯邦政府發布“澳大利亞公共服務大數據戰略”,以推動公共行業利用大數據分析進行服務改革等。
2011年9月20日,美國、英國、挪威、墨西哥、印度尼西亞、菲律賓、巴西、南非等八國發起成立“開放政府聯盟”,發布了《開放政府宣言》,目前全球已經有超過60個國家加入該聯盟,貼近互聯網、開發大數據、造福全社會已經成為當前發達國家政務信息化的主流聲音。
相較而言,國內對于大數據的研究起步較晚。始于1993年國家自然科學基金會成立的“大數據共享聯盟”,以搜集和展示大數據的研究開發為主。自1999年起,“第三屆亞太地區知識發現與數據挖掘國際會議”“Hadoop與大數據技術大會”和“大數據共享聯盟”等才開始開展有關大數據研究和開發的促進工作。
2008年,“計算社區聯盟”(Computing CommunityConsortium)在《大數據計算:在商務、科學和社會領域創建革命性突破》報告中詳盡闡述了大數據對社會治理的推動作用,以及潛在的商業價值。直到2013年,維克托·邁爾-舍恩伯格的《大數據時代:生活、工作與思維的大變革》一書才掀起國內的“大數據”熱潮。
自2013年以來,大數據、互聯網、云計算等新興產業得到了中國政府的高度重視。李克強總理在2014年《政府工作報告》中明確提出,要設立新興產業創業創新平臺,在大數據、云計算等方面趕超先進,引領未來產業發展。國務院常務會議多次專題研究部署推進互聯網、大數據等新興產業的快速發展,科技部、發改委、工信部等部委在科技和產業化專項中對新一代信息技術給予重點支持,在推進技術研發方面取得了積極效果。
在國家層面的積極鼓勵和倡導下,各地政府高度重視互聯網、大數據、云計算等新興產業發展。2014年2月,廣東省率先提出設立廣東省大數據管理局,并正式公布了《廣東省大數據發展規劃(2015-2020年)》,為大數據產業發展注入了強大動力。上海、北京等地率先推出了政府數據資源開放共享網絡平臺,整合本地區數十個部門的政務大數據資源,向全社會開放共享,為企業和個人開展政務信息資源的社會化開發利用提供數據支撐。
貴州省提出建設“云上貴州”計劃,并力爭成為全國首個基于云計算建成省級政府數據共享平臺的省份。重慶、內蒙古、陜西、湖北等地都提出建設大數據和云計算產業基地的計劃,力圖將新興產業培育成本地的支柱產業。
2015年4月,國家發改委在部委中首家專門成立了大數據分析中心——國家發改委互聯網大數據分析中心,全面支撐國家發改委宏觀調控和重大決策,這標志著中國大數據產業已經開始進入應用深化的全新階段。
二、政務大數據需堅持的三個基本方向
(一)整體性政府
整體性政府強調政府內部須實現機構、部門、專業、層級等之間的協調整合,以更好地解決公眾需求,避免因政府內部矛盾沖突而造成的公共服務效率低下。Michael Milakovich指出,單一數據源已越來越難以滿足應對很多政策領域日益復雜問題的需求,未來將會出現越來越多跨數據集的聯系,且在數字時代,政府治理的關鍵在于整合多數據源的公共管理模式,因此,推動政務大數據應用首先應堅持整體性政府方向,推動政府間的數據共享與業務協同。
在英國,曾有報道稱,由于缺乏跨部門溝通,當地警察部門和醫院系統推進的一個分享暴力犯罪數據的項目最終宣告失敗。相比商業機構而言,政府在推進大數據方面所面臨的挑戰更加尖銳,因為他們必須在遵從安全性和相關法規的前提下,不斷打破部門孤島來推進數據的集成。政府部門不僅要應對多數據源和不同格式數據的集成分析等大數據領域通行問題,還要面對很多政府部門特有的挑戰和問題。
但對推進政務大數據應用而言,無論是對政府自身監管行為所產生的大數據,還是對公民在社交媒體或其他網絡平臺上所產生的行為數據進行采集和分析,都可能促進政府機構中跨層級的“智能中心”的建立。
如在美國“9·11事件”以后,借由國家安全之名,政府開始強力推進跨部門電子數據共享。如美國國土安全部高度強調跨部門數據的互操作性,并應用多種技術手段促進數據在市政部門、社區、醫院、供血站、避難所等各類機構之間的順暢流動。此外,美國在環保、交通、醫療和公共安全等領域的信息共享也取得了良好成效。
(二)透明化政府
R. C. Joseph等認為,大數據分析技術的使用,能夠大大提升政府服務的效能。大數據能夠提升電子政府的效率和效果,并促進其進一步演化為透明政府(transformationalgovernment,t-government),這被認為是電子政府的最終演化階段。
大數據應用建立在掌握數據的基礎上,以海量數據為前提,政務大數據的發展往往離不開政府開放數據,這使得政府的透明度大大提高。紐約大學法學院教授貝絲·諾維克(Beth Novick)表示,數據的開放可以讓政府公職人員和民眾一起參與進來,解決政府無法完成的、棘手的問題,更廣泛地發揮公眾力量,借助大數據平臺更好地進行社會管理。隨著政府組織的行為及其與公眾的交互越來越數據化,在政府自身內部系統中產生的各類大數據也為透明性政府建設提供了巨大潛力。
在推進政務大數據應用中,政府的監管方式應不斷創新,更加透明。在最極端的情況下,如果我們可以設想一個機構像維基百科那樣完全進行數字化運作,那么通過下載其所有的編輯歷史就可以提供該“組織”的所有完整的交互記錄,從而提供了一種迄今為止難以想象的機會去理解其治理安排。隨著政府組織越來越“成為”一種前臺的網絡存在和后臺的信息處理系統,大數據也將更有力地促進上述整體性政府的最終形成。
(三)服務型政府
大數據可以促進政府公共服務水平的提升,有利于服務型政府的建立。M. R. Rajagopalan等[21]指出,在大數據時代,公眾可以更好地參與到政府工作之中,與政府分享信息,形成政府和公眾共同參與的政務決策機制。[22]社會公眾可以通過社交媒體、公開出版物、博客等渠道分享他們的意見,大數據分析技術可以處理這些非結構化數據,并將更好的服務和方案傳遞給所需的客戶群體。
因此,在大數據背景下,任何政府都可以藉由政務大數據的采集、分析和利用,不斷推動優化政府自身運作流程和服務效能。而且,政務大數據分析是政府理解公民行為、解釋政策與公共服務優劣的良好手段,也是政府決策者理解公眾需求與偏好的工具,以更好地理解人們對于公民參與的積極性,對立法變動的態度,以及對政府公共服務的需求。美國國稅局(IRS)曾經重新設計其納稅申報流程,并應用大數據技術手段來提高對納稅欺詐和納稅不遵從行為的自動監測。
在美國,隨著聯邦政府各個機構對于大數據分析的應用,政府在處理自身事務時將花費越來越少的精力。此外,大數據還可有效改進政府績效管理方法,促進公共服務的提升。Michael Milakovich指出,以往政府部門的績效管理往往是滯后的,因為其主要依賴一些事后的指標來評估政府工作的效果。[16]未來,政府管理部門應當更多依靠實時性數據來提升政府管理效能。
三、政務大數據需避免的三大認識誤區
(一)將大數據等同于開放數據
由于目前尚無對“大數據”的標準界定,政府部門對大數據的認識存在混亂,有將開放數據等同于大數據,有將任何“大”的政府數據集的發布都當作是大數據。但事實上,很多開放數據只是離散的“小數據”,并不具備大規模、未經處理和非結構化等大數據的基本特征,且很多通過開放數據機構發布的在線數據集僅僅是一個可用的樣本集。
同時,雖然開放數據對于促進政務大數據應用意義很大,但當開放數據僅僅是由于上級部門的指令要求,并對政府部門本身工作并沒有任何回饋時,開放數據項目就會缺乏可持續性。考慮到開放數據并不是不需要成本(公務員需要花時間去收集這些數據,并發布出去),在政府看不到任何收益的情況下,將其維持下去會很困難。
在加拿大和英國,已經有證據表明,政府開放數據項目的可持續性受到了威脅,有些官員將開放數據描述為僅是由一小群愛好者推動的“桌角項目”。以美國的data.gov門戶網站為例,其在2012年包含有378529個原始空間數據集、1264個政府APP和236個公民開發APP。然而,到2014年,該網站的數據集事實上已經下降到了108606個,且各種APP的數量也有所下降。這實際上也是因為網站數據集的可用性不佳造成的。
此外,為了便于開發者和分析者能夠不受數據格式限制而處理數據,開放數據集都是以原始格式發布的,這將影響數據的獲得和使用。由于編碼缺乏一致性,這些數據在沒有電腦歸納的情況下非常難以理解,從而難以得到真正有效應用。可見,在推動政務大數據應用中,不能簡單地將大數據等同于開放數據。
(二)將大數據等同于共享數據
Gang-Hoon Kim等對美國、英國、荷蘭、瑞士、新加坡、日本、韓國、澳大利亞等發達國家的24項政府大數據應用進行了統計分析,發現目前發達國家政府大數據應用與商業領域大數據應用相比,規模還有很大距離;且目前大部分政府大數據應用的對象仍以結構化數據為主,較少采用實時、動態、半結構化甚至非結構化數據。這在中國政務大數據應用中也較為常見。
據調查,目前很多地方政府建設的大數據平臺,僅僅是過去政府共享數據平臺的“翻版”。政府推動大數據平臺建設的首要目的不是推動大數據應用,而是統一政府信息基礎設施,實現各部門數據的互聯互通。然而,政府大數據不僅僅是政府自身的業務數據,在當今社會,有大量對政府治理有意義的大數據源,如金融、電商、醫療、社交媒體等,并不完全由政府自身掌握。
在推動政務大數據應用中,應逐步整合政府外部數據資源,建設國家層面的全國性大數據中心,形成更加完善的治理決策支持體系,以在數據整合的基礎上實現服務整合。以澳大利亞Centrelink國家數據中心的建設為例,全國各地的Centrelink與數據中心直接聯網,聯邦、州、當地的服務機構,如稅務部門、金融機構、警局等,也與數據中心實現聯網共享;Centrelink在多種服務渠道的后臺,借助信息通信技術將業務流程、服務、網絡和資源進行優化整合,便捷、高效地為公眾提供一體化的服務。
(三)將大數據等同于海量數據
隨著大數據在中國的不斷發展,各個地方都開始興建大數據中心,但對于大數據中心的建設,更多地還停留在“建機房、上設備、堆數據”的階段,忽視了大數據強調的是對數據的分析和應用。
對于政務大數據的推進或大數據中心的建設,首先應有周密、嚴謹、細致的數據目錄體系頂層規劃,建立統一的數據資源目錄體系、數據標準體系、數據質量審計體系和業務系統數據共享交換體系等;其次要有可對比、可回溯、可審計的數據質量管理體系,保障數據采集獲取的可持續性,避免“數據陷阱”;再者,要有精通數據挖掘和業務建模的數據科學家隊伍,從政務應用需求出發,做好潛在數據價值的挖掘與應用。
此外,當前不少學者還未真正認識到大數據價值,認為海量數據無法獲得,且大數據只是一種暫時性趨勢。殊不知,大數據雖指海量數據,但并不是“全數據”,而是數據資源總量不斷增長的狀態,且從“大數據”中挖掘出有價值信息才是大數據應用的關鍵。
四、政務大數據需警惕的三大潛在問題
(一)警惕數據權的惡意使用或過度濫用
隨著大數據應用的不斷推進,數據開始被視為重要的戰略資源,“世界經濟論壇”報告曾指出大數據為新財富,價值堪比石油。在政治領域,數據的所有權是一種新的權利源泉。圍繞原始數據的占有權和發布權的斗爭將成為一個持久性的政治議題。一個不可否認的政治事實是,意識形態的傾向性總是會影響對客觀事實的調查,并且對決策過程產生導向作用。
當前,數據權被濫用的案例普遍存在。如針對政府網站數據不準確問題,2001年美國政府頒布了《數據質量條例》(Data Quality Act),允許私人團體對聯邦政府部門所發布信息的準確性提出質疑。很多反對美國環保政策的商業團隊就經常利用這一條款來拖延環保監管工作的執行。這條法律變成了環境保護監管工作的一個巨大障礙,因為它經常被用來拖延那些必要的監管工作的正常開展。在推進政務大數據應用中,應警惕數據權的惡意使用或過度使用。
(二)警惕大數據帶來的信息歧視
大數據技術為基于證據的未來趨勢預測提供了一種可能,但同時有可能會帶來公平和公正的問題。Michael Milakovich指出,在政務大數據應用中,數據挖掘階段最有可能引發對公民隱私權的侵害。盡管作為一種提升公共服務傳遞的重要手段,數據挖掘本身的意圖是好的,但由政府收集和分析個人數據,不可避免地會引發對公民自由問題的爭論。很多民眾正在失去對政府的信任,其中部分原因就是政府機構擁有太多對公民個人數據的獲取手段,而相反對個人數據的保護手段卻太少。
另外一個政務大數據應用的障礙來自倫理上的挑戰,數據“可被獲取,并不代表使用它就是道德的”。大數據技術為基于證據的未來趨勢預測提供了一種可能,使得社會科學的研究可以做到像自然科學研究一樣的精準、量化、客觀。大數據可以用于預測未來,人們可以基于大數據構建政策制定的概率模型,分析未來可能會發生什么,但這些模型會帶來公平和公正的問題。
舉例來說,通過應用大數據技術,我們可以識別一些犯罪的“熱點”區域,政府就可以在犯罪發生之前更好預知其發生規律,而生活在這些區域的人將會因此而比其他地方的人面臨更高的被逮捕率。
(三)警惕互聯網公司侵害國家數據主權
由于中國數據產權的立法滯后,且在國家層面缺乏采集相關數據資源的統一規劃,使得當前與國家經濟、政治密切關聯的數據較少掌握在政府手中,而如阿里、百度、騰訊、小米等互聯網公司所掌握的數據資源較為豐富,且與國家經濟社會運行關系密切。
以阿里為例,已將數據化作為該公司三大戰略之一,其所掌握的大數據資源與中國國家安全之間的關聯,是建立在阿里的數據覆蓋面和數據累積深度的基礎之上的。目前,阿里旗下淘寶的注冊用戶就接近5億,從而支撐起阿里的消費者數據、制造業數據和供應商數據。至2013年底,阿里旗下的支付寶實名用戶已近3億(其注冊賬戶早在2012年底即已突破8億),并成為全球最大的移動支付商;而截至2014年6月30日,創立僅一年的余額寶用戶已超過一億,差不多是股市開市20多年后中國股民的兩倍,支付寶和余額寶共同支撐起阿里的金融數據。
馬云說其未來進軍的領域是醫療和文化事業,屆時又會形成阿里關于中國人的體質健康生理數據和心理意識數據。這些數據通過云計算進行挖掘之后,對國家安全的價值會遠遠超出國家保密局所保密的信息價值。為此,推進政務大數據應用,必須要警惕互聯網公司對國家數據主權的侵害。
五、結語
Gang-Hoon Kim等指出,國家主導是政務大數據發展的根本動力。發達國家政府的大數據項目都有著相似的目標導向(如公共服務的平等性和可獲取性、公眾對公共事務的更好參與、透明性政府等等)。政務大數據應用發展的主要關注點集中在安全性、速度、互操作性、分析能力和競爭人才等方面。
當然,每個國家的政府都有其優先主導的方向,以及基于自身特殊環境的機遇與挑戰(如美國的恐怖主義和健康問題,日本的自然災害,以及韓國的國防事業等等)。中國在推進政務大數據應用的過程中,應從中國實際出發,出臺切實可行的政府大數據發展供給政策。