今年,國務院印發《促進大數據發展行動綱要》明確指出大數據將成為提升政府治理能力的新途徑,提出:建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理機制……,推動政府管理理念和社會治理模式的進步。
與此同時,國外學術界和政府管理部門近年來也發起了一項“大數據社會福祉”(Big Data for Social Good)運動。與我國的目標相似,該運動也嘗試將大數據技術與社會治理相結合,以數據驅動的方式應對現代社會中面臨的一些復雜問題,增進社會福祉。在政府層面,華盛頓、倫敦、慕尼黑、紐約等做了不少探索,成功運用大數據為政府治理問題提供了支持;在研究層面,ACM、IEEE等國際學術聯合體設立了專題會議討論大數據與社會治理的結合;在社會層面,企業、高校、公益組織等開始積極探索應用模式。我們認為總結這些初期探索的經驗將有助于我國各級政府更快更好地發展大數據社會治理。
此外,我們發現在目前與大數據政府治理相關的研究文獻中,關于宏觀層面和理論建構方面的研究已有不少[1][2][3],但涉及微觀層面能對具體操作提供借鑒的案例總結還不充分。因此,本文嘗試從案例研究出發,總結大數據可以改善社會治理的一些應用領域、模式和方法,以及實施過程中值得注意的一些問題,希望能為大數據社會治理實踐提供更多可實際操作的經驗借鑒和創新思路。
二、案例選擇和綜述
我們從公開資料中廣泛收集了261個案例,并通過三次篩選最終總結了41個案例。
通過對案例集的元數據進行統計,我們首先識別了目前國外大數據社會治理的主要關注領域,包括:(1)社會安全(31.7%),主要涉及治安、消防、食品安全、交通和災害等,主要關注點是通過大數據實現安全事件的早期發現和介入、減少損害;(2)開放數據接口(17.1%),主要涉及通過可編程接口獲取數據的方法,主要關注點是支持更多數據產品和數據服務的開發和應用;(3)城市建設(14.6%),主要涉及街道、公共設施等選址規劃和維護,主要關注點是通過大數據提高城市建設的市民參與度和滿意度;(4)社會保障(12.2%),主要涉及為弱勢人群提供幫助,主要關注點是通過大數據發現最需要幫助的對象及整合可以提供幫助的社會力量;(5)兒童與教育(9.8%),主要涉及為兒童成長和教育提供支持,主要關注點是通過大數據更有效地分配教育資源或定位困難學生幫助其完成學業等;(6)就業與創業(7.3%),主要涉及為就業和創業提供支持,主要關注點是運用大數據識別供需不平衡并積極加以引導,如彌補“技能溝”等;(7)環境與可持續(7.3%),主要涉及降低能耗和污染,主要關注點是利用傳感器等數據識別和排查污染和耗能高發地區,以便早期發現和介入。
除去作為底層服務的開放數據接口建設之外,在應用方面,社會安全、城市建設和社會保障問題受到最多關注。合計約三分之二的成功案例來自這些領域,既說明這些問題急需解決,又顯示了大數據可以在其中有所作為。
三、大數據用于改善社會治理的模式總結
通過對案例集的進一步分析,我們識別了國外大數據社會治理的一些常用模式,可以作為借鑒。
(一)大數據開放,提高基礎服務能力
這一模式就是將已有的數據通過一個開放的網絡平臺免費提供給所有需要的人。開放數據不但可以給市民直接提供服務,也可以為其他政府部門、科研機構以及公益組織提供進一步整合和利用數據的機會,從而給社會治理提供間接幫助。因此,建設開放平臺已經成為各國大數據社會治理的基礎模式。根據開放數據統計中心(open data census)的統計[4],全世界已有97個國家或地區建立了開放數據平臺,按照其評分中國目前排在57位,美國排在第8位,英國位列第1。從我們收集的案例來看,美英采取的方式都是各城市分別建設大數據開放平臺并由國家常設機構統籌各地數據建立統一檢索平臺。以美國為例,紐約市的DataBridge平臺、洛杉磯市的LAOpenData平臺等分別負責各自的開放數據,而美國總務署負責全國層面的數據統合平臺data.gov建設。這種以市為依托、以國家常設機構統合的模式實行起來比較靈活,但也有一些問題,就是各市和地區的數據平臺建設因經濟水平和當地政策的差異而產生較大差別。在最近的美國開放數據評分中,洛杉磯、紐約和舊金山是分列前三的城市,評分幾乎是排名靠后的城市(如伯班克、休斯敦等)10倍以上。因此,也有一些研究者提出這種“數據溝”(data gap)的現象是不是會導致地區差異進一步擴大。[5]本文案例,無論是完全由政府自主實施、還是由研究機構、非營利組織或志愿者參與開發,都使用了一種或多種開放平臺數據源,其中17%的案例專門致力于開放數據平臺的接口研發,體現出開放平臺對于促進數據利用的重要價值。
(二)大數據決策,實現科學決策
這一模式將原始大數據加工成能解釋、預測社會現象的精煉數據,用于幫助決策者掌握更全面的信息或更有力的證據,從而增強決策的科學性。通過分析案例集,我們發現有兩類基本方法被大量使用。
第一類是關聯,即廣泛收集可能與待解釋現象相關的大量數據然后篩選出關聯度最高的一組數據或計算成一個指標,以此為依據輔助決策。例如,為判斷哪些建筑物容易發生火災,紐約消防局篩選了消防、建筑、治安、經濟、城市建設等多個部門的數據,從中找到60余個與火災發生關聯最大的數據,并以此為依據計算了建筑火災危險指數。使用該指數,消防局派遣視察人員對高危區域進行日常排查,有效降低了火災危害。此外,洛杉磯、舊金山等地利用用電、用水、垃圾和投訴等生活數據與居住行為的關聯性來排查建筑非法改裝和群租行為,為治安和建筑風險治理提供依據;芝加哥公共健康部門利用餐廳的歷史記錄、市民投訴、商業數據、周邊環境等數據對餐廳的食品安全進行排查;伊利諾伊州使用醫療數據、孕婦群體的歷史數據和地區經濟社會數據來關聯最需要幫助的年輕孕婦,提高社會福利并改善生育率,等等。
第二類是預測,即根據現有數據預測未來可能發生的事件,并提前做好預案。例如,多地勞動部門根據就業、企業、經濟和教育數據分析勞動技能的供需趨勢,引導企業、就業者和教育者提前規劃和實施技能培訓、填補“技能溝”,以達到充分就業的目的。此外,波士頓教育部門通過成績、投訴、獎學金和學生活動等數據來預測學生輟學的可能性并提前干預;芝加哥公共教育部門根據學生、學校和教師數據,結合地區治安、住宅、人口和經濟發展數據預測轄區各學校的招生人數,并提前劃撥公共教育經費;紐約將全市33萬余棟建筑物分為2400類并分別預測了火災發生情況和擬定針對性救火方案,有效提高了救火效率、降低了火災損失,等等。
在本文案例集中,有59%的案例為大數據決策服務,其中28%使用了某種關聯方法,18%使用了某種預測方法,13%同時使用了兩種方法。
(三)大數據溝通,改善外部環境
社會治理總體上有利于社會福祉,但也不可避免會對一部分群體帶來短期利益的損失。大數據說服利用數據的客觀性,以對公開大數據的呈現為依據,引導廣大市民自行從整體和長期的角度進行理性思考和辯論,有利于獲得更廣泛的關注和支持,改善政府治理的外部環境。例如費城使用一種稱為Textizen的應用向市民的手機發送短信通知目前正在制定的政策法規、并投遞調查問卷,調查結果被作為施政的依據以可視化方式在網站公布,以求凝聚社會共識。此外,紐約市使用一種LBS應用讓市民在地圖上提出建議,以確定公共自行車租賃站的設置地點,獲得廣泛支持;佛蒙特州根據位置信息向市民推送糧食捐獻政策和捐獻點位置,說服市民捐獻保質期內可能吃不完的食物,等等。
大數據技術也可以用于收集社會數據,例如通過社交網絡,了解群眾觀點,或改善群眾關系,并有利于說服。Kosinski等發現僅通過社交網站(如facebook)的點贊數據即可推測用戶的年齡、性別、種族、政治觀點、宗教態度等,從而可以根據這些數據有針對性地投放精心設計的說服信息。[6]類似的方法已在美國大選中成功運用。
在本文的案例集中,有15%的案例使用了某種形式的大數據溝通。
(四)大數據群體智慧,彌補政府資源不足
社會治理的政策設計和執行都需要大量的人力物力,一些任務可能極為細瑣繁復,完全依靠政府力量往往難以完成或者效率不高。這一模式通過發動群眾參與大數據建設,利用群體智慧(wisdom of crowd)來彌補政府資源的不足。群體智慧可以從數據、技術和人力資源等多個方面彌補政府的不足,對大數據社會治理起到極大的支持作用。例如,波士頓市經常下雪,消防栓很容易被雪埋住找不到而耽誤消防任務。由于消防栓眾多,日常維護光靠消防局顯然人手不足。因此波士頓消防局開發了一個稱為“認領消防栓”的應用,邀請居民認領一個住宅附近的消防栓,幫助除雪等日常維護,受到居民的積極響應。類似的案例有,英國借助群體智慧維護道路和附屬設施;紐約發動群體智慧利用公共空間設計環境藝術和擴大綠化;芝加哥利用群體智慧幫助流浪漢和孤寡老人等。此外,多地政府以支持數據競賽、工作坊和夏令營等形式發動高校研究機構、公益組織和有條件的個體自愿者基于開放大數據設計、開發數據產品和應用,服務社會,均取得良好效果。
在案例集中,有多達82%的案例使用了某種形式的群體智慧,74%的案例中使用了高校、行業組織等提供的開源軟件。
四、推進我國大數據社會治理過程中值得關注的一些問題
從上述總結來看,“大數據社會福祉”運動與《行動綱要》中提出的“用數據說話、用數據決策、用數據管理、用數據創新”思路不謀而合。所涉及的案例可以視為對《行動綱要》實現方法和操作細節的有益補充,因此具有較強的借鑒價值。此外,通過比較我們也發現了一些容易忽視的問題,值得在未來發展過程中給予關注。
(一)既要重視數據變大,也要重視大數據變小
由于自然和社會現象的復雜性和普遍聯系性,要準確描述和解釋各種復雜現象,就必須盡可能搜集相關的數據,這就導致了數據不斷變大,從而產生了大數據。然而,數據變大并非大數據的最終目的而僅僅是中間產物,這是因為:過于龐大的數據無法為人類直接使用,也就不可能對人類決策產生幫助。因此,在數據變大的同時,還必須考慮讓大數據變小的方法,以便于決策者使用。通過研究案例集,我們總結了兩種讓大數據變小的常用方法。
第一種是從對數據的加工入手,包括對數據進行過濾、排序、壓縮、計算等操作。經過加工,有時甚至可以用一個指數來表達海量數據的核心意義。例如,谷歌將無數搜索和人群活動數據加工為一個流行病指數、紐約將大量建筑和火災相關數據濃縮為一個火災危險指數等都體現了這一思路。只有將大數據加工到足夠小,才能真正為決策者所用。
第二種是從對數據的表達入手,主要是對數據進行可視化處理。以數字形式呈現,人類一次只能理解一個數據;但以圖像形式呈現,人類一次可以理解很多數據。因此利用人類認知能力的特點,采用可視化形式呈現數據,也是讓大數據變小的有效方法。在本文使用的案例集中,除去單純的數據接口以外,有高達94%的案例使用了數據可視化。
要用好大數據,數據變大(原始數據積累)和數據變小(數據處理和數據可視化)其實缺一不可,但目前我國的大數據平臺仍普遍停留在能“大”不能“小”的狀態。
截至10月15日,我國的上海、北京、貴州三大數據平臺分別提供491類、303類和22類(大類,未細分)開放數據,均僅提供數據文件。而美國洛杉磯、紐約和舊金山三個數據平臺分別開放數據1187類、1250類和786類。單從數量來看,中外數據平臺的原始數據相差并不大。但國外數據平臺普遍提供數據排序、過濾、計算等分析模塊和多種可視化工具,讓大數據變小,便于理解和使用。相比之下,國內平臺僅提供原始“大數據”,一般公眾很難有效運用,導致利用率非常低。平均用戶訪問量的對比也證實了這一情況:國內數據平臺的平均訪問量只有數百次,約為國外同類平臺的1/100到1/1000。
(二)既要重視數據平臺,也應重視數據應用和服務
除了數據平臺以外,大數據更有價值的一面是將數據深度加工后融入日常生活,這就需要開發多種多樣的高可用性數據應用和服務。這些應用和服務可以增加數據平臺的使用率,提高社會治理水平,改善人們的生活,并創造新的就業和發展機會。根據北京、上海、貴州三個大數據平臺官方網站顯示,各自的應用數量分別為15個、75個和6個。作為比較,僅2015年紐約市舉行的NYC BigApps比賽就征集到452個應用。下載量的差距更大,最大可達數百倍。經過我們的分析,國內應用大多使用單一數據下載量的差距更大,最大可達數百倍。需求分析和界面設計也存在一些不足之處,造成可用性不高。此外,數據接口服務的差距也較大,如紐約市提供11種,而國內平臺僅北京提供了1種。
不解決好應用和服務的問題,重金打造的開放大數據平臺很容易“空心化”,難以對社會治理和社會福祉產生應有的支持。這個問題應當引起重視。
(三)有必要重視對群體智慧的運用和發展
我國大數據平臺缺乏應用的現狀與未能積極利用群體智慧有很大關系。大數據平臺建設主要是技術問題,可以通過一兩個技術過硬的企業來完成。但大數據在社會各領域的運用則完全是另一回事,單純依靠個別企業不可能理解千變萬化的社會問題和群眾需求。因此國外政府大數據治理過程中普遍嘗試引入社會群體的力量來幫助收集數據、識別需求、開發應用以更好地服務社會,即群體智慧。目前主要有三種推進方式:
第一種是政府自身發起大數據應用競賽。例如,美國政府為了鼓勵使用data.gov的開放數據,專門建立了challenge.gov網站,持續發布數據競賽,最高獎勵達2000萬美元。除此之外,美歐各城市也經常發起數據應用競賽。最早的一次是2009年華盛頓市耗資5萬美元組織的政府開放大數據APP開發大賽,在30天內征集到47款應用。這些應用后來發展成為估值230萬美元的各種軟件產品。[7]
第二種是利用高校研究機構學術優勢開辦工作坊、組織夏令營。目前,哈佛大學、芝加哥大學、華盛頓大學等高校都經常組織“大數據社會福祉”工作坊和學術夏令營并提供專項資金支持。這些工作坊和夏令營與所在地政府合作,全社會征集參與者,針對具體的社會治理問題設計開發了許多成功的數據產品,并普及了數據思維和數據產品的設計開發方法。
第三種是號召行業組織和公益機構利用開放大數據。例如,www.drivendata.org等互聯網組織面向社會福祉發起專題活動并提供獎金;Datakind、Bayes Impact等非營利機構致力于推動大數據運用于改善弱勢群體生活水平等,很好地彌補了政府和企業未能及時關注的一些社會問題。
這三種方式中,目前僅第一種在國內得到過應用,且規模較小,未能引起社會關注。善用群體智慧,可以通過小投入牽動大收益,值得予以重視。
本文的研究說明,我國的大數據社會治理還剛剛起步,存在很大的提高空間。但我國各級政府的執行力很強,只要能將建設熱情和對成功經驗的借鑒結合起來,相信我國的大數據社會治理一定能得到快速發展,并對提高全社會的福祉起到應有的推動作用。