編者按 2012年10月8日上午,汪洋在到廣東省財政廳進行專題調研時,向財政廳全體干部推薦《大數據》一書。以下是汪洋講話全文:
休息這幾天,我看了兩本書,其中有一本是廣西師范大學出版社出版的,一個美籍的華人涂子沛寫的《大數據》,看以后非常有啟發。我推薦你們全廳干部都看一下這本書,研究一下大數據時代。他這書里邊講,數據是對信息數字進行解釋,賦予意義。進入信息時代后,人們趨向把所有存儲在計算機上的信息,無論是數字還是音樂、視頻,都統稱為數據。2010年,美國總統科學技術委員會給總統和國會的報告寫了這么幾句話:數據正在呈指數級增長,聯邦政府的每個機構和部門,都需要制定一個應對“大數據”的戰略。現在大數據戰略被認為是世界下一個創新、競爭和生產力提高的前沿,是爭奪全世界的下一個前沿。你看,重要不重要。
書里面分析了政府數據有哪些來源和收集方式。他說了有三種來源,當然有不同的收集方式。第一種來源,業務數據。包括你們要做的,就是業務數據。來源是下級部門和社會組織,是以基層上報、被動接受為主。第二種數據是民意數據,是單個公民或組織需要投入人力,財力去主動收集,這樣的數據收集也是將來財政要創造環境的,要支付的。第三類數據是環境數據。這個環境不僅僅是我們說的大氣這些東西,他包括自然環境、動植物以及物體,以傳感器自動釆集為主。物體包括汽車,包括運輸物、動植物。
所以,如何收集、保存、維護、管理、分析、共享正在成指數級增長的數據,是我們必須面對的挑戰。剛才我問了你們國庫處,動態監控數據能有多少字節,能不能有多少G,你們說達不到,還是K級的。大數據是什么概念呢,就是至少是太字節的,從字節來講是2的40次方字節,是相當大的數量。大數據時代來了,我們要搞這些數據,對我們政府有什么意義呢。將來引導我們政府前進的是基于實證的事實,不是意識形態,也不是利益集團在政府決策過程中施加的影響。我們基于這些數據說話,將使政府更有效率、更加開放、更加透明。
這個書里舉了很多例子,我看了之后非常有啟發。比如講美國的交通史。1966年,美國有9,400萬輛汽車時,交通事故死了5萬人,這是他的最高峰;但是到了2009年,他是2.4億萬輛汽車,但是只死了3萬人。汽車大幅度增加,死亡人數卻大幅度減少。我不知道我們現在多少輛車,反正一年死十幾萬人是有的。為什么下降了,就是他們通過對數據的分析。分析以后發現,一年12個月,5、6、7、8月事故率是最高的;每一周,禮拜六、禮拜天事故率最高;一天里邊,下午6點到晚上9點事故率最高;什么天氣是事故率最高的,當然跟你們想的都不一樣,不是下雨天、雨雪天,正常天氣事故率是最高的。然后什么年齡段事故率最高,就是24歲—35歲,44歲—55歲,這兩個年齡段最高。這個分析過以后,然后有針對性的措施。當然有些數據,他分析的更具體。為什么有的州高,有的州低,發現事故率高的州高速公路彎比較大,事故都是右側的事故,就是因為彎比較大。有的事故率低,就是發現這個地方警察經常查系安全帶,所以事故率低,那個事故率高的地區是沒查安全帶所以一系列數據收集分析,改進以后結果事故率就下降了。車子從不到1個億,增加到2.46億萬,但是死亡率下降。這個非常有用啊。
另外,美國人現在開始在數據上打假,美國人的福利比較好,所以把所有的數據都輸進去,然后通過計算機設計軟件,一旦發現,馬上就去查福利濫用的情況。社會治安也是利用數據去分析,包括911之后的情況。現在美國已在有專門的機構,來負責收集、研究、使用數據,商業也好,政府也好,來研究這個數據的發展。
比如沃爾瑪,沃爾瑪通過他的銷售數據,分析過以后發現,每到禮拜六、禮拜天,有兩樣東西是成比例的增長,啤酒和尿布。關于這個,你知道為什么呢,后來就發現,禮拜六、禮拜天常常就是女人在家做事,男人到購物店買東西,買東西就買尿布,買尿布的時候男人就想,挺辛苦的買點啤酒犒勞自已。所以啤酒和尿布就一塊增加了。你很多是想不到的。數據你注意使用它。
馬云最近來找我聊了一次。他當時就跟我說,你08、09年到杭州去,讓我到廣州來賣貨,我跟你說說這幾年賣廣貨的效果。08年一年,他在淘寶網賣了177億廣貨,今年可以賣到1,700億,就是四年是十倍。另外他就講,他現在他覺得數據是他的競爭力。他當然講了個例子。他說你想不到,全中國比基尼賣的最好的是哪幾個省。然后就說,你絕對想不到。一般人認為,肯定賣的好的是廣東,海南島,他說賣的最好的從淘寶上看,是新疆和內蒙。他說,估計每一個男人,都要給他的夫人、情人和對象有一個美好的憧憬,有一天我帶你去下海。當然這是他的一種解釋,但是能反映什么呢,就是這些數據和你想象的不是一個概念。如果商家掌握了這個東西,其實你比基尼廣告的重點不要放在廣東做,你放到新疆、內蒙去做啊,這效果可能就不大一樣了。
對于政府工作來講,同樣如此。我看這個書里寫,流感對于美國人是一個非常大的事情。美國人對于流行病學的各種調查就是掌握不了流感的規律。后來想到從2萬多家藥店的銷售記錄中間,把這個數據拿來、分析,分析后發現,一般在全國流行性感冒的前兩周,藥店的感冒藥增加的比較快。也就是增加的比較快兩周以后,全國的流行性感冒來了,政府就需要增加對流行性感冒預防的措施。他們就分析為什么呢,因為大部分人開始有感冒癥狀的時候,沒有意識是個問題,就到藥店買點藥吃。一旦增加了,藥店的藥增加了,估計下兩個星期后,醫院的人就要增加了,這個時候預防措施就要開始了。
所以這個數據是非常重要的問題,我們將正式進入一個數據為王的時代。李嘉誠也是有這樣的看法,他前不久給我寫了一封信,說人工智能和大數據技術的普及化,勢必令不同行業和教育系統的范式轉變。他說這個范式我估計是香港說法,就是模式。不同行業都是這樣的,你比如講他這個書里講的,政府掌握數據往往關系到行業標準,比如單位牛奶中的蛋白質含量,菌落群數應該是多少,飲用水里面能混雜多少含量的微量元素,新鮮蔬菜能帶多少指標的殺蟲劑殘留,每個指標的變化,即使只有零點幾,都會影響到一個行業的競爭,改變一個產業。這個數據非常重要。而這個數據最后實際上都涉及到利益,所以你政府掌握不掌握這些數據,在制定政策的時候,特別是個各個行業、企業利益博弈的時候,你可能就會陷入被動。你們看這本書里也有這樣的例子。在美國,存在一個龐大的說客集團。華盛頓最大的產業,第一是旅游,第二就是說客。他們代表企業和行業的利益,游說政府的政策制定,這里面都涉及到利益。政府不掌握這些數據,就有可能被掌握這些數據的行業集團所影響操控,政府的決策就不可能科學,特別像財政,更是如此。
而且我想說,政府的數據是要公開的,當然公開也是一種博弈。剛才我已經講過,我們掌握的一些數據,比如“三公”經費信息,公開之后,它的好處是什么呢,實際上是創造一個社會幫助我們改進工作的機會。最近我看了些書,有個一觀點,下一步的改革,實際上就是政府要調動民間的力量對利益格局進行調整。因為你單靠政府已經搞不動了,那怎么辦呢,就是要讓社會、民間參與其中。其實我們公開“三公”經費信息,就是調動社會力量促進我們改進工作。
這個東西你們可以去看那本書,書中就有這樣的例子。比如說奧巴馬上任后就搞了個信息公開化的承諾,故事你們可以在書中找,過程很有意思。最后在120天內搞了個規劃,吵得一塌糊涂,跟我們搞放權一樣,大家在公開的場合都贊成,一到具體要公開本部門的信息的時候都說,我這個部門的數據不能公開。但是美國的聯邦政府的首席信息官維偉克·昆德拉,一個年輕的印度裔移民,他很有辦法,他先從一些沒有爭議的數據開始,并快刀斬亂麻,推出了一個技術平臺并不斷完善。一旦數據公開走上軌道了,群眾就會監督,向更多部門和領域提出數據公開的要求。美國有個信息自由法,只要人家向部門提出信息公開的要求,相關部門就要回復,部門不愿意公開要說明理由,人家接受就可以不公開,人家不接受可以去起訴部門。所以現在政府公布的信息越來越多。
公開的好處是什么呢?以美國的民航業為例,美國民航的正點率比我們要高很多了,它是如何做到的呢?現在美國交通部開放了全美航班起飛、到達、延誤的數據,那當然也是海量的。公布之后,有人就利用這些數據開發了一個航班延誤時間的分析系統,并向全社會免費開放。通過這個可視化的軟件,任何人都清楚的看到:晚點最少是哪個航空公司,晚點最多的是哪個航空公司,一般晚點多少時間;在各個航線上,哪個晚點最多,哪個晚點最少,哪個正點率最高,它把這些排列出來,一目了然。這個是民間開發的軟件,不是政府開發的,政府只是把基礎數據公開了。這樣做的結果呢,就是美國民航的誤點率逐步減少,滿意率不斷提高,而且政府也沒有承擔軟件開發的費用,只是把這個信息公開了,卻達到了三贏的目的。這里面能看出個規律,部門公開數據,公眾提出意見,部門根據意見再改進工作,當然了,這里面也有很多博弈。
這本書中還寫到,萬維網之父,蒂姆·蕭伯納·李在2009年的一次演講中說過一句話,“原始數據,現在就要!”我看到這里,很受啟發,我們中國人,包括在各個領域,對數據的概念和作用的重視,還是很不夠,從某種意義上來說是我們做這個工作的重要契機。就像改革開放初期,我們的農民對土地的重要性認識不足一樣,我們那時有意識地把土地拿在手里。歐廣源當縣委書記的時候,搞了幾千畝地,到現在都覺得當時很有遠見,那時候征地費用沒那么高,大家也沒覺得地會像現在這么值錢,結果你意識到了,你把這些地拿到手了,就成為后來競爭的重要資源。現在我們全社會也沒有意識到這些數據的重要,你們的工作對象也沒有意識到這一點,這個時候,是收集數據最好的時候。
作者在書的最后,提出希望我們國家重視數據。他寫到中國人數據意識的淡薄由來已久,甚至可以稱之為國民性的一部分。胡適曾經寫過,我們中國人是“差不多”先生,什么事情都“差不多”就行,不注意數據的收集、整理和使用。他舉了個例子,麥肯錫公司以2010年度各國新增的存儲器為基準,對全世界的大數據的分布做了一個研究和統計,中國2010年度新增的數據量為250拍(PB,1PB=1204TB=250字節),不及日本的400拍、歐洲的2000拍,和美國的3500拍相比,更是連十分之一都不到。但是我們中國卻是全世界第一手機大國,第一互聯網用戶大國,實際上我們只是把這些數據收集起來,就能發現很多問題。我說過,上次分析經濟形勢的時候,讓移動和聯通把相關數據拿來,就可以看出許多問題。
所以我就想,如果我們能像三十年前政府可以輕易的擁有土地一樣,現在抓緊時間搜集數據、使用數據,這是競爭的一個新的制高點。因為再下一步,考慮到隱私權的問題,將來再收集個人數據就沒有那么容易了,另外單位里面的數據也可能會存在越來越多的保護舉措。所以我覺得,現在財政的數據收集、分析、使用以及公布會極大的促進收入、改進支出、提高財政工作水平。
所以我希望大家能認真讀一讀這本書,帶著問題讀、帶著想法讀,怎么樣促進財政數據的收集,怎么樣加強財政數據的分析,怎么樣挖掘數據背后有利于我們增加收入、改進支出的有用因素,然后逐步推進財政數據的公布,調動全社會監督的力量,使我們的工作水平不斷提高。將來這個社會是個開放的社會,有興趣的人他會提出意見。
我相信,你們拿這本書去看一看,如果能帶著問題去想,帶著問題去做,會比我今天講的所有內容都會對財政工作有更大的益處,而且不是一天,將會發揮長期的作用。