林宣雄,1962年9月生,江蘇宜興人,西安交通大學環保大數據研究中心主任。1998年獲陜西省優秀青年科技工作者稱號,1999年主持研發的“國家環境監理信息系統”被確定為國家級火炬計劃項目,同年獲省優秀軟件人才稱號;2003年獲首屆省優秀青年科技創新獎;2008年承擔環境保護部節能減排核心重大軟件項目。長期從事環保物聯網技術研究及應用。
環境監測數據的真實性直接關系到環境管理和綜合決策。然而,目前的在線監測數據造假已經成為困擾環保部門的難題之一。近年來,大數據如同浪潮一般席卷全世界,直接帶來了科研、商業、政府運作方式乃至人類思維方式的變革。很多人期待,環保大數據的應用和發展能夠從根本上扭轉監測數據造假局面。環保大數據可否發現、糾正數據造假?要推動環保大數據的發展和應用還需突破哪些障礙?
對話人:西安交通大學環保大數據研究中心主任 林宣雄
采訪人:中國環境報記者李瑩
大數據可否解決數據造假問題?
■可以通過環比、同比、類比,發現數據中的異動
中國環境報:在線監測數據造假已經成為當前環境管理工作中的一大難題。一些專家認為,以大數據為代表的新技術可以破解這一難題。您怎么看?
林宣雄:我也這樣認為,用大數據的分析方法可以發現在線監測數據造假。其實,這也是我的研究重點領域之一。
在解釋大數據如何破解在線監測數據造假問題之前,必須先了解大數據的基本特征。
大數據是近年來的一個熱詞。什么是大數據分析?通俗地講,就是運用一些數據分析軟件工具,對海量的、混雜的數據進行分析,在融合豐富的實踐基礎上,運用創造性思維,得出突破性的結論。大數據包括3個特征:一是具有海量的、混雜的基礎數據;二是熟練運用Hadoop和Spark等分析軟件工具;三是具有開放的、有創造性的思維方式。只有具備了這3項,才能真正做好大數據分析。
大數據和以前的數據分析有3個明顯的區別:一是原來的數據分析針對部分樣本,大數據是所有的數據都要參與計算;二是大數據中,相關關系重于因果關系;三是大數據允許混雜數據甚至錯誤數據。
我們得到海量數據后,首先,要對這些數據進行本體分析,即對其本身進行分析,如污染源數據、環境質量數據等。其次,要做擴展分析,如分析清楚污染源數據和環境質量有什么關系。第三,要做延伸分析,即將污染源數據、環境質量數據和經濟數據、人口數據、產業結構的數據結合起來進行分析。如果不做這些分析,就不算是大數據分析,或者說做不好大數據分析。
中國環境報:您剛剛談到,大數據允許混雜數據甚至錯誤數據,這是為什么?
林宣雄:大數據允許混雜數據甚至錯誤數據。這是因為,大數據能夠通過造假數據的特征將其辨識出來。造假的數據和平常的數據不一樣,可以通過環比、同比、類比,發現數據中的異動,判斷企業是否存在數據造假行為。
目前,通過線上、線下數據對比,能夠迅速發現企業偷排行為。一個真實的案例是,某公司焦爐煙囪二氧化硫自動監控數據長期穩定在20mg/m3。但現場人工監測發現,實際數據為100mg/m3~200mg/m3,檢查前后自動監控數據差距較大。經調查證實,企業擅自拔出部分二氧化硫測量探頭,使采樣孔漏氣,稀釋排放污染物,人為干擾采樣裝置、降低測量數據,造成監控數據失真。針對公司的違法行為,環保局依法對企業下達了處罰決定書,對企業存在的超標排放、干擾自動監控數據行為,分別給予6萬元、3萬元處罰,追繳2015年第一季度焦爐煙囪二氧化硫排污費,啟動按日計罰程序,公安局對涉嫌違法的主管人員和其他直接責任人作出了行政拘留10日的行政處罰。
目前,我們正通過分析數據異常波動為環保部門精準執法提供線索。例如,我們每周都要為浙江省嘉興市環保局提供一份在線數據出現異動的企業名單,環保局可以根據這份名單,有針對性地執法檢查,執法效率可大大提高。
中國環境報:據您了解國外有沒有通過大數據研究,發現環保數據造假的案例?
林宣雄:目前,國外大數據在環保領域還沒有典型案例。這是因為,一些發達國家的環境問題已經得到了較好解決,而大數據的概念是這幾年才提出的。但大數據應用在國外有一個經典案例,值得借鑒。2009年,甲型H1N1流感暴發的幾周前,谷歌公司通過對運用谷歌軟件搜索流感相關信息的人群進行分析,成功地預測了流感在美國境內的傳播,其分析結果甚至具體到特定的地區和州,并且非常及時,令公共衛生官員倍感震驚。因為通常來說,美國疾病控制中心要在流感暴發一兩周之后才可以做到這些。
大數據擁有如此大的威力,對于環境問題十分嚴峻的我國來說,其應用意義更加巨大。將大數據應用于環保領域,也將成為我國的一大創新。
基礎數據獲得方面急需哪些突破?
■首先要形成拉直、拉真、拉準的機制
中國環境報:要進行大數據研究分析,前提是有海量數據。現在我們具備大數據分析的基礎嗎?
林宣雄:近年來,環保物聯網的建設已經為環境大數據分析提供了一定的基礎。什么是環保物聯網?通俗地講,就是將應用在環保領域的傳感網掛接到互聯網上就構成了環保物聯網。例如,各種環境監測設備收集了大量的環境相關數據,如COD排放量、SO2排放量、空氣質量等,將這些數據傳到互聯網上,就形成了環保物聯網。
目前,我國的國控污染源已經全部聯網,僅污染源一類每年全國就有近50億條的基礎數據產生,這些數據為我們進行大數據分析提供了一定基礎。
中國環境報:據了解,目前我國地市級、縣級污染源聯網推進工作并不十分順利,這是為什么?
林宣雄:目前的數據造假不僅是企業行為,也有政府行為。如今數據造假面臨的最大的難題是地方利益和中央利益的博弈。地方不愿意往上報數據,不愿意讓中央知道地方的真實情況。
因此,要通過大數據防止數據造假問題,首先要形成拉直、拉真、拉準的機制。拉直,是指地市級、縣級的環保數據要聯網到省、聯網到國家。如果數據不能拉直,就無法判斷數據是否造假。如果數據都是地方說了算,都爛在下面,也就無所謂真假了。拉直后要拉真,拉真的一個重要步驟是信息公開。數據上傳后,必須把它們亮出來、曬出來。最后才是拉準。數據的準和真是兩個層面的問題,如果一些儀器安裝的位置不合適,數據也會不準。目前,數據聯網、實現拉直是最關鍵的問題。
中國環境報:一些研究機構反映,目前數據收集困難重重。您認為,還有哪些方面需要突破?
林宣雄:數據收集難度大確實是很多研究者的障礙。如果能夠將城市規劃、經濟發展等數據納入數據庫通盤分析,將會得到更加準確的結論。只有用更加混雜的數據,才能矯正錯誤的、混亂的數據。例如,電廠的排污數據,可以通過用煤量、發電量等數據驗證。
實際工作上,我們在污染源數據的收集過程中并未遇到很大困難,因為很多省市環保局正在應用我們開發的環保物聯網軟件。但目前最需要的氣象、水文、經濟等數據卻很難獲得。主要原因在于:一些部門把數據當作部門的利益,不愿對外開放;一些部門怕暴露問題,不敢對外開放。
我認為,互聯網的思維是開放的思維,數據必須要開放才能真正發揮作用。各部門收集到的數據都是國家的數據,必須信息公開。在這方面,各部門都要打破阻隔。只有打破阻隔,將數據公開釋放出來,才能發揮數據的效用。
中國環境報:對污染底數不清,也是環保數據利用的一個重大難題。您認為,當前有哪些數據急需收集?
林宣雄:污染源數據方面,目前只有末端的數據,也就是排放口的數據,缺乏過程的數據。如果有了生產過程的數據,如來料數據,用水、用電數據等,數據分析就能產生更大威力。此外,土壤方面相關數據也比較少。
中國環境報:很多企業認為,來料數據,用水、用電數據涉及商業機密,如何平衡數據公開與保護商業機密的關系?
林宣雄:生產過程的數據對于民營企業來說,并不涉及商業機密。只是少數的軍工企業需要保密。在做相關分析時,并不需要工藝、發明等涉及商業秘密的相關數據。所謂商業機密,只是企業不愿意公開數據的借口。
大數據可否使數據分析更為科學?
■沒有大數據的創新思維,即使躺在大量的數據上,也不會有突破性的結果
中國環境報:環境保護部近日表示,要大力提高數據采集、合成和綜合分析能力,提高環境管理的精細化水平。現實工作中發現,如果沒有運用科學的分析方法,即使有大量基礎數據,也不能得出科學的結論。對此,您有何看法?
林宣雄:確實如此。現在很多人在談大數據的概念,但其實談的人多,做的人少,真正運用互聯網思維解決實際問題的例子目前還不多。還有人認為,只要運用大數據就可以解決環境問題,這也是一個思維誤區。
一方面,大數據分析需要在大量基礎數據、大量實踐的基礎上進行。沒有數據、沒有物聯網的高效運轉,大數據分析無從談起。
另一方面,在各種數據、各種技能都已掌握的基礎上,還要有大數據的思維。根據多年的實踐和對環保問題的深層理解,將混雜的數據融會貫通進行思考,才能產生思維上的突破。如果沒有大數據的創新思維,即使躺在大量的數據上,也不會有突破性的結果。
現在很多地方都在做生態文明指標體系、綠色創建指標體系。但是,他們對指標的運用仍停留在傳統思維層面,沒有真正領會大數據的內涵,沒有用系統的思維分析問題。我們近期也在做環境綜合指數的相關研究,在廣泛、持久、規模、專注實踐的基礎上,基于大數據進行哲學思辨和創新思維。運用分形(Fractal)理論,建立思維分析計算模型,反復進行推演測算對攻反證,最終獲得了環保大數據研究的突破,就是所有的污染物排放控制都必須遵循環境黃金律,也就是環境容量和污染物排放的平衡點。
我認為,在做數據分析時,必須運用大數據思維,也就是系統思維,將所有的數據整合起來,找出內在規律。否則,數據分析只是一種形式,并不能真正為決策提供科學依據。