■編者按:
近段時間,全國范圍內尤其是京津冀地區接連陷入霧霾之困,北京更是首次發布空氣重污染紅色預警,中小學連續停課3天,機動車單雙號限行。霧霾的背后,重污染天氣的預警預測工作顯得尤為重要,不僅可以讓公眾提前合理安排生產生活,也可以讓政府相關部門及時采取應急措施,緩解重污染天氣帶來的危害。
微軟亞洲研究院主管研究員鄭宇一直從事大數據挖掘和算法研究,希望用大數據解決現代城市所面臨的問題。他和他的團隊已經成功用大數據計算出1km×1km細粒度的空氣質量狀況、尾氣排放數據和噪聲污染指數。
那么,大數據是如何預測霧霾的呢?
大數據能不能成功預測霧霾?
Urban Air正是由微軟亞洲研究院開發,用大數據預測城市空氣質量的項目。目前,Urban Air已經實現全國70多個城市空氣質量預測,可以對京津冀、長三角、珠三角、成渝城市群未來48小時的空氣質量進行預測。
“大數據不僅能預測霧霾,還可以精細化預測。”鄭宇說,依靠經典模擬方法預測預警霧霾,只能算出空氣質量的均值,而大數據可以對1~6小時的空氣質量逐小時進行預測,對7~12小時、12~24小時、24~48小時進行最大值和最小值的預測。
除了在預測精度上有優勢外,大數據精細化預測還體現在地域范圍上。目前,傳統模擬方法預測霧霾只能精細到區的范圍,比如可以預測到北京市海淀區、朝陽區的空氣質量,而大數據可以精細化到每個空氣質量站點,比如可以預測海淀區萬柳站點未來48小時的空氣質量狀況。
大數據不僅能預測霧霾,還可以很快速。據鄭宇介紹,傳統的重污染天氣預測工作需要6小時左右的模擬運算時間,無法快速實時發布,而大數據可以在幾秒鐘之內快速算出重污染空氣質量數據。
未來,霧霾的運行軌跡也將有望實現,霧霾從哪來,到哪去都將不是難題。記者了解到,鄭宇和他的團隊正在從事霧霾因果相關性的研究,目前還處在研發階段,預計明年將正式投入應用。
大數據怎么預測霧霾?
既然大數據可以預測霧霾,那么,能夠預測霧霾的大數據究竟包含哪些數據?這些數據又如何預測霧霾?
霧霾的大數據主要包括當前空氣質量數據、氣象條件、未來天氣預報3類數據。鄭宇特別介紹說,空氣質量數據并不是指單純的空氣質量站點數據,而是以某空氣質量站點為圓心,囊括了方圓300公里范圍內所有的與空氣質量相關的數據,比如空氣質量站點數據、交通流數據、氣象數據、廠礦數據、人口流動數據、路網結構等。
與傳統模擬空氣質量不同,大數據預測霧霾依靠的是多元融合方法,也就是說,空氣質量的預測不僅僅看空氣質量數據,還要看與之相關的氣象數據、交通流量數據、廠礦數據、城市路網結構等不同領域的數據,不同領域的互相疊加,相互補強,從而預測空氣質量狀況。
“大數據應用于預測霧霾,首先,由于每個站點、每個時段空氣質量的影響因素都不盡相同,所以針對每個空氣質量站點,我們都會為這個站點每個時段單獨建一個空氣質量模型,之后再將三者數據疊加,最后將數據進行融合,制作出空氣質量預測模型。”鄭宇說 ,這樣算下來 ,為預測北京市空氣質量,建立的模型已經達上百個。
大數據預測得準不準?
那么,多元融合的大數據算法與傳統的空氣模擬預測相比,是否更準確?
“其實,大數據預測與傳統模擬方法有一定的相似性,都是通過數據來擬合模型,只不過是數據量大小不同。”鄭宇說,以往由于獲知的數據有限,傳統模擬方法只能基于有限的樣本數據,由科研人員通過經驗、假設找出這些數據間的規律,模擬出簡單的模型,預測空氣質量。而隨著數據增多,單單依靠人工已經無法從海量繁雜的數據中找出規律,所以需要借助機器學習和數據挖掘等工具來發現多源數據中隱含的規律。
如今影響空氣質量的因素越來越多,傳統模擬的方法顯得“力不從心”。鄭宇介紹說,傳統模擬空氣質量預測首先需要搜集完整的污染源數據,比如企業的排污數據和汽車尾氣排放等,而這些數據無法全部獲知;其次模型太理想化,污染物在空氣中傳播和變化的實際情況,要復雜很多。
隨著影響空氣質量的因素增多,數據量的增大,大數據在空氣質量預測上頗有優勢。比如傳統方法要拿到精確的地面污染源數據才能預測,而大數據則可以解決數據缺失的問題。比如對于交通尾氣數據難獲取的情況,大數據運算可以采用與交通尾氣相關的交通流量、排量等相關數據,間接地分析其與空氣質量的關系。“大數據的精髓就是A領域的問題可以借助B領域、C領域、D領域的數據來一起解決,通過多元數據融合的方法來解決數據缺失和不精準的問題。”鄭宇說。
空氣質量站點、相關領域的數據、大數據先進的挖掘技術和模型,保證了大數據預測的準確性。據了解,現在大數據對京津冀霧霾的預測精度可以達到75%,對成渝等地的預測精度會更高,平均準確率比統模擬方法高15%~20%。
大數據預測還存在哪些困難?
雖然大數據對霧霾的預測已經成功實踐,但鄭宇也坦言,大數據預測霧霾確實還有很多困難。
數據量少是大數據發展的掣肘,大數據的預測是基于對大量的數據進行學習。但我國數據開放進程比較晚,并且很多污染源數據都還不完善。
“數據量大小直接影響大數據預測的精準度。”鄭宇說,比如數據樣本量不夠,會導致霧霾的拐點很難預測,目前傳統經典模型和大數據模型都很難說清楚霧霾何時會消散。“很多人認為大風來了,霧霾一定會散去,真實情況并非如此,霧霾消散與大風的強度、持續時間、風向來源地都有非常大的關系。比如,如果風向的來源地本身是污染源,那么霧霾不但不會散去,反而會加重。”鄭宇說,目前有關拐點出現次數的數據特別少,可能一百天出現一次,對簡單的統計學模型來說,拐點出現就是少數派,模型很難預測拐點。目前,鄭宇和他的團隊也在單獨對拐點進行建模,準確度已經提高到30%。
針對大數據在環保領域未來的發展,鄭宇認為國家首先要培養數據科學家,不僅僅是懂大數據挖掘算法,還要動行業知識,這樣才能把大數據轉化為生產力。其次,大數據時代要求政府開放數據。只要數據足夠,未來工業園區的建設與空氣質量的變化情況,整個城市設計與空氣質量的變化情況,完全可以依靠大數據實現。