微軟亞洲研究院主管研究員 鄭宇
北大國家發(fā)展研究院20周年暨BiMBA15周年慶典于2014年4月16-21日北京舉辦。和訊網(wǎng)全程報道。微軟亞洲研究院主管研究員鄭宇在19日的“大數(shù)據(jù)與互聯(lián)網(wǎng)金融”分論壇上表示,城市變得越來越繁華,但是也帶來了很多問題,交通擁堵,以及污染。要注意這些問題在很多年前幾乎是不可能的,因為城市的設(shè)置太復(fù)雜了,牽一發(fā)而動全身。但是現(xiàn)在隨著傳感器技術(shù)的發(fā)展,和大規(guī)模的計算環(huán)境的成熟,我們又有了很多的大數(shù)據(jù),比如從社交媒體到交通流量,從人的移動性到地理,從空氣質(zhì)量到我們的環(huán)境,如果使用得當(dāng)?shù)脑挘绻堰@些數(shù)據(jù)進(jìn)行很好的分析,我們可以利用這些數(shù)據(jù)發(fā)現(xiàn)問題,解決問題。
以下為文字實錄:
鄭宇:非常感謝國發(fā)院給我這個機(jī)會,讓大家跟我們分享一下利用大數(shù)據(jù)在城市里做的研究個應(yīng)用產(chǎn)品。
我們這個城市變得越來越繁華,但是也帶來了很多問題,交通擁堵,以及污染。要注意這些問題在很多年前幾乎是不可能的,因為城市的設(shè)置太復(fù)雜了,牽一發(fā)而動全身。但是現(xiàn)在隨著傳感器技術(shù)的發(fā)展,和大規(guī)模的計算環(huán)境的成熟,我們又有了很多的大數(shù)據(jù),比如從社交媒體到交通流量,從人的移動性到地理,從空氣質(zhì)量到我們的環(huán)境,如果使用得當(dāng)?shù)脑挘绻堰@些數(shù)據(jù)進(jìn)行很好的分析,我們可以利用這些數(shù)據(jù)發(fā)現(xiàn)問題,解決問題。
基于這個場景,我們做了一個城市計算的框架和愿景,它包括四個環(huán)節(jié)。第一,城市感知。二,城市管理,三,城市數(shù)據(jù)的分析和挖掘,四,服務(wù)提供。我們最后達(dá)到一個城市、人和環(huán)境三盈的局面。我們用大數(shù)據(jù)解決大城市中的大挑戰(zhàn)。
這是一個多數(shù)據(jù),它的數(shù)據(jù)種類非常多,任務(wù)也很多,可以是改進(jìn)城市規(guī)劃,也可以緩解交通擁堵,在一個任務(wù)中我們要同時用到多個數(shù)據(jù)。我們要改善我們的城市規(guī)劃,我們既要看道路結(jié)構(gòu),也要看流量,這要求我們對數(shù)據(jù)要進(jìn)行整合分析。
城市里面有哪些大數(shù)據(jù)?第一,紅色的是高速公路,藍(lán)色的是房子,如果有這樣的數(shù)據(jù)連續(xù)多年的累計,我們知道這個城市是朝哪個方向發(fā)展。
第二興趣點數(shù)據(jù)。這個圖顯示的是北京市酒吧和電影的圖,黃點是電影院,藍(lán)點是酒吧。里面已經(jīng)有上萬個了。如何有多連接的數(shù)據(jù),我們知道城市里面的有些商業(yè)在衰亡,有些商業(yè)在發(fā)展,商業(yè)模式在變化。北京市電影院的數(shù)目在過去五年里面持續(xù)增加,現(xiàn)在是260家,越來越多人愿意去電影院看電影。
空氣質(zhì)量圖,現(xiàn)在中國政府多么關(guān)心空氣質(zhì)量,美國政府也很關(guān)心空氣質(zhì)量。
氣象數(shù)據(jù),氣溫、氣壓、濕度,這些數(shù)據(jù)跟我們空氣質(zhì)量是相關(guān)的。
這個是社交服務(wù),人到底吃飯和出去玩兒的時候會標(biāo)注什么時間在什么地方,他們其實是大規(guī)模移動的。
最后這個圖是北京市3問輛出租車三個月GPS所記的熱度,越亮的是密度越高,3個月的數(shù)據(jù)加在一起,距離是從地球到太陽距離的3倍,這只是三個月的數(shù)據(jù)。而且我們還要說我們不只有一組數(shù)據(jù),我們可以用它來表達(dá)這個城市里面的人在城市里是怎樣的移動。
我們可以做一個熱度的分析,這兩個圖是北京在工作日和節(jié)假日到達(dá)區(qū)域人數(shù)的數(shù)據(jù),東部地區(qū),國貿(mào)附近人是比較多的,我們對比兩個圖,同一個區(qū)域的看看,工作日大家來市里的概率遠(yuǎn)遠(yuǎn)高于節(jié)假日,這非常容易理解,節(jié)假日大家都外出了。
我們從早年間開始基于大規(guī)模出租車的行車路線設(shè)計,到利用人的出行數(shù)據(jù)來發(fā)現(xiàn)我們交通路網(wǎng)中設(shè)計不合理,或者是不符合需求的設(shè)計環(huán)境,把它們找出來,建議給我們城市規(guī)劃局,以后作為改進(jìn)目標(biāo)。
2013年有一個關(guān)于大規(guī)模的出租車的時時動態(tài)打車。第二是關(guān)于空氣質(zhì)量,第三是時時感知我們城市的友好(音)。
我們先講一下空氣質(zhì)量,這不是中國的問題,它是一個全球的問題。現(xiàn)在很多城市都建了一些空氣質(zhì)量監(jiān)測站,每個小時都會發(fā)布一些數(shù)據(jù),告訴大家這個地方空氣質(zhì)量是多少。但是非常不幸的是,我們的站點數(shù)目是非常有限的,六環(huán)以內(nèi)22個站點已經(jīng)是全國最多了,這個站點非常貴,不光要花錢,還要占地,但是非常不幸的是,一個城市里面空氣質(zhì)量是不均勻的。這里面每一個圖表表示是一個政府建的站點,越大越不小,越小越好。綠的是非常好的,紫的,黑紅色是非常差的。同一時刻這22個站點會差得非常多,因為它受到很多復(fù)雜因素的影響,包括交通流量,空氣的擴(kuò)散條件,以及氣象狀況。這些因素在城市里面分布是怎么樣,并且隨著時間的變化也是不一樣的。
這是2月份的時候北京市空氣質(zhì)量有一天從500到50,在一個晚上,因為下雨了。它并不是在同一時間所有的空氣質(zhì)量都變成了50,每個地方變化也是不一樣的。這就是變化的挑戰(zhàn)。
如果我們有的地方?jīng)]有站點,他的空氣質(zhì)量是多少我們并不知道,不能用一個平均讀數(shù)來代表整體,也不能通過簡單的差值來算出空氣質(zhì)量。這個問題非常大了。
我們利用兩方面的大數(shù)據(jù),來做時時的細(xì)密度的空氣質(zhì)量更新。第一是基于歷史和時時的空氣質(zhì)量數(shù)據(jù)來進(jìn)行。另外一個是其他數(shù)據(jù),包括氣象,天氣下雨,還有濕度,氣壓,氣溫等等。第二交通流量數(shù)據(jù)。興趣點數(shù)據(jù),這里有多少公園,密度是多少。最后是道路結(jié)構(gòu)數(shù)據(jù),有多少紅綠燈,多少高速公路。結(jié)合這些數(shù)據(jù)我們就可以把細(xì)密度的空氣質(zhì)量質(zhì)量數(shù)據(jù)拿出來。經(jīng)過計算之后我們可以看到,整個城市里面每個角落的空氣質(zhì)量就算出來了。我們可以知道,比如說什么時候該關(guān)開窗戶,什么時候該關(guān)窗戶,去哪里跑步,線路是什么樣的。政府部門更加需要這個信息。我們要治理,我們首先要知道什么地方不好,我們現(xiàn)在的工作正在和環(huán)保局合作。第二步我們還要做因果分析,包括預(yù)測。這個服務(wù)已經(jīng)上線了。
它是一個云加端的,時時的分析,把空氣質(zhì)量的信息提供給大家,大家可以通過手機(jī)客戶端,或者通過網(wǎng)頁查看這個空氣質(zhì)量的情況。
大家會問你做的準(zhǔn)不準(zhǔn)?我們在9個城市的數(shù)據(jù)站點做了驗證,我們可以把已有站點的數(shù)據(jù)拿掉,用我們的方法來預(yù)測這個地方的空氣質(zhì)量,然后和這個站點目前來校驗。我們敢于把過去兩天的時時記錄公布在網(wǎng)站,大家可以看看,這個精度是80%幾,這個概念是什么,傳統(tǒng)的基于空氣動力學(xué)模型的污染物擴(kuò)散模型,只能做到0.6,現(xiàn)在用大數(shù)據(jù)的方法來做,看似很多弱相關(guān)的數(shù)據(jù)放在一起,能達(dá)到20%的提升。所以環(huán)保部門對這個工作非常的重視。
我們看第二個例子,人的興趣點數(shù)據(jù)來分析這個城市里面不同功能區(qū)域的分布和它的核心區(qū)域所在。我們看這些東西,這個是用兩部分?jǐn)?shù)據(jù)做出來的結(jié)果,哪里是我們的商業(yè)區(qū),哪里是住宅區(qū)。一個地方區(qū)域的功能它不是單一的,比如說北大,它主要功能是學(xué)校,周邊也有公司,只能說這個區(qū)域70%是教學(xué),20%是公司企業(yè),還有10%是住宅。
我們要知道某一種區(qū)域的核心區(qū)域所在,比如黑色的,就反應(yīng)了北京市成熟商業(yè)區(qū)的核心區(qū)域覆蓋,這是一個動態(tài)的,趨于人的變化。
這個工作有什么用呢?第一,我們用它來校驗城市規(guī)劃,這個城市變化了的可能不一樣,有很多原因,可能以前做得規(guī)劃不合理,有人提出一些新的驅(qū)動,可能我們政策變了,我們很需要再做下一個版本規(guī)劃的時候,我們要知道我們需要什么。這是很重要的應(yīng)用,幫助我們城市規(guī)劃的人來做決策。
還有一點就是商業(yè)傳承,如果我開一個超市,我要知道它離我居民住宅區(qū)的居民,我開電影院要知道周邊的分布,選址還有價值。
我們?yōu)槭裁匆脙煞N數(shù)據(jù)?單單只有一種數(shù)據(jù)是不能完全反應(yīng)地貌的。這兩個餐館在數(shù)據(jù)庫里都是表示是中餐館,反應(yīng)的地域地貌是完全不一樣的。一個是住宅區(qū),一個是商業(yè)區(qū),它代表的意義是完全不同的。另外人的移動性也反應(yīng)了區(qū)域的功能。如果這兩個數(shù)據(jù)我們就能發(fā)現(xiàn)城市里的功能區(qū)化在不斷的變化。
我們把這個區(qū)看成一篇文章,就相當(dāng)于這個區(qū)域的功能,相當(dāng)于一個文章里的詞語,每個區(qū)域都有不同功能的分布。我們可以把過去兩年的數(shù)據(jù)拿來做出結(jié)果來對比,看看變化是不是真的有意義。第一個例子,區(qū)域A在2010年的時候淺黃色區(qū)域是新興住宅區(qū),到2011年銀灰色是在建設(shè)區(qū)。B區(qū)是前門大街,2010年的時候還是一個偏向于公園的范圍,但是2011年的時候變成黑色的成熟商業(yè)區(qū)。在奧運會的時候,這個區(qū)域基本上重建了,所以現(xiàn)在已經(jīng)是一個成熟商業(yè)區(qū)。
這個圖是望京的圖,這是一個住宅區(qū),但是紫色的區(qū)域是新興商業(yè)區(qū),我們要讓人們知道這已經(jīng)變化了,你要考慮這個因素。這就是它的價值。
第三個問題,關(guān)于能耗,有誰能告訴我在北京市剛剛過去的一個小時里面有多少汽油被汽車加掉?誰能告訴我在周邊的3公里范圍內(nèi)哪個加油站排隊時間最少?我們用裝有GPS傳感器的出租車做移動傳感器,去感知他們在加油站的等待時間,用這個等待時間估計排隊長度,就知道多少人在排隊,每個人加多少油,加油量是怎樣分布的。你如果能把每個加油站的速度進(jìn)行分析的話,就可以得到整個城市的情況。我們不能保證每個加油站在每個時間點里都有出租車司機(jī)在加油,這個做不到的,這個數(shù)據(jù)是很稀疏的,所以一定要有一些算法把數(shù)據(jù)吸收進(jìn)去去消除。
兩方面用,以前推薦加油站的時候,我們都是做的最近加油站的選擇,最近的加油站可能排隊,遠(yuǎn)一點可能不排隊。我們知道我這個區(qū)域最是排隊,人很多,說明它不夠,要考慮建新的加油站。有的區(qū)域加油站過度建設(shè),根本就沒人去加油,大量的浪費。
這兩張圖也是真實的結(jié)果,在早上8點鐘早高峰的時候,在北京加油站有多少人加油,大概接近6萬人,平均的花消是12分鐘,到夜里8點鐘的時候,每個人花的時間是6分鐘左右。
我們看看結(jié)果,我們并不是估計出租車多少,我們是用出租車做移動傳感器,感覺城市的能耗。出租車去得多的地方,并不以為著其他車多,反過來根據(jù)出租車的車來判斷是有區(qū)別的,通過對600多加油站分析,我們可以知道這個城市里面每個加油站有多少人加油,加油的量是多少。一個城市里面大概有一百多個公司在不同的運營。第二,他們即便知道總加油站是多少,他們不知道時時,他們更不知道用戶花了多長時間加這點油。時間確實很重要,反映了人員設(shè)施是不是優(yōu)化,布局是不是合理。
我們講城市計算很好,我們的方法是三個M,數(shù)據(jù)管理,數(shù)據(jù)挖掘。謝謝大家!