2014年10月28日,由中國工程院、美國國家工程院、EMC公司、VMware公司、浪潮集團及聯想集團共同舉辦的以云計算和大數據為主題的IT行業學術研討會——IT 2020高端論壇在京舉行,此次論壇聚焦未來數年內影響中國乃至全球行業和經濟發展的大數據、云計算和新興IT趨勢,來自中國、美國及全球各地的學術界和產業界的領導者及專家學者參與了此次盛會。
剛參加完北京地鐵調價方案研討會的北京交通發展研究中心主任郭繼孚第一時間趕到IT 2020高端論壇現場,用第一手的消息并結合北京公共交通,講解大數據對交通行業的巨大影響力,以下是演講實錄:
郭繼孚:很高興參加IT2020高端論壇。城市交通有多少數據?說實話沒有多少,對于目前中國的城市來講沒有多少數據,有一些基礎設施數據,有路上的一些檢測設備,當然還會有一些調查數據。比如道路上檢測數據有流量、速度、車型,這些數據對于一個城市來講并不多,因為我們的基礎設施還是比較弱的。像我們的北京馬路上都是一兩公里才有檢測斷面,這樣一天下來沒有多少數,研究交通問題的時候發現到處沒有數,好多決策憑著腦袋想出來。現在新技術不斷地涌現,出現了衛星定位。這個數據多一些。目前北京市有六萬輛出租車,每一輛裝的GPS數據。路上24小時在跑,每分鐘把位置傳回來,這個數據量大一些,當然可能還是不夠大,跟上午的幾位在大數據里邊領軍的這些來講,我們的數據仍然是小數據。拿北京來講,還有一個數據很大的,每天我們就將近兩千多萬的公交乘客,它的刷卡數據,其實我們坐公交和地鐵的數據都是靠電子卡來支付,這個數據其實量還是蠻大的,的確很有價值等等,路上還有攝像頭,拍攝下來車牌照等等識別數據。另外還有很大的數據源,每次打電話、發信息,去掉個人敏感信息,移動內部機房做一些非常有意思的分析,待會可以看一下。
舉幾個例子,感受一下這個數據什么樣,可以做一些什么,出租車GPS數據處理出來,北京出租車基本上可以把北京市城市主要區域道路基本上覆蓋,在這個基礎上,其實我們就非常容易地能夠生成一個全市大小道路,每五分鐘可以更新一次的這樣實時交通狀況,這是在以前其實是不可想象的。不瞞大家講,剛工作的時候,我們在研究北京的交通,說哪個地方堵我不知道,我每年要雇傭很多的調查者到路上去看,去數車。數回來以后告訴我,這個路口堵不堵,其實那天調查者看了以后堵,第二天看了以后不堵,看了不堵的地方,第二天又堵,哪堵哪不堵我們不知道,檢測數據不夠。有了這樣問題之后,問題變得非常清晰,可以分析哪些點經常堵,哪些點偶然性堵,而且這個堵和我們宏觀的城市數據連在一起就會發現為什么會堵,堵的成因到底在哪里,哪些人必須經過這個路段會堵,為城市進行緩堵過程當中,可以進行一些深入分析。
比如附近非常著名的立交橋西直門天天堵車,可以通過數據看一下,數老是走西直門這個地方,為什么必須走西直門,西直門橋設計問題還是走這條路人問題還是土地利用問題,這些其實是數據才能給我們一些答案。長期過程當中來看,能夠看得出來,整個城市交通變化,它的擁堵、行程和疏解到底什么規律。這個圖可以給大家一個非常直觀的概念,城市高峰期擁堵聚集過程,然后在它進行疏散過程當中,又是一個什么規律,非常驚訝地發現,聚集的慢,疏散的快。微觀一點,具體到一個路段上,時間軸和空間上可以看得出來,前方下游路段出現一個擁堵的時候,排隊會迅速向上游蔓延。但是前沿疏解的時候,后邊其實不會立馬就會疏解的,疏解過程比聚集過程長很多。這些實際上是交通規律、交通流自身規律,這些東西在過去常規監測方法很難做到。技術帶來的,移動互聯網帶來的技術景象。
在這個基礎上,給大家介紹一個很有趣的例子,我剛才講,什么叫堵,并不能說清楚,今天走的路線可能是堵的,我走的路線恰恰是不堵的。一個人一生過程當中,對于北京市民來講活動是有限的,對于一個人來講并不了解這個城市,到底大街小巷哪條路,到底堵還是不堵,交通到底有沒有緩解,一天路一天24小時很像股票,每條路混合在一起,集成在一起,實際上就是納斯達克指數就是上證指數,定義從零到10指數環節交通狀況。顏色越深表現擁堵程度越高,非常清晰看出來,每個時刻交通擁堵狀況,這是宏觀整體性評價,不以一個人為標準。而且長期結果,每天限號,根據車牌尾號限兩個號,今天4、9限行,在座各位開車到工程院開會,頭一次來沒有感覺,經常來的人大家一定知道,今天早上比較堵。因為4、9,中國傳統尾號觀念為4,大家不愿意要,這一天限號少,北京交通比較堵,非常清晰地反映出來。當然現在這個數據跟大家感受比較一致。
長期效果來看,像一個脈搏一樣,非常清晰能夠反映出來,北京交通到底發生什么變化,奧運期間,2007年,最左邊高的部分,2007年交通狀況,很堵的。2008年8月份,奧運會,最左邊最低點,北京交通基本暢通,在那之后,很多北京市民非常留戀那些日子,能不能像北京交通天天像奧運會時期那樣暢通,當然因此也能看到藍天白云了。所以我們限了兩個號,一看交通擁堵程度迅速降低。但是這個指數,大家可以看得出來,其實上升的非常快,2010年底,這個指數又回到了奧運前,那個時刻,2001年1月1日開始,北京市下了非常大決心,開始控車。以后買車不是有錢就能買得到,要靠運氣。
之后一系列其他措施采取,交通指數又降下來了。但是大家仍然可以看得到,現在目前趨勢仍然在增加,換句話說,交通形式其實并不樂觀。不去講為什么會堵?但是至少讓這些數據給我們的一個結果,能夠讓它更客觀、更直觀地告訴大家,我們的交通在發生著什么樣的變化,比如2010年,一年365天,12個月,每個月31天,每天狀況什么樣,像天氣指數變化情況一樣,綠的代表暢通,紅的代表擁堵,非常清晰看得出來,2010年交通擁堵情況怎么樣,那個季節最嚴重,9月份最堵,有感覺,但是說不出來。其實數據里非常清晰看得出來,9月份交通最堵。最不堵是2月份春節,次之是七八月份,中小學生放假,9月份傳統節日,中小學開學,頭一個月很堵,無論小學、中學,家長開車送學生上學,包括我在內,每天早上第一件事情把我女兒送到學校去。這個任務加劇了整個交通擁堵,為什么會堵,這些數據可以清晰地告訴我們,我們早晨比晚上好一點,晚上堵得更厲害,為什么晚上堵得更厲害?因為我們晚上有很多活動。
當然數據有很多用處,數據規律持續下來,發現很多類型,什么天什么情況下會堵,所以能夠精確地預報,為什么在中秋節前,或者在哪一天交通是嚴重擁堵。可以提前做一些預判,可以在一些特殊天氣下,進行應急處置,時間關系不講這些例子了。這是一個數字。
再給大家介紹另外一個例子,兩千多萬次刷卡數據,拿在出來,進行精細處理,深加工,可以知道每張持卡人,從哪站上車,哪站下車,又從哪站換乘,當然時間長了可以估計到你家在什么范圍。要講這些概念背后是什么?很多公交車刷卡是上車刷一下,下車不用刷,4毛錢,學生刷卡2毛錢,時間關系不講了,透過這些數據可以掌握到北京交通脈搏。綠顏色是地鐵,這幾年幾百萬客運量,每年增加110萬人次客運量,支撐城市交通運轉非常重要因素。可以非常清晰地分析出來,哪些點是上車基準點,哪些點是換乘點,具體哪條線,區間是堵的,速度多少,客流量多少等等。再進行和土地利用結合在一起,最左邊是居住,這個地方就是早高峰人一下坐到車上,高峰系數不是百分之十幾關系,完全是80%、90%客流就是那個時點上出去。和傳統意義上的高峰系統拿交通小數系數做設計,完全不是這樣。
透過這些數據,更加清晰地懂得交通系統怎么運轉,應該怎么樣去完善它。這些都是近似大數據帶給我們的一些對交通的理解。這張圖對于我們北京市的出租司機是有用的,它是什么,透過我們的出租GPS數據分析出來,哪個地方打車的需求最高,哪個地方是最想去的地方。背后的意義不用講了。
再來看手機數據,這部分數據其實非常有意思了,因為這個量也很大,北京市有一千幾百萬移動的通話數據。跟大家講,這個數據因為是非常隱私性的,但是我可以告訴大家,這個數據僅僅是在移動的機房里面進行微碼處理,不涉及到具體某個人。透過數據告訴大家,就能知道,大概北京市人到底怎么分布,夜間住哪里,白天上班在哪里。透過這個數據非常清晰地看到,以橫軸長安街為界,北邊就業崗位最多,難免要少很多。所以大家早晨在北京上班的時候,一定會聽到我們的幾條主要的方向從早晨,從南向北交通擁堵嚴重,晚上就會反過來從北向南。然后外邊居住,里邊是就業,早晨所有進城方向堵車,晚上所有出城方向都堵車,這是城市規劃、土地利用決定的。沒有很詳細土地利用數據庫做不到,今天靠這樣數據可以分析一下,原來城市活動是這樣的。
CBD這樣一個區域,它的人某一個時刻從哪個地方來,來的范圍多大,這種變化過程。給大家舉一個挺有意思的例子,這些數據基礎上,除了剛才講的這些東西還能夠做一些什么。其實最大的一部分,能夠利用這些數據,找到我們的交通這些規律,然后建立起城市交通模型,包括我們非常宏觀的,包括可以建立起來很微觀的。像剛才Amelia Regan講的這部分,甚至做到動態交通分配這部分,可以把整個北京交通網放到計算機里進行模擬,把車放到網上進行模擬,這種規模量實際上是很大的,對于我們計算機要求也是比較高的。這樣一個多層次模型能夠解決什么問題?
給大家舉一個例子,從北京東邊,從CBD地區通向衛星城,叫通州走廊,這個走廊交通比較擁堵,同時沿著這條線,還有一個軌道線八通線,早高峰的時候也是堵的非常嚴重。我們的市長到國外去以后發現,原來還有另外解決交通思路,開辟公交專用道,讓公交車快起來,為什么北京公交便宜到幾乎免費的時候,大家還開車呢?后來發現,因為我們的公交車速度很慢,公交車速度實際上是小汽車的速度一半還不到。換句話說,北京市出行,如果去一個地方,一個小時開車,盡管北京公共交通還是不錯的,坐公共交通需要兩個小時,為什么?因為路上跟著小汽車一樣堵,站站停,出家門走路,到達一個地方還要走路,還要換乘,公共汽車不可能跟小汽車競爭。怎么辦?其中一個重要措施就是給它專用道,就是堵的地方不受堵,市長受啟發,開辟公交專用道,早晨從通州進到城里開一條專用道,晚上出城開一條。想法很好,面臨嚴峻問題,那條道路本身就非常堵,如果再開一條專用道給公共汽車用,會不會造成整個東部地區的交通癱瘓。第二,那個地方公共汽車上有沒有那么多人去坐,這條道是一條快速路,相當于高速公路,如果公共汽車進出,交通比較麻煩。我們的數據、模型發揮了作用。基于數據基礎,我們做了一個非常準確的預測,最終發現沒有形成大范圍的交通擁塞,我們公交車人坐的滿滿的,最重要的是把沿線非常擁擠的地鐵,吸引過來一些人坐公交汽車,原來時速20多公里,開通以后達到50多公里,比小汽車還要快,有很多人住在通州,一站可以坐到CBD,這是比較成功的例子,左邊這張圖,中間的地方開辟一條公交專用道。
最后,跟大家分享的是,我剛才說的這些數據,還不是大數據。我們的大城市目前擁有千萬人口,幾百萬車,如果每輛車的數據時時刻刻位置都能往回傳的話,我們面臨的是什么問題?我們出行的整個過程,如果數據都能夠有記錄的話,在移動互聯的時代,這是可能的,在我們過去是不敢想象的,但是今天就是可能的。然后不管你是上班還是下班?各種各樣的這種活動都能夠區分。然后甚至可以精確到米一級的位置,而且是實時的24小時。當然還可能是什么?你坐公交以后,又騎一段自行車,或者改換一段地鐵,走了一段距離,還有T+2措施,開車到地鐵站,換乘地鐵上班,這樣復雜交通鏈聯合在一起,交通又該怎么辦?
未來移動互聯、大數據時代對于交通影響應該是非常巨大,其實最大的問題,除了今天上午大家講的數據量問題、計算問題,我們最困惑的仍然是最原始交通當中出行者、需求方和我們的供給方之間如何達到平衡,假如說每個出行者都能夠實施北京市全網交通狀況的時候,每個人基于自己的決策進行決策的時候,是不是系統就是最優的未必,如果大家都能夠得到充分信息提示,我們的系統是不是穩定的。我們這個系統的控制策略,怎么進行優化、調整,這是超級復雜的問題。我相信這個決策過程,可能要比阿里巴巴交易數據,因為交易數據不需要做決策的。但是我們這個是成千上萬的用戶在一起,他們進行交互,進行決策,然后他們之間還要進行相互影響,大家都知道在數學上,如果涉及到這樣的網絡化的問題的時候,它的計算量、存儲需求都將是一個天文數字。
怎么去做?當然對于我們的城市決策者,對于我們的規劃,對于我們的運輸者,如何去利用這些資源,讓我們的系統充分發揮充分的效率,在各種不同的這樣的交通工具之間,形成有效的銜接,這種銜接不僅僅是物理上的銜接,要在時間上銜接起來,有沒有可能?其實交通已經提出了這樣一種需求,但是我非常想知道在座的各位,能不能給交通一種建議,怎么樣做到?交通已經行駛在路上,其實交通已經出家門就開始了,有沒有在這樣移動互聯時代,有沒有可能了解到,你的家住在哪里,為什么住在那里,在哪里上班,為什么在那里上班。有可能根據這個優化空間城市布局,有沒有可能優化交通系統,對于城市進行重構。這樣一個問題變成反復循環動態過程,什么狀態下才能夠達到平衡呢?當然這些可能都是一些交通專業必須要去面對,尤其在這樣一個大數據時代,我們需要去重新思考、考量,所以我感覺到,在這些交通要素之間,在它和城市、社會錯綜復雜關系中間,如何建立起可量化、分析、計算的模型,恐怕是未來面臨的一個巨大的挑戰。當然在基礎之上,我們如何能夠獲得,能夠支持我們實時、穩定大數據計算能力和分析能力,恐怕也是我們需要去面對,好在在座的各位,在IT行業取得的這種突飛猛進的發展,我相信我們的交通將來還是有希望的,我們能夠知道未來為什么會堵,然后我們的人是怎么樣去活動,怎么樣才能夠最優。
我的報告就到這里,謝謝大家!
關于IT 2020:
IT 2020高端論壇是由中國工程院、美國國家工程院、EMC公司、VMware公司、浪潮集團及聯想集團共同舉辦的一場僅面向受邀人員的世界級的高端論壇。論壇聚焦未來數年內影響中國乃至全球行業和經濟發展的大數據、云計算和新興IT趨勢。來自中國、美國及全球各地的學術界和產業界的領導者及專家學者都將參與此次盛會。
本屆論壇將進一步探索云計算和大數據的架構、應用和對主要行業的影響。屆時中國工程院和美國國家工程院的頂尖科學家、學術界的知名專家以及產業界著名的思想領袖將匯聚一堂,與您共同探討宏觀IT趨勢的話題。聚焦云計算和大數據的基礎架構,兩者對中國IT策略、經濟發展和城市可持續化發展的影響,以及大數據在中國可持續化發展進程中至關重要的三個行業中的應用:醫療、能源變革和綜合交通。