讓交通領域發展成今天這般模樣的技術究竟是什么呢?本期清華大數據技術·前沿系列講座請到了著名交通網絡建模和災害管理專家——普度大學的Ukkusuri教授,為大家解開“數據驅動下的智能交通建模”背后的奧秘。
嘉賓簡介
Ukkusuri博士2005年8月- 2009年8月在倫斯勒理工學院土木與環境工程系任職,2009年至2014年在普度大學擔任副教授,2014年6月至今在普度大學教授交通系統和貨運和物流規劃課程,目前是交通和基礎設施組的成員,領導跨學科交通建模和分析實驗室,專注于為參雜其它網絡的交通系統復雜網絡問題找到解決方案來改善其性能,彈性以及可持續性。Ukkusuri博士也是公認交通網絡建模和災害管理專家。
一、數據革新下的交通模型
“無數據,不建模":model to data 到 data to model
傳統的可用于交通建模的數據來源主要是交通基礎設施(如地埋式感應線圈、超聲波和激光檢測器、視頻等)。但是,這些數據往往數量較少,以致無法很好的反映真實情況。這種傳統的建模方法被稱為model to data,是考慮到數據現實狀況之下的無奈之舉。
令人欣喜的是,過去十年間收集和存儲數據實現了技術革新,不僅增加了交通數據來源,也使數據量陡增,數據形式更加豐富。這些變化悄無聲息地改變著居民們的出行行為,也使交通建模方法相應地發生了變化——data to model,讓數據本身提供建模方向。這其中,最重要也是最明顯的一個例子就是智能手機的出現以及智能傳感器的大量應用。據估計到2019年智能機的擁有量將達到19億,而這些智能機提供了無處不在的基于位置的登記服務。同時,實時傳感設備早已不是什么新鮮事物。
“大數據”是什么:三點注意
盡管智能機、智能傳感器等的大量應用使得我們可以挖掘到了很多實時信息,從而讓大數據成為了必然的趨勢,然而“大數據”這個概念究竟該如何理解,學界至今依舊爭論不休。
Ukkusuri教授在業界對大數據概念公共認識的基礎上提出以下幾點看法:
大數據并不一定是“新”數據,它也可能是傳統數據
大數據并不等于好數據,大數據中夾雜著噪聲,應用大數據之前需要謹慎地處理;
大數據并不一定比“小”數據更優,更可靠,緣由同上。
由此可見,處理大數據是一項很復雜的工程。既然如此困難,為什么我們依舊一定要做呢?
這是因為,大數據相對于傳統數據來說更具有代表性。據統計,美國每年有1670萬手機用戶使用“登記”服務,這其中又1270萬(約為綜述的76.3%)的用戶使用智能手機設備;就在此刻,有3.8億輛配備GPS設備的出租車在美國街頭穿行。而過去幾年中,Ukkusuri教授在進行交通建模時所用的數據大多就是來源于這些智能機和出租車軌跡數據。
二、大數據與交通領域融合案例
在有了大數據之后,下一步就是進行大數據建模,以求更深入地認識實際問題。這就要求我們不僅要會收集數據,還要學會選擇適當的處理大數據的方法、選擇合適的建模方法(如做可視化、機器學習、仿真、圖像處理等)。其中,常見的機器學習算法就有分類(classification)、回歸(regression)、聚類(clustering)、規則抽取(rule extraction)等四種具體手段。模型眾多,如何從中選擇合適的模型?Ukkusuri教授提出了6點建議。
地理定位數據與應用出租車旅行數據做鏈路行程時間估計
定義:地理定位數據(geo-location data)一般是指一段時間內的包含地理位置和時間的大樣本數據。
特點:
(1)收集成本低;
(2)事件發生的具體時間點沒有詳細描述;
(3)考慮到隱私問題沒有關于社會經濟相關信息;
(4)在一些情況中,可能會缺失一些事件,如社交媒介的check-in數據。
應用:給出大規模出租車旅行數據,估算城市鏈路行程時間。要估算鏈路行程時間要解決以下三個子問題:
(1)數據映射到網絡;
(2)路徑推理;
(3)基于OD估計鏈路行程時間。
整體解決方案如下圖所示:
模型如下圖所示:
算法如下圖:
社交媒體數據分析與城市活動模式分類
社交媒體數據形式多樣。在Hasan, S., Zhan, X., & Ukkusuri, S. V. (2013, August). Understanding urban human activity and mobility patterns using large-scale location-based data from online social media. In Proceedings of the 2nd ACM SIGKDD international workshop on urban computing (p. 6). ACM.一文中,Ukkusuri教授使用了紐約check-in數據來對城市模式進行分類。
在這篇文章中使用的check-in數據如下圖所示:
應用e-hailing數據來對出租車市場建模
Uber、滴滴等打車軟件的出現對傳統出租車市場影響很大,在給消費者帶來切身利益的同時,我們也要考慮在這些打車軟件出現后如何對出租車市場建模,以便提出適應當前狀況的政策規范來出租車市場。針對這一問題,Ukkusuri教授建立了幾個模型來嘗試解決:
(1)傳統出租車服務模型(traditional taxi service,TTS)
(2)基于app的第三方出租車服務平臺模型(app-based third-party taxi service,ATTS)
(3)三方博弈模型(如下圖所示)
(4)多重領導者-追隨者模型(multiple-leader-follower game)
社交媒體數據分析與緊急疏散
在Ukkusuri, S. V., Zhan, X., Sadri, A. M., & Ye, Q. (2014). Exploring Crisis Informatics Using SocialMedia Data: A Study on 2013 Oklahoma 2 Tornado 3. Transportation Research Record, 44(45), 46.文章中應用社交媒體數據來應對緊急事件發生后人員疏散問題。
社交媒體數據分析與土地應用
在文章Zhan, X., Ukkusuri, S. V., & Zhu, F. (2014). Inferring Urban Land Use Using Large-Scale Social Media Check-in Data. Networks and Spatial Economics,14(3-4), 647-667.中應用社交媒體數據分析土地的合理應用。
在演講后的問答環節,Ukkusuri教授回答了同學們關切的問題。整場活動干貨滿滿,嘉賓精彩的分享使參與活動的學生和業界人士反應很強烈。
大數據潛力無窮,要想在交通大數據領域有所成就,同學們一定要在優化、統計、機器學習、復雜網絡方面有多加學習,同時不斷提高編程(c++、Python)能力,同時積極參與國際合作。