隨著道路感應線圈、出租汽車GPS、手機信令、軌道交通自動售檢票等道路交通自動采集技術的逐漸成熟,利用自動采集數據挖掘城市交通特征已成為一種趨勢。2010年世博會后,上海市交通信息化快速發展,城市交通大數據的來源更多樣、類型更豐富、數據量更巨大,包括車牌識別數據、土地利用遙感影像數據、移動通信數據等?;诖髷祿治龀鞘芯C合交通特征的資源條件日益成熟。2014年,上海市開展的第五次綜合交通調查已經廣泛應用了新信息技術調查手段。新調查手段不僅繼承了傳統信息挖掘技術,還著重對新增信息化資源展開挖掘,有效彌補了傳統調查手段的不足,已在某些領域成為主要調查手段。
1、交通大數據主要來源
上海市交通大數據來源于道路交通、公共交通等交通領域和移動通信、土地利用等相關領域。
1)全市用地數據。主要為約23萬個用地單元的用地遙感數據(見下圖)和房屋建筑量統計數據庫。遙感數據包括高分辨率航空遙感數據、衛星遙感影像、全市分類土地利用數據庫。房屋建筑量統計數據包括單體建筑名稱、占地面積、層數、坐落地址、房屋類型等建筑屬性信息。這些數據主要用來支撐城市土地利用性質、開發強度分析等多種應用。
2013 年上海市分類遙感用地類型
2)移動通信數據。主要指上海市域調查時段內出現過的移動手機用戶(包括本地及漫游)信令數據,包括短信、通話、LAC區(位置區,通常包含多個基站蜂窩小區)切換或每隔1~2h定時與基站通訊的記錄。經檢測,出現在上海市域的日均手機用戶規模約1800萬個,平均每個用戶一天的軌跡點記錄約為60~70條。這些數據主要支撐人口、職住分布、潮汐交通特征分析等多種應用。
3)車牌識別數據。上海市車牌識別系統覆蓋全部44個市境出入通道和343個中心城快速路主要斷面,數據內容包括車輛號牌編碼、牌照類型、途經時間、途經車速、車輛屬地及設備斷面編號等,主要支撐出入市境、中心城快速路的車輛使用特征分析等多種應用。
4)高速公路收費流水數據。覆蓋上海市域全部104個主線收費站和進出匝道收費站。數據內容包括駛入駛離收費站編號、車型、時間、流量等,主要支撐高速公路車輛使用特征分析等多種應用。
5)運營車輛GPS數據。包括約2.9萬輛出租汽車、1萬輛集裝箱卡車及普通貨車的GPS數據。數據內容包括回報軌跡點位置坐標、車速、空重車狀態(出租汽車)等,主要支撐對道路運行車速、出租汽車和貨車出行特征分析等多種應用。
6)軌道交通自動售檢票系統和交通卡自動刷卡計費系統數據。前者覆蓋軌道交通全網進站、出站閘機的刷卡數據,數據內容包括進站和出站的車站名稱、時間、乘客數量等,支撐對軌道交通系統客流分析等多種應用。后者全市日均約有400萬張、1000萬次刷卡數據,交通方式覆蓋軌道交通、公共汽(電)車、出租汽車及輪渡,數據內容包括刷卡線路、刷卡時間、刷卡金額等,主要支撐對公共交通運行及乘客換乘特征分析等多種應用。
2、大數據挖掘技術在綜合交通調查中的應用
數據挖掘技術在歷次綜合交通調查中都有應用,但第五次綜合交通調查在以往調查和日常工作經驗的基礎上,充分利用了上海市長期積累的交通大數據資源,特別是更加廣泛地應用了城市用地數據、移動通信數據,并新增了基于車牌識別系統數據挖掘的調查。交通大數據挖掘不僅在調查內容上與傳統調查銜接,也為交通模型進行多樣數據校核提供輔助。
本次交通大數據挖掘對每項數據源均進行了原始數據質量分析和清洗工作,以保證數據挖掘結果的準確性,同時將挖掘結果與經其他渠道統計調查所獲得的數據進行比對,也為驗證數據挖掘結果的可靠性、固化數據挖掘技術方法提供了有力支撐。例如,在車牌識別數據挖掘方面,將市境出入道路關口識別數據與收費數據比對,將長期在滬使用外地號牌小汽車規模挖掘成果與居民出行家訪調查、夜間停車調查、在滬購買交通強制險記錄數據進行比對;在移動通信數據挖掘方面,將夜間用戶分布結構與常住人口普查數據比對,將軌道交通系統內部乘客換乘特征挖掘成果與軌道交通閘機及運營統計換乘量和線路乘距數據比對等。經檢驗,在城市用地、長期駐滬外地牌照小客車總量、軌道交通系統內部客流換乘特征、道路交通運行車速等方面,大數據挖掘可以成為調查的主要手段;在分析居民出行方式鏈特征、潮汐交通特征、職住分布特征等方面,大數據挖掘是輔助調查的重要校核手段。
利用遙感影像數據挖掘城市用地特征
通過內業解譯與外業采樣核對相結合,利用全市用地遙感影像和房屋建筑量統計數據庫獲得全市用地分類和建筑量分布,是土地利用信息獲取的主要途徑。用地數據是交通調查中不可或缺的基礎資料,通過對交通相關用地的遙感數據進行調查挖掘,可以掌握最新城市用地布局、土地開發強度及變化趨勢,為評估用地總量與布局的合理性、優化完善交通設施布局提供定量依據。利用上海市市域紅外航空遙感影像,按照規劃用地分類標準,將用地類型解譯細分至23萬個用地單元(見下圖)。
2006—2013 年北京市公共交通日均乘客數量及六環內常住人口變化
2013年底全市建設用地2913km2,較2008年增長8%。全市建筑量12億m2,中心城區建筑量5.7億m2。軌道交通對城市用地發展具有一定的引導作用,軌道交通車站2km半徑范圍內容積率高于其他地區。以軌道交通1號線為例,中心城區、近郊區車站2km范圍內平均容積率分別為1.17和0.51,其他區域平均容積率僅為0.57和0.36。
利用移動通信數據分析人口分布
通過跟蹤手機用戶的移動通信數據,分析日間、夜間手機用戶分布規律性特征,是獲得調查期實有人口分布的重要校核數據。這項調查技術曾嘗試用于近年一些小樣本量調查,但應用于全市性綜合交通調查尚屬首次,是彌補調查期實際人口統計誤差和輔助校核就業崗位分布的重要手段。以一定時間窗內上海市域移動通信用戶手機信號出現天數、累計出現時長以及通信信號出現和消失時間作為判斷標準,研究特定區域內手機用戶信號在不同時段出現的規律性特征,進而挖掘日間、夜間手機用戶的分布情況。據分析,夜間手機用戶分布密度由內向外逐漸降低,浦西內環線北段人口最為密集(見下圖)。
2013年手機用戶夜間分布
另外,中心區日間固定出現的手機用戶規模明顯高于夜間,兩者比值達1.2~1.4,靜安區尤為明顯,日間、夜間手機用戶比值達1.5(見下圖)。
2013年手機用戶主職比分布
利用移動通信數據分析通勤與潮汐交通特征
在判斷移動通信用戶日間、夜間分布規律的基礎上,剔除日間、夜間長時間停留在同一地點的用戶,進而推斷居民通勤出行空間分布特征;同步考慮基站地理空間距離、實際路徑距離等多重因素,獲取職住出行距離特征指標。據分析,上海市平均通勤出行距離約為8.5km。郊區進出中心城區的通勤量占全市通勤出行總量的12%,其中近80%通勤量來自近郊區與中心城區之間。工作人口居住特征以陸家嘴和徐家匯地區為例,據統計約90%的陸家嘴地區工作人口居住在中心城區,其中居住在浦東的略高于浦西,且主要集中在軌道交通6號線沿線(見下圖a);約80%的徐家匯地區工作人口居住在中心城區,其中近90%居住在浦西(見下圖b)。
特定區域工作人口居住地分布
利用移動通信數據獲取用戶出行軌跡是反映人員全方式出行空間分布特征的重要數據。傳統調查一般從系統流量反映某一種方式的潮汐交通特征,如軌道交通客流、道路交通車流等,利用移動通信數據可以反映全方式潮汐交通特征。以內環線為例,工作日早高峰時段進出中心城區斷面的交通需求很不均衡,進出比約為1.7(見下圖)。
早高峰時段內環各斷面手機用戶進出比值
利用移動通信數據分析軌道交通乘客換乘特征
利用地面和地下、不同軌道交通線路所在移動通信LAC區編碼的唯一性和手機在跨越LAC區基站時必然會發生位置信令更新的特性,基于基站和地鐵車站的對應關系,可以獲得乘客在軌道交通系統內部的路徑信息。以往主要通過在軌道交通車站進行人工問詢的抽樣調查方法,本次調查首次采用移動通信數據進行信息采集,完善了軌道交通系統模型分配算法的重要數據資源,使得移動通信數據作為獲得乘客真實換乘路徑的主要手段成為現實?;谏鲜鰯祿部色@得不同車站間乘客的路徑分布,以及換乘站分方向、分時段的客流量。經計算,使用地下軌道交通的移動通信用戶中,只有單一路徑的用戶和有多路徑選擇的用戶比例約為6:4(見下圖)。
軌道交通乘客換乘路徑
在多路徑選擇情景下,約70%的乘客還是以選擇最短路徑為主。此外,乘坐軌道交通的乘客中,約50%無須換乘,44%僅需換乘一次(見下圖)。
軌道交通乘客換乘次數
利用牌照識別數據分析小汽車總量與快速路車輛特征
長期在滬外地牌照小汽車總量調查一直是歷次調查的難點,夜間停車調查、居民出行家訪調查等傳統調查手段實施難度大、調查成本高。本次調查首次利用車牌識別數據獲取長期在上海市使用的外地牌照小汽車總量。通過與夜間停放車調查數據、居民出行調查數據和外地車輛在滬保險數據相比對,驗證了利用車牌識別數據作為外地牌照小汽車總量調查的可靠性。今后可利用牌照數據資源,捕捉有進出市境道路關口記錄和使用過中心城區快速路的外地號牌小汽車,綜合考慮累計在滬及單次在滬停留時間,判斷是否屬于長期在滬使用的外地號牌小汽車。經計算,2014年上海市實有小汽車約320萬輛,其中外地號牌小汽車近100萬輛。
基于牌照識別設備的位置特點,結合高速公路收費數據,本次調查首次以車牌識別數據取代市境道路關口人工問詢,調查進出市境車輛在上海市域內的出行分布特征。經計算,入境車輛進入上海市郊區和市區的比例約為7:3,其中進入中心城區和外圍城區的比例約為2:8。
此外,本次調查還首次利用牌照數據調查中心城快速路系統的車輛使用特征,獲取中心城區快速路各類車輛的駛入量、使用頻率、行駛距離等特征指標,不同路段車輛的牌照結構以及車輛的流向分布(見下圖)。
中心城區快速路本地牌照和外地牌照車流分布
經計算,工作日中心城區快速路(不含外環線)全日駛入車輛中25%為外地牌照,午間平峰外地牌照車輛比例達32%;其中,中環線比例最高,午間平峰外地牌照車輛占駛入車輛總量的40%。
3、大數據挖掘技術應用展望
拓展應用領域
1)利用互聯網數據分析城市人口結構特征。
利用移動通信數據處理技術獲取城市人口分布特征已成為現實。然而若要分析交通源出行特征,還需要掌握城市人口結構特征,該數據很難通過人口普查外的其他手段獲取。多源數據融合分析將是一種必然選擇。例如,利用線上購物、網站訪問、電視收視等數據綜合分析不同區域的家庭成員結構等。
2)利用移動通信數據分析居民出行特征。
在當前社會經濟條件下,傳統人工調查的樣本規模和實施難度均有所增加。隨著3G,4G移動通信數據的引入,用戶的軌跡點信息將大幅增加,這為分6790用戶出行強度、出行空間分布及出行路徑特征創造了有利條件。
3)利用車牌識別數據分析全市車輛出行分布特征。
隨著地面高清卡口車牌識別數據的引入,車牌識別數據覆蓋的空間范圍將從市境出入道路關口和中心城區快速路斷面拓展至行政區邊界的道路。通過擴大地面車牌識別數據的采集可進一步掌握跨越行政區車輛出行分布特征。
4)利用車載GPS和公交IC卡刷卡關聯數據分析公共汽(電)車線路客流OD特征。
公交IC卡刷卡數據僅能反映刷卡時間和刷卡線路信息,無法獲得上下客車站信息。由于大部分公共汽(電)車都已安裝了GPS系統,可將GPS數據和公交IC卡數據關聯起來,再通過公交IC卡刷卡時間與公共汽(電)車GPS軌跡點回報時間的對應,獲得公交IC卡刷卡的地點信息。最后通過GPS軌跡點與公共汽(電)車站的空間對應關系,分析公共汽(電)車線路客流的上客特征。在此基礎上,通過對一段時間內公交IC卡刷卡數據的分析,獲得乘客上客的規律性特征,利用一天內乘客本次出行的下客車站很有可能是下次回程的上客車站的一般規律,進一步分析公共汽(電)車線路客流OD分布特征。
優化技術方法
1)優化數據挖掘技術,增強交通大數據關聯性分析。
優化、改進已有大數據挖掘技術方法,包括車輛GPS數據在高架道路、地面道路重疊區域的識別方法,移動通信數據一次出行的判斷方法,移動通信數據交通方式的判斷方法等。此外,交通大數據挖掘的價值不僅限于對單源數據的分析,各類數據的關聯性分析可進一步提升交通大數據挖掘的應用價值,例如城市用地與移動通信數據的關聯分析等。
2)形成一整套關于交通大數據分析與擴樣的系統流程。
有些信息數據可以直接反映母體特征,例如中心城區快速路車牌識別數據。有些信息數據雖然數據量巨大,但本質上仍然屬于抽樣調查數據,例如利用移動通信數據分析城市人口分布,如何進行科學擴樣是大數據挖掘需要解決的另一技術難點。根據本次調查經驗,受移動用戶市場占有率、手機持有率等多重因素的區域差異性影響,用同一系數對全市數據進行統一擴樣可能會產生較大誤差。目前移動通信數據以反映結構性特征指標為主,下一步需按區域確定擴樣系數,以使移動通信數據分析結果可以反映總量特征。
3)豐富成果展現形式,形成大數據可視化產品。
傳統大數據挖掘成果一般是基于信息分析技術的一整套程序包的運算結果,通常以成果數據庫的形式體現,再進一步由人工轉化成可視化圖表,處理周期較長。如何突破傳統調查成果的展示模式,基于固化的數據采集、分析處理、成果展示流程,形成界面友好、功能實用的軟件產品是今后交通大數據挖掘的發展趨勢。
完善長效機制
1)完善交通大數據的采集匯總機制。
上海市交通大數據資源已基本匯集到上海市交通綜合信息平臺。隨著信息化快速發展,交通大數據資源種類日益多樣化,仍然需要積極擴展信息資源獲取渠道,形成數據采集匯總機制及統一的數據庫,為交通大數據的分析挖掘提供基礎。
2)建立交通大數據分層挖掘分析機制
根據數據需求對交通大數據的挖掘進行分層設計,形成每日、月度、季度、年度的定期分析及結合重大節假日、重大事件及交通熱點問題的不定期分析機制。例如,一些反應系統運行,計算周期短的分析指標可以進行每日數據挖掘,以滿足日常運營管理需要;一些反應交通源出行特征、計算周期及時間長且需要累計數據進行計算的指標可以進行季度或年度數據挖掘,主要應用于反應交通運行規律及發展趨勢等研究。
來源:《城市交通》2016年第1期