摘 要:通過分析信息化建設脈絡中高速公路數據的海量產生,結構復雜的海量數據存儲及處理,闡述大數據平臺在智慧高速建設中的作用,總結大數據在智慧高速中的客戶服務、運營優化、稽查分析、應急資源調度、預測預警等方面的具體應用,對交通指揮中心工作提供支持。
關鍵詞:智慧高速 分布式數據處理 數據挖掘 客戶服務 優化運營 預測預警
Abstract:This paper analyzes the effect of big data platform in the construction of expressway construction by analyzing the mass production of expressway data and the complicated data storage and processing in the context of information construction, summarizes the customer service and operation optimization of big data in expressway, inspection and analysis, emergency resource scheduling, forecasting and early warning of specific applications, so as to provide support for the traffic command center.
Key words:intelligence expressway; distributed data processing; data mining; customer service; operation optimization; forecasting early warning
引言
隨著經濟社會的發展,城市人口持續增長,數量持續增長的車輛給交通基礎設施通行能力帶來極大壓力。交通擁堵、交通事故、環境污染及能源短缺已成為目前面臨的重要問題,尤其在高速公路交通管理尤其變得更加明顯。如何有效利用傳統的高速公路數據與設備,提高交通運輸效率、安全性、整體效益,提高交通的科學管理和組織服務水平是管理者迫切需要解決的問題。
車輛在高速公路上,本身的動作及設備會產生海量數據,在沒有大數據平臺之前,高速公路上產生的數據分門別類的分布在Oracle、MySQL等數據庫中,因為各自處理語言不同,在剛使用時分析速度尚且可以,但隨著數據量越來越多,查詢調用越來越頻繁,速度變得越來越慢,無法滿足高速管理需求。
高速公路數據產生
高速公路的信息化建設包含從基建到信息記錄等多個層面。所有的環節都在不停地產生數據,成為智慧高速中的海量數據來源。首先是高速公路的硬件和基礎設施,當一輛車開進收費站,先經過地下預埋的地感線圈,經過地板線圈進行切割磁力線,產生很弱的電流,車輛開進來會由定焦在地感線圈的攝像機拍一張圖片,產生車輛進入收費站的第一個數據。繼而遞交收費卡、讀卡、寫卡,寫卡的同時計算從A點到B點的費用,每一個動作都在產生數據。高速公路收費還涉及更加復雜的情況,如起點A到終點B,中間經過三段高速公路,三段的收費主體不同,需要在收費的金額上進行三個收費主體的拆分,這涉及到后臺的數據計算。所以一輛車從進入收費口到駛離收費口,至少會產生兩張圖片,十余條流水數據,同時還會產生車道攝像和停位攝像等大量的視頻信息。
產生大量車輛數據的同時,收費員的動作,如按抬桿鍵、放行鍵、軍車鍵等,也會產生數據記錄,方便后續稽查時的圖片分析,避免逃費等行為。設備本身也會產生大量數據,比如抬桿、打票、紅綠燈轉換,全部都會產生日志信息進入數據庫,這還只是收費相關的數據信息。在看不到的地面上,還會存在很多信息采集系統,比如地磁式傳感器、攝像頭,檢測車輛通過時的平均速度、平均車間距和平均占有率等等信息,大量數據都會進入數據庫,進行后續的存儲分析。一輛車在駛離高速公路時,已經產生了大量的數據信息,其中包含結構化和非結構化數據、流數據等多種數據形式。
大數據平臺架構設計及數據處理
高速公路上產生的海量數據,需要一個企業級的大數據平臺,對數據進行分門別類的存儲管理,TDH企業級一站式大數據平臺,以分布式架構對數據進行存儲和計算,并在此基礎上進行數據處理和應用。
大數據平臺架構設計
數據進入大數據平臺,上游業務系統中的數據,通過文件交換或Sqoop方式同步到大數據平臺的貼源層,然后經過批處理加工后,形成明細層、匯總層和模型層。對于歷史數據,比如收費站入口流水表和出口流水表,選擇存儲在Search引擎中,可以進行快速的歷史數據檢索。對于非結構化數據,例如圖片和視頻影像,選擇存儲在Hyperbase引擎中。同時,為了提高大數據平臺的數據質量,使用Governor管理元數據(包括表和存儲過程),監控所有數據的更改歷史,進行數據血緣分析和影響分析。對上層的基于大數據平臺的應用,可以使用標準的JDBC或ODBC與大數據平臺進行連接,對數據挖掘需求,如節假日車流量預測、高速路擁堵程度預測等,可以圖形化拖拽機器學習平臺Sophon組件進行預測,如圖1所示。
▲圖1大數據平臺架構
高速公路的數據存儲及處理
高速公路中產生的車輛動作和收費員動作、信息采集系統等產生的海量數據都進入大數據平臺進行存儲和處理。這些結構復雜,形式多樣的海量數據,對數據存儲和處理提出了很高的要求。大數據平臺支持兼容Oracle 、DB2 、Teradata數據庫/數據倉庫SQL方言,可以輕松的將數據從傳統架構中進行遷移,所以方便應用研發人員利用這一特性實現數據處理核心的升級換代。同時,TDH支持低延時和高吞吐的實時計算場景,可實現基礎結構化數據、非結構化數據和流數據的存儲,并隨時無縫擴容。大數據平臺基本架構在于,對全省高速路網監控收費運營數據進行采集和整合,進入數據中心,基礎數據庫經過大數據平臺處理形成專題數據庫,然后將路網設備設施等資源統一融合,形成GIS和視頻支撐平臺,繼而在集成平臺以GIS和視頻平臺做支撐形成五大應用系統相互協作,最終在終端設置,如監控中心的監控大屏、會商室顯示、普通的監控工作站、移動終端等設備上進行展示和發布。
高速公路大數據由幾個大的部分構成:高速收費數據主要應用于收費管理、風險管理、運營優化;監控設備數據主要應用于視頻監控、運營管理、指揮調度;交調設備數據主要應用于基礎采集、運營管理、指揮調度。交通數據尤其是視頻數據和圖像數據,在一個省份數萬個攝像頭下,以TB量級甚至PB量級增長,數據量巨大,在大數據平臺支撐下,完成平滑擴容和查詢分析等業務應用。
智慧高速中的大數據應用
大數據平臺的處理
大數據平臺把實時數據,包括高速公路上的收費、監控等實時數據上傳,與傳統業務數據進行整合,包括一些城市交通等外聯單位的歷史數據。將各類結構化、非結構化、半結構化的數據,包括監控圖像、抓拍信息、收費日志和視頻等信息,進行數據集成、數據轉換處理,然后各自建模分析,形成專題數據,把專題數據應用到相應的應用系統中,提供支撐。
主要應用方面
大數據在高速中的應用主要包括以下幾方面:
(1)客戶服務。在ETC用戶管理與車輛引導中,主要使用Apriori算法進行關聯分析,提供客戶增值服務和精準信息推送,同時滿足客戶關系管理的要求。可以根據客戶的車輛遷徙路線等分析,進行相關的路線信息推送等。
在ETC用戶管理與車輛引導中,基于客戶歷史遷徙路線和商品購買歷史,運用高維矩陣分解方法,發現客戶購買偏好和潛在需求以及出行規律。當客戶通過ETC時,實時拍照識別鑒定客戶之后,基于客戶車輛歷史通過卡口數據,調用訓練好在線數據挖掘模型,可以以大數據可視化的方式顯示出來客戶遷徙路線,并預測出客戶未來遷徙線路,進而進行精準的地點線路信息推送。
路線遷徙的可視化和路線預測的建模過程如下:
利用大數據可視化方法,不僅可以詳細每個車輛在地圖上車輛行駛軌跡,而且可以顯示所有車輛的運行總線路。例如春運年前的時候,可以看到小轎車大部分都是從北上廣深流向中西部城市,年后的時候大部分車輛向北上廣深匯集。再者,某個客運或者貨車司機的路線有其固定的運行線路。路線預測建模過程如下:
基于客戶信息、車輛信息、車輛通過何時通過卡口數據歷史數據,利用關聯分析和高維矩陣分解方法,找到車輛和卡口進出對應關系,預測客戶在下一段時間會通過的卡口,進而預測車輛行駛軌跡,從而提供精準的信息推送。
(2)運營優化。通過流式機器學習實現時效分析,提前預警,協同各單位指揮調度;在進入大數據平臺之后,通過數據分析,可以通過高速公路熱點視頻查看,進行自動推送;建立領導駕駛艙,設定流量排名,為優化運營提供決策依據。
通過流式機器學習實現時效分析,提前預警,協同各單位指揮調度;在進入大數據平臺之后,通過數據分析,可以通過高速公路熱點視頻查看,進行自動推送;建立領導駕駛艙,設定流量排名,為優化運營提供決策依據?;趕ophon的在線的流式增量機器學習算法,開發時空深度殘差網絡(ST-ResNet)預測車輛密度。例如把高速公路,劃成很多個矩形小區域,多個區域同時分析,它是一種整體性的預測。主要基于平滑性、周期性以及趨勢性等三個個時間屬性 以及空時間屬性和外部天氣數據。
第一,模擬局部相鄰時刻。它是一個平滑的過程,比如中午三點跟中午四點流量變化不會很大。
第二,模擬周期性。把對應時間點昨天、前天、近一周平均、近一個月平均這個時刻的數據,作為輸入,來刻畫周期性。
第三,模擬趨勢性。把當前時間點更遠點(前推半個、一個小時)的時間點(例如昨天、上周、上個月)的數據,模擬趨勢性。
第四,抽取空間屬性。利用深度卷積神經網絡,把一些地區劃成子區域之后,相關的區域做會做卷積運算并合并,通過卷積之后,抓住了這個區域周圍的車輛流量的相關性。這樣卷積多次之后,相當于把更遠相關區域的屬性的影響都聚合到一起了。
基于這四個結果,系統再做一個融合。第一部分融合,就是只考慮它的時間和空間屬性。再考慮外部因素,比如最近的附近天氣數據拿做第二次融合得到最終結果。
(3)稽查分析。通過在Inceptor中對原始交易流水費分析,提供逃費稽查、出入口流水對比等異常行為的分析服務。
通過在Inceptor中對原始的交易流水統計分析,抽取車輛逃費稽查和出入口流量相關歷史特征,具體有,車輛最近一周、最近一個月、最近半年的繳費信息,繳費卡口每天每個時間點的出入流量信息。
利用discover模型融合方法,融合時序預測模型和異常檢測模型,效果較單獨一種方法提升1.6倍。具體實現如下:
首先,利用discover大數據分布式自動的時序預測方法,預測此卡口的當前流量,并和當前實際的出入情況對比,如果當前流量少于預測流量,則可能有逃費稽查情況出現;其次,利用分布式異常檢測算法iforest和無監督算法深度自編碼器檢測數據異常,發現行為詭異車輛,業界先進的iforest和深度自編碼器算法可以自動異常檢測此種逃費稽查的車輛,會和平時它的繳費習慣不同,也會和其自前所屬群體的習慣有所偏離,綜合的偏離程度月的,逃費的概率越大。最后,利用非線性模型融合的方法,融合時序預測模型和異常檢測模型兩者的優點,能更準確的定位異常行為的車輛,為車輛稽查分析提供智能。
(4)聯合指揮。通過各項數據在Inceptor中的匯總和分析,綜合呈現各相關數據,形成聯合指揮。基于應急資源管理、路網交通協同調度、應急預案管理、處置效果評估、無人機監控等模塊,實現交警、消防、路政等多部門聯動響應,為各類交通事件條件下的路網協同控制和誘導管理提供可視化管理界面和決策支持。
(5)應急資源調度。借助Inceptor的大規模數據處理能力,整合傳統的應急資源設備與資源,協同建立最優化的調度。應急指揮調度系統可以采取“掛圖作戰”的形式進行,有效地保證在出現特殊情況時可以采取科學的應急措施,積極、快速、有序地處理各類事件,保障高速公路的正常、安全運行,實現應急指揮、應急資源和應急過程的信息化管理。
(6)預測預警。擴充傳統全面風險管理的數據維度,在交通預警等角度分析,提前告知用戶。根據往年節假日各收費站流量統計數據,通過分析算法對本年節假日流量做出預測并進行排名。預測值是否超過對應收費站設定的報警門限,可以根據顏色分級進行預警。根據歷史通行數據對車流量進行分析和預測,為節假日高峰時段的安全暢通發出預警、提前采取保暢措施,為高速路網的安全暢通提供保障。
基于對各收費站實時數據的分析結果,可以對平日車流量按站點、小時/天分別進行統計得到時間序列,ARIMA是做時間序列預測較為成熟的模型,分別對該時間時間序列采用ARIMA自回歸進行建模,然后對未來一個周期的數據進行預測。ARIMA全稱為自回歸積分滑動平均模型,可以記作ARIMA(p,d,q),其中p為自回歸項,d為差分階數,q為移動平均項數,通過ARIMA模型可以對收費站某個時段流量進行預測與應用,從而提升對車流量的預測預警。
(7)資產管理。結合Inceptor和workflow,實現交通設備資產全生命周期管理,包括設備故障預測、質量分析等;通過設備監控專題,可以對高速公路外場設備如車檢器、攝像機、氣象站、情報板、GPS車輛及無人機等進行基于GIS地圖的一體化監控;點擊設備圖標即可查看各種設備的狀態、數據及圖像。
結合Inceptor和workflow,實現交通設備資產全生命周期管理,包括設備故障預測、質量分析等;通過設備監控專題,可以對高速公路外場設備如車檢器、攝像機、氣象站、情報板、GPS車輛及無人機等進行基于GIS地圖的一體化監控;點擊設備圖標即可查看各種設備的狀態、數據及圖像。
基于新老設備的歷史數據,建立設別的壽命預測,可以大大降低故障率,及時對故障進行預警,并及時更換設備。抽取樣本從當前狀態到達設備不能使用或者故障的狀態所經過的時間作為樣本標簽,設備的各種溫度、電壓、電流、功率、脈沖,表面數字清晰度、當前個指標的誤差等作為特征,從而基于這些的建立訓練數據,訓練一個GBDT模型。經過交叉驗證,證明此壽命預測模型的精度高于90%。
總體來講,通過Slipstream的流式處理,Inceptor的復雜邏輯數據加工,Discover和Sophon的數據挖掘和分析,可以及時、高效、全面地對高速場景和業務進行深度優化處理,為“智慧高速”的構建提供了強有力的支撐。
結語
現在,在平臺上的技術應用與數據分析已經發展到集合機器學習和深度學習階段,應用中算法模型也會不斷根據新的數據進行迭代學習。同時,隨著物聯網建設的推進,產生更多海量的數據,數據處理和應用的價值將得到進一步體現。高速公路的數據將和更多的行業數據打通進行跨界應用,讓高速公路更加“智慧”,并應用到實際的場景中。