物流大數據,都是哪些數據?
物流大數據主要包括運單信息的數據和車輛信息的數據,然而關于運單信息往往涉及商業機密,并且信息分布于不同行業企業內部,不宜公開。因此當前現實的數據條件來看,實業界和學術界的物流大數據主要是關于貨運車輛信息的數據。其中包括:車輛id信息,駕駛員信息,車輛行駛軌跡坐標信息,車輛停車信息,車輛速度信息,車輛里程信息,車輛溫度信息,車輛油耗信息,車輛其他狀態信息等。軌跡數據挖掘來源通常是終端設備上產生的位置記錄,然后位置信息傳回數據中心以日志文件形式存放,如下表:
通過定位技術采集到的原始軌跡數據只是一系列的經緯度、時間、速度等信息,通過這些信息無法直接得到物流貨運車的活動行為的特征信息,例如運送貨物的起始點、途經哪些城市信息,以及更深層次的活動規律等。這些原始的北斗/GPS 數據必須經過一系列的處理步驟,才能獲取到物流貨運車的送貨規律等特征信息。
這些數據都有哪些特點?
想要從海量數據中分析獲取到有價值的知識信息,首先要了解物流貨運車輛軌跡數據的特征。
數據海量性:物流車輛一般以10秒到30秒的間隔向數據中心發送當前位置信息,這些移動在全國各地路網中的物流車輛每天生成的北斗/GPS 數據都達到了GB甚至TB規模,并且還在不斷增長中。這既是發展數據挖掘的驅動力,同時也是數據挖掘面臨的難題。
數據稀疏性:雖然軌跡數據規模龐大,但由于地理因素、天氣因素、設備故障等原因,并不能保證每一個路段都有完整的北斗、GPS信息,甚至有些錯誤的北斗/GPS數據。
數據復雜性:物流車輛在實際行駛過程中受各方面主客觀因素影響,難以簡單通過某個模型或者理論來進行評估和預測。其中包括,每個司機都有自己的駕駛習慣,即使同一個司機在駕駛過程中也會針對不同客觀條件改變自己的駕駛行為,這些人為的改變無疑增加了軌跡數據挖掘的不確定性和復雜性。
數據豐富性:在海量的軌跡數據背后隱藏著全國實時路況信息、物流運輸狀態信息和我國不同區域經濟發展水平以及供需關系的變化。對于我國道路基礎建設、交通路徑規劃、物流車輛調度、經濟指標預測等方面有著積極意義。
準備如何挖掘這些數據?
軌跡數據挖掘,是指從大量軌跡數據的集合 C 中發現隱含模式m 和知識 n 的結果 S。因此,軌跡數據挖掘的過程可以看作為一個函數:£ : C→S(m, n),輸入是軌跡數據,輸出是隱含模式 m 和知識 n。通過使用某些技術、理論,從大量的軌跡數據提取模式、發現龐大知識的一個過程。
軌跡數據挖掘發現的知識類型和所使用的方法密切相關,所發現的知識的價值受到數據挖掘算法的影響,目前常用的軌跡數據挖掘技術有規則歸納、概念簇集、關聯發現等。目前的軌跡數據挖掘研究工作中主要為軌跡聚類、軌跡分類、離群點檢測、興趣區域、隱私保護、位置推薦等方面。
物流數據挖掘做什么用?
物流車輛的海量大數據中包含著許多關于交通路況、車輛運行甚至社會經濟發展動態的信息。通過統計分析車輛行駛距離、停車時間、地理位置、車輛特征等多個維度的信息可以發現貨運車輛的行為特征、區域物流的流量分布等,為物流公司提供基于時間、成本、路線等車輛調度的應用服務提供了可靠的理論依據和技術支持,同時也可以為政府提供物流運價指數、貨運效率指數等優先經濟指標。