ZDNet至頂網軟件頻道消息:上海外灘踩踏事故發生已經過去了半個多月,痛定思痛,從普通民眾到專家教授,紛紛通過媒體對此事發表了自己的意見,希望能找到事故的真正原因,避免悲劇再度發生。
百度研究院大數據實驗室BDL(Big Data Lab),秉承“以數據說話”的理念,基于百度數據與大數據智能分析技術,嘗試對當時的情況進行數據化描述,希望可以給相關人士提供一些參考。
圖1標明了南京東路地鐵站附近區域(左下藍框)、外灘源附近區域(右上藍框)、事發地陳毅廣場附近區域(右下黑框)和外灘區域(右側紅框)位置在2014年12月31日事發當時的人群熱力圖。顏色越紅表示人群越密集,越藍表示越稀疏。下文將聚焦在三個問題上進行討論。
圖1 2014.12.31事發時外灘區域人群熱力圖
一、當時的人流量大到什么程度?事發當時是否是當晚人流量最大的時候?
通過大數據分析,我們可以看到:
1)如圖2所示,事發當晚,外灘區域(包含陳毅廣場)確實非常擁擠,人流量已經達到了平時最高值的3倍多。
圖2 2014.12.29-2015.1.2外灘區域人流量趨勢
2)如圖3所示,31日當晚20:30左右,南京東路地鐵站(紫線)也曾出現過一個人流高峰。而事發當時(黑色虛線),并不是陳毅廣場(紅線)人流量最大的時候,其兩次人流量高峰出現在21點和24點。
圖3 2014.12.31-2015.1.1人流量趨勢圖
二、當時人流的對沖到底是什么樣的程度
有專家表示人流對沖可能是踩踏的很大一個原因,利用大數據技術結合地圖定位信息,從歷史定位與軌跡數據里可以看到事發地的人流方向相對于其他節假日確實顯得更加復雜。我們用中秋節、國慶節以及跨年三個節日的數據進行比較。
(1)中秋前夜(2)國慶當晚(3)跨年當晚
圖4外灘和外灘源區域人群分布熱力圖(2小時)
通過圖4的2小時人群分布熱力圖可以看出,三個節日當晚人流量基本相當,不過分布不同。中秋節(圖4(1))和國慶(圖4(2))人群主要分布在外灘觀景大道和陳毅廣場附近,而在跨年當天22點之后(圖4(3)),人群主要分布在中山東一路、陳毅廣場和外灘源附近。
(1)中秋前夜(2)國慶當晚(3)跨年當晚
圖5 外灘和外灘源區域人群流動方向示意圖(部分采樣)
圖5采樣選取了部分人群,示意他們的運動方向。圖中,每個箭頭代表一名行人,箭頭的顏色及指向表示其前進方向。圖5(3)可以看出,跨年當晚人群從南京東路流向陳毅廣場,導致在晚上21點左右,陳毅廣場的人流量達到一個峰值(圖3)。而之后,更多的人群開始從陳毅廣場沿著中山東一路流向北部的外灘源,也就是事發當天燈光秀所在地。
(1)中秋前夜(2)國慶當晚(3)跨年當晚
圖6 外灘區域人群流動方向分布圖
我們進一步對圖5中外灘區域的人流進行量化分析,得到了圖6所示的人群流動方向分布圖。圖6中每一扇形分區代表不同的人流方向,扇區半徑表示該方向人流量大小。圖6(1-2)分別表示中秋和國慶當晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖6(3)顯示了跨年當晚的外灘區域的人流方向。除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。
針對產生復雜人群流動方向的原因,有專家這樣推測,中秋節、國慶節游客只是單純的外灘游覽;而在跨年當晚,很多游客是為了去觀看燈光秀,但是到了陳毅廣場后才發現燈光秀地點更改(往年都在陳毅廣場,今年更改為外灘源)。從百度搜索關鍵詞分析里面也看到這一趨勢。當晚23:20左右,搜索“燈光秀取消了么”和“燈光秀門票”的關鍵詞的數量急劇增加(圖7)。
圖7 搜索“燈光秀取消了么”和“燈光秀門票”的關鍵詞指數
從手機地圖使用習慣來看,游客去目的地前,一般都會提前利用地圖搜索目的地和規劃路線,燈光秀地點在外灘源,那么用戶應該會搜索“外灘源”并規劃路徑。我們研究了當晚游客到底在什么位置通過百度地圖搜索“外灘源”,發現大部分都集中在外灘附近(圖8中紅色區域),這從某種程度上就說明用戶原本不知道燈光秀更改為外灘源,到了外灘以后才發現改了地方,所以才掏出手機進行地圖搜索。
圖8 以“外灘源”為目標的地圖搜索發起點熱力圖
三、群體聚集是突發情況,可以預警嗎?
我國人口眾多,重大文體活動、節假日集會等活動中,容易出現因人群過度擁擠而引發的危險乃至事故。那么是否可以提前預測,做到事前預警呢?大數據實驗室對百度的定位數據、搜索數據進行了深度挖掘,探索預警的可能性。
圖9外灘地圖搜索與人群匯聚情況趨勢圖
圖9代表2014年12月25日至31日,外灘地圖搜索請求與人群匯聚情況的歷史趨勢。從兩條曲線經過標準化和對齊后的走勢中,我們不難看出他們基本一致的漲落趨勢。平時,外灘的地圖搜索和人群匯聚程度基本穩定,但在2014年的最后一天,兩者都達到了最高峰。
圖10 外灘地圖搜索請求與人員到達數量相關性分析
通過對百度的定位數據、搜索數據進行挖掘。進一步對2014年12月31日的地圖搜索請求與人員到達數量進行相關性分析。由圖10得到,在百度地圖中,相關地點的請求數據和實際到達該地點人群數量具有極高的相關性,相關系數超過0.9(越接近1,說明越相關)。這表明,用戶去目的地前,一般都會提前利用百度地圖搜索地點和規劃路線。為了挖掘用戶的時間提前量,包括外灘跨年時的數據,大數據實驗室又對大量歷史群體聚集場合的數據進行進一步的分析,包括鳥巢足球賽等。
圖11 外灘地圖搜索與人群數量的互相關性曲線
通過對大量歷史數據分析發現,相關地點的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現(可參見圖9)。在圖11中我們給出了搜索量和人群數量之間的互相關性相對于時延的變化曲線,其中X軸的值為時延量,負值即表示提前量,例如-10對上去曲線的值,就是提前10小時的搜索量與人群數量的相關性。圖中可以發現,兩個量的互相關性曲線在-1.5小時的時候達到了峰值,這意味著,根據地圖上相關地點搜索的請求量,我們至少可能提前幾十分鐘預測出人流量峰值的到來。