上海外灘踩踏事故發(fā)生已經(jīng)過去了半個多月,痛定思痛,從普通民眾到專家教授,紛紛通過媒體對此事發(fā)表了自己的意見,希望能找到事故的真正原因,避免悲劇再度發(fā)生。
百度研究院大數(shù)據(jù)實驗室BDL(Big Data Lab),秉承“以數(shù)據(jù)說話”的理念,基于百度數(shù)據(jù)與大數(shù)據(jù)智能分析技術(shù),嘗試對當(dāng)時的情況進(jìn)行數(shù)據(jù)化描述,希望可以給相關(guān)人士提供一些參考。
圖1標(biāo)明了南京東路地鐵站附近區(qū)域(左下藍(lán)框)、外灘源附近區(qū)域(右上藍(lán)框)、事發(fā)地陳毅廣場附近區(qū)域(右下黑框)和外灘區(qū)域(右側(cè)紅框)位置在2014年12月31日事發(fā)當(dāng)時的人群熱力圖。顏色越紅表示人群越密集,越藍(lán)表示越稀疏。下文將聚焦在三個問題上進(jìn)行討論。
圖1 2014.12.31 事發(fā)時外灘區(qū)域人群熱力圖
一、當(dāng)時的人流量大到什么程度?事發(fā)當(dāng)時是否是當(dāng)晚人流量最大的時候?
通過大數(shù)據(jù)分析,我們可以看到:
1)如圖2所示,事發(fā)當(dāng)晚,外灘區(qū)域(包含陳毅廣場)確實非常擁擠,人流量已經(jīng)達(dá)到了平時最高值的3倍多。
圖2 2014.12.29-2015.1.2外灘區(qū)域人流量趨勢
2)如圖3所示,31日當(dāng)晚20:30左右,南京東路地鐵站(紫線)也曾出現(xiàn)過一個人流高峰。而事發(fā)當(dāng)時(黑色虛線),并不是陳毅廣場(紅線)人流量最大的時候,其兩次人流量高峰出現(xiàn)在21點和24點。
圖3 2014.12.31-2015.1.1人流量趨勢圖
二、當(dāng)時人流的對沖到底是什么樣的程度
有專家表示人流對沖可能是踩踏的很大一個原因,利用大數(shù)據(jù)技術(shù)結(jié)合地圖定位信息,從歷史定位與軌跡數(shù)據(jù)里可以看到事發(fā)地的人流方向相對于其他節(jié)假日確實顯得更加復(fù)雜。我們用中秋節(jié)、國慶節(jié)以及跨年三個節(jié)日的數(shù)據(jù)進(jìn)行比較。
圖4 外灘和外灘源區(qū)域人群分布熱力圖(2小時)
通過圖4的2小時人群分布熱力圖可以看出,三個節(jié)日當(dāng)晚人流量基本相當(dāng),不過分布不同。中秋節(jié)(圖4(1))和國慶(圖4(2))人群主要分布在外灘觀景大道和陳毅廣場附近,而在跨年當(dāng)天22點之后(圖4(3)),人群主要分布在中山東一路、陳毅廣場和外灘源附近。
圖5采樣選取了部分人群,示意他們的運(yùn)動方向。圖中,每個箭頭代表一名行人,箭頭的顏色及指向表示其前進(jìn)方向。圖5(3)可以看出,跨年當(dāng)晚人群從 南京東路流向陳毅廣場,導(dǎo)致在晚上21點左右,陳毅廣場的人流量達(dá)到一個峰值(圖3)。而之后,更多的人群開始從陳毅廣場沿著中山東一路流向北部的外灘 源,也就是事發(fā)當(dāng)天燈光秀所在地。
我們進(jìn)一步對圖5中外灘區(qū)域的人流進(jìn)行量化分析,得到了圖6所示的人群流動方向分布圖。圖6中每一扇形分區(qū)代表不同的人流方向,扇區(qū)半徑表示該方向 人流量大小。圖6(1-2)分別表示中秋和國慶當(dāng)晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖6(3)顯示了跨 年當(dāng)晚的外灘區(qū)域的人流方向。除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。
針對產(chǎn)生復(fù)雜人群流動方向的原因,有專家這樣推測,中秋節(jié)、國慶節(jié)游客只是單純的外灘游覽;而在跨年當(dāng)晚,很多游客是為了去觀看燈光秀,但是到了陳 毅廣場后才發(fā)現(xiàn)燈光秀地點更改(往年都在陳毅廣場,今年更改為外灘源)。從百度搜索關(guān)鍵詞分析里面也看到這一趨勢。當(dāng)晚23:20左右,搜索“燈光秀取消 了么”和“燈光秀門票”的關(guān)鍵詞的數(shù)量急劇增加(圖7)。
圖7 搜索“燈光秀取消了么”和“燈光秀門票”的關(guān)鍵詞指數(shù)
從手機(jī)地圖使用習(xí)慣來看,游客去目的地前,一般都會提前利用地圖搜索目的地和規(guī)劃路線,燈光秀地點在外灘源,那么用戶應(yīng)該會搜索“外灘源”并規(guī)劃路 徑。我們研究了當(dāng)晚游客到底在什么位置通過百度地圖搜索“外灘源”,發(fā)現(xiàn)大部分都集中在外灘附近(圖8中紅色區(qū)域),這從某種程度上就說明用戶原本不知道 燈光秀更改為外灘源,到了外灘以后才發(fā)現(xiàn)改了地方,所以才掏出手機(jī)進(jìn)行地圖搜索。
圖8 以“外灘源”為目標(biāo)的地圖搜索發(fā)起點熱力圖
三、群體聚集是突發(fā)情況,可以預(yù)警嗎?
我國人口眾多,重大文體活動、節(jié)假日集會等活動中,容易出現(xiàn)因人群過度擁擠而引發(fā)的危險乃至事故。那么是否可以提前預(yù)測,做到事前預(yù)警呢?大數(shù)據(jù)實驗室對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行了深度挖掘,探索預(yù)警的可能性。
圖9 外灘地圖搜索與人群匯聚情況趨勢圖
圖9代表2014年12月25日至31日,外灘地圖搜索請求與人群匯聚情況的歷史趨勢。從兩條曲線經(jīng)過標(biāo)準(zhǔn)化和對齊后的走勢中,我們不難看出他們基本一致的漲落趨勢。平時,外灘的地圖搜索和人群匯聚程度基本穩(wěn)定,但在2014年的最后一天,兩者都達(dá)到了最高峰。
圖10 外灘地圖搜索請求與人員到達(dá)數(shù)量相關(guān)性分析
通過對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘。進(jìn)一步對2014年12月31日的地圖搜索請求與人員到達(dá)數(shù)量進(jìn)行相關(guān)性分析。由圖10得到,在百度地圖 中,相關(guān)地點的請求數(shù)據(jù)和實際到達(dá)該地點人群數(shù)量具有極高的相關(guān)性,相關(guān)系數(shù)超過0.9(越接近1,說明越相關(guān))。這表明,用戶去目的地前,一般都會提前 利用百度地圖搜索地點和規(guī)劃路線。為了挖掘用戶的時間提前量,包括外灘跨年時的數(shù)據(jù),大數(shù)據(jù)實驗室又對大量歷史群體聚集場合的數(shù)據(jù)進(jìn)行進(jìn)一步的分析,包括 鳥巢足球賽等。
通過對大量歷史數(shù)據(jù)分析發(fā)現(xiàn),相關(guān)地點的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現(xiàn)(可參見圖9)。在圖11中我們給出了搜索量和人群數(shù)量之 間的互相關(guān)性相對于時延的變化曲線,其中X軸的值為時延量,負(fù)值即表示提前量,例如-10對上去曲線的值,就是提前10小時的搜索量與人群數(shù)量的相關(guān)性。 圖中可以發(fā)現(xiàn),兩個量的互相關(guān)性曲線在-1.5小時的時候達(dá)到了峰值,這意味著,根據(jù)地圖上相關(guān)地點搜索的請求量,我們至少可能提前幾十分鐘預(yù)測出人流量 峰值的到來。