還記得去年任天堂推出的,火遍全球的游戲Pokemongo(編注:中文譯作精靈寶可夢)嗎?
2016年7中旬,為了抓住一只珍惜的數碼寶貝,大量游戲玩家不約而同地涌向了美國紐約的中央公園。這種無法提前預知的人流涌入,給紐約中央公園的交通造成了極大的壓力。同時,人流擁堵也極有可能發生踩踏事件。
對于城市管理者來說,如果能提前預知城市的人流動向,并及時做出疏導,會大大減少發生交通擁堵、踩踏等公眾事件的可能性。現在基于云計算、大數據和人工智能的應用,科學家建立了預測人流的智能模型。
微軟亞洲研究院主管研究院員鄭宇和他的同事將上述研究寫成了論文。這篇名為《DeepSpatio-Temporal Residual Networks for Citywide Crowd Flows Prediction》的論文,在今年2月份舉行的世界人工智能頂級大會AAAI上發表。
“利用大數據和人工智能來做人流量預測,這個想法我在2015年的時候提到過,當時還發了條微博,覺得可以做。現在這個研究也算是兌現了自己當年的承諾”鄭宇在采訪中告訴記者。
人流量預測系統已在貴陽落地試驗
盡管論文今年才正式對外發表,但微軟亞洲研究院推行的人流量預測系統去年已經在貴州省貴陽市落地實驗。
據鄭宇介紹,微軟亞洲研究院以貴陽出租車的實時數據作為樣本,基于云計算、大數據和人工智能做了實時的人流量預測系統。系統把城市劃成一公里乘一公里的格子,預測每個格子里面未來會有多少出租車的進和出。
每個格子顏色不同,代表了不同的信息。每點一個格子會跳出一個圖表,能清楚知道整個城市某區域人群流動接下來十幾個小時會呈現什么狀態。黑色曲線表示的是已經發生過的出租車進出情況,綠色代表未來的人流情況,藍色表示昨天同一時間的情況。
貴陽市實時人流量預測系統。
除了出租車的數據外,手機信號、地鐵刷卡記錄等,未來都可以通過該系統模型進行運算,得到某地將有多少人進和出的結果,并預測到未來十幾個小時的城市人流情況。
“現在貴陽市的數據是實時輸入的,這個系統是真實在運轉的。我們希望能夠預測整個城市,每一個區域里面在未來這個時刻會有多少人進,以及多少人出。所以我們并不是預測每個人的線路,而我們關心的是最后每個區域里面會有多少人。現在,這個模型預測未來十幾個小時的人流情況不是問題。更關鍵的是未來3-5個小時的人流情況,這段時間對于城市管理者的決策影響關鍵。但要準確預測也面臨許多的困難。”鄭宇說。
據澎湃新聞了解,2016年,貴陽大數據成為中國的大數據示范基地。微軟亞洲研究院與貴陽市成立了聯合實驗室——“塊數據實驗室”,上述的實時監測系統就是這個實驗室的一個成果部署。
北京的出租車和紐約的自行車
除了用貴陽出租車的實時數據進行驗證外,鄭宇在其論文中還用了北京的出租車數據和紐約的自行車租賃數據進行了驗證。
其中,分別用了4年的北京市出租車GPS軌跡數據和1年的紐約自行車租賃數據,對自己提出的模型進行了驗證,證實了時空深度殘差網絡預測人流的準確性。
未來,城市管理者可以根據這個模型預測人流動向,提早做好管控。例如,政府部門若能提前知道未來的某個時刻,天安門附近會有大量人流涌入,就可以提前從人流源頭給予出行提示。
更重要的一點是,這個模型能精準預測某一個區域內,一個具體時間點的人流量。舉例來說,政府部門知道某一慶典的舉辦時間,也已經預估到屆時會有大量人流涌入舉辦區域,但如果沒有精準的時間和人流數量,仍無法合理地安排保障人員和相應的疏導措施。
“對于出行的人來說,如果他們已經到達目的地,再對他們提出警告、進行限制是相對困難的;但如果你能在他們出行前就告知目的地的擁擠情況,例如在地鐵站和附近的廣告牌上給出提醒,那么他們另選出行目的的概率才會增加。”鄭宇說。
值得一提的是,據鄭宇透露,人流量預測僅是該模型的應用案例之一。這個預測模型未來還可以用在物流和車輛調度等系統上。例如,可以幫助解決惡劣環境下,出租車打車困難的問題。
建立人流量預測模型的挑戰
那么這個人流量預測模型是如何利用大數據、云計算和人工智能做到的?
據鄭宇介紹,按照此前的方式,預測人流通常采取預測個人行為的方法,即只要統計某個區域里的每個人從哪來去哪里,就能測算出該區域有多少人進、多少人出。但這樣的統計本身有很大的障礙,準確性很難保證,并且涉及隱私。
除此之外,相比其他數據,對人流數據的模擬和驗證更加困難,因為會受到以下三個因素的影響。
首先,一旦某個城市有大事件發生,很多人會從很遠的地方通過各種交通方式前往(比如地鐵、高速公路),而并不一定經過事件發生地的周邊區域進入。因此人流的計算不僅取決于周邊還取決更遠的區域有多少人進出。簡單說就是,人流會受區域之間的相互關系影響。
第二,人流的進出是時空數據,即要考慮到人的空間屬性,還要考慮到時間屬性。舉例來說,當你準備去天安門參觀時,既要考慮你的位置變化,還要考慮到你的出行時間。
第三,人流量預測還會受到一些外部因素的影響,比如天氣、重大事件、節假日等。
這樣一來,傳統方法,例如一些基于物理學模型、交通動力學模型或是土木工程的經典模型,都無法應對大規模的人流量預測。
應對上訴的困難,鄭宇使用的解決方法并不是傳統的深度學習方法,而是時空深度殘差網絡。
“把收到的人流數據,不論是手機信號還是出租車軌跡,投射到劃好的城市網格上。這一步還是容易做到的。最重要的是有了數據后,并不能用現有的深度學習來做。因為我們需要輸入最近幾小時、最近這幾幀的數據,通過深度殘差網絡來模擬相鄰時刻人流的變化”鄭宇說。
舉例來說,某個地鐵站的人流量預測。通過時空深度殘差網絡,輸入相鄰時刻的人流數據,可以模擬人流變化的平滑過程;輸入每天同一時刻的人流數據,可以模擬人流變化的周期性;輸入各個月的人流數據,可以模擬人流變化的趨勢。
此外,鄭宇的研究還將各個區域的相關性利用卷積神經網絡并入融合,最后再加入外部因素,做第二次融合,從而得到結果。
之所以不用傳統的深度學習進行融合是因為,如果希望數據里面包含周期性和趨勢性,那就意味著輸入的數據必須很長。如果只用最近兩個小時的數據作為輸入,則不可能里面體現周期性,也不可能體現趨勢性。這樣一來,用傳統深度學習方法,這個模型會做得非常大、非常復雜,最后變得很難訓練,效果也不好。
相對地,鄭宇的模型只抽取一些關鍵幀,這樣的話,只要用幾十幀的關鍵幀作為輸入,就可以體現出幾個月里面所包含的周期性和趨勢性,使得網絡結構大大簡化,但是訓練的質量和效果也提高了。
“以前做很多研究,都是深度學習在計算機視覺、圖像和自然語言處理等方面的應用,很少看到有在時空數據上的應用。這篇論文可以認為是(在國際知名學術會議上)真正把深度學習有效用在時空數據上的第一個研究成果,有重大的歷史意義。”鄭宇告訴記者。