大數據時代產生了大量具有時空標記、能夠描述個體行為的空間大數據,如手機數據、出租車數據、社交媒體數據等。這些數據為人們進一步定量理解社會經濟環境提供了一種新的手段。近年來,計算機科學、地理學和復雜性科學領域的學者基于不同類型數據開展了大量研究,試圖發現海量群體的時空行為模式,并建立合適的解釋性模型。筆者采用“社會感知(social sensing)”概念構建了空間大數據研究框架,指出社會感知就是借助于各類空間大數據研究人類時空間行為特征,進而揭示社會經濟現象的時空分布、聯系及過程的理論和方法。值得一提的是,與強調基于多種傳感設備采集微觀個體行為數據的社會感知計算(socially aware computing)相比,社會感知更加強調群體行為模式以及背后地理空間規律挖掘。
社會感知數據可從三個方面獲取人的時空間行為特征:(1)對地理環境的情感和認知,如基于社交媒體數據獲取人們對于一個場所的感受;(2)在地理空間中的活動和移動,如基于出租車、簽到等數據獲取海量移動軌跡;(3)個體之間的社交關系,如基于手機數據獲取用戶之間的通話聯系信息。由于空間大數據包含了海量人群的時空間行為信息,使得我們可以基于群體的行為特征揭示空間要素的分布格局、空間單元之間的交互以及場所情感與語義(如圖1所示)。空間大數據提供的社會感知手段,第一次為地理學乃至相關人文社會科學研究開啟了一種“由人及地”的研究范式。而“社會感知”這一概念,正是概括描述了空間大數據在相關研究與應用中所提供的數據以及方法上的支撐能力。
本文梳理了近年來針對空間大數據開展的研究,尤其是其中用到的數據分析與模式發現方法。這些方法一方面借鑒了計算機領域的最新進展,另一方面也充分考慮了地理空間的規律和特征。
社會感知分析方法根據社會感知的概念,對于空間大數據的研究可以分為“人”和“地”兩個層面。前者關注人的空間行為模式,以及模式所受到的地理影響;后者則側重于在群體行為模式的基礎上,探討地理環境的相關特征。
個體行為模式分析法
空間大數據可以感知人的三個方面的空間行為模式,如圖1所示。其中,移動是個體層次空間行為最直接的外在表現。由于大數據對于移動軌跡的獲取能力較強,因此目前的研究多集中在移動模式和模型的建立。
動物以及人在空間中移動所展示的規律性是復雜系統領域研究的一個重要議題。每個個體的移動模式可以表示為隨機游走(random walk)模型。通過對動物的移動進行觀察,發現其移動步長和角度的統計分布特征呈現一定的模式,提高了覓食的效率。當移動方向均勻分布,而步長為冪律分布,且指數在1~3之間時,移動為列維飛行模型(Levy flight),如圖2所示。與動物相比,人的出行目的更加多樣化,并且存在一個或者多個頻繁重訪地點,這使得人的移動模式與動物的移動模式存在機理上的差異。在海量個體移動軌跡數據的支持下,我們可以觀察人的移動模式并構建相應的解釋模型。從布羅克曼(Brockmann)等人發表在《自然》上的基于錢幣追蹤數據開展的研究開始,許多學者利用手機、出租車、社交媒體簽到等數據探討了人的移動模式,并且試圖建立解釋性模型。
步長的統計分布是移動性模式表達中的重要元素。對于移動軌跡而言,由于距離衰減,使得長距離出行的概率較低,而短距離出行的概率較高。表征這種分布特征的函數有冪律分布、指數分布、指數截斷的冪律分布等[5~9]。許多學者試圖建立模型以解釋觀察到的人類移動模式。除了距離衰減影響外,解釋移動模式需要考慮的因素還包括地理環境和個體的空間行為特征。其中地理環境因素決定了潛在的個體移動到訪點的空間分布,該分布通常與人口密度分布正相關;而個體的空間行為特征則反映了人們移動中的一些個性化的規律。目前得到較多關注的是個體軌跡中的重訪點,這是人類移動和動物移動存在較大差異的方面。人類移動存在家和工作地等頻繁重訪的地點,具有較高的可預測性[10]。在地理環境分布特征方面,我們通常從城市范圍內及城市間兩個尺度分別探討移動性模式。城市范圍內的移動受到城市用地結構的影響。對于一個城市而言,通常市中心區土地開發強度較大,居民出行的密度相對較高,而在城市邊緣地區,土地利用強度和出行密度都相對較低。這種地理環境分布模式使得城市尺度的移動步長分布尾部不那么“重”[11]。而對于城市間的移動,城市體系中不同規模的城市空間分布同樣影響了觀測到的移動模式。韓(Han,音譯)等人探討了層次城市體系對于人類移動模式的影響,指出人們在低層次城市之間的移動通常要經由高層次城市,從而產生了步長的冪率分布特征[12]。
目前研究所采用的空間大數據多數都是“移動軌跡豐富,活動信息不足”,這使得軌跡背后豐富的語義信息(尤其是出行目的信息)缺失。在交通地理學研究中,出行目的是理解出行移動模式的基礎,不同的出行目的受到空間的約束也不同。一些學者試圖結合軌跡數據、時間約束以及地理環境特征,推斷出行目的,從而達到充實軌跡語義的目的[13,14]。
個體層次的時空間行為除了移動和活動外,社交關系(social ties)也是很重要的要素。利用空間大數據可以揭示社交關系背后的地理影響。這方面的研究主要包括個體地理位置對于個體間社交關系的影響[15,16]以及個體空間移動與社交關系的相互作用[17,18]兩個方向,目的是探求空間距離和時空共現(spatio-temporal co-occurrence)與社交關系之間的量化聯系。
活動時間變化特征分類法不同類型的大數據可以揭示一個區域或城市的活動以及人口分布狀態。大數據的時間標記可以用于解釋人口分布的動態變化特征。這種變化特征往往具有較強的周期性。對于城市研究而言,尤其以日周期變化最為明顯。城市居民在居住地點和工作地點之間的通勤行為產生了相關地理單元人口密度的時變特征(如圖3a)。因此,我們可以基于城市不同區域對應的活動日變化曲線來研究其用地特征和在城市運行中所承載的功能。
利用空間大數據所提取的活動分布特征感知土地利用類別的基本依據是活動量日變化特征對地塊的指示能力。提取特征時通常采用非監督分類方法,最常用的算法有k-平均算法(k-means)聚類、k-中心點算法(k-medoids)聚類等[19~21]。我們經常可以看到相同的土地覆被對應不同的居民活動特征,而外形相近的建筑可能承擔了不同的社會功能,與之相較,利用大數據提取活動分布特征的方法從活動角度更為全面地解讀了城市土地利用情況。在分類過程中,因為功能相同的地塊存在活動強度的差異,如高密度居民區和低密度居民區,盡管人口總量不同,但是其人口密度日變化特征相似,故而在非監督分類過程中,通常需要對活動時變曲線進行歸一化處理。此外,考慮城市居民工作日和周末的不同活動特征,在一些研究中,會將工作日數據和非工作日數據分開處理。由于空間大數據所提取的活動時空分布信息可以處理成與傳統遙感數據相似的形式,因此除了非監督分類外,一些圖像處理方法也可以應用于社會感知數據。圖3b展示了如何從人對于城市空間利用的視角去解讀城市的結構特征。近年來,也有一些研究采用主成分分析以及非負矩陣分解方法,識別一個城市不同區域活動變化的全局和局部變化特征[22~25]。此外,張量(tensor)也是分析時空大數據的有效工具,張量模型的高階(high order)表達能力能夠描述時空數據在時間、空間、個體狀態等多方面的特征。王靜遠等使用張量分析了城市交通節律、社區組團、用地性質等要素之間的聯系[26],范(Fan,音譯)等人對城市時空數據進行了譜分析,研究了不同個體在不同時間、不同地點對于突發災害事件的響應模式[27](如圖4所示)。
場所情感及語義分析法社交媒體(推特、微博等)中包含了大量文本數據,成為語義信息獲取的重要來源。帶有位置的社交媒體數據通常占3%,研究者可以利用這部分數據揭示與地理位置有關的語義信息。目前的研究主要包括三個方向:(1)獲取一個場所的主題詞(圖5a);(2)獲取與場所有關的情感信息(圖5b),如高興還是抑郁[28~30];(3)獲取對于特定事件(如災害[31]、事故[32]、
疾病[33])的響應。由于社交媒體數據是大量用戶自發創建的,分析語義信息及其時空模式有助于政策制定者了解社情民意并制定相關公共政策。在社交媒體文本語義處理中,潛在狄利克雷分配 (Latent Dirichlet Allocation, LDA)模型被廣泛應用,以確定每條信息所表示的主題以及相關的情緒信息。然而,由于社交媒體數據中每條文本存在字數的限制,并且內容隨意性較強,因此如何從中挖掘更加精確的、有意義的信息,尚需進一步研究。
近年來,深度學習技術的發展使得自動提取識別照片語義信息成為可能。一些研究基于對照片共享網站帶有時空標記的圖像進行內容分析,揭示地理環境的特征(圖5c)。
與基于文本的語義信息提取相比,照片語義信息更為客觀且豐富。每張照片反映了拍照者對于場所的感知。周(Zhou,音譯)等人利用在全球不同城市拍攝的照片,研究比較了城市的空間特征,其發現的模式有助于評估城市規劃的效果[34]。考慮到文本和照片不同的表達能力,我們認為結合文本和照片語義信息,能夠全面捕獲一個地理場所給人們帶來的體驗。
在地理學研究中,空間交互(spatial interaction)指的是兩個場所之間的聯系,通常可以基于人流、貨流、資金流等進行量化。研究空間交互有助于理解一個區域內部的結構以及動態演化特征。在空間大數據中,個體的移動軌跡以及個體之間的社交關系都可以在聚集層面量化兩個場所之間的交互強度,前者如兩個城市間的人流總量,后者如兩個城市之間互相關注的好友對數。空間交互強度受到距離衰減效應的影響,距離遠的兩個地理單元間的聯系相對較弱。因此,在地理學研究中,大多基于重力模型來擬合場所之間的交互強度,采用距離的負冪函數(d-β)表示空間阻隔的影響。目前可用的擬合方法有線性規劃法、代數求解法、模擬法等[35~37]。根據重力模型擬合結果,可以通過距離衰減系數β來表征特定空間交互行為中距離衰減效應的大小,即β值越低,距離的影響越小。實證研究表明,對于居民在城市尺度的移動行為,距離衰減系數在1~2之間,而對利用手機、社交媒體等途徑建立的空間交互,距離衰減效應盡管較弱(β<1),但依然存在影響[38]。
利用地理單元之間的空間交互,可以構建嵌入空間的網絡(spatially-embedded network),并引入網絡分析方法研究其結構特征。在該網絡中,通常每個節點為一個地理單元,而邊的權重為地理單元間交互的強度,如圖6a所示,基于空間交互,構建嵌入空間的網絡,從而引入網絡科學分析方法,分析研究區的空間結構特征[47]。在復雜網絡研究中,常見的分析方法是對網絡進行社區發現(community detection)分析,而網絡中的社區由相對聯系更為緊密的節點構成。目前,用于社區發現的算法有Girvan-Newman[39]、Multilevel[40]、Fastgreedy[41]、Infomap[42]和Walktrap[43]等。對于嵌入空間的網絡而言,一個社區往往對應地理空間中聯系相對緊密的區域[44~47]。由于距離衰減效應以及行政區劃的影響,如果僅僅考慮交互強度而不考慮相鄰約束,社區發現的結果通常為空間上連續的區塊,并且往往與行政區劃邊界相一致(圖6b)[48]。
結合傳統空間數據的分析和應用
城市是空間大數據產生最頻繁的區域。因此,空間大數據的應用研究目前主要集中在城市區域。相關的研究領域有交通管理、城市規劃、環境、公共衛生等。在此基礎上,鄭宇等提出了城市計算(urban computing)的概念,利用包括空間大數據在內的城市多源數據進行計算分析,發現并解決城市運行中的問題[49]。
在上述應用中,除了空間大數據外,還要結合傳統空間數據(如城市用地和建筑數據、道路網數據、檢測站點數據等)進行分析。例如,王(Wang,音譯)等人利用舊金山和波士頓地區的手機數據和路網數據,發現了交通擁堵路段的車流來源,并且給出了緩解擁堵的建議[50];鄭(Zheng,音譯)等人利用監測站數據、天氣數據以及交通和人的移動數據,推斷城市的實時精細分辨率空氣質量數據,該結果有助于城市居民規劃戶外活動[51]。由于空間大數據的獲取建立在海量群體的空間行為的基礎上,因此使我們能夠更好地感知人的行為模式及其與地理環境之間的耦合模型。我們認為建立在社會感知基礎上的公共政策制定,更能夠體現“以人為本”的理念,有著廣闊的應用前景。
空間大數據為我們提供了一條透過海量人群的空間行為模式去觀察、理解地理環境特征及影響的研究路徑。社會感知概念的提出正是概括了空間大數據的這種能力。空間大數據的處理,一方面需要有高效的分析方法,一方面需要對人的行為動力學模型和地理環境特征有充分的理解。因此,需要信息科學、復雜性科學、地理學等不同學科以及不同應用領域的學者進行通力合作,才能有效提取空間大數據中所蘊含的信息,并充分體現其應用價值。