當前位置：大數據 → 業界動態 → 正文

用大數據給城市畫像

責任編輯：editor005 |來源：企業網D1Net 2014-11-04 15:16:16 本文摘自：36大數據

城市的美，或許隱藏在市井小巷里，或許呈現在深夜高架兩旁的霓虹之間……無論你用哪種角度來看城市，所有的細節其實都隱藏在數字里。

城市印象

Managershare：對于描繪城市，畫像或者漫畫，是一種更形象的方法。我們可以使用各種有趣的類比，來構建更震撼的效果。城市，真的很美。

導論

源自城市的豐富數據可以讓我們了解人們怎樣組織起來，無論組織的規模有多大。可視化城市話語提供了種種方法，有抽象的，也有直觀的、形象的。在本章中，我們使用一種不那么抽象、不那么簡單的方式來處理可視化城市問題。我們超越了科學的可視化的處理方式，轉而投向我們稱為具體的可視化方法。通過這種方式，我們退一步來審視可視化必須以抽象直接的方式呈現數據這種理念。通過一種形象的方法，我們把圖像與漫畫引入到了數據的國度，使用可視化的隱喻，引入變形的視覺效果，來強調數據的某些特定方面。這使得我們能夠使用有趣的類比，構建視覺效果，來向學術圈外的一般大眾傳達城市的本質特征。

這篇文章將描述了兩個可視化的案例，既有抽象方法的案例，也有具體方法的案例，但是沒有涉及具體的技術細節，而是試圖用一種可信的話語，使用圖像與漫畫的方式，在可視化數據的語境中，把這些呈現出來。

可視化的具體方法

信息可視化是一個跨學科的領域，涉及平面設計、人機交互、計算機圖像學以及數據挖掘。這個學科的目的是為廣大受眾綜合大量的數據，從數據中提煉并澄清信息。這里所說的具體方法，分為相片、圖像、漫畫以及扭曲等方法，從而得以描述可視化的不同方式。這種分類學背后的概念是著作權（譯注：根據上下文，此處當指數據的原創程度）。我們認為著作權的內涵是可變的，隨著圖像的創造者對數據進行可視化的角度而變化。著作權在當代的可視化信息中名目繁多，這些可視化信息大多從屬于“信息技術”（information art）這個術語，并且也深植于科學可視化之中。值得注意的是，當可視化制圖的目的并不是單純地分析數據的時候，可視化常常被視為對真相的歪曲，在學術性的可視化語境中尤其如此。雖然在這是一個簡潔的視角下的合理論述，對于數據的漫畫化在概念上就是不可避免的。正如費爾南達·維格斯指出的：“傳統的視覺分析工具盡量減少對信息的歪曲，因為這可能會干擾冷靜的分析。有沒有可能，這種盡量減少視角（帶來的偏差）的方式已經誤入歧途？首先，創造一個真正不偏不倚的視圖在總體上而言是不可能的。正如我們不改變空間距離，就無法繪制地球的表面圖。

考慮到著作權在數據可視化領域在某種程度上總是存在的，我們的分類學主要以四種方式處理數據可視化問題，這四種方式的著作權等級是按升序排列的：相片、圖像、漫畫以及扭曲。但是著作權并不是描述這些概念、使這些概念具有連續性的唯一方式。這種具體的方法重點在于，可視化并不是必須借助抽象的美學，而可以傳遞強烈的視覺隱喻，也可以在溝通語言中強調某些數據的特征。由于信息可視化是數據可視化領域的一個領域，數據可視化涵蓋了科學可視化，可以說也涵蓋了藝術可視化，因而這種看似不科學的分類學方法描述出了可視化領域內從更科學的一端到更藝術的一端的譜系。

數據相片

在我們的分類法中，相片是對一個數據集的最直接的復制——這是一種最接近一對一映射的數據模型。這一概念指的是李維·馬諾維（Lev Manovich，2011）在既沒有還原也沒有直接制圖的情況下進行的可視化。直接制圖保留了數據的特征，而非通過雅克·貝爾坦（Jacques Bertin,1967）的位置、大小、價值、質地、顏色、方向和形式等視覺變量，將映射數據轉化為一種抽象的象征。數據集中的文本在表象空間中仍舊是文本，圖像仍舊是圖像，語言仍舊是語言，如此等等。這樣做不會侵犯著作權，因為可以從不同的角度拍攝相片，可以忠實地表現照片的主題，同時又保留照片的每一特征，在本文所說的情況下，也就是保留了數據的特征。

數據肖像

在數據肖像中，作者通過反復的視覺隱喻，起到了比在照片中更加重要的作用。這里的視覺隱喻不僅僅是裝飾性的視覺原素，不是愛德華塔夫特（Edward Tufte，1983）稱為“圖表垃圾”的東西，而是圖形的詳細內容，其語義學內涵接近數據集和作者所要傳遞的信息。這些語義學隱喻和唐娜·考克斯（Donna Cox，2006）所說的“visaphor”含義最為接近，它們都意味著依賴于主觀解釋的近似數據。語義學上的視覺隱喻是在數據中以及直接映射中存在某些特征的具體證據。這些證據在圖像層面得到了闡釋，因而帶來了不那么抽象的、更明快、更自然、更具表現力的作品。

此外，視覺隱喻具有新穎性和獨特性，這些特點是深植于我們的文化之中的，然而現在我們失去了這些特征。例如，餅圖是1801年威廉·費爾坡萊（William Playfair）發明的（費爾坡萊，統計摘要，對歐洲各王國的資源情況說明<倫敦，1801>）。這曾經是一種新穎的辦法，隨著使用的普遍化變得不再新鮮。餅圖傳達出一種細致的視覺隱喻，表示出一個整體的一部分。

數據漫畫

我們把數據漫畫當做數據肖像的一種擴展形式，因為它們也利用語義學上的視覺隱喻。但是數據漫畫也有自己的獨有特征，如下所述。

通常認為，漫畫是一個主題的形象化，通過夸大某些突出特征，來達到提高辨識度的目的。（Redman，1984）。這種所謂的辨識度是所謂的“峰位轉移效應”的結果。一個習慣于表象r的個體，在看到與之相似的表象b的時候，b和r的差別越大，個體的反應就越強烈（Ramachandran和Hirstein，1999）。這樣的一個參考模型r是漫畫的核心部分，無論在精神上還是物質上，它總是存在的。

漫畫概念在數據可視化語境中有一定的限制。正如我們解釋過的，漫畫基于心理上的圖像給出的參照。這樣的一種參照在數據可視化領域并不是理所當然的，因為即使是最直接的可視化也會給原來的非可視化數據帶來一種新形式。因而，漫畫在可視化語境中的應用取決于漫畫所表象的參考模型的相似性，從而可以比較其不同。

如上所述，漫畫與夸張和辨識度的概念是聯系在一起的。在與數據有關的語境下，夸張意味著增加某個特定角度的權重，減少其他角度的權重。除了彼得·雷泰（Peter Rautek等人，2006）的著作中所指出的放大數據差異的那種方式之外，這在其他好幾個方面都是可以以圖形方式實現的。這會造成數據資料形式、位置、大小、顏色的視覺要素的扭曲。辨識度在數據的語境中，意味著對數據意圖的說明，對來自數據的信息加以強調。雖然數據漫畫和數據照片以及數據肖像相比，這種形式未必是最優越的，我們仍然認為這是一種可視化的解決方案。總之，數據漫畫是一種可視化的模型，這種模型用圖像的方式對數據維度加以扭曲表現，用以強調同樣的數據維度，或是其他數據維度。

很明顯，漫畫的方法之一，是通過地理位置的變形，來實現數據可視化的。這一方法自19世紀以來一直應用在統計圖上。變形的統計地圖是為了表現其他的數據維度。例如，世界地圖上的面積統計圖會根據人口或是GDP適當變形。這一方法被丹尼爾·道靈（Daniel Dorling）所簡化，著名的例子就是《道靈統計圖》。這種統計圖不會保留地理對象的形狀，而是常常用與映射成正比的圓圈的大小來表示。盡管簡化了地理對象的形狀，道靈已經被證明是非常有效的。這些方法的漫畫性質在于強調某些數據維度（比如人口），弱化地理地圖維度。這種地圖是一種可供參考的模型，或者完全是被表現出來的，或者是一種精神上的建構。

數據殘缺

數據漫畫引入對數據的變形來表現數據，當這樣的扭曲超過某個程度，就會導致數據殘缺。殘缺的數據過分強調了某些特定數據，以至于傳達了某些關于數據的錯誤信息。它們顛覆了某些視覺隱喻的語義學內涵，破壞了可視化的澄清作用，產生了難以理解的制圖。然而夸張的變形給了創造更多的空間，產生了更加令人難忘的制圖作品。

城市的形象可視化

我們的案例研究以直觀的、形象的方式實現了對里斯本和新加坡的城市交通系統的可視化。里斯本的數據集（數據由葡萄牙CityMotion項目/麻省理工大學提供，可視化的項目也得到了PTDC/EIA-EIA/108785/2008世界協作組織的支持，來優化移動性）包括了對城市中車輛在一個月內的GPS定位，記錄了車輛位置與當前速度的信號。新加坡的數據集包括乘客的上下車信息（所謂的登入與登出），以及在一周以上的時間里在新加坡城中分別花了多少交通費。（數據由新加坡陸路交通管理局提供。可視化項目源自實時新加坡！項目，此項目由麻省理工大學的可感城市實驗室以及SMART的Kristian Kloeckl負責。）

里斯本的相片

里斯本的數據集的時空精度不允許我們用可視化的方式分別描述每一天的交通模式的明確數據。因而，我們把信息壓縮到單獨的虛擬日之中，對每秒的數據進行分組，并通過動畫加以展示。為了讓交通的時間模式變得更加明顯，每輛車都用一個小白點表示，在虛擬時間中會在30分鐘內留下痕跡。相應的痕跡幾乎是透明的，并根據車輛的速度涂上顏色。這些顏色的范圍是有限的，紅色和橙色表示速度放緩，綠色表示50公里/小時，青色表示更高的速度。這些軌跡往往在視覺方面不斷重疊堆積，形成隆起的線條，這些線條在色塊和透明的區域出現，它們（通過厚度和透明度）代表了交通的密度，（通過色彩）表示當時的平均速度。例如，狹窄的街道上的線條往往是薄薄的紅色，而高速公路上的線條往往是厚厚的綠色。橫跨里斯本的高速公路的顏色在交通高峰期會變成偏黃的色調。

對某個數據集的可視化通常涉及到在下面所說的系統中尋找問題：在里斯本的數據集中，那些擁擠的地區是最明顯的特征。為了強調這些特征，我們添加了另外的視覺要素，將那些每30分鐘就有一輛車經過的地區用很低的透明度表示。我們通過封閉回路、連接起點和終點來標明這些覆蓋區域；透明度越高，顏色越接近橙色和紅色，車速就越低（車速接近綠色，表明這個車速幾乎是透明的。）在白天用圖來表現這些區域是最大的問題，問題是要讓人們更容易看到這些，而不是僅僅使用一些有色的線條來勾畫這些區域——這是一個出名的難題。例如，在白天，表示市中心的線條要如何保持高亮度，城市周邊地區如何在其他地區之前進入活躍狀態。這不僅僅要引導觀眾的注意力，還要在制圖中加入視覺要素，使其變得更加細致、更引入注目（見圖1）。所有半透明的疊加線條與形狀，使得從具體的數據要點中提取視覺要素變得不太可能，如某輛車的瞬時速度。但是這是一種直觀的表現，數據的一種照片形式，并且它提供了一天之內里斯本交通進程的整體圖片。

由于制圖要非常細致，因而必須離線制作，之后被組合為一個動畫。然而，有時制作實時的可視化圖片也是有利的，讓我們有機會在出現問題的時候及時發現這些問題。以下這些在新加坡的項目表現出這樣的用意。

數據城市

　　點擊可放大

1）頂部：上午9點鐘里斯本在高峰期的交通照片。底部：白天的城市進程：不同的區域亮度，車流用不同的顏色表示。

新加坡的相片

新加坡的公交網絡數據集描述了公交車站的情況，但沒有提供車站與車站之間的軌跡信息。盡管如此，我們認為描述這樣的軌跡可以提供更加實際的制圖，并且也是一個有趣的可視化挑戰：表現出公交交通網絡，而不僅僅表現出在車站公交車。為了達到這個目的，我們把公交車看做是被編好程序的自動設備，僅僅對一個模擬相應輸入環境（反應主體），也就是數據構成的環境做出響應。這也使得另一個目標成為可能：創建一個交互性的可視制圖，在執行的時候能夠運行，使得應用技術的結果能夠迅速可視化。

每輛公交車，作為一個主體，只知道它下一站在哪里、到達時間以及當前的模擬時間。在執行時間內，數據被注入到模擬環境中，將每輛相應的汽車加以重新定向。每輛汽車都對下一站的情況進行緩沖，負責檢索什么時候才能到下一站，什么時候能從下一站駛出。只需要知道到達時間、下一站的情況、現在的位置以及現在的時間，公交車就能開往下一站了。可以用許多方法來建構每輛車在車站之間的運動模型：第一種方法是使用非線性運動，隨著這輛公交車到達下一站的時間而變化。這種方法的名字叫做“懶惰的巴士”，因為這些公交車盡管知道某個時間要停在某個車站，只要慢慢開車就可以了，但是當時間緊的時候就開得快。（兩個車站之間的距離與到站時間的平方成反比。）

除了對公交車的行程進行肖像般的描述之外，描述擁擠時的情況也很有趣。公交車站的密度在可視化背景上的密度比較高，這不允許在同一時間標注每個車站。在地理上，聚類算法被用來選出那些在同一時間內，有N輛車停留的最擁擠的車站。我們的算法（Ester等人，1996；Finkel和Bentley等人，1974）能夠在大量數據被使用的時候在執行時間內表現良好。第一個聚類算法的結果以及“懶惰公交車”的行為模式如圖2所示。小小的灰色十字代表所有的公交車站，三角形代表公交車，三角形指示著當前公交車的運行方向。只有與那一瞬間的公交車聚類相對應的車站被標記了出來。

城市數據

　　點擊可放大

2）在搜素半徑44米之內聚類算法的結果，每個聚類至少有5輛公交車

里斯本的漫畫

為了繪制里斯本數據集的漫畫，我們首先必須從其肖像上著手，從而進行視覺上的隱喻。我們觀察到的城市系統的行為是非常復雜的，但是這些行為通過形狀、正常的活動周期都有各自的位置，因而任何異常的活躍都可以得到診斷。根據這種說法，并且也根據作者的審美偏好，可以繪制出里斯本的交通情況的肖像，建立血管般的（交通）網絡，使用循環系統來對有機體的隱喻進行探索。

計算的結構，即能夠保留形式的“骨架”是有彈性的，這種結構是為里斯本的每條主要干道設計的。當道路交叉、并且在運行時相互影響其他臨近區域的時候，這些骨骼就連接在一起。這使得城市能夠根據交通動脈來改變其形態。彈性裝置能夠隨著某些在受到作用力的時候產生的反作用力而改變形狀。如果這些數據的變化就是作用于那些彈簧上的力，那么我們就可以實現在城市形態之間的平滑轉換，當這些作用力平息的時候，也能夠自然地回到初始形態。這些形態的變化通過與普通的地理映射進行對比（也就是我們所說的漫畫，即參考模型），轉化了城市中實際的感知距離。這種類型的映射是一個典型的可視化漫畫，因為它是一種有關距離的漫畫——這種漫畫以距離統計圖的形式出現是比較常見的，從一個精確定義的原點在旅途時間的函數中對地理距離進行一對一的映射。在我們所說的情況下，是想要呈現旅行時間如何與城市主動脈相關聯，同時如何改變這些距離，如何改變城市的整體形態。

我們正在處理一個相當復雜的彈性的物理系統。如前所述，每個彈性裝置都能夠根據數據擴大或者縮小，在我們所處理的情況中，每個彈性裝置又與其他的彈性裝置相聯系，形成一個骨架。因而，每個彈性裝置不能自由改變其形態，它還同時被其他彈性裝置和數據所影響。經常有許多相反的作用力作用于相同的彈性裝置，這里存在著很高的風險——當骨架無法辨認出城市圖像的時候，就會崩潰，進而產生有缺陷的圖像。因而，我們必須確保其暫時的穩定性，來減弱那些小變化，給系統時間來適應新變化，來避免崩潰的發生。這樣，數據被均分在一天當中，每隔10分鐘僅僅出現一個小時的聚合，從而來對系統產生影響，制造可視化效果（如，從3:20到4:20，再從3:30到4:30，等等）。系統在以下幾個情況下會被激活：車流量變得更大，使得（線條）增厚，車速變高，使得（線條）變長（反之亦然）。我們選擇后面的行為來傳達整個城市感知距離的總體印象。當交通的速度變高的時候，（系統的）這種行為就會減少，當在高峰期城市面臨擁堵問題的時候，這種行為就會增加。“血管”也被標記為相應的顏色：速度越低，顏色越暗，表示循環變慢、血流停滯（參見圖3）。車輛的可視化會帶來天然的美學制圖，它是天生的視覺隱喻，每當高峰期交通擁擠壓力大的時候，就會產生脈動。動脈的壓縮和擴張以及整個城市的漫畫顯示了感知距離以及超出平均速度的交通情況。

大數據城市

　　點擊可放大

在早晨7:04（左）和早晨8:44（右）里斯本的“血管”。這恰好是早高峰之前和之后的兩個時間點。可以觀察到，早高峰開始的時候，里斯本的主干道要負載大量的車流，但是沒有產生交通擁堵的問題，也就是說“血管”是收縮的。上午8:44，血流速度降低，這使得“血管”和整個城市呈擴張狀態。

另一個典型的體現出漫畫風格的技術，是喬治·弗納斯發明的魚眼視角（1986），此后這一技術被應用于繪制地圖（Keahey和Robertson，1996）。這項技術放大我們關注的地理區域，而對外圍地區加以扭曲，以便在背景上保留其他區域。對于統計圖來說，主要的區別在于統計圖的工作方式不同：統計圖在一個維度上進行扭曲（地理維度），是為了強調另一個維度（比如GDP）。而在使用魚眼視角的情況下，同一個維度（地理維度）上出現了扭曲，為的是強調同一個維度內的某些要素（關注的區域）。此外，魚眼視角在使用設備繪制數據肖像的時候也是一個視覺隱喻：它隱喻了放大鏡。

新加坡的數據集漫畫采用了這個方法。我們使用了一個數據鏡頭，從而在不脫離整體語境的情況下，解決展示在街道層面展示每個公交車站的問題。然而，經典魚眼鏡頭的放大倍數無法滿足這種可視化的要求。為了實現這一點，我們發明了一種新型的鏡頭，能夠改變放大鏡的運行方式（通常的做法是在飛機上向半球進行投影來繪制地圖），將之轉變為從飛機上向一個非常扁的橢圓球體進行投影（參見圖4）。

大數據城市

　　點擊可放大

我們設計的數據鏡頭是一個交互式的可視化工具，讓用戶能夠發現不同層次的信息，這些信息可以揭示新加坡公交網絡的更多細節。鏡頭可以在城市交通網拖拽，也可以聚焦在某一組公交站臺。用戶可以修改鏡頭的屬性（位置、大小和縮放級別）來區分不同的公交車站，哪怕車站之間距離很近也可以區分。此外，鏡頭還讓我們能夠在數據集中通過過濾某些類型的信息層次，來發現某些特性：在每個車站分別有哪幾路公交車、每輛車上有多少人、在任意一站每位乘客花費的總費用。用戶可以在這些信息層次之間切換，來探索公交線路、車站、等車時間、載客量和車費之間的聯系。

這一裝置可以帶來更多有趣的瀏覽空間，用戶可以把界面引導到一簇點中，順暢地瀏覽并理解其每個組成部分。

評論

數據漫畫旨在使用藝術可視化的做法，通過平衡科學的客觀性與對科學可視化進行描述，推進當代信息可視化的邊界。這種平衡通過以明確的意圖設計的方法，繪制有關數據的漫畫得以維持——它能夠有效地與觀眾溝通。

數據漫畫用隱喻的方法，此外還包括照片、肖像、漫畫、有缺陷的可視化等方式得以形成。照片主要關于直接的映射或者可視化，并不包括任何縮減。肖像和照片不同，它引入了強烈的視覺隱喻。視覺隱喻有語義學上的意圖，構成了數據的某些特征以及直接映射的比喻性的證據。這樣的證據在地理層面得到了闡釋，帶來了不那么抽象、因而更具表現力的制圖。數據漫畫擁抱了視覺隱喻的概念，用夸張來對其加以延伸，以強調數據的某些方面。這樣的夸張可以通過引入粗糙的變形——也就是有缺陷的數據。

我們把漫畫的概念應用于城市的可視化。我們相信，通過使用一種漫畫式描繪城市的方法，通過傳遞更加具體的信息，可以更貼近觀眾。例如，城市居民對此已經有了某些心理印象——如果我們可以把這個印象和理想模型的表現加以比較，我們就有了一個扭曲的表現形式，這個時候就可以充分利用漫畫。此外，這些扭曲也可以是可視化模型的自然結果，隨著復雜數學問題的近似策略而產生。比如在我們的工作中，代理或者是物理模型，能夠順利地適應數據，這些模型比那些迅速做出反應的模型有更廣的適用性，使得我們能夠把它們再用于其他城市，甚至其他類型的數據。事實上，這些模型對于漫畫的方法來說是理想狀態下的，因為根據格雷格·尤德爾曼（Greg Judelman, 2004）的說法，它們更接近自然美學，在解碼復雜情況的可視化語境下得到更經常的運用。比如在自然界中，復雜性是廣泛存在的，在自然的驅動下的系統的應用對于這些城市來說似乎是一種自然的漫畫，描述了不同尺寸的信息，同時又保留了其核心內容。由于這些，我們相信漫畫能夠在信息可視化中起到重要作用，增加效率、進行難忘的交流、表現城市，并且拉近城與人的距離。

關鍵字：視覺隱喻信息可視化