美國人使用的地圖服務非常精良。在網上鍵入“漢堡王”幾個字,谷歌就可以提供附近十幾個漢堡王餐廳的信息,每一個都有精確的經度和緯度數據。
但在世界上很多其他地方,并沒有這樣的地圖可用。雖然這些國家可能開展了普查工作,但可能只有縣一級或者省一級的數據可用,不會詳細到街道。
就拿人口數據來舉例吧,現在全世界有74億人口。他們生活在人口密集的城市中心,或者居住在農場分隔的小城鎮中,或者住在叢林邊緣。但是其中有很多人口,沒人知道他們究竟住在哪里。
現在,Facebook表示,它已經20億人制作出了不錯的人口地圖,效果超過以往任何的項目。該公司的連接實驗室(Connectivity Labs) 本周宣布,它制作了20個國家(其中大部分是發展中國家)的高分辨率人口分布圖。但是要到今年晚些時候,它才會發布這些地圖中的絕大部分。不過,如果這些地圖真的準確,它們就會是大多數國家有史以來質量最好的人口地圖。
這些地圖值得注意的另一個原因是:如果它們很準確,就會宣告一個新的人工智能輔助時代的到來。
人口地圖的重要性
在富裕國家,可靠的人口信息被視為是理所當然的事情。
人口分布圖在不同領域有幾十種應用。城市規劃者需要用它來估計城市密度,以便規劃和改善道路狀況。流行病學和公共衛生工作者使用它來跟蹤疫情或分析人們獲得衛生醫療服務的狀況。如果有災難發生,人口地圖都可以用來確定應該優先考慮為哪些地方提供緊急援助。
Facebook對這種數據的興趣存在利潤上的原因。全球大約有40億人還沒有使用Facebook,這事關該公司的未來發展前景,所以它對地圖的興趣,有基礎設施方面的原因。該公司想知道,對于這些地方的人,用哪種方法上網最好:使用光纖,還是無人機、衛星或高空氣球?
這就是Facebook為什么會選擇這些國家的部分原因:在這些國家的一些農村地區,人們仍然無法上網。一共有20個國家,包括尼日利亞、肯尼亞、烏干達、土耳其、烏克蘭、烏茲別克斯坦和印度。隨便說一句,Facebook的Free Basics 產品剛剛在印度被潑了一瓢涼水。Free Basics和連接實驗室都隸屬于Internet.org,這個組織的目標是擴大網絡以及Facebook服務的覆蓋范圍。
Facebook的方法很簡單?
但是,在所有這20個國家,Facebook是怎么做出更好的人口地圖,超越了當地政府水平的呢?他們又沒有像谷歌街景車那樣到處轉悠。答案就在于Facebook擁有極為可觀的計算能力。
這些地圖其實是這么制作的:首先,Facebook的連接實驗室要拿到當前最優質的世界人口信息,這是哥倫比亞大學(Columbia University)提供的一個數據集,被稱為“全球人口網格”(Gridded Population of the World)。它綜合了各地的人口普查數據,調整到相同的年份。雖然它是全世界目前最優質的人口地圖,但它的分辨率不怎么高: Facebook表示,一個網格可以代表城市地區的幾平方公里,也可以代表農村地區的幾萬平方公里。
然后,Facebook又從DigitalGlobe公司購買了大量的高分辨率衛星圖像。目前太空中大部分私人的高分辨率地球觀測衛星都是由這家公司經營的。當你在谷歌地圖上看自己的房子時,你通常是(但并不總是)通過DigitalGlobe公司的四個軌道鏡頭之一看到的。
DigitalGlobe公司的圖像大多數屬于“小度量的”,也就是說,網格的一條邊不是數百公里,而是50厘米。 Facebook的開發人員訓練該公司的神經網絡算法,讓它識別在這些數據中,一棟建筑物從上面看起來是什么樣子。然后開始進行識別。該軟件根據它能看到的建筑物數量來估計城市人口密度,并且進行推算,把當前最佳人口數據分配到居住區中。
“他們設定了一個相當基本的假設:如果看見到一棟建筑物,必定就有人在那里,”哥倫比亞大學地球科學家說羅伯特·陳說。他是Facebook所使用的基礎數據集“全球人口網格”團隊的主管。
你可能覺得這種方式聽上去很簡單,其實它本來就這么簡單。它僅僅需要訪問神經學習軟件,需要耗用大量計算能力。 Facebook估計它分析了20個國家的2160萬平方公里土地,“為此,我們用神經網絡處理了146億張圖像;這是Facebook每天分析的所有圖像數量的十倍多”。
羅伯特·陳警告說,Facebook的數據不能被用來計算和當地居民有關的城市密度。但是,“你可以想見,在其他很多情況下,這些數據有多么寶貴,”他說。
Facebook還沒有發布這些地圖的最終版本。它說,最終版本將在今年夏天發布。在發布之前,羅伯特·陳的團隊將對它的準確性進行判定。雖然Facebook的早期結果令人鼓舞,他羅伯特·陳說,他仍然不知道這項技術會有多么精確,也不知道適用性是否廣泛。 “我們只看到了它的部分狀況,”他說,但是,如果該技術的效果令人滿意,Facebook的這個項目就會新增另外6個國家。
一個重大勝利?
如果事實證明這些數據很有用,那么連接實驗室的成功就會標志著一個重大勝利的到來,因為長期以來,開發人員在使用衛星數據時一直面臨著一個阻礙:用算法解釋圖像。
在未來的五年里,硅谷投資的衛星公司將向公眾發布大量影像,遠遠超過以前的水平。這些影像的成本會比以往任何時候都更加便宜,而且也更加“新鮮”:由于衛星制造上的進步,以及火箭成本的下降,一些公司承諾提供每周六、七次的重訪問率(revisit rates)。
如果公司——尤其是金融公司——學不會如何用機器破譯這種新的數據,它們就不會有什么價值。公司必須懂得如何從影像中抽取信息,而不需要人員坐在桌子旁埋頭苦干,目前,像Skybox(屬于Alphabet集團)和笛卡爾實驗室(Descartes Labs)這樣的初創公司表示,他們已經在這方面取得了一些進步。如果Facebook制作的地圖真的成功了,那么這個目標的可行性就會獲得進一步的證實。