前段時間,谷歌為了配合“世界地球日”的主題列舉了一些使用谷歌數據資源進行研究和決策的實例。比如Doodle、“天窗計劃”、通過地圖數據保護老虎等等,這些實例主要得益于Google Maps、Google Earth、Panoramio三大地理類產品和谷歌搜索引擎平臺及大數據分析技術。看到地圖鼻祖對大數據這般玩法,不由讓筆者聯想到我國地理大數據產業。
硅谷與Google大數據生態閉環
Google是硅谷大數據公司四大巨頭之一,說Google是大數據時代的開拓者不為過,Google的大數據技術架構一直都是全球互聯網企業爭相學習和研究的重點。即便是一向以大數據見長的百度地圖在前一陣宣布全球化戰略時,也不得不說不予谷歌競爭。
谷歌構建了這樣的大數據生態閉環:Google大數據架構大致分為數據中心、搜索引擎平臺和大數據分析技術,云服務、智能應用服務。BigQuery 和 GAE(Google App Engine)等 Google 自有業務服務器構建了一個大數據生態圈,程序創建、數據收集、數據處理和數據分析等形成了閉環,這種模式值得我們地信產業學習和思考。
硅谷大數據公司大致被分為四類,數據擁有者、數據源;做大數據咨詢的;做大數據工具的;做整合應用的。對照我國地理信息產業鏈的劃分,上游數據采集、數據制作;中游平臺軟件、數據庫管理;下游行業應用,數據挖掘與咨詢。如此看來,地理大數據的生態體系與硅谷大數據生態體系基本一致,當然,地理數據是任何大數據除自身屬性信息外必然含有的位置信息,這個特殊性不容小覷,不過今天我們主要探討生態模式。
地理數據的“資質”問題
十一年前谷歌地圖問世,同年被視為我國地理信息產業發展的元年,一定程度上說,地圖的發展可以從側面反映地理信息產業鏈的一些情況。到目前Google maps在全球移動地圖市場擁有超過 40% 的市場占有率的產品,它幾乎標示了全球有互聯網覆蓋的每個角落,不幸的是Google maps已被“趕”出中國。在國內Google maps經常打不開,即使打開也會遇到地圖版本過于老舊等低級問題,在國內產品體驗遠遠無法和百度地圖、高德地圖比較。
百度地圖與高度地圖最大的差別在于,百度的地圖數據主要靠買,高德地圖數據以自己采集生產為主。因為百度首先是一家互聯網公司,在2014年才具備甲級測繪資質,而高德是握著“身份證”出生的。這也是為什么百度地圖無論在市場占有率、還是用戶體驗上都一直無法趕超高德地圖的原因。高德多年的老競爭對手四維圖新,同樣具有資質的優勢,在做B端地圖數據服務上有著相同的優越感。
大數據生態圈與地信產業鏈對照
在我國地圖測繪資質具有嚴格的管控,國家地理數據屬于機密數據,這也是谷歌地圖被趕走的原因,某種意義上說我國地理大數據擁有者拼的是資質,對照地理信息產業鏈上游數據采集者來看,硬件銷售的廠商中只有合眾思壯、蒼穹數碼等少數幾家企業具有甲級測繪資質,而中海達、北斗星通等并沒有,南方測繪集團的測繪資質存在于旗下子公司南方數碼科技公司。
這些測繪儀器廠商的產品通常銷售給具有測繪資質的測繪工程單位,因此數據擁有者是這些測量單位而不是硬件提供商本身。如此看來產業鏈上游的硬件供應商并不具有數據優勢,而是輸在了地理大數據產業的起跑線上。
中游平臺軟件廠商對應大數據公司的數據工具生產者,在ESRI、超圖、中地數碼、武大吉奧四家平臺廠商中,除國外軟件提供商ESRI之外,其他三家均具有甲級測繪資質。下游企業以行業應用為主,對應整合應用型的大數據公司。對于他們來說做項目是公司最主要的業務來源,沒有測繪資質將意味著難拿到項目,因此幾乎都有。中下游企業主要業務幾乎與數據采集無關,但這并沒有影響他們的數據來源,更沒有影響數據服務業務,如此看來地理大數據服務活躍于地理信息產業鏈中下游。
通過上中下游企業營收也可以看出一些端倪。中海達、超圖軟件、數字政通三家上市公司分別代表地理信息產業鏈上中下游。中海達2015總營收6.38億,其中90%多為數據采集裝備營收,而數據及行業應用解決方案營收0.63億,不到10%。2015年超圖軟件總營收4.52億,其中包括基礎平臺、應用平臺和項目服務。數字政通2015年6.51億營收都來自應用平臺和項目服務。
把上述產業鏈與大數據生態一一對照,上游硬件廠商、中游平臺廠商、下游應用廠商可以算到地理大數據收益的比例約為1:7:10。筆者認為與谷歌大數據閉環最像的是中游的平臺廠商,雖然他的大數據絕對產值不如下游企業多,但他既是大數據生態圈中的數據擁有者,也是工具制造者,還是整合應用者。平臺廠商不需要在數據采集硬件和團隊花費成本,卻能通過與行業政府和上游企業合作得到數據積累,又與下游企業一樣具有整合應用能力,而獨具有平臺優勢,最容易形成地理大數據生態閉環。
大數據的AI與地理數據的BI
就像很多產業鏈一樣,最困難且最有價值的創新往往發生在接近最終用戶的那端,比如 iPhone。大數據行業最有價值的部分在于如何利用機器去處理數據得到洞見,影響組織和個人的行為,從而改變世界。收集和整理數據在未來會變得標準化和自動化,而利用人工智能(Artificial Intelligence,簡稱AI),進行分析的能力會變得更為關鍵。
AI的食物是數據,具有數據積累的地信公司正在討論地理商業智能(GEO-BI),可以看到地信公司想要將手上的地理大數據變的更加智能化的理想。比如ESRI旗下公司智圖(GeoQ)產品,超圖地圖慧產品,地信企業愿意發掘數據價值的理想是好的,但是實際產品與其說是地理商業智能不如說是地圖可視化,目前還僅停留在展示階段,并沒有像真正大數據公司一樣去挖掘數據,更不要說到AI的階段。
大數據需要什么樣的人才
筆者認為,地理大數據挖掘始終停留在初級階段的一個原因是人的問題,那么最后一個問題要思考的是大數據公司需要什么樣的人,地信企業從業者大多為測繪專業、計算機專業、地信或遙感專業,而在硅谷有一個被吵的很熱的高頻詞匯:數據科學家。這個職位的出現是為了更好的匹配整合應用型公司的需要,數據是 AI 當中不可分割的一部分,而且量越大越好,從數學上來說,數據越多則我們越能夠有信心把從樣本分析出來的結果推論到未知的數據當中,也就是說機器學習的效果越來越好,AI 越來越智能。
由此誕生的數據科學家是一個非常綜合型的職業。它所要求的知識范圍包括分析數據的統計學,到算法的選擇優化,再到對行業知識的深刻理解。這群人是開發數據產品的核心。