早晨我睜開眼,一般第一件事就是去摸枕邊的手機,打開微信,看看朋友圈里最新的動態,再打開新聞客戶端,看看最新的消息。天氣預報和監測空氣質量的APP已經精確到了以小時計,不用跑到陽臺上去看天氣,就能確定穿什么。洗漱的時候,豆瓣音樂里播放著推薦的最新歌曲。吃過早飯去上班,如果有采訪,出門的時候首先用地圖搜索一下路線。在地鐵上,打開微信公眾賬號,看幾篇最新的評論,等采訪對象的時候,打開手機郵箱,溫習一下存在發件箱里的采訪提綱,至于采訪時的錄音,當然也交給手機完成了。
趁著午飯的時候,用微信跟家人聯系一下,順便發幾張新的照片到朋友圈與大家分享。下午的時間,多數時候是在辦公室度過,在網上搜集新聞線索,查找采訪對象的聯絡方式,登錄學術網站下載幾篇相關的論文看看。傍晚下班后,如果不想擠地鐵,可以打開拼車軟件搜索一下附近有沒有同行的人,回家路上,看看已經下到手機里的新電影,還可以順便登錄網店買本朋友推薦的新書。
這樣的生活軌跡,相信對絕大部分年輕人來說并不陌生,手機已經成為我們生活中必不可少的伙伴,可以用來工作、娛樂、購物、社交、搜索、找路等等,但我們可能并沒有意識到,所有這些便利的功能,背后都依賴海量數據的運算。同時,我們自己也成為數據“供應商”–當我們使用微信,數據會保存在騰訊的服務器上;當我們查看天氣預報、空氣質量、搜索路線、接發郵件,不僅第三方服務商掌握了這些數據,通信運營商也會了解我們一天的活動軌跡,至于看電影和購物,服務商很容易就此可以判斷出我們個人的喜好。
人類歷史上,從來沒有一個時代像今天這樣與數據緊密相連,各種各樣的智能終端設備使得數據生成無處不在。數據又是怎樣改變我們的現實與未來的呢?
一、商業–個性交易
亞馬遜總裁杰夫·貝索斯說過:“如果我的網站上有一百萬個顧客,我就應該有一百萬個商店。”現在的零售網站在挖掘顧客偏好的時候主要有兩種方式:一種是基于用戶,來判斷顧客之間的相似性,比如當你在網上買了一本最新的小說,網站就會自動提醒你買這本小說的顧客中還有65%的人買了另外一本。借助“群體的智慧”,讓顧客的購買行為來幫助完成“人以群分”。另一種方式是基于商品,通過判斷商品之間的關聯度來完成推薦,比如當你購買了一款剃須刀,網站自然就會就推薦一款對應的須后水,由此形成“物以類聚”。
這種基于“協同過濾”技術的推薦引擎,現在已經比較普遍,其實,大數據還能做更多。比如,你登錄購物網站,瀏覽了幾款商品,但最后沒有下單,以前認為這些數據是沒用的,不計入交易記錄,但其實你的網絡路徑已經折射了你的喜好,你尋找某一款商品的方式,你在某一款商品上停留的時間多少,都可以推斷出你潛在的購買意愿。專門從事推薦引擎開發的百分點公司就是這一領域的探索者,公司創始人蘇萌告訴本刊記者:“從數據的價值來看,沒買比買了更重要。”
曾在美國學習營銷模型的蘇萌說,大數據將會實現營銷人的終極追求–真正了解每一個人的需求,而不是為群體畫像。未來,隨著大數據的深度挖掘,很有可能會出現這樣一幕場景–你想買一款護膚品,登錄購物網站后,還沒等搜索,就已經有兩款適合你的護膚品顯示在頁面上了,而且還是你心儀的牌子。為什么網站能了解你的需求,很可能是因為你剛剛在微博上跟朋友討論起這個牌子的護膚品。當然,如果你不喜歡這種略顯“親密”的銷售方式,只需關閉推薦任務即可。
如果你厭倦了網絡購物,周末想跟家人一起去逛逛超市,大數據照樣能夠大顯身手。大型超市宛如迷宮,商品琳瑯滿目,很多人不喜歡去超市,主要是因為購物效率太低,找起東西來太麻煩。英格蘭最大的連鎖超市Stop﹠Shop開發了一套智能購物車系統,他們在超市的購物車上安裝了一個計算機,并在超市內部布置了無線網,顧客只需要在會員卡上勾出自己的購物清單,然后在購物車計算機上刷一下,屏幕上就會自動顯示出你的“最優購物路線”,通過天花板上的位置追蹤系統,指引你到選中的貨架面前。另外一家名為Sensory的公司更進一步,正在開發一種可以和顧客交談的智能系統,取名為“超市阿凡達”。當你站在擺滿薯片的貨架面前猶豫不決時,購物車顯示屏上的“阿凡達”就開口了:“您需要什么樣的薯片?”“我想要低糖的番茄味。”很快,阿凡達回道:“在上面第二排靠左邊位置,我推薦樂事的。”這背后,依托的就是對大數據快速而精準的運算,因為你的位置信息、語音信息和商品的詳細信息,都可以轉化成數據。
不單零售業,大數據已經開始影響很多傳統行業,比如金融和保險,他們最大的挑戰都是風險控制。百分點公司與一家銀行合作,利用大數據的方式來篩選網上登記的信用卡申請資料。蘇萌向本刊記者介紹,這家銀行的信用卡網上申請,只有1/5的人能夠通過,之所以通過率很低,是因為信息不對稱,僅憑有限的個人資料,銀行不敢貿然發卡。因為百分點的個性化搜索引擎與國內幾十家電子購物網站都有合作,掌握了豐富的消費者數據,成為篩選信用卡客戶的利器。“比如你申請信用卡的這個ID,在過去的兩個月內從網上買過一臺數碼相機、一件品牌服裝,就能大概判斷出你的消費水平,從而推斷你的還款能力。”蘇萌介紹說。
另外一家從事大數據業務的天云融創數據公司正在與一家保險公司合作,其CEO雷濤向本刊記者介紹,保險公司很擔心客戶流失,但對于幾十萬客戶來說,如何判斷哪些人有可能流失是個難題。傳統辦法往往是做抽樣調查,形成分析報告,然后找對策、實施、再評估。這樣一個流程下來,速度慢,而且效果不可控。現在,借助大數據,保險公司可以通過客戶的保險記錄,清晰地判斷每個人的流失風險,每個銷售員手機上都下載了一個客戶端,可以輕松查到自己客戶的流失風險指數,由他們去對癥下藥即可,最后再由銷售員反饋效果,自動生成評估結果。雷濤告訴本刊記者:“大數據可以讓系統生成一個閉環操作,扁平化決策,自動化運行。”
二、醫療–認識自己
大數據在醫療保健領域的應用更加鼓舞人心。認識自己一直是人類不懈的追求,自從1953年詹姆斯·沃森博士和弗朗西斯·克里克博士提出脫氧核糖核酸(DNA)結構之后,基因測序成為人們夢寐以求揭開自身密碼的鑰匙。但是,基因分析需要超強的計算能力,DNA分子由排列成約30億個精密序列的化學基礎組成,即使是單細胞細菌,大腸桿菌的DNA分子也有足以占據整套《大不列顛百科全書》的信息。喬布斯利用基因測序來治療癌癥的案例已經廣為流傳,但他花費了十幾萬美元,最終也只是延長了兩年壽命。
現在,隨著大數據計算的發展,專門從事基因測序業務的23a.n.dMe公司推出了低至99美元的服務。不管你在世界的哪個角落,只需要吐一口唾沫或拔一根頭發,郵寄到23a.n.dMe位于加利福尼亞州山景城的實驗室里,兩周后你就可以從他們網站上查詢你的“身體秘密”。23a.n.dMe公司宣布,通過全基因組上超過100萬個位點的基因信息分析,他們可以對259種疾病提出患病率的預測和祖先遺傳分析,從而提前干預。僅僅在10年前,這項技術卻需要耗費驚人的27億美元,再加上數百科學家13年的時間。不久的將來,諸如23a.n.dMe這樣的基因技術公司會越來越多,由此給制藥業帶來的影響將顯而易見,有望實現真正的個性化診斷。
IBM“大數據寶寶”的案例就是其中一個代表。在2010年來中國之前,王曉梅一直待在IBM多倫多實驗室里從事傳統數據管理工作。在多倫多,有一家全球著名的病童醫院,專門收治來自世界各地16歲以下的疑難癥病童。王曉梅向本刊記者介紹,在醫學領域,如何提高早產兒的存活率一直是醫生面臨的最大挑戰之一。全世界通行的做法是將早產兒放到保溫箱里,每隔半小時由護士來記錄一次儀器監測數據。但是,早產兒的死亡大多發生在出生后24小時內,因為新生兒的體征表現不明顯,加之往往早產兒在病發前幾個小時,身體各項指標會表現得特別健康,其實是一種假象。于是,當數據記錄發現問題的時候,往往已經錯過了最佳的搶救時機。
IBM與這家醫院合作,聯合安大略省理工學院,共同開發了一套基于大數據技術的新生兒實時監測系統。在早產兒身上貼上傳感器,通過它們把表皮以下的體征指數迅速捕捉下來,并且進行實時記錄。這樣一來,雖然數據量變得龐大了許多,但能夠保證數據的準確性與即時性,再通過IBM創造的流計算技術進行實時分析,一旦發現異常,馬上介入搶救,大大提高了早產兒的存活率。
三、地圖–方位魔力
美國海軍軍官莫里(Maury)繪制的航海圖,可能是大數據在地圖領域的最早實踐之一。1839年,他因為馬車翻車導致大腿粉碎性骨折,留下殘疾,從此離開了海上生活,美國海軍任命他為圖標和儀器廠的負責人。傳統的航海大多是依靠的老船長的豐富經驗,他們大腦里有一張隱形的航線圖,每次航行還會帶回一沓厚厚的航海日志。這些手繪的航線圖和日志塵封在庫房里,已經積累了數百年。莫里意識到,如果把它們整理到一起,將有可能呈現出一張全新的航海圖。他雇用了20個人來整理數據,把整個大西洋按經緯度劃分成五塊,并按月份標出溫度、風俗和風向,最后繪制出一幅標準的航海地圖。他把航海圖分發給船長們,要求以他們的航海日志為回報,這樣他就能夠在新航海圖上添加更詳盡的數據。
2002年高德地圖成立時,電子地圖剛剛興起沒多久,現在,基于地理位置的服務(LBS)已經成為移動互聯領域的主力之一。借助大數據的相關技術,不僅靜態的地圖服務越來越精準,動態的交通管理也開始走向智能化。
以北京為例,交通擁堵一直是個頭疼的問題,很大程度上,是因為信息技術沒有充分利用起來,早晚高峰的時候車輛都集中在主干道和環路上,而作為毛細血管的支干道路車輛卻比較少。高德交通信息事業部總經理董振寧告訴本刊記者,經過大數據分析發現,即便在北京最堵車的時刻,比如周五的晚高峰,也只有20%的道路發生嚴重擁堵,另外80%的道路是順暢的,甚至有的路上一輛車都見不到。如果有一套系統,能夠讓大家對全市的交通狀況實時掌握,就可以及時調整出行路線,大大節省交通時間。
傳統的實時交通監測,主要有兩種方式,一種是交通管理部門采用的固定監測法,通過架設在路上的攝像頭、埋在路面下的傳感器,來監測某一地點不同時段的交通流量。另一種是交通廣播電臺采用的人海戰術,他們在全市發動了幾千個交通信息播報員,通過他們人工反饋來實時播報交通狀況。但是,這兩種方式都面臨一個問題–覆蓋率不高?,F在,有了大數據,我們可以換一種思路–干脆把車子當作一個自動的信息員。
高德地圖交通信息事業部總經理董振寧向本刊記者介紹,北京現有出租車6萬多輛,基本都裝有GPS定位設備,主要用于安防和調度,海量的行駛軌跡數據沒有充分利用起來。高德與出租公司合作,選取其中的4萬多輛,實時共享他們的行駛軌跡數據,這就意味著在北京布置了4萬多個移動的檢測器。每隔10秒鐘到1分鐘,出租車會自動把自己的位置信息發回大數據中心,大數據中心就能自動計算每條道路的實時交通流量。除此之外,高德還通過與新浪微博合作,發動網友實時上報交通事件信息,比如哪個地方發生了交通事故,哪個地方正在修路或有交通管制。只要有人在微博提及這些,大數據中心就能實時捕捉到關鍵信息,并將這些信息發布到高德地圖的客戶端上。通過基于Hadoop系統的大數據平臺,把實時交通流量信息與交通事件信息、紅綠燈延時等信息整合,最后得出一個最優的交通路線,并且預測出每條路線準確的交通到達時間。
這套系統從2007年開始,到現在已經覆蓋了全國60多個城市,如果再加上社會車輛的反饋,每天會有7000萬~1億公里的行駛軌跡數據發回高德,每隔兩分鐘就能刷新一次。除了實時的數據分析,高德還需要對過去3個月的歷史交通數據進行分析,從而總結出交通擁堵的規律性,為實時預測提供指導。
海量的道路行駛軌跡數據還為地圖繪制提供了意想不到的便利。董振寧告訴本刊記者,中國地圖產業的規律是強者恒強,因為中國面積巨大,城市發展太快,地理信息變動太多,每年的地圖數據至少有30%需要更新,而在國外,這一數據一般不超過5%。如何能夠花費最少的成本迅速找出這些變動的信息并進行更新,便成為地圖制造商的核心競爭力。有了這些海量的道路行駛軌跡數據,高德就能夠做到有的放矢,比如,有一條路線上留下的車輛位置信息越來越密集,但地圖上顯示這里并沒有路,那很可能就是一條新開的道路。“未來,地理位置的信息將像水電一樣成為一種基本的生活資源,可以跟購物、休閑、交通安全等領域進行合作,成為人們生活的一部分。”董振寧向本刊記者展望道,“而所有這些,都有賴于大數據的發展。”