在“可穿戴設備之父”和“全球七大大數據專家之一”的阿萊克斯-彭蘭特在BIG TALK演講開始之前,有人提出問題 “大數據與可穿戴的關系究竟是什么”“大數據與統計學區別是什么”?這兩個問題百度都可以給出一個很好的答案:大數據與可穿戴沒有直接關系,同時它與統計學有聯系但卻完全不是一回事兒。
如果說智能手環和智能手表是可穿戴的冰山一角,那么可穿戴的大數據應用又是整個大數據世界的冰山一角。可穿戴設備通過遍布世界的傳感器連續不間斷地采集、上傳數據到云端,并基于此進行數據分析,給用戶提供健康服務、提醒服務或者疾病預測等等。基于此可以認為,可穿戴與大數據確實有一定程度的聯系:大數據可以讓可穿戴設備發揮出來威力,同時如果將穿戴在物體上或者嵌入在環境中能夠感知用戶的設備都當作“可穿戴”,那么它們確實是未來十分重要的大數據的收集手段。不過,在可穿戴之外還有更多大數據的應用。
阿萊克斯彭蘭特在演講中便展示了許多實驗:通過大數據分析可以了解人群的信用卡還款習慣、可以了解特定人群的著裝愛好,可以了解特定人群的出行作息習慣,進而給企業帶來營銷層面的商業價值。
通過個體行為變化幾乎可以判定這個人會患有流感或者某種傳染病,當這樣的樣本夠多并且同時掌握他們不同時段出現在不同地段的數據時,就可以判斷其他人患有流感的幾率,就是說通過大數據了解流感的傳播路徑和接觸網絡,衛生部門可以進行更好的流感防治,為此彭蘭特的團隊曾繪制特別的地圖幫助科特迪瓦改進公共衛生系統,以此來減少20%的感染性疾病的發病,且不增加他的成本。
在交通領域,通過追蹤一個司機的駕駛習慣,是否喜歡違規、是否疲勞駕駛、踩剎車動作是否嫻熟,是否喜歡駕車打電話甚至是醉駕,等等,可以了解其駕車風險系數,如果再結合汽車所探測的路況數據以及云端所掌握的更多汽車司機的數據,譬如進入某個危險路段同時又遇到另外一個更加危險的司機,顯而易見可以預測到接下來三到四秒這個司機發生事故的幾率會加倍。當然,除了預測個體司機駕駛風險之外,大數據還可以掌握通過車聯網和路網數據去分析交通資源的使用情況,進而指導交通部門整體規劃和汽車司機出行路徑的選擇,最終讓整個交通網絡運轉效率最高負擔最小。
上述例子均是阿歷克斯-彭蘭特所列舉,正如其在BIG TALK后接受專訪所指出的那樣:百度已經逐漸找到了如何把紙上談兵的數據轉化為具有實際運用價值的產品的有效方式。大家都知道百度基于深度學習對世界杯的預測表現比其他科技大鱷都要出彩,不過這只不過是百度給大家做了一個“玩具”,百度的大數據應用已經走了很遠。
春節期間,百度遷徙可以圖形化地展示全國人口遷徙情況震撼了不少人,此后百度基于地圖的大數據應用繼續復制到流感地圖、商圈熱力圖、旅游預測。未來商家可以根據熱力圖選擇在哪個商圈促銷,用戶則可以選擇去人少一點的地方逛街。據說百度正在與首都機場合作,通過地理圍欄可以精細化地了解你在哪個點,并且給你推送對應的服務。在交通上百度與寶馬合作最為經典的情景便是,可以通過攝像頭追蹤用戶的面部變化進而發現此用戶是否疲勞,如果是,云端馬上提醒。在娛樂上百度可以通過用戶需求變化去預測一部電影的票房甚至幫助影視節目去選擇更受用戶親睞的演員。
正是因為百度在大數據的成功案例在商業、醫療、交通和娛樂各個領域都十分豐富,中國一些政府部門均與百度開始合作,衛生部門與其合作基于大數據做流感預測和防治,交通部門與之合作大數據交通規劃管理,甚至聯合國都看上了百度的大數據能力并與之聯合成立大數據實驗室。
同時,百度已將大數據能力通過大數據引擎開放出來,數據工廠、開放云和百度大腦,從基礎設施到能力接口到大數據挖掘和人工智能均已開放給所有的開發者和企業。如果企業有海量數據,尤其是傳統企業,沒有能力挖掘又不想坐視其浪費時便可選擇百度大數據引擎。
盡管百度在可穿戴設備領域也布局頗多推出了Dulife智能健康設備平臺并將可穿戴開源,但百度在大數據上的應用已遠遠超過可穿戴設備的范疇。從百度在大數據領域取得的成功可以看出, “大數據與統計學”最核心的兩個差別是:
1、統計學處理的是結構化數據,用EXCLE表或者數據庫來統計分析,大數據處理的則是非結構化數據。視頻、圖片、聲音、文字、位移、搜索行為,均是“大數據”,百度作為一款搜索引擎,一直在處理非結構化的WEB數據,移動時代則又大力探索多媒體數據挖掘、深度學習等新型技術。
2、統計學是從數據尋找已有規律去支持或者證偽某個結論,大數據最重要的價值在于預測。通過統計人們只能知道廣州的降水量一定會超過蘭州,但無法知道接下來一個小時甚至半個小時的天氣,大數據可以做到——基于此可以認為天氣預報是大數據應用。要做預測就需要對海量非結構化數據進行處理并且做到接近實時,這需要強大的計算能力、算法以及讓算法自我進化的能力——深度學習,這均是百度所擅長。
阿歷克斯彭蘭特則認為,百度在大數據上取得成功主要原因在于幾點:1、百度面向的市場是中國,是全球人口最多、互聯網規模最大的市場,人口紅利帶來數據紅利(一些小國家能夠產生的數據還不如中國的一個省);2、百度是中國第一大搜索引擎,搜索引擎可以給大數據提供天然的技術和市場支撐(技術層面看,搜索引擎做的事情就是在處理數據和信息);3、百度超越了創新的地域邊界,懂得如何向全球借力,百度在硅谷設立實驗室大力招攬全球創新人才,便能說明這一點。
阿歷克斯彭蘭特最后認為,百度面臨的選擇非常多,需要對未來的戰略做出最好的選擇,從而支撐其繼續成長和發展。全球大數據專家對百度的認可說明了百度在大數據上確實做到了“不再紙上談兵”。我想說的是,認為“大數據太虛”的人,可以多關注下百度在大數據領域所取得的成就以及接下來的動作——不要再有偏見地認為中國互聯網公司只會抄襲了。