大數(shù)據(jù)很火。2月18日,微軟宣布投資三家中國云計算和大數(shù)據(jù)公司。2月19日,IBM宣布將與AT&T在大數(shù)據(jù)分析領域展開合作——AT&T計劃貢獻出一個全球可訪問的移動網(wǎng)絡,用來收集數(shù)據(jù)并將其發(fā)送至應用程序;IBM公司則主要致力于生產(chǎn)用于數(shù)據(jù)管理和分析的軟件。
“讀心術”、“未卜先知”,都是大數(shù)據(jù)分析頭上的耀眼光環(huán)。不管你信不信,“數(shù)據(jù)”真的會說話。人們在互聯(lián)網(wǎng)上的一切行為都會留下數(shù)據(jù),而通過對這些數(shù)據(jù)的分析,就能夠得到消費習慣、職業(yè)、喜好甚至性格等信息。在這些信息的基礎上,政府可以治理交通,減少犯罪率,而企業(yè)則可以利用這些數(shù)據(jù)進行有針對性的營銷,提升業(yè)績。
雖然目前大數(shù)據(jù)分析還處于發(fā)展的初級階段,要從海量的非結(jié)構性數(shù)據(jù)中提取出有用信息并不是一件容易的事兒,但是很多企業(yè)已經(jīng)開始利用大數(shù)據(jù)分析并推出了相關的應用和產(chǎn)品。大數(shù)據(jù)分析究竟能做什么?大數(shù)據(jù)分析又正在做什么?讓我們一起來看看吧!——編者
洞察“人類大遷徙”
“春運”,被譽為人類歷史上規(guī)模最大、有周期性的人類大遷徙。過去,我們只是粗略地知道在40天左右的時間里,有幾十億人次的人口流動。現(xiàn)在,隨著大數(shù)據(jù)時代的到來,我們可以描繪出能夠揭露更多細節(jié)的“遷徙地圖”。
2014年的春運,央視首次推出了“據(jù)說春運”特別節(jié)目,基于“百度遷徙”提供的可視化大數(shù)據(jù)服務,實時播報國內(nèi)春節(jié)人口的遷徙情況,例如最熱門的遷出城市,最熱門的遷入城市等等。盡管采用的是大數(shù)據(jù)這一當前最時髦的科技手段,但淺顯易懂的“遷徙地圖”,還是幾乎讓每個老百姓都看得明白。
那么,這張“遷徙地圖”是如何繪制的呢?原理上其實并不復雜。目前,幾乎每個中國人都擁有一部手機,而每部手機每一天基本上都會產(chǎn)生3次與位置相關的數(shù)據(jù):既包括來自基站的數(shù)據(jù),也包括用戶在使用定位、導航等與位置相關服務時產(chǎn)生的數(shù)據(jù)。因此,只要調(diào)用一個用戶春運路程的起點和終點數(shù)據(jù),并在樣本量足夠多的前提下,就可以繪制出能夠反映真實情況的“遷徙地圖”。
獲取與位置相關的數(shù)據(jù),這對于百度而言顯然是一件再輕松不過的事兒。百度LBS技術總監(jiān)顧維灝表示,百度LBS開放平臺聚集了超過40萬的開發(fā)者,這些開發(fā)者為數(shù)十萬款應用軟件提供定位服務,已覆蓋數(shù)億部手機。“截至2013年12月,我國手機網(wǎng)民有5億。通過分析手機網(wǎng)民定位信息的大數(shù)據(jù),就能夠映射出人群的遷徙軌跡”,顧維灝強調(diào)。值得注意的是,由于位置信息時刻在發(fā)生著變化,因此百度在繪制“遷徙地圖”時是以8小時為單位的。
透過“遷徙地圖”,人們就可以知道春運的種種細節(jié),這的確是件新鮮事兒。例如,“遷徙地圖”北京和成都之間的遷徙路線連續(xù)幾天成為最熱門的線路。事實上,這一通過數(shù)據(jù)采集和分析得出的結(jié)果,也與成都鐵路局的實際統(tǒng)計情況非常吻合,這顯然證明了大數(shù)據(jù)分析是很“靠譜兒”的一種手段。
超級“營銷顧問”
有沒有人比你自己還了解你的購物需求?這并不是一個偽命題。通過精準的大數(shù)據(jù)分析,有些消費行為是可以被預測出來的。
Weather Co是美國一家能夠基于對人們查看天氣情況的時間、地點和頻次的分析預測消費者行為的機構。該公司積累了超過75年的氣象信息,覆蓋北美等地區(qū)的天氣、云量等方面的數(shù)據(jù)。基于這些大數(shù)據(jù),Weather Co不僅能為用戶提供單純的天氣信息,而且可以通過數(shù)據(jù)挖掘,分析天氣會對用戶消費產(chǎn)生什么影響。比如,某位消費者有在下雨天購買零食的習慣,那么,當他下次查詢到天氣預報可能有雨時,系統(tǒng)會自動推送一些優(yōu)惠的零食商品信息給他。這種對用戶消費行為的預判,不僅能讓用戶感受到一種全新的購物體驗,而且還可以吸引那些對廣告投放精準度要求較高的廣告主。例如,Weather Co發(fā)現(xiàn),在達拉斯,殺蟲劑在春天露點(濕度指標)低于平均水平的時候會非常熱銷;但在波士頓殺蟲劑則是在春天露點高于平均水平的時候暢銷。寶潔的營銷總監(jiān)Kevin Crociata表示,根據(jù)Weather Co的特定數(shù)據(jù),結(jié)合女性消費者所處的準確位置和天氣,可幫助投放高度精準的廣告。他指出,對于在高溫濕熱地區(qū)查看天氣的女士,就應該向她推送柔順產(chǎn)品;而如果處于低濕度的地區(qū),她的頭發(fā)沒有彈性,那就應該向她投放富彈性配方的洗發(fā)水廣告。
今年1月,天津市大數(shù)據(jù)科技專項“大數(shù)據(jù)算法及其應用”項目在天津大學啟動。該項目可通過對海量數(shù)據(jù)集合分析,實現(xiàn)數(shù)據(jù)查詢,挖掘有用信息,通過記錄消費者的網(wǎng)絡消費行為,分析、計算出消費者詳細的消費習慣。想象一下,未來的網(wǎng)絡購物也許不是你去尋找商品,而是商品主動推送到你面前,這樣的體驗是不是很值得期待?
制作熱門電視劇
Netflix是美國的一家在線視頻網(wǎng)站,其最近名聲大噪。這主要得益于其用大數(shù)據(jù)分析結(jié)果制作的電視劇《紙牌屋》在全世界40多個國家熱播,其股價也在短期內(nèi)實現(xiàn)了飆升。
用大數(shù)據(jù)分析結(jié)果制作電視劇,這聽起來還真是非常有意思,Netflix是如何做到的呢?早期,Netflix是北美家喻戶曉的在線影片租賃提供商,主營業(yè)務是通過郵寄方式租賃DVD。然而,在互聯(lián)網(wǎng)時代,這個盈利模式逐漸式微。于是,Netflix轉(zhuǎn)向在線流媒體播放,但轉(zhuǎn)型并不成功,一直被資本市場唱空。直到Netflix發(fā)現(xiàn)了“數(shù)據(jù)”的價值。據(jù)悉,Netflix在美國擁有2700萬訂閱用戶,每天用戶在Netflix上產(chǎn)生3000多萬個行為,同時用戶每天還會給出400多萬個評分以及300萬次搜索請求。借助這些數(shù)據(jù),Netflix非常清楚用戶想看什么,也知道具備了哪些元素的電視劇將可能一夜爆紅。
Netflix的工程師發(fā)現(xiàn),喜歡BBC劇、導演大衛(wèi)·芬奇和老戲骨凱文·史派西的用戶存在交集,一部影片如果同時滿足這幾個要素,就可能大賣。Netflix決定賭一把,他們花1億美元買下了一部早在1990年就播出的BBC電視劇《紙牌屋》的版權(幾乎是美國一般電視劇價錢的兩倍),并請來大衛(wèi)·芬奇擔任導演,凱文·史派西擔當男主角。事實證明Netflix賭對了。《紙牌屋》成為了Netflix網(wǎng)站上有史以來觀看量最高的劇集,并在美國及40多個國家大熱。
在嘗到了“大數(shù)據(jù)”的甜頭之后,Netflix正在著手推出更多基于大數(shù)據(jù)分析的自制電視劇。而Netflix將大數(shù)據(jù)分析技術應用于電視劇制作中的做法,也得到了業(yè)界的認可。有評論甚至認為,Netflix已經(jīng)不再是視頻網(wǎng)站Youtube和Hulu的競爭對手,而已經(jīng)成為HBO未來的榜樣。
貼身“愛情導師”
你戀愛了嗎?要擱以往,這問題的被問者肯定是當事人自己。然而,現(xiàn)在世道真的變了,社交網(wǎng)站可能比你自己更早知道你的感情狀況。這一切都得拜大數(shù)據(jù)分析功能所賜。
Facebook在今年情人節(jié)后發(fā)布了一張統(tǒng)計圖,表明了一個時間點前后某個賬戶的發(fā)帖數(shù)量變化,在這個時間點前的發(fā)帖量明顯高于之后,說明在這個時間點你戀愛了。Facebook數(shù)據(jù)研究部門科學家團隊發(fā)現(xiàn),利用網(wǎng)站的統(tǒng)計數(shù)據(jù),可以判斷發(fā)帖的用戶是否、何時擦出了愛的火花。同傳統(tǒng)線下結(jié)為戀人的過程類似,社交網(wǎng)絡的用戶確立戀愛關系也會經(jīng)歷所謂的“求愛”階段。Facebook的科學家卡洛斯·迪烏克透露,沿著時間軸觀察,在一段網(wǎng)戀的求愛期,兩位Facebook用戶的發(fā)帖都會增多。而一旦真正認準了對方就是意中人,兩人在對方Facebook留言板上發(fā)的帖子都會減少,原因可能是共浴愛河的戀人花了更多的時間在線下相處。
迪烏克介紹說,通過大量數(shù)據(jù)發(fā)現(xiàn),在成為戀人之前的100天里,日后墜入情網(wǎng)的兩人相互發(fā)帖的數(shù)量緩慢地逐步增加。假設戀情正式開始的那天是“第零天”,這類帖子的數(shù)量是從“第零天”起越來越少。我們發(fā)現(xiàn),“第零天”之前的12天里發(fā)帖數(shù)量達到高峰,平均每天發(fā)1.67貼;而“第零天”以后的85天里發(fā)帖量最少,平均每天發(fā)1.53貼。數(shù)據(jù)還顯示了另一個有趣的趨勢,即在告別單身之后,情侶之間普遍愛意大漲,互動的內(nèi)容會越來越甜蜜,傳遞正能量。正如Facebook公布的趨勢線所示,在“第零天”和“第零天”之后的第一天,戀人之間發(fā)帖數(shù)量劇增。
而通過大數(shù)據(jù)挖掘和分析,F(xiàn)acebook甚至還得出“一段戀愛關系能維持三個月以上時間,很可能會持續(xù)四年甚至更久”,“戀人分手可能性最大的月份是5月、6月和7月”等有趣的結(jié)論。這么說來,以后咱們再也不用找心理師或是密友當愛情參謀了,大數(shù)據(jù)就能一手搞定!
未卜先知的“預言帝”
通過對歷史有效數(shù)據(jù)的分析,創(chuàng)建不受任何特別年份因素干擾的統(tǒng)計模型,然后根據(jù)歷史數(shù)據(jù)進行測試、校正和不斷升級,最終這一模型就能夠預測未來。這一切聽起來是不是有些不可思議?然而來自微軟紐約研究院的一名經(jīng)濟學家,利用大數(shù)據(jù)分析,成功預言了2012年美國大選選舉結(jié)果和2013年奧斯卡頒獎禮獎項歸屬,準確性高于98%。
2014年3月2日,第86屆奧斯卡頒獎典禮將如約在杜比劇院舉行。提名入圍者誰將最終捧得小金人,是各界熱議的焦點,也成為各大博彩公司的熱門盤口。然而就在2013年,第85屆奧斯卡頒獎禮的懸念卻被提前揭曉了,做到這一點的就是大數(shù)據(jù)分析。大衛(wèi)·羅斯柴爾德是微軟紐約研究院的一名經(jīng)濟學家,他率領的團隊通過對入圍影片相關數(shù)據(jù)分析,成功預測出第85屆奧斯卡頒獎禮13項大獎的結(jié)果。而且早在2012年美國總統(tǒng)選舉中,大衛(wèi)·羅斯柴爾德就曾經(jīng)使用一個通用的數(shù)據(jù)驅(qū)動型模型,準確預測了美國50個州和哥倫比亞特區(qū)共計51個選區(qū)中50個地區(qū)的選舉結(jié)果,準確性高于98%。
大衛(wèi)在接受采訪時表示,“我預測奧斯卡金像獎得主的方法與預測其他事情的方法完全相同,其中包括政治。科學是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬別。”大衛(wèi)團隊的工作方法是,首先關注最有效的數(shù)據(jù),然后創(chuàng)建不受任何特別年份結(jié)果干擾的統(tǒng)計模型,在建模時要非常謹慎,確保模型能夠正確預測將來樣本結(jié)果,而不僅僅是過去發(fā)生的結(jié)果。投票數(shù)據(jù)、預測市場數(shù)據(jù)、基本數(shù)據(jù)和用戶產(chǎn)生的數(shù)據(jù),這四種不同類型的數(shù)據(jù)是關注的重點。大衛(wèi)表示,在預測奧斯卡時,“我更關注的是預測市場數(shù)據(jù),這是主要因素,同時采用部分用戶產(chǎn)生的數(shù)據(jù),這有助于理解電影內(nèi)部和不同類別之間的相關度。”大衛(wèi)團隊的實踐充分證明了大數(shù)據(jù)分析成為“預測帝”的能力。人們可以通過較為完善的建模,進行快速的數(shù)據(jù)處理和分析,并讓這一分析結(jié)果用于商業(yè)用途。
打造“神速”快遞
網(wǎng)購如今已是人們喜愛的一種購物方式。在網(wǎng)購過程中,物流的及時性是影響消費者體驗的一個重要環(huán)節(jié),每到“雙11”、春節(jié)這樣的網(wǎng)購高峰期,物流都會成為各大電商頭疼的問題。于是,很多電商企業(yè)通過自建物流的方式來改善用戶體驗,但這畢竟是一項投資巨大的工程,有沒有什么其他辦法?大數(shù)據(jù)正是一個非常合適的選擇。
亞馬遜在去年12月獲得了一項名為“預測式發(fā)貨”的新專利。該專利通過對用戶數(shù)據(jù)進行分析,在用戶還沒有下單購物前,就提前發(fā)出包裹。亞馬遜表示,這項技術可以壓縮消費者從下單到收貨之間的時間間隔,在改善用戶體驗的同時,也提升用戶的網(wǎng)購意愿。美國市場研究公司Forrester Research分析師Sucharita Mulpuru表示:“亞馬遜似乎在充分利用他們龐大的數(shù)據(jù)。根據(jù)他們對用戶的種種了解,他們便可依據(jù)多種因素來預測需求。”這種預測式發(fā)貨的基礎,正是亞馬遜多年來在個人信息、消費偏好和購物數(shù)據(jù)方面積累的龐大用戶數(shù)據(jù)。基于大數(shù)據(jù)分析,亞馬遜可以構建自己的競爭優(yōu)勢。有評論認為,亞馬遜對谷歌構成挑戰(zhàn)的關鍵之處就在于大數(shù)據(jù)。具體來說,亞馬遜會根據(jù)以往訂單和其他因素,比如商品搜索記錄、收藏夾、購物車,甚至包括用戶的鼠標在某件商品上懸停的時間來預測用戶的購物習慣,從而在用戶實際下單前,便將包裹提前發(fā)出。當然,這些包裹會暫存在快遞公司的轉(zhuǎn)運中心或卡車里,一旦用戶正式下單,就快速進入派送流程。這樣的場景或許會成為現(xiàn)實:剛剛在家中下了一筆訂單,幾分鐘后,快遞人員就來敲你家的門。
雖然這項專利技術何時正式啟用尚沒有時間表,但亞馬遜表示,這種預測式發(fā)貨較適合暢銷書和其他一些可能會在上市時吸引大量買家的商品。此外,亞馬遜也可能向用戶推薦正在運輸途中的商品,以便提升成功率。