國(guó)慶期間,全國(guó)各處景點(diǎn)人滿(mǎn)為患,水泄不通。然而一些景點(diǎn)卻在爆冷門(mén):10月1日五臺(tái)山人數(shù)比去年同期減少近3成,黃山全天游客人數(shù)只與雙休日水平相當(dāng)。如果假期到來(lái)前,有相關(guān)數(shù)據(jù)預(yù)測(cè)各地景點(diǎn)人流量,大家即可提前做好準(zhǔn)備,錯(cuò)峰出行。事實(shí)上,在國(guó)慶假期之前,藝龍、同程等旅游網(wǎng)站已根據(jù)機(jī)票、酒店、景點(diǎn)門(mén)票預(yù)訂量出具相應(yīng)的數(shù)據(jù)分析報(bào)告:熱門(mén)出游目的地中三亞最火爆,客流量最扎堆的城市是北京——大數(shù)據(jù)正悄然在我們身邊發(fā)揮著作用。
1. 傳統(tǒng)行業(yè)中的大數(shù)據(jù)應(yīng)用
1)啤酒與尿布
美國(guó)沃爾瑪超市里,啤酒與尿布總被擺放在同一個(gè)區(qū)域,方便“奶爸”購(gòu)物;類(lèi)似的情況還有出現(xiàn)在同一貨架的方便面和火腿腸、口香糖和避孕套。這些貼心安排無(wú)不得益于超市供貨人員對(duì)客戶(hù)習(xí)慣的深刻解讀,也得益于大數(shù)據(jù)在大型商超、購(gòu)物中心中的使用。在傳統(tǒng)購(gòu)物中心向商業(yè)綜合體轉(zhuǎn)變的過(guò)程中,利用大數(shù)據(jù)對(duì)用戶(hù)喜好和用戶(hù)行為進(jìn)行分析成為至關(guān)重要的一環(huán)。通常購(gòu)物中心需要外部第三方數(shù)據(jù)來(lái)分析時(shí)下受歡迎的品牌、某地區(qū)人民的飲食口味、消費(fèi)水平;同時(shí)內(nèi)部數(shù)據(jù),如相應(yīng)時(shí)段的人流量、POS機(jī)的消費(fèi)數(shù)據(jù)、cctv監(jiān)控?cái)?shù)據(jù)、購(gòu)物產(chǎn)品清單數(shù)據(jù)等也顯得至關(guān)重要。
2)余額寶
余額寶自2013年6月上線后,僅用了半年的時(shí)間就使背后的天弘基金規(guī)模增長(zhǎng)40倍。截止2014年3月,余額寶的用戶(hù)數(shù)量已經(jīng)達(dá)到8100萬(wàn),超過(guò)整個(gè)中國(guó)股市中的活躍帳戶(hù)數(shù)。貨幣基金資產(chǎn)主要投資于短期貨幣工具,大規(guī)模的基金投資追求高收益,也要規(guī)避風(fēng)險(xiǎn)。通過(guò)大數(shù)據(jù)的支持,余額寶能夠預(yù)測(cè)到流動(dòng)性的趨勢(shì),適時(shí)做好流動(dòng)性需求支持,合理規(guī)避風(fēng)險(xiǎn)。基金公司能通過(guò)支付寶提供的余額寶資金流動(dòng)情況,通過(guò)模型預(yù)估流動(dòng)趨勢(shì),安排投資。而傳統(tǒng)行業(yè)沒(méi)有大數(shù)據(jù)支持,自然就失去了這樣的能力。
2. 大數(shù)據(jù)在傳統(tǒng)行業(yè)落地難
1)相關(guān)人員稀缺。既懂業(yè)務(wù)又懂?dāng)?shù)據(jù)的人,在互聯(lián)網(wǎng)行業(yè)中不難找到。而傳統(tǒng)行業(yè)中,數(shù)據(jù)和業(yè)務(wù)的結(jié)合通常非常松散。具備大數(shù)據(jù)專(zhuān)業(yè)知識(shí)的專(zhuān)家,顯然這個(gè)角色在傳統(tǒng)行業(yè)以往的運(yùn)作過(guò)程中是缺失的。傳統(tǒng)行業(yè)的技術(shù)人員通常覺(jué)得大數(shù)據(jù)很潮很熱,但回答不了以下問(wèn)題:能拿到什么數(shù)據(jù)? 這些數(shù)據(jù)有什么用? 怎樣用這些數(shù)據(jù)?
2)技術(shù)積累不足。在互聯(lián)網(wǎng)行業(yè)中應(yīng)用非常廣泛的技術(shù),傳統(tǒng)行業(yè)的技術(shù)人員卻接觸很少。在大數(shù)據(jù)的實(shí)際實(shí)施中,像hadoop、消息隊(duì)列、storm等這些大數(shù)據(jù)處理技術(shù),傳統(tǒng)行業(yè)還只是停留在初步了解階段,能真正應(yīng)用的比較少。
3)成本資金消耗。一些傳統(tǒng)企業(yè)在準(zhǔn)備獨(dú)立做大數(shù)據(jù)應(yīng)用的時(shí)候,發(fā)現(xiàn)實(shí)施的成本非常巨大,整個(gè)的IT方面預(yù)算的開(kāi)支增加了1個(gè)甚至2個(gè)數(shù)量級(jí),而這些投入是否能達(dá)到預(yù)期效果還不敢肯定。
3. UCloud云平臺(tái)的針對(duì)性解決方案
對(duì)于人員稀缺的問(wèn)題,除了積極的引入相關(guān)人才和內(nèi)部技術(shù)人員的培養(yǎng),傳統(tǒng)企業(yè)也可以尋求外部合作。目前已經(jīng)有很多企業(yè)在這些專(zhuān)業(yè)的領(lǐng)域內(nèi)提供成熟的解決方案。UCloud,作為國(guó)內(nèi)最為專(zhuān)業(yè)的基礎(chǔ)云計(jì)算服務(wù)商,也針對(duì)性地開(kāi)發(fā)了大數(shù)據(jù)產(chǎn)品UDDP (UCloud Distributed Data Processor) 能夠幫助用戶(hù)輕松、快速地處理TB甚至PB級(jí)的海量數(shù)據(jù)。目前,UDDP正被應(yīng)用于數(shù)字營(yíng)銷(xiāo)、數(shù)據(jù)分析、商業(yè)智能、科學(xué)模擬等領(lǐng)域。
對(duì)于技術(shù)積累不足的問(wèn)題,UCloud所提供的大數(shù)據(jù)產(chǎn)品服務(wù)可以有效幫助企業(yè)用戶(hù)降低技術(shù)門(mén)檻,規(guī)避掉復(fù)雜的技術(shù)細(xì)節(jié)。同時(shí),UCloud的專(zhuān)業(yè)技術(shù)負(fù)責(zé)人也會(huì)為客戶(hù)有針對(duì)性的提供培訓(xùn)課程,并不時(shí)在實(shí)際實(shí)施中進(jìn)行技術(shù)指導(dǎo),幫助用戶(hù)快速消除技術(shù)短板。
資金成本問(wèn)題就更為簡(jiǎn)單,使用云計(jì)算服務(wù)是降低綜合成本非常有效的方式。傳統(tǒng)企業(yè)通過(guò)使用云服務(wù),復(fù)用資源,可以大規(guī)模降低大數(shù)據(jù)應(yīng)用的成本。例如,使用UCloud的大數(shù)據(jù)產(chǎn)品,按每天計(jì)算數(shù)據(jù)在10TB來(lái)估算,每個(gè)月的成本大概也就在數(shù)千元。
4. UCloud大數(shù)據(jù)產(chǎn)品系統(tǒng)設(shè)計(jì)
在UCloud大數(shù)據(jù)產(chǎn)品的整體系統(tǒng)框架中,最下層是數(shù)據(jù)采集的接口,通過(guò)攝像頭、傳感器、各種日志、數(shù)據(jù)庫(kù)等采集數(shù)據(jù),存儲(chǔ)在HDFS上。在存儲(chǔ)之上,我們支持兩種分布式計(jì)算框架,SPARK和MapReduce,針對(duì)不同習(xí)慣用戶(hù)使用。同時(shí)也會(huì)提供列式存儲(chǔ)HBase。
在數(shù)據(jù)之上,會(huì)有很多的工具支持,如基于Spark的Spark SQL、Spark Streaming、Spark Mlib等,以及基于MapReduce的Hive、Pig等。計(jì)算后的數(shù)據(jù)可以繼續(xù)存回HDFS,也可以輸出到DB或其它地方用作其它用途,在此之上建立各種業(yè)務(wù)模型使用。
在集群內(nèi),我們會(huì)對(duì)數(shù)據(jù)分析任務(wù)進(jìn)行調(diào)度,充分利用集群資源。同時(shí)對(duì)集群進(jìn)行監(jiān)控,對(duì)任務(wù)失敗進(jìn)行及時(shí)恢復(fù),及時(shí)發(fā)現(xiàn)問(wèn)題,并提供信息給集群日常維護(hù)。
(UCloud大數(shù)據(jù)產(chǎn)品系統(tǒng)設(shè)計(jì))
5. 大數(shù)據(jù)在傳統(tǒng)行業(yè)中應(yīng)用的未來(lái)
1)智能視頻監(jiān)控
如今,智能視頻監(jiān)控已經(jīng)應(yīng)用到很多地方。比如奧林匹克公園內(nèi)設(shè)的智能計(jì)數(shù)和密度分析系統(tǒng),可以全天候的對(duì)入口區(qū)域、人流通道等重要區(qū)域的人流狀況進(jìn)行實(shí)時(shí)密度分析統(tǒng)計(jì)。
智能視頻監(jiān)控,核心就是將采集來(lái)的視頻數(shù)據(jù),按幀提取出來(lái),應(yīng)用到特征模型中進(jìn)行匹配。然后將這些特征全部存儲(chǔ)下來(lái),添加標(biāo)識(shí)、索引,在需要的時(shí)候再進(jìn)行檢索、或進(jìn)行更深層次的分析。在這個(gè)過(guò)程中,我們需要視頻原始數(shù)據(jù)能很快能夠轉(zhuǎn)換成特征模型,同時(shí)也需要海量存儲(chǔ)去保存這部分視頻數(shù)據(jù)。技術(shù)的核心在于特征模型的選取、轉(zhuǎn)換的算法、海量數(shù)據(jù)的實(shí)時(shí)和離線分析能力。
特征模型的選取,可以通過(guò)和一線工作人員溝通把模型建立起來(lái),也可以尋求一些模型庫(kù)。很多開(kāi)發(fā)者社區(qū)里則有轉(zhuǎn)換算法的分享。UCloud對(duì)一些開(kāi)發(fā)者社區(qū)提供資金、資源的支持,目的就是幫助開(kāi)發(fā)社區(qū)沉淀經(jīng)驗(yàn),以便為更多人提供幫助。而海量數(shù)據(jù)的實(shí)時(shí)和離線分析能力可以在內(nèi)部搭建,也可以考慮使用專(zhuān)業(yè)的大數(shù)據(jù)服務(wù),比如UCloud的UDDP。這樣智能視頻監(jiān)控應(yīng)用將會(huì)很容易落地。
2)醫(yī)療健康系統(tǒng)
未來(lái)的醫(yī)療健康系統(tǒng)或可借鑒身份證采集的模式,拍攝照片上傳到指定網(wǎng)站,然后辦理個(gè)人醫(yī)療證件。無(wú)論到大型醫(yī)院就醫(yī),還是到社區(qū)醫(yī)院體檢,相關(guān)檢查數(shù)據(jù)都可以被傳輸?shù)结t(yī)療系統(tǒng)。后續(xù)就醫(yī)時(shí),醫(yī)生可以根據(jù)前期的體檢數(shù)據(jù)直接開(kāi)藥,或者以這些數(shù)據(jù)為基礎(chǔ)為病人診斷。這樣即可大大提高醫(yī)生的工作效率,有助解決就醫(yī)難的問(wèn)題。另外,這些檢查數(shù)據(jù)匯聚在一起后,可以供衛(wèi)生防疫部門(mén)來(lái)做分析,提供更為完善的公共健康服務(wù)。也可以由個(gè)人委托商業(yè)機(jī)構(gòu)追蹤個(gè)人生理情況,做事先預(yù)防、調(diào)養(yǎng)。
當(dāng)然,醫(yī)療健康行業(yè)有一定特殊性,需要體制改革支持。需要在信息化上解決現(xiàn)有醫(yī)院個(gè)人醫(yī)療信息的孤島,再引申出來(lái)和大數(shù)據(jù)結(jié)合的個(gè)人、公眾醫(yī)療健康服務(wù)。
時(shí)代變革,從一開(kāi)始就不可逆。互聯(lián)網(wǎng)誕生時(shí),有人說(shuō)過(guò)這樣一句話“在網(wǎng)絡(luò)上,沒(méi)人知道你是一條狗”。然而在大數(shù)據(jù)時(shí)代,我們不但知道你是一條狗,而且知道你是一直羞澀、前腿短的柯基,不愛(ài)吃狗糧愛(ài)吃肉,最喜歡粉色的小外套…..