任何新技術(shù)的發(fā)展都會經(jīng)歷一個從被公眾了解到最終普遍應用的過程。大數(shù)據(jù)技術(shù)作為一個新興的數(shù)據(jù)處理技術(shù),經(jīng)過了近十年的發(fā)展,剛剛開始在各個行業(yè)得到應用。但從媒體和公眾視野中,大數(shù)據(jù)技術(shù)總是帶有神秘的色彩,似乎有著挖掘財富和預測未來的神奇力量。廣泛流傳的大數(shù)據(jù)應用案例包括Target超市根據(jù)女孩的購物歷史判斷是否懷孕,信用卡公司根據(jù)用戶在不同時空的購物行為預測客戶的下一個購買行為,等等。大數(shù)據(jù)技術(shù)也為我們描繪了一個個如“智慧城市”,“智慧交通”和“智慧醫(yī)療”等等的美好夢想。這些描述讓大家對大數(shù)據(jù)技術(shù)充滿了憧憬和美好預期。
我從2014年的大數(shù)據(jù)應用中總結(jié)了兩個重要的現(xiàn)象或者說應用趨勢。第一個現(xiàn)象是大數(shù)據(jù)技術(shù)優(yōu)先應用在采用SQL進行結(jié)構(gòu)化數(shù)據(jù)處理上,來解決數(shù)據(jù)量增大帶來的處理能力的挑戰(zhàn);這與很多人宣傳的大數(shù)據(jù)技術(shù)最適合處理非結(jié)構(gòu)化數(shù)據(jù)(而不適合結(jié)構(gòu)化數(shù)據(jù)處理)相反。我們發(fā)現(xiàn)企業(yè)面臨兩方面的挑戰(zhàn),一方面是累積的數(shù)據(jù)量越來越大,從GB增長到了TB(擁有PB級的企業(yè)客戶也有,但是少數(shù)),另一方面,隨著應用的增多和復雜化,計算能力越來越不能滿足要求。大多數(shù)企業(yè)多年來根據(jù)業(yè)務需求在傳統(tǒng)的關(guān)系數(shù)據(jù)庫如DB2或者Oracle上開發(fā)自己的應用,數(shù)據(jù)量和應用的數(shù)量都在快速增加,傳統(tǒng)數(shù)據(jù)庫運行這些應用花的時間越來越長,即使只有1TB的數(shù)據(jù),由于業(yè)務邏輯的復雜性,在傳統(tǒng)關(guān)系數(shù)據(jù)庫上運行統(tǒng)計業(yè)務,也從以前的日報(每日統(tǒng)計)降低到只能做現(xiàn)在的周報了。這樣的時效性已經(jīng)大大限制了企業(yè)的生產(chǎn)力。在IT系統(tǒng)日益成為企業(yè)業(yè)務本身的大趨勢下,IT系統(tǒng)效率的低下嚴重影響了企業(yè)的競爭力。這些待處理的數(shù)據(jù)都是企業(yè)的結(jié)構(gòu)化業(yè)務數(shù)據(jù),現(xiàn)有的應用也都是基于SQL的。這是分布式的SQL on Hadoop技術(shù)發(fā)展的客觀原因,也是星環(huán)科技致力于提升SQL運行性能和SQL支持完整程度的一個現(xiàn)實需求。
第二個現(xiàn)象或者需求是對實時時序數(shù)據(jù)的處理需求日益強烈,特別是隨著傳感器和監(jiān)控設(shè)備等電子儀器的普及,企業(yè)有越來越多的實時數(shù)據(jù)。傳統(tǒng)處理方法是將電子儀器產(chǎn)生的數(shù)據(jù)存入數(shù)據(jù)庫后再統(tǒng)一分析。隨著設(shè)備的增多和數(shù)據(jù)的增長,傳統(tǒng)方案的延時越來越高。利用流處理技術(shù)在數(shù)據(jù)產(chǎn)生的時候就進行實時處理可以極大地提高企業(yè)的反應速度和工作效率。2014年星環(huán)科技部署了較多的流處理集群,來處理從用戶產(chǎn)生的實時數(shù)據(jù)到傳感器產(chǎn)生的數(shù)據(jù)。
這兩個應用趨勢我認為在2015年會變得更加強烈。下文簡單總結(jié)了過去一年中在運營商、金融、物流、工商、交通、能源、廣電和電商等多個領(lǐng)域中的大數(shù)據(jù)應用。
電信運營商
移動互聯(lián)網(wǎng)時代的運營商面臨著許多新挑戰(zhàn)。微信等手機通訊APP的出現(xiàn)侵蝕了運營商的語音和短信收入,流量業(yè)務顯得更加重要。另一方面,無線網(wǎng)絡服務是運營商的核心競爭力。近年來,運營商正在投入大量資金建設(shè)網(wǎng)絡來大力發(fā)展4G。4G網(wǎng)絡的覆蓋率不高或者質(zhì)量不高導致的4G回落到3G或者2G會大大降低客戶滿意度。
經(jīng)過最近一兩年的探索,運營商在大數(shù)據(jù)平臺建設(shè)方面總結(jié)了兩個方向,一是利用大數(shù)據(jù)技術(shù)來提升運營效率,同時探索新的商業(yè)模式和數(shù)據(jù)運營方式。在過去的一年中,大數(shù)據(jù)在運營效率提升方面得到驗證,而新的商業(yè)模式仍然在探索中。我們在廣東移動的經(jīng)營數(shù)據(jù)分析中應用星環(huán)的內(nèi)存計算技術(shù)成功地將800多個指標的計算從原先Oracle的30小時減少到了4小時,在上海移動成功地將流量經(jīng)營系統(tǒng)從DB2完整地遷移到了星環(huán)的TDH上,運行效率比原先的集群有5倍左右的提升。我們對SQL的完整支持使得應用系統(tǒng)遷移成為可能,而之前合作伙伴曾經(jīng)嘗試過將應用系統(tǒng)遷移到某知名Hadoop發(fā)行版上但沒有成功。我們正在參與某省電信和某直轄市移動的4G網(wǎng)絡優(yōu)化項目,在這些項目中,我們的合作伙伴在用更高性能的星環(huán)TDH代替?zhèn)鹘y(tǒng)MPP數(shù)據(jù)庫進行網(wǎng)絡優(yōu)化模型的建立和高速的模型運算,一方面發(fā)現(xiàn)網(wǎng)絡中存在的問題,例如信號回落的問題,幫助運營商快速找出有問題的區(qū)域。另一方面通過TDH提供的完整SQL結(jié)合統(tǒng)計和機器學習算法,找到最佳的優(yōu)化模型和參數(shù),對網(wǎng)絡進行細粒度的精確調(diào)整,以提高網(wǎng)絡的覆蓋度以及信號的質(zhì)量。
金融
在2013年到2014年間,國有銀行以及部分股份制銀行或多或少地進行了大數(shù)據(jù)技術(shù)應用方面的探索,但是早期的應用局限在簡單的歷史交易查詢以及非結(jié)構(gòu)化數(shù)據(jù)的存儲和檢索上,并沒有對銀行的關(guān)鍵業(yè)務產(chǎn)生影響。而大數(shù)據(jù)技術(shù)在銀行的應用前景被廣泛傳播,通過綜合處理銀行自有結(jié)構(gòu)化交易數(shù)據(jù)以及外部互聯(lián)網(wǎng)/政府數(shù)據(jù),可以提升精細化客戶管理水平以及進行大數(shù)據(jù)征信降低風險等。這些遠景在2014年沒有成為現(xiàn)實,2015年預計將是應用探索的一年。但我們在2014年在銀行中實踐了一些務實的應用。在這些應用中,TDH作為數(shù)據(jù)倉庫的補充,用于提升數(shù)據(jù)分析的效率。同樣受益于我們對SQL的完整支持,某股份制銀行開始把一些復雜的貸款風險控制邏輯遷移到TDH Hadoop平臺上進行運算。這些風控模型客戶此前在多個MPP數(shù)據(jù)庫和Hadoop發(fā)行版上進行過嘗試,性能或者功能都沒能滿足他們的要求。從技術(shù)角度來看,這些分析涉及的數(shù)據(jù)量只有幾個TB,但是分析業(yè)務極其復雜,涉及到近百張事實表和維度表,有些表的寬度甚至超過了幾萬字節(jié)。這個案例說明傳統(tǒng)關(guān)系型數(shù)據(jù)庫或者MPP數(shù)據(jù)庫對于大數(shù)據(jù)場景下的復雜計算變得越來越捉襟見肘,銀行需要一個更高效的數(shù)據(jù)處理工具。
快遞
快遞行業(yè)IT系統(tǒng)產(chǎn)生的數(shù)據(jù)量和承載的壓力過去一直沒有得到大家的關(guān)注。近年來,快遞行業(yè)的規(guī)模隨著電子商務的高速發(fā)展出現(xiàn)了快速的擴張。巨大的市場需求給快遞公司帶來了前所未有的挑戰(zhàn),每年的“雙十一”會給快遞公司的處理能力施加遠高于平時的壓力。因此,怎樣緩解“雙十一”的爆倉、避免快件變“慢件”是每個快遞公司的難題。
如何通過大數(shù)據(jù)的分析對快遞流程進行改善和優(yōu)化成為一個值得研究的問題,也是快遞業(yè)提高競爭力的一個重要手段。快遞的每一個生產(chǎn)環(huán)節(jié)都會產(chǎn)生的大量數(shù)據(jù),監(jiān)控這些數(shù)據(jù)進而對全國各處理中心的收寄和運載能力、出班投遞計劃做實時優(yōu)化調(diào)整,公司就能降低成本。分析這些數(shù)據(jù)來對業(yè)務發(fā)展的趨勢做出預測,公司就能做好準備應對暴漲的需求。然而,快遞生產(chǎn)環(huán)節(jié)中的數(shù)據(jù)具有數(shù)據(jù)量大、并發(fā)性高、類型復雜的特點,上層應用對實時性要求很高,傳統(tǒng)數(shù)據(jù)庫在這樣的情況下捉襟見肘。
我們和華勝天成合作一起為中國郵政EMS速遞部門部署了大數(shù)據(jù)平臺,對它在全國的攬投部、處理中心和集散中心的數(shù)據(jù)(包括已接收、留存件、已下段、未下段、已投遞、未投遞、攬收員、地址、已封發(fā)、已發(fā)運、未發(fā)運等等)進行處理。大數(shù)據(jù)平臺將ESB(企業(yè)生產(chǎn)總線)流來的數(shù)據(jù)實時動態(tài)加載進流處理集群以及實時數(shù)據(jù)庫,進行實時統(tǒng)計和指標監(jiān)測,并且實現(xiàn)實時數(shù)據(jù)查詢。這次部署給了客戶簡單易用的工具來對業(yè)務的每個環(huán)節(jié)實時監(jiān)控,使得他們在海量的快遞業(yè)務中都可以快速精準地發(fā)現(xiàn)問題,如快件的積壓、遺失、破損等,從而提高服務質(zhì)量。這個大數(shù)據(jù)平臺平穩(wěn)支撐了2014年“雙十一”的數(shù)據(jù)處理壓力。未來該平臺也可根據(jù)最新的生產(chǎn)數(shù)據(jù)幫助快遞公司調(diào)整和優(yōu)化投遞計劃,為公司降低成本。
工商
工商部門在建設(shè)國家的“經(jīng)濟戶籍庫”積累了大量的市場主體信息、年檢情況、執(zhí)法數(shù)據(jù)和12315投訴等數(shù)據(jù)。對這些數(shù)據(jù)的統(tǒng)計分析可以幫助工商部門理解市場與經(jīng)濟形勢。
大數(shù)據(jù)技術(shù)的其中一個簡單應用是用在數(shù)據(jù)質(zhì)量管理和統(tǒng)計分析上。由于是人工錄入數(shù)據(jù),不可避免存在一定出錯的概率,雖然概率不大。同時企業(yè)和個人的基本信息被分散在幾十張關(guān)系表中,信息存在一定程度的交叉關(guān)聯(lián)。通過對數(shù)據(jù)進行大規(guī)模交叉比對和統(tǒng)計,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的錯誤并及時得到更正。這個應用使用了星環(huán)的內(nèi)存計算技術(shù),全量數(shù)據(jù)的校驗和統(tǒng)計可在十分鐘內(nèi)完成,極大提高了工作效率。
另外,大數(shù)據(jù)技術(shù)也用于市場主體信息的查詢系統(tǒng)中,可以應對上億用戶并發(fā)查詢并在幾百毫秒內(nèi)就返回查詢或搜索結(jié)果。對企業(yè)歷史快照的查詢可以讓用戶跟蹤企業(yè)變更信息,掌握企業(yè)生命周期的變化規(guī)律。在解決了存儲和查詢問題的基礎(chǔ)上,我們還幫助客戶利用圖計算引擎快速發(fā)現(xiàn)企業(yè)之間和企業(yè)相關(guān)人員之間的關(guān)聯(lián)。通過對全庫數(shù)據(jù)進行掃描,確認這些企業(yè)基于股權(quán)、任職等方面的關(guān)聯(lián)關(guān)系,建立企業(yè)關(guān)聯(lián)關(guān)系信息庫。
電力
隨著電力企業(yè)信息化快速建設(shè)和智能電力系統(tǒng)的全面建成,電力數(shù)據(jù)的增長速度將遠遠超出電力企業(yè)的預期。從發(fā)電側(cè)為例,電力生產(chǎn)自動化控制程度的提高,對諸如壓力、流量和溫度等指標的監(jiān)測精度,頻度和準確度更高,對海量數(shù)據(jù)采集處理提出了更高的要求。就用電側(cè)而言,一次采集頻度的提升就會帶來數(shù)據(jù)體量的“指數(shù)級”變化。電力數(shù)據(jù)量的增長已經(jīng)遠遠超過某電力部門原先使用的關(guān)系數(shù)據(jù)庫的處理能力。
我們在2014年主要幫助電力部門處理用電側(cè)的數(shù)據(jù)。我們意外地發(fā)現(xiàn)電力數(shù)據(jù)的統(tǒng)計分析涉及非常復雜的SQL運算,從技術(shù)角度來看,大量使用了Oracle的PL/SQL擴展語法,包括存儲過程/控制流/異常處理/增刪查改/事務處理等。從應用角度來看,這些SQL邏輯主要用于用電量的歷史統(tǒng)計和用電趨勢的分析,以及對線路損耗的計算。我們協(xié)助客戶通過機器學習的方法進行分析,發(fā)現(xiàn)用電量跟宏觀經(jīng)濟走勢以及氣候有一定的相關(guān)性,同時也跟每個行業(yè)以及每個企業(yè)的經(jīng)營狀況密切相關(guān)。通過對企業(yè)用電量的統(tǒng)計以及它所處行業(yè)的用電水平的對比,可以發(fā)現(xiàn)企業(yè)的節(jié)能情況,通過對用電歷史數(shù)據(jù)的分析,可以發(fā)現(xiàn)企業(yè)生產(chǎn)活動的變化或者節(jié)能措施的效果。某南方供電局采用TDH的平臺統(tǒng)計找出節(jié)能環(huán)保的企業(yè)和用電大戶,并對節(jié)能環(huán)保的企業(yè)給予補貼,目的是對全社會節(jié)能減排觀念進行引導,推動工業(yè)由高耗能的粗放發(fā)展方式向低耗能、高效率的綠色和諧發(fā)展方式轉(zhuǎn)變。
我們還為某電力部門部署了一個試驗性的故障處理系統(tǒng),我們和合作伙伴建立了統(tǒng)一的配電網(wǎng)供電拓撲模型,利用圖數(shù)據(jù)庫存儲從用戶到變電站的整個供電拓撲網(wǎng)絡數(shù)據(jù),利用流處理系統(tǒng)進行實時告警,并實時查詢電網(wǎng)拓撲圖,快速研判停電事故發(fā)生的地點以及影響的范圍。在此基礎(chǔ)上,可以將停電事件通知搶修班組,及時恢復供電。同時可以主動告知用戶,加強與用戶互動,全面且直觀的掌握全網(wǎng)的停電分布情況。
交通
隨著經(jīng)濟迅猛發(fā)展,機動車輛不斷增加,全國性的交通擁堵現(xiàn)象也越來越嚴重,如何通過信息化手段提高交通管理水平和保障道路安全已經(jīng)成為一個重要的課題。
目前常用的方式是在道路卡口部署數(shù)字監(jiān)控設(shè)備,這些設(shè)備7×24小時不間斷捕獲圖像和視頻數(shù)據(jù),并進行識別,一個省或直轄市每日產(chǎn)生的過車數(shù)據(jù)有幾千萬條記錄。這些數(shù)據(jù)主要用來為交通管理部門提供實時的路況信息,這些信息未來可以發(fā)布給公眾作為出行的參考信息。同時協(xié)助管理部門進行交通管理,包括對重點營運車輛的監(jiān)控,違法車輛的識別和布控,區(qū)間測速、套牌分析等實時性的分析應用。 我們和合作伙伴為某省公安廳交通管理部門部署了全省范圍的交通監(jiān)控系統(tǒng),采用分布式隊列實時采集全省各個交通卡口的車輛信息,使用流式計算集群對過車記錄進行實時統(tǒng)計和監(jiān)測,并實現(xiàn)上述多種實時分析應用,系統(tǒng)處理信息的端到端延時在2秒以內(nèi),較好地提高了交通管理的效率。
當然,交通行業(yè)的大數(shù)據(jù)應用還處于起步階段,剛剛開始或者即將完成大數(shù)據(jù)的集中收集。利用大數(shù)據(jù)技術(shù)的強大分析和挖掘能力,未來可以顯著提高交通信息的實時透明度,提升交通和擁堵管理的水平,降低事故的發(fā)生率,并為城市規(guī)劃提供參考。
廣電
在中國,廣電系統(tǒng)正經(jīng)歷著數(shù)字化浪潮的沖擊,基于網(wǎng)絡化的影視播放給傳統(tǒng)廣電運營商很大挑戰(zhàn)。在此背景下,華數(shù)傳媒敏銳意識到,要想獲得未來網(wǎng)絡化傳媒的生存與競爭優(yōu)勢,現(xiàn)在就必需向用戶傾斜,打造“精準型”廣電內(nèi)容及傳播運營商。華數(shù)傳媒需要的數(shù)據(jù)基礎(chǔ)架構(gòu)需要能夠滿足海量、多來源、多樣性數(shù)據(jù)的存儲、管理要求,支持平臺硬件的線性擴展,并提供快速實時的數(shù)據(jù)分析結(jié)果,迅速作用于業(yè)務。華數(shù)傳媒選擇了我們?yōu)槠洳渴鹆舜髷?shù)據(jù)平臺,在其之上開發(fā)了數(shù)字電視分析系統(tǒng)。該系統(tǒng)可以提供基于全量數(shù)據(jù)的實時榜單。以時間(小時/天/周)、用戶等維度,對點播節(jié)目、直播節(jié)目、節(jié)目類別、搜索關(guān)鍵詞等進行排名分析、同比環(huán)比分析、趨勢分析等。系統(tǒng)還可以從時間、頻道、影片類型、劇集等維度,根據(jù)在看數(shù)量、新增數(shù)量、結(jié)束觀看數(shù)量、完整看完等分析用戶走向。另外,通過對用戶行為數(shù)據(jù)的采集分析,華數(shù)傳媒可以對客戶進行精準畫像,使用智能推薦引擎,系統(tǒng)可以先于觀眾知道他們需求,預知將受到追捧的電視,為每一個用戶量身定做推薦節(jié)目,以提高了產(chǎn)品的到達率,增強用戶忠誠度。另外,系統(tǒng)還可通過觀眾對演員、情節(jié)、基調(diào)、類型等元數(shù)據(jù)的標簽化,來了解受眾偏好,從而進行分析觀測,為后續(xù)的影視制作等內(nèi)容開發(fā)做好準備。得益于基于大數(shù)據(jù)平臺的數(shù)字電視分析系統(tǒng),華數(shù)傳媒正在進行從內(nèi)容傳輸?shù)絻?nèi)容制造的“華麗轉(zhuǎn)身”。
電子商務
在電子商務領(lǐng)域,大數(shù)據(jù)可以說已經(jīng)成為業(yè)務支撐的關(guān)鍵技術(shù),在營銷推廣、客戶關(guān)懷等眾多環(huán)節(jié)發(fā)揮重要作用。我們和錦江電商合作,利用大數(shù)據(jù)平臺為該電商打造了產(chǎn)品推薦系統(tǒng)。我們基于大數(shù)據(jù)平臺建設(shè)了客戶標簽體系。依托該電商大量的會員和訪客,深度學習和挖掘客戶的行為數(shù)據(jù),依據(jù)RFM模型和客戶信息,形成客戶消費喜好、客戶年齡、家庭狀況、甚至星座、屬相、消費頻次、金額、出行方式等等信息計入客戶標簽。再將客戶標簽聚類分析,形成客戶分群。如此,便能精準獲取客戶群體,實施精準營銷。同時,我們還協(xié)助客戶建設(shè)了產(chǎn)品標簽體系。依據(jù)酒店與旅游等各類型產(chǎn)品特征,建設(shè)和挖掘產(chǎn)品標簽,并經(jīng)過一定的機器學習挖掘過程,將客戶標簽和產(chǎn)品標簽對接,根據(jù)各類標簽分析權(quán)重,建設(shè)智能化推薦系統(tǒng)。
該推薦系統(tǒng)可以智能化推薦產(chǎn)品,正逐步成為針對電商的會員關(guān)懷體系和精準服務體系中重要的基礎(chǔ)環(huán)節(jié)。
總結(jié)和展望
總結(jié)了一下2014年的Hadoop大數(shù)據(jù)行業(yè)應用,有些應用可能是大家之前沒有預想到的簡單應用,有些則是復雜的數(shù)據(jù)分析和挖掘類應用。大數(shù)據(jù)技術(shù)本身是一個全新的數(shù)據(jù)處理和分析技術(shù),擁有超過現(xiàn)有技術(shù)的強大處理能力和深度挖掘數(shù)據(jù)的能力,然而技術(shù)本身帶來的價值需要通過上層應用來展現(xiàn),因此如何應用這些能力來解決現(xiàn)實的問題是各個行業(yè)都在探索的課題。在2015年預計會有大量的基于大數(shù)據(jù)技術(shù)的創(chuàng)新應用涌現(xiàn)出來。
同時在過去的一年中,大數(shù)據(jù)技術(shù)已經(jīng)證明可以大幅提升運營效率,我們預計將來的一年內(nèi),利用SQL on Hadoop技術(shù)解決企業(yè)面臨的數(shù)據(jù)量大難算的難題會成為一個普遍的應用趨勢,隨著SQL支持程度的不斷完善和性能的不斷提升,企業(yè)應用大數(shù)據(jù)技術(shù)進行結(jié)構(gòu)化數(shù)據(jù)處理,以提升運營效率和解放生產(chǎn)力,將得到立竿見影的效果。
2014年是大數(shù)據(jù)技術(shù)開始落地的一年,我們看到了市場對大數(shù)據(jù)技術(shù)和產(chǎn)品的巨大需求。我們對2015年和以后的大數(shù)據(jù)發(fā)展都十分看好。大數(shù)據(jù)快速發(fā)展的趨勢會持續(xù)很長一段時間,數(shù)據(jù)中還有太多價值沒有被挖掘出來,會有越來越多的企業(yè)、政府機構(gòu)和公益組織需要大數(shù)據(jù)解決方案。普及優(yōu)秀的大數(shù)據(jù)產(chǎn)品幫助大眾解決數(shù)據(jù)處理的難題,讓我們共同努力!