大數(shù)據(jù),時(shí)下已成為人們討論最多的熱詞之一。同樣,在京東,大數(shù)據(jù)也受到越來(lái)越多的關(guān)注。
使命所在
2013年年初,在京東制定的下一個(gè)10年發(fā)展規(guī)劃中明確提出,大數(shù)據(jù)戰(zhàn)略將成為公司重點(diǎn)戰(zhàn)略方向之一。從此,大數(shù)據(jù)正式冠以戰(zhàn)略高度登上京東舞臺(tái)。其實(shí)早在這一戰(zhàn)略計(jì)劃宣布之前,京東大數(shù)據(jù)的應(yīng)用價(jià)值已經(jīng)體現(xiàn)在公司業(yè)務(wù)的各個(gè)方面。如:用戶(hù)消費(fèi)行為深度挖掘、EDM精準(zhǔn)營(yíng)銷(xiāo)策略實(shí)施、銷(xiāo)量預(yù)測(cè)與庫(kù)房自動(dòng)補(bǔ)貨、搜索推薦系統(tǒng)的持續(xù)優(yōu)化、廣告精準(zhǔn)投放技術(shù)等,這一系列對(duì)公司運(yùn)營(yíng)至關(guān)重要的項(xiàng)目背后,都是對(duì)大數(shù)據(jù)創(chuàng)新應(yīng)用的不斷探索與研究。伴隨著京東業(yè)務(wù)的調(diào)整與發(fā)展,高價(jià)值的業(yè)務(wù)數(shù)據(jù)積累與大數(shù)據(jù)技術(shù)的演進(jìn),京東大數(shù)據(jù)創(chuàng)新應(yīng)用與產(chǎn)品化進(jìn)程不斷取得新突破。大數(shù)據(jù)挖掘平臺(tái)、實(shí)時(shí)大數(shù)據(jù)解決方案、推薦搜索系統(tǒng)、電子商務(wù)全鏈條企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)在京東發(fā)展的道路上背負(fù)起更加重要的使命。
在行政歸屬上,京東大數(shù)據(jù)平臺(tái)直接隸屬于京東集團(tuán),作為基礎(chǔ)數(shù)據(jù)技術(shù)平臺(tái),面向京東商城、拍拍、京東金融及海外事業(yè)部提供數(shù)據(jù)服務(wù),并承擔(dān)部分對(duì)外數(shù)據(jù)服務(wù)的職能。平臺(tái)致力于電子商務(wù)海量數(shù)據(jù)處理技術(shù)研發(fā)與應(yīng)用,打造高性能、高穩(wěn)定性、高安全性的數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)挖掘基礎(chǔ)平臺(tái),為京東及電子商務(wù)行業(yè)挖掘大數(shù)據(jù)價(jià)值提供全過(guò)程解決方案及技術(shù)保證。自主設(shè)計(jì)研發(fā)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)歷經(jīng)618、雙11等高并發(fā)的數(shù)據(jù)生產(chǎn)性能考驗(yàn),支撐著京東的決策數(shù)據(jù)分析與高附加值的數(shù)據(jù)應(yīng)用產(chǎn)品。
京東大數(shù)據(jù)團(tuán)隊(duì)合影
平臺(tái)之路
京東大數(shù)據(jù)平臺(tái)從無(wú)到有,從集中式到如今的分布式,從Oracle數(shù)據(jù)倉(cāng)庫(kù)到JDW2.0,4年期間經(jīng)過(guò)復(fù)雜的演變。Tiger,作為京東大數(shù)據(jù)平臺(tái)負(fù)責(zé)人,也是大數(shù)據(jù)平臺(tái)的總架構(gòu)師,伴隨著京東數(shù)據(jù)倉(cāng)庫(kù)發(fā)展,他一直在思索兩個(gè)問(wèn)題:如何建設(shè)電商特有的復(fù)雜業(yè)務(wù)的數(shù)據(jù)倉(cāng)庫(kù)?如何在保障安全的情況下降低使用數(shù)據(jù)的成本?打造一個(gè)“人人皆可成為大數(shù)據(jù)專(zhuān)家”的“自助式商業(yè)智能(BI)平臺(tái)”似乎是唯一出路。但如何實(shí)現(xiàn)呢?
事情還要追溯到2009年12月的一天,當(dāng)邢捕頭和其他3位同事在蘇州街的會(huì)議室里參加數(shù)據(jù)部成立準(zhǔn)備會(huì)的時(shí)候,做為新部門(mén)的第一位經(jīng)理,他不無(wú)惆悵的想,采銷(xiāo)扔過(guò)來(lái)那么多數(shù)據(jù)需求,就他這幾個(gè)人可怎么辦!但他幾乎沒(méi)有任何時(shí)間感嘆了,公司訂單增長(zhǎng)這么快,放眼望去,各部門(mén)的同事都像打仗一樣從早到晚忙個(gè)不停,采銷(xiāo)“討賬”的同事馬上就要上門(mén)了。過(guò)去幾個(gè)月來(lái),對(duì)數(shù)據(jù)各方面需求的暴漲讓技術(shù)研發(fā)體系的老大老李意識(shí)到了數(shù)據(jù)的重要性,支持業(yè)務(wù)部門(mén)數(shù)據(jù)需求的同時(shí)也有必要為將來(lái)做規(guī)劃,于是便準(zhǔn)備成立這樣一個(gè)部門(mén)。半年后Tiger作為數(shù)據(jù)部總監(jiān)加入京東,數(shù)據(jù)部正式宣布成立。
2014年8月一個(gè)晴朗的早晨,當(dāng)邢捕頭作為特邀講師站在清華大學(xué)電商總裁特訓(xùn)班的講臺(tái)上時(shí),早已惆悵不再,但激動(dòng)依舊。因?yàn)樗凶銐虻牡讱饷鎸?duì)臺(tái)下幾十名電商從業(yè)精英論道電商大數(shù)據(jù)。作為京東大數(shù)據(jù)平臺(tái)數(shù)據(jù)創(chuàng)新部的高級(jí)經(jīng)理,他所負(fù)責(zé)的團(tuán)隊(duì)幾經(jīng)變換之后已經(jīng)擴(kuò)大了近10倍,大部分成員為高級(jí)數(shù)據(jù)挖掘工程和高級(jí)數(shù)據(jù)分析師,肩負(fù)京東大數(shù)據(jù)創(chuàng)新應(yīng)用的重要職責(zé)。而Tiger帶領(lǐng)整個(gè)大數(shù)據(jù)平臺(tái)此時(shí)已經(jīng)達(dá)到200人的規(guī)模,除了邢捕頭的數(shù)據(jù)創(chuàng)新部外,還包括數(shù)據(jù)架構(gòu)部、數(shù)據(jù)產(chǎn)品部、平臺(tái)運(yùn)營(yíng)管理等多個(gè)部門(mén)。
匆匆那年
光明的前途往往都要經(jīng)過(guò)曲折的道路才能抵達(dá),今天的數(shù)據(jù)部也同樣經(jīng)歷了不少的曲折發(fā)展歷程。2010年下半年,數(shù)據(jù)部依據(jù)服務(wù)職能對(duì)象的不同拆分為兩個(gè)部門(mén)。Tiger團(tuán)隊(duì)主要面向采銷(xiāo)、市場(chǎng)等部門(mén)提供數(shù)據(jù)支持,另一個(gè)數(shù)據(jù)團(tuán)隊(duì)主要面向倉(cāng)儲(chǔ)、物流等部門(mén)提供服務(wù)。
Tiger團(tuán)隊(duì)當(dāng)時(shí)的工作重點(diǎn)是數(shù)據(jù)分析與數(shù)據(jù)報(bào)表,但在沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)的年代里,分析師們只能依靠DBA提供的兩臺(tái)查詢(xún)機(jī)排隊(duì)寫(xiě)SQL提數(shù),然后再拿回來(lái)做分析。遇到業(yè)務(wù)需求方描述不清或口徑不明確時(shí),往往要花大量時(shí)間溝通調(diào)研,反復(fù)提取數(shù)據(jù),這個(gè)過(guò)程耗時(shí)費(fèi)力不說(shuō),還會(huì)被需求方不斷催促。不能自主的數(shù)據(jù)提取過(guò)程讓數(shù)據(jù)分析與使用的效率非常低下,盡管分析師沒(méi)日沒(méi)夜的加班,但還是不能滿(mǎn)足采銷(xiāo)業(yè)務(wù)的需求。當(dāng)然業(yè)務(wù)人員也無(wú)法理解分析師們的難處,有次甚至因?yàn)榇罅棵骷?xì)數(shù)據(jù)未能及時(shí)提取把當(dāng)時(shí)的分析師玉蘭姑娘逼哭了。高速成長(zhǎng)的京東,對(duì)身處其中的每一個(gè)人也都是一場(chǎng)難忘的歷練,偶爾大家湊在一起聊天,不無(wú)自嘲的感嘆:在京東,女人被當(dāng)男人使,男人被當(dāng)牲口使。哈哈一笑之后,大家也都在心中慶幸能有這樣的機(jī)會(huì)快速成長(zhǎng),不僅在工作方面學(xué)到很多,更重要的是成長(zhǎng)的收獲。
數(shù)據(jù)服務(wù)不能自主的困境,Tiger看在眼里,急在心里。同時(shí),京東業(yè)務(wù)一直在高速發(fā)展,訂單量及交易額屢創(chuàng)新高,商品品類(lèi)在不斷豐富,新開(kāi)倉(cāng)庫(kù)在全國(guó)各地陸續(xù)啟用,以前簡(jiǎn)單粗暴的數(shù)據(jù)提取與分析很快會(huì)成為瓶頸。因此,長(zhǎng)遠(yuǎn)來(lái)看,自建數(shù)據(jù)倉(cāng)庫(kù)是做到自主數(shù)據(jù)服務(wù)的必由之路。不僅如此,Tiger做了更長(zhǎng)遠(yuǎn)的打算:數(shù)據(jù)服務(wù)不僅要自主,而且要做到數(shù)據(jù)需求方自助服務(wù)!自建數(shù)據(jù)倉(cāng)庫(kù)的同時(shí),自主開(kāi)發(fā)配套的數(shù)據(jù)調(diào)度生產(chǎn)、數(shù)據(jù)分析提取、數(shù)據(jù)知識(shí)管理、數(shù)據(jù)報(bào)表呈現(xiàn)及數(shù)據(jù)質(zhì)量監(jiān)控的產(chǎn)品體系,并建設(shè)相應(yīng)的數(shù)據(jù)集市聯(lián)合推廣使用,這,其實(shí)就是今天京東的大數(shù)據(jù)平臺(tái)。
與此同時(shí),另一個(gè)數(shù)據(jù)團(tuán)隊(duì)幾乎也遇到了同樣的問(wèn)題,自建數(shù)據(jù)倉(cāng)庫(kù)也成為了他們的不二法門(mén)。但與Tiger團(tuán)隊(duì)最大的不同在于,從電信等行業(yè)加盟的決策者認(rèn)為借鑒傳統(tǒng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)的成熟經(jīng)驗(yàn),購(gòu)買(mǎi)Oracle等服務(wù)商提供的商業(yè)產(chǎn)品會(huì)更快更有保障。短期來(lái)看,確實(shí)如此,兩臺(tái)Oracle RAC小型機(jī)部署之后,數(shù)據(jù)處理效率明顯提高。造價(jià)不菲的Oracle BIEE商業(yè)智能平臺(tái)在數(shù)據(jù)處理與展現(xiàn)方面顯示出強(qiáng)大的威力。而Tiger團(tuán)隊(duì)自建數(shù)據(jù)倉(cāng)庫(kù)的初始版本基于開(kāi)源關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)MySQL,采用集群(Cluster)應(yīng)用架構(gòu),支持大規(guī)模數(shù)據(jù)存儲(chǔ)與計(jì)算應(yīng)用。數(shù)據(jù)提取與報(bào)表展現(xiàn)產(chǎn)品同樣采用開(kāi)源技術(shù)自主研發(fā),后臺(tái)Java程序,前端采用Ajax框架Extjs。這種輕量級(jí)的數(shù)據(jù)產(chǎn)品在穩(wěn)定性及服務(wù)能力上與BIEE相比雖然有一定差距,但支持快速迭代及無(wú)與倫比的靈活性這些優(yōu)點(diǎn)也是成熟商業(yè)產(chǎn)品所無(wú)法替代的。正是自主研發(fā)、快速迭代和靈活應(yīng)用這些適用于互聯(lián)網(wǎng)企業(yè)的特點(diǎn),使得一系列產(chǎn)品和技術(shù)方案在快速成長(zhǎng)的京東很好的支持了各種場(chǎng)景的數(shù)據(jù)需求,也成就了今天的京東大數(shù)據(jù)平臺(tái)。這對(duì)于其他成長(zhǎng)中的互聯(lián)網(wǎng)企業(yè)也具有重要的借鑒意義,電信、銀行等傳統(tǒng)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)解決方案以其穩(wěn)定性著稱(chēng),但前提是這些傳統(tǒng)行業(yè)的業(yè)務(wù)體系也較為固定,數(shù)據(jù)庫(kù)、表結(jié)構(gòu)不會(huì)輕易發(fā)生變化。而互聯(lián)網(wǎng)企業(yè)業(yè)務(wù)變化頻繁,不但要支持橫向擴(kuò)展,甚至在整體業(yè)務(wù)結(jié)構(gòu)層面都面臨著平均每半年一次的調(diào)整。因此,隨著時(shí)間的推移,撇去成本不談,成熟商業(yè)產(chǎn)品的使用局限性也越來(lái)越明顯。
2012年年初,京東研發(fā)體系再次調(diào)整,數(shù)據(jù)部又重歸于一體,之后的大數(shù)據(jù)平臺(tái)部由Tiger統(tǒng)一負(fù)責(zé)。此時(shí)的Tiger團(tuán)隊(duì)已開(kāi)始著手進(jìn)行分布式數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)工作,今天的京東企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)JDW便是在當(dāng)初設(shè)計(jì)的版本上演變而來(lái)。與此同時(shí),打造一個(gè)“人人皆可成為大數(shù)據(jù)專(zhuān)家”的“自助式商業(yè)智能(BI)平臺(tái)”的藍(lán)圖也逐漸清晰。通過(guò)數(shù)據(jù)分析工具,一個(gè)不懂?dāng)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析師也可以完全根據(jù)自己的需求,隨時(shí)隨地獲取數(shù)據(jù)、分析數(shù)據(jù),為業(yè)務(wù)運(yùn)營(yíng)的提供決策支持。
黎明之光
基于Hadoop,以Mapreduce作為計(jì)算引擎的的分布式數(shù)據(jù)倉(cāng)庫(kù)可以說(shuō)是大數(shù)據(jù)處理的“標(biāo)配”,2012年8月,由40臺(tái)機(jī)器搭建的第一版集群上線(xiàn),相較于Oracle小型機(jī),性能明顯提升,讓我們第一次體會(huì)到分布式的威力。2012年12月,集群服務(wù)器數(shù)量增加到110臺(tái),但由于帶寬限制,性能遇到瓶頸,于是在2013年3月升級(jí)萬(wàn)兆帶寬,同時(shí)服務(wù)器數(shù)量增加到200臺(tái)。3個(gè)月后的2013年6月,MySQL數(shù)據(jù)倉(cāng)庫(kù)完成遷移,正式退出京東主數(shù)據(jù)倉(cāng)庫(kù),集群服務(wù)器數(shù)量達(dá)到310臺(tái)。2013年11月,京東全業(yè)務(wù)線(xiàn)數(shù)據(jù)接入集群,可滿(mǎn)足公司各體系業(yè)務(wù),服務(wù)器數(shù)量達(dá)到440臺(tái)。2013年12月,老葛、彥明帶領(lǐng)一眾BI兄弟連續(xù)奮戰(zhàn)三個(gè)月之后,終于完成Oracle數(shù)據(jù)倉(cāng)庫(kù)遷移,相關(guān)任務(wù)全部下線(xiàn),Oracle正式退出京東數(shù)據(jù)倉(cāng)庫(kù)。2014年3月,集群服務(wù)器數(shù)量達(dá)到800臺(tái),倉(cāng)庫(kù)模型全面升級(jí)到JDW2.0。調(diào)度平臺(tái)功能逐漸完善,生產(chǎn)模式也由原來(lái)的單節(jié)點(diǎn)調(diào)度升級(jí)到分布式調(diào)度。數(shù)據(jù)開(kāi)發(fā)、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)展現(xiàn)及統(tǒng)一權(quán)限管理產(chǎn)品全面推廣應(yīng)用。基礎(chǔ)數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)倉(cāng)庫(kù)加工后通過(guò)數(shù)據(jù)集市的方式面向公司各體系開(kāi)放服務(wù),同時(shí),面向集市用戶(hù)的產(chǎn)品運(yùn)營(yíng)與認(rèn)證培訓(xùn)工作建立標(biāo)準(zhǔn)體系,至此,京東大數(shù)據(jù)平臺(tái)逐步走向成熟。
2014年年中的時(shí)候,公司整體組織架構(gòu)有所調(diào)整,研發(fā)部門(mén)納入相應(yīng)業(yè)務(wù)體系垂直化管理,大數(shù)據(jù)平臺(tái)依舊歸屬京東集團(tuán),面向京東商城、京東金融集團(tuán)、拍拍及海外事業(yè)部提供大數(shù)據(jù)應(yīng)用與技術(shù)服務(wù)。新的起點(diǎn),新的期待,部門(mén)組織了一次集體出游,在蒼茫遼闊的大草原展現(xiàn)團(tuán)隊(duì)恢弘氣勢(shì),為更高更遠(yuǎn)的目標(biāo)凝聚力量。