【CSDN現(xiàn)場報(bào)道】2014年12月12-14日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF大數(shù)據(jù)專家委員會(huì)承辦,中科院計(jì)算所與CSDN共同協(xié)辦,以推進(jìn)大數(shù)據(jù)科研、應(yīng)用與產(chǎn)業(yè)發(fā)展為主旨的2014中國大數(shù)據(jù)技術(shù)大會(huì)(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議在北京新云南皇冠假日酒店盛大開幕。
浪潮云計(jì)算產(chǎn)品研發(fā)部總經(jīng)理張東通過對互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)的對比,結(jié)合中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的現(xiàn)狀指出,行業(yè)市場是中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的關(guān)鍵,中國要發(fā)展自己的大數(shù)據(jù)核心技術(shù)加速行業(yè)應(yīng)用。張東特別指出,大數(shù)據(jù)已經(jīng)逐漸發(fā)展成為一個(gè)極具潛力新興產(chǎn)業(yè),將成為解決中國經(jīng)濟(jì)、政治轉(zhuǎn)型期的重要手段,發(fā)展中國大數(shù)據(jù)產(chǎn)業(yè)必須首先掌握大數(shù)據(jù)的關(guān)鍵技術(shù),為大數(shù)據(jù)的行業(yè)化應(yīng)用奠定基礎(chǔ)。云海大數(shù)據(jù)一體機(jī)是國產(chǎn)化軟硬件一體的創(chuàng)新數(shù)據(jù)處理平臺(tái),針對重載應(yīng)用、通用數(shù)據(jù)挖掘、海量并發(fā)數(shù)據(jù)處理及對高安全、高可靠有極端要求的四類應(yīng)用處理場景,實(shí)現(xiàn)了全環(huán)節(jié)覆蓋。
浪潮云計(jì)算產(chǎn)品研發(fā)部總經(jīng)理 張東
以下為演講實(shí)錄:
各位領(lǐng)導(dǎo)、各位嘉賓大家下午好,今天非常高興有機(jī)會(huì)在這里跟大家分享一下浪潮在大數(shù)據(jù)里面的工作,前面學(xué)校里來的教授講了很多技術(shù)層面的工作,從浪潮來講,我們做的更多的是在產(chǎn)業(yè)里面如何把大數(shù)據(jù)技術(shù)在用戶端用起來,今天講講目前整個(gè)大數(shù)據(jù)在中國的認(rèn)識(shí)以及浪潮做的一些工作。
本次演講有三個(gè)方面,首先是從云計(jì)算怎么到大數(shù)據(jù);第二,介紹浪潮在行業(yè)大數(shù)據(jù)的解決方案;最后是一些案例,我們這方面給大家舉兩個(gè)具體在行業(yè)方面大數(shù)據(jù)應(yīng)用的案例。這個(gè)數(shù)字可能大家看得有很多了,左邊這個(gè)大家會(huì)強(qiáng)調(diào)的非常多,互聯(lián)網(wǎng)行業(yè)確實(shí)在中國發(fā)展很快,在世界上發(fā)展確實(shí)也是不錯(cuò),在中國在傳統(tǒng)的行業(yè)里面這里面舉幾個(gè)例子,都是金融、電信、電力,這些行業(yè)實(shí)際上已經(jīng)成為中國最大的市場,中國人多,大家每個(gè)人去銀行開一個(gè)戶這個(gè)數(shù)字相當(dāng)龐大了。在傳統(tǒng)行業(yè)里面其實(shí)也積累了相當(dāng)多的數(shù)據(jù),這里面我們跟其他人聊的時(shí)候,總是感覺中國現(xiàn)在一下子進(jìn)入了大數(shù)據(jù)時(shí)代,在國外是從有數(shù)據(jù)做數(shù)據(jù)分析,從小規(guī)模開始,小樣本采集逐步到大樣本,中國一下子蹦到大樣本,相對來講它的基礎(chǔ)都是比較薄弱的,大數(shù)據(jù)在中國機(jī)會(huì)是非常多的,如果我們看大數(shù)據(jù)在這些行業(yè)的應(yīng)用,可能在這里面還沒有說我們特別需要很高深的技術(shù)在這里用起來,我們解決很多問題,數(shù)據(jù)歸結(jié)問題,數(shù)據(jù)收集整理以及一些基本的數(shù)據(jù)模型問題才能把大數(shù)據(jù)的技術(shù)用起來。
在行業(yè)里面我們這個(gè)圖其實(shí)畫很多年,為什么這里展示給大家,我們覺得從我們一開始講行業(yè)信息化,到后面出現(xiàn)云計(jì)算,熱炒云計(jì)算現(xiàn)在開始出現(xiàn)大數(shù)據(jù)大家好像又在熱炒大數(shù)據(jù),原來都是手工操作到最后建立自己的信息化系統(tǒng),這些系統(tǒng)都是孤立的,到一步一步把系統(tǒng)聚集起來形成集中式的數(shù)據(jù)中心,慢慢形成云的數(shù)據(jù)中心,再后面我們深層次思考這些行業(yè)聚集起來的行業(yè)數(shù)據(jù)是不是反過來推動(dòng)行業(yè)的發(fā)展,以前我們說業(yè)務(wù)系統(tǒng)推動(dòng)它的發(fā)展,這些行業(yè)積累數(shù)據(jù)是不是反過來可以促進(jìn)它的發(fā)展,然后對數(shù)據(jù)的加工應(yīng)用實(shí)現(xiàn)現(xiàn)代化。
前面最原始的狀態(tài)我們不講了,行業(yè)整體狀況,我做一個(gè)業(yè)務(wù),這個(gè)業(yè)務(wù)怎么做好,這個(gè)業(yè)務(wù)處理流程怎么樣的,可能用到哪些數(shù)據(jù),把數(shù)據(jù)搞過來然后存下來,這種處理最后結(jié)果造成業(yè)務(wù)孤島,每個(gè)每個(gè)之間的數(shù)據(jù)沒辦法融合,最后走到融合階段,把融合起來的數(shù)據(jù)然后做成數(shù)據(jù)。絕大部分中國應(yīng)用處于以業(yè)務(wù)為中心構(gòu)建信息化的系統(tǒng),我們一直講信息孤島,為什么形成孤島?因?yàn)樗紤]這個(gè)業(yè)務(wù)就是考慮自己,他用到的數(shù)據(jù)有可能是別人的,但是我也要存一份我要搞數(shù)據(jù)庫,掌握在我自己手里,數(shù)據(jù)孤島、格式孤島非常嚴(yán)重的。現(xiàn)在我們?nèi)绾瓮苿?dòng)這些行業(yè)逐步逐步由業(yè)務(wù)驅(qū)動(dòng)走向數(shù)據(jù)驅(qū)動(dòng),怎么讓我們行業(yè)應(yīng)用走到數(shù)據(jù)融合這一步,開始融合組織內(nèi)部、行業(yè)內(nèi)部的數(shù)據(jù),基于這些數(shù)據(jù)能夠創(chuàng)造一些價(jià)值,讓我們客戶看到你數(shù)據(jù)融合起來是有用的。這一點(diǎn)可能現(xiàn)在很多人都做這一部分的工作,我怎么樣讓行業(yè)用戶認(rèn)識(shí)到數(shù)據(jù)的作用。最后我們真正以數(shù)據(jù)為中心構(gòu)建的信息系統(tǒng)。我考慮信息化系統(tǒng)首先想我在我組織里面我有哪些數(shù)據(jù),我能收集哪些數(shù)據(jù),我怎么進(jìn)行存放和處理,這些數(shù)據(jù)怎么為我業(yè)務(wù)服務(wù),怎么反過來指導(dǎo)我業(yè)務(wù)做得更精細(xì),把你整個(gè)的工作做得更好,節(jié)省人力,提升你的效力,使我們信息系統(tǒng)未來成為智慧城市,或者智慧的金融等等像這樣的系統(tǒng)發(fā)展。
可能剛才說了半天在行業(yè)里面的大數(shù)據(jù)大家可能很多人有疑問,大數(shù)據(jù)有很多數(shù)據(jù),為什么像浪潮這樣公司或者我們很多公司盯著這一部分,我們有互聯(lián)網(wǎng)的數(shù)據(jù),可能還有一些數(shù)據(jù)在科技計(jì)算里面產(chǎn)生的,在現(xiàn)在HPC的系統(tǒng),或者天氣預(yù)報(bào)的系統(tǒng)里面也有龐大的數(shù)據(jù)。但是行業(yè)里面具有行業(yè)很多的特點(diǎn),首先一個(gè)特點(diǎn)是說這個(gè)也是我們在跟很多行業(yè)用戶接觸的過程中發(fā)現(xiàn)的,就是說在整個(gè)的數(shù)據(jù)最開始的采集階段就會(huì)面臨很多很多問題,我們經(jīng)常說這個(gè)數(shù)據(jù)可能需要做清晰,數(shù)據(jù)質(zhì)量不行,我們發(fā)現(xiàn)很多行業(yè)里面數(shù)據(jù)質(zhì)量非常高,因?yàn)閿?shù)據(jù)都是定量采集,公安行業(yè)有所有人的戶籍信息,它那里面沒有什么不正確的數(shù)據(jù),這些數(shù)據(jù)相互之間共享做得非常差。共享差可能有各方面的原因,比如說有政策原因,制度原因,這些人主觀方面不愿意共享的原因,從我們搞技術(shù)的人來講我們也會(huì)分析,從技術(shù)上面我們是不是有辦法能夠消除這些人的顧慮,能夠讓他們愿意把這些數(shù)據(jù)共享起來。即使在一個(gè)行業(yè)里面公安里面可能戶籍信息跟刑偵信息交通隊(duì)的信息他們互相之間也是不通的,如果把信息泄露出去,看到某一個(gè)人所有親屬關(guān)系在網(wǎng)上找誰去,在以前肯定搞戶籍的人出問題了,如果互通變成一個(gè)大平臺(tái)可能很多人追查責(zé)任都找不到。在這個(gè)層面上對于技術(shù)層面那就要采取一些措施要能夠讓他們相信這些數(shù)據(jù)是可以有一個(gè)很有效的方法而且是很安全的方法能夠共享給大家。能夠讓需要這個(gè)數(shù)據(jù)的人只看到他需要的那一小部分?jǐn)?shù)據(jù)而不是得到所有數(shù)據(jù),這個(gè)是擺在我們行業(yè)大數(shù)據(jù)里面首先面臨的一個(gè)相當(dāng)大的問題,應(yīng)用系統(tǒng)最后做著做著做不下去了因?yàn)槟貌坏綌?shù)據(jù)是一個(gè)很大的問題。
在分析處理階段我們覺得在行業(yè)用戶里面相當(dāng)大的困難就是現(xiàn)有的我們講大數(shù)據(jù)的系統(tǒng),既然講大數(shù)據(jù)的系統(tǒng)肯定跟以前的數(shù)據(jù)處理系統(tǒng)或者我們簡單拿一個(gè)文件用一個(gè)系統(tǒng)很大的區(qū)別,現(xiàn)有系統(tǒng)目前為止做的比較差,整個(gè)開發(fā)友好性非常差的,這一點(diǎn)我們整個(gè)的推廣過程中深有體會(huì),我們找ISV,發(fā)現(xiàn)傳統(tǒng)行業(yè)的ISV確實(shí)在這個(gè)平臺(tái)上面開發(fā)的難度遠(yuǎn)遠(yuǎn)大于我們用數(shù)據(jù)庫用中間件,在那個(gè)領(lǐng)域有很成熟的開發(fā)接口,很成熟開發(fā)工具大家來用,在Hadoop平臺(tái)或者Spark平臺(tái)上面可能需要完全不同由另外一幫人做這個(gè)程序,而且做的這個(gè)過程可能很復(fù)雜。我們?nèi)魏我粋€(gè)應(yīng)用的遷移從原有平臺(tái)遷移過來要花費(fèi)的時(shí)間都是以月為單位,以年為單位的。這個(gè)很大程度上妨礙了大數(shù)據(jù)很多新技術(shù)在行業(yè)里面應(yīng)用,這些行業(yè)用戶沒辦法像互聯(lián)網(wǎng)那樣養(yǎng)那么多人,沒有辦法做這個(gè)事情。
最后一個(gè)就是說我們覺得還是在展現(xiàn)階段,同樣現(xiàn)有的技術(shù)在數(shù)據(jù)展現(xiàn)方面做得不夠好,特別是大數(shù)據(jù)的展現(xiàn),數(shù)據(jù)多到一定的時(shí)候可能不是我給你一個(gè)很簡單的結(jié)果,每個(gè)人希望看到很直觀的結(jié)果,這種很直觀的結(jié)果很多時(shí)候呈現(xiàn)不出來,你需要立體可視化的結(jié)構(gòu)才能讓大家看到很直觀的結(jié)果。
還有行業(yè)里面,大數(shù)據(jù)用到行業(yè)里面,很多人說有很好硬件,有很好軟件平臺(tái),有Hadoop和Spark等等,但是沒有人幫你把經(jīng)驗(yàn)翻譯成數(shù)學(xué)上的語言,也沒有人給你建這個(gè)模型,也沒有人把這個(gè)模型轉(zhuǎn)化成程序,最后跑到大數(shù)據(jù)平臺(tái)上去,結(jié)果你建一個(gè)大數(shù)據(jù)的平臺(tái)還是不會(huì)用。
針對我們前面講到從數(shù)據(jù)采集共享的階段,處理階段沒有一個(gè)好的平臺(tái),我們現(xiàn)在也是在這方面做了一些嘗試,我們知道浪潮現(xiàn)在主要客戶還是在行業(yè)里面,我們幫助行業(yè)用戶提升他的信息化水平,同樣我們在大數(shù)據(jù)方面,這是我們現(xiàn)在整個(gè)大數(shù)據(jù)的處理平臺(tái),從底層的硬件,這塊大家知道這是浪潮的優(yōu)勢,我們在硬件方面從計(jì)算、存儲(chǔ),當(dāng)然也包括一部分網(wǎng)絡(luò)方面做了一些優(yōu)化,能夠?yàn)榇髷?shù)據(jù)處理提供高速可靠的基礎(chǔ)設(shè)施。同時(shí)在軟件層面我們也是針對前面提到這些問題嘗試去建立一個(gè)能夠讓我們ISV用起來更方便的軟件平臺(tái)。這里面其實(shí)列到很多技術(shù)都是開源的技術(shù),我們也沒有辦法說一個(gè)一個(gè)把這些技術(shù)都優(yōu)化很好,只能說是盡量把這些技術(shù)組合起來,讓我們應(yīng)用開發(fā)商能夠做得更舒服一點(diǎn)。
下面我可能會(huì)講到一些技術(shù),有一些現(xiàn)在已經(jīng)在我們大數(shù)據(jù)平臺(tái)里面用到的,有一些是面向未來可能一兩年兩三年,甚至三五年的時(shí)候出現(xiàn)的一些新技術(shù)。首先在硬件基礎(chǔ)設(shè)施里面,第一個(gè)硬件架構(gòu),第二個(gè)異購計(jì)算單元,第三個(gè)大容量內(nèi)存,最后一個(gè)高速互聯(lián)。
融合架構(gòu)在硬件這個(gè)層面提了好幾年,在這之前有不同的融合架構(gòu)的產(chǎn)品出來,這里我們做了一個(gè)梳理,我們覺得以前很多融合可能只要講的是說我怎么把更多硬件,把服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)塞到一個(gè)柜子里去,我們做的是下一代的融合架構(gòu)。一個(gè)機(jī)殼可能有IT部分,有計(jì)算,有存儲(chǔ),有網(wǎng)絡(luò),有IO,也有非IT部分,我們現(xiàn)在把非IT部分剝離出來,整個(gè)柜子里面所有風(fēng)扇電源都是統(tǒng)一的,單一節(jié)點(diǎn)只有計(jì)算、存儲(chǔ)、IO,實(shí)現(xiàn)硬件設(shè)施很高的這樣一個(gè)密度和高利用率。最后講到高速互聯(lián)的技術(shù),這是我們正在做的下一代產(chǎn)品,將存儲(chǔ)硬件、IO首先從我們單一的硬件里面把它拿出去做池化,未來實(shí)現(xiàn)我們板子上只有CPU和內(nèi)存,我所有存儲(chǔ)節(jié)點(diǎn)、IO形成統(tǒng)一的資源池你可以實(shí)行任意分配,實(shí)現(xiàn)初步的融合。下一點(diǎn)還要繼續(xù)拆解,把CPU和內(nèi)存再拆開,形成CPU池和內(nèi)存池,硬件重構(gòu)加上軟件定義就是未來發(fā)展模式,你要一個(gè)CPU,我可以在資源池動(dòng)態(tài)給你組建一個(gè)機(jī)子出來,我任意一臺(tái)機(jī)器你想要多大IO,在我柜子能放得下的空間之內(nèi)都能滿足你,硬件進(jìn)一步走向把計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)都放在一起。
第二個(gè)趨勢就是在異購計(jì)算方面,前面我們講云計(jì)算大數(shù)據(jù),我們對于用戶云計(jì)算大數(shù)據(jù)策略上面一直堅(jiān)持這一點(diǎn),不同的應(yīng)用,不同的計(jì)算類型其實(shí)需要不同節(jié)點(diǎn)來支撐的。這里面可能有計(jì)算密集型的,可能有存儲(chǔ)密集型的,實(shí)際上即使對于大數(shù)據(jù)來講也有不同的需要,我們可能有用戶買了一套系統(tǒng)主要作用是為了存儲(chǔ),上面做的處理很簡單,這里面更偏重我給更大的硬盤,計(jì)算能力可以差一點(diǎn),對有的用戶來講計(jì)算量很大實(shí)際上存儲(chǔ)量沒有那么大,就需要更高計(jì)算的能力。針對處理密集型采用更強(qiáng)計(jì)算能力單元加速整個(gè)的計(jì)算這是異購計(jì)算這一方面。在未來可以根據(jù)你不同的需要,我給你搭配不同的計(jì)算單元。比如說每個(gè)CPU給你配上兩個(gè)GPU這樣你整個(gè)計(jì)算能力更強(qiáng)。
第三講大容量內(nèi)存,前面孫元浩他們也有人提到關(guān)于內(nèi)存計(jì)算方面,包括用SSD替代硬盤,我們講的大容量內(nèi)存這是我們正在下一代機(jī)器里面做到,用非易失存儲(chǔ)替代部分易失存儲(chǔ),內(nèi)存你要做得特別大,對整個(gè)作用提升還是非常明顯,整個(gè)內(nèi)存計(jì)算也好,都是依賴高速存儲(chǔ)和比較大的內(nèi)存。你要把內(nèi)存做得大,你從硬件成本來講可能承受不了,現(xiàn)在一個(gè)兩路機(jī)器做到上T,可以做10個(gè)T,20個(gè)T但是非常貴,這就用一部分非易失的存儲(chǔ),用Flash等,容量比原來大很多,大10倍20倍都可以,這依賴相關(guān)技術(shù)的發(fā)展,我們近期把傳統(tǒng)Flash綁在一起,但是對于硬件來講是內(nèi)存不是硬盤,在大數(shù)據(jù)里面可能應(yīng)用存儲(chǔ)還是硬盤,但是前端你計(jì)算部分可以實(shí)現(xiàn)完全沒有硬盤,你是用易失存儲(chǔ)和非易失存儲(chǔ)搭建的機(jī)群處理你整個(gè)的業(yè)務(wù)。
最后關(guān)注高速互聯(lián)方面,整個(gè)計(jì)算里面考慮到性能無外乎CPU的速度,內(nèi)存的大小,CPU和內(nèi)存之間的通道加上你IO。你CPU跟存儲(chǔ)器的帶寬,節(jié)點(diǎn)和節(jié)點(diǎn)之間的帶寬,最終都會(huì)影響到你整個(gè)系統(tǒng)的性能,在高速互聯(lián)也有很大發(fā)展,首先是PCIe互聯(lián),這個(gè)已經(jīng)比較成熟,這是我們下一代用到節(jié)點(diǎn)之間用到PCIe的互聯(lián),一定范圍之內(nèi)提升整個(gè)互聯(lián)的效率。
下一代基于硅光點(diǎn),實(shí)現(xiàn)兩個(gè)機(jī)柜、三個(gè)機(jī)柜不同范圍之內(nèi)的接連,我怎么把IO從我板子上面全部剝離出來,在一個(gè)柜子里面IO都在一起了,你傳統(tǒng)在板子上互聯(lián),你達(dá)不到一定帶寬做不到這一點(diǎn),而硅光點(diǎn)解決我怎么實(shí)現(xiàn)池化,池子和池子之間非常好的高速互聯(lián)技術(shù),可能在兩三年之內(nèi)就會(huì)在新硬件下面使用,它可以實(shí)現(xiàn)在板子和板子之間400GB高速度的互聯(lián),比現(xiàn)在至少提升20倍以上。
前面講到我們在硬件方面正在做的一些工作,在軟件方面剛才提到了對于我的SQL來講我希望底下處理平臺(tái)是多樣的,我不同數(shù)據(jù)需要不同東西處理,但是我不想搞得那么復(fù)雜,首先第一個(gè)對于混合處理,面向多樣性的場景里面,我們在大數(shù)據(jù)管理平臺(tái)內(nèi)置不同的模塊,有的來自開源軟件,有的來自我們第三方軟件,有Hadoop、有Spark、有SQL數(shù)據(jù)庫等等都會(huì)擱在同一個(gè)系統(tǒng)里面。你東西多了對于寫編程的人很頭疼,我們會(huì)在上面給大家提供一個(gè)接口。
這個(gè)在優(yōu)化和增強(qiáng)方面前面其實(shí)很多學(xué)者都已經(jīng)講過了,在自身應(yīng)用算法,在熱點(diǎn)數(shù)據(jù)均衡感知等等方面做了一些工作,對現(xiàn)有平臺(tái)的優(yōu)化會(huì)比原來性能提升很多。同時(shí)我們也會(huì)在這個(gè)平臺(tái)里面集成易用增強(qiáng)的工具方便大家數(shù)據(jù)導(dǎo)入進(jìn)來,方便大家對平臺(tái)管理。
第三個(gè)在安全方面,安全是妨礙現(xiàn)在大家愿意把數(shù)據(jù)共享非常重要的一個(gè)原因,很多人覺得我把數(shù)據(jù)共享出去可能控制不了,所以他不愿意把數(shù)據(jù)共享出去,這個(gè)里面我們建立面向大數(shù)據(jù)的安全體系,硬件層面不講了,主要是在大數(shù)據(jù)的現(xiàn)有幾個(gè)平臺(tái)里面,最終能夠建立一個(gè)基于Hadoop、Spark這樣一個(gè)多租戶平臺(tái),讓大家真的能夠在這個(gè)平臺(tái)實(shí)現(xiàn)多個(gè)租戶使用,而不是說這個(gè)平臺(tái)放在這里面以后誰想看都可以看,把傳統(tǒng)操作系統(tǒng)里面用到防務(wù)控制策略用到我們大數(shù)據(jù)平臺(tái)里。
大家舉兩個(gè)例子,這兩個(gè)例子從底層平臺(tái)到上面的應(yīng)用都是浪潮集團(tuán)做的。首先第一個(gè)是公安的例子,這個(gè)剛才說了在公安系統(tǒng)里面數(shù)據(jù)確實(shí)很多,大家每個(gè)人很多數(shù)據(jù)在它那都能找到,再加上攝象頭越來越多,數(shù)據(jù)量對它來講是很大的問題。一個(gè)地級(jí)市現(xiàn)在一年給它建幾個(gè)PB的存儲(chǔ),完全滿足不了需要,它原有系統(tǒng)都是孤立的,系統(tǒng)放在那查違章找人一張一張去看,現(xiàn)在查違章可以自動(dòng)通過照片識(shí)別出來,這離我們真正的平安城市智慧城市差距很大的。這里面結(jié)合我們浪潮整個(gè)云計(jì)算的平臺(tái),給它建立這樣一個(gè)平臺(tái),首先把它所有業(yè)務(wù)云化,比如說一個(gè)城市級(jí)市級(jí)公安有幾百臺(tái)服務(wù)器,變成一個(gè)云計(jì)算的系統(tǒng)比它原來規(guī)模小很多,然后把它現(xiàn)有所有的數(shù)據(jù)全部從原有業(yè)務(wù)系統(tǒng)里面歸置到同一個(gè)系統(tǒng)里面,我們一期還是以Hadoop為主,后期很多新的業(yè)務(wù)都在大數(shù)據(jù)平臺(tái)上,它的業(yè)務(wù)還在跑在老的平臺(tái),通過業(yè)務(wù)整合形成很大數(shù)據(jù)的資源池,除了自己內(nèi)部數(shù)據(jù)以外也從外部引入一些數(shù)據(jù)這個(gè)上面做一些創(chuàng)新應(yīng)用,以前業(yè)務(wù)主要都是管理為主,管理戶籍,出入境,還有旅館信息就是備案,這里面做了多點(diǎn)聯(lián)控的系統(tǒng)。
另外在稅務(wù)里面大數(shù)據(jù)平臺(tái),因?yàn)槎悇?wù)原來以前大家報(bào)稅的信息在稅務(wù)局不是那么完整,慢慢隨著所有信息歸攏到稅務(wù)信息里面,實(shí)際上可以從稅務(wù)信息分析出很多數(shù)據(jù)來,每一筆交易最后都可以在稅務(wù)系統(tǒng)查得到的,而且他們現(xiàn)在把各省的數(shù)據(jù)集中到全國,通過稅務(wù)信息其實(shí)可以分析出很多新的結(jié)果。
這個(gè)就是整個(gè)綜合治稅數(shù)據(jù)平臺(tái),從整合到形成數(shù)據(jù)倉庫,最后查到你經(jīng)營情況跟你報(bào)稅情況一直不一致,我們相關(guān)業(yè)務(wù)部門其實(shí)他們會(huì)去除了用稅務(wù)數(shù)據(jù)以外,在網(wǎng)上找到一些相關(guān)的數(shù)據(jù),比如說淘寶上的記錄,可能在上面的交易數(shù)據(jù)和報(bào)給這邊數(shù)據(jù)就會(huì)是不一樣的,這里面就會(huì)找到一些相關(guān)的線索。同時(shí)這些數(shù)據(jù)也是通過這個(gè)平臺(tái)給一些第三方機(jī)構(gòu)來使用,比如說銀行可以用你納稅的記錄為它的征信系統(tǒng)進(jìn)行服務(wù)。謝謝大家!