大數(shù)據(jù)雖然極具價(jià)值,但真正釋放大數(shù)據(jù)的能量,推動(dòng)大數(shù)據(jù)應(yīng)用并非易事。 浪潮集團(tuán)系統(tǒng)軟件總監(jiān)、云計(jì)算產(chǎn)品研發(fā)部總經(jīng)理張東在11月27日浪潮集團(tuán)大數(shù)據(jù)戰(zhàn)略發(fā)布暨云海大數(shù)據(jù)一體機(jī)產(chǎn)品發(fā)布會(huì)指出,大數(shù)據(jù)類型復(fù)雜、規(guī)模大,單一方案不可能滿足所有的需求,不論傳統(tǒng)的OLAP還是新興的分布式技術(shù),都有特定的短板,廠商需要根據(jù)客戶的應(yīng)用特點(diǎn)提供定制化的方案。
挑戰(zhàn)一:基礎(chǔ)設(shè)施難以持續(xù)單向擴(kuò)張
“IDC公司2011發(fā)布的統(tǒng)計(jì)數(shù)據(jù)顯示,數(shù)據(jù)總量每過兩年就會(huì)增長一倍,而且很多客戶的數(shù)據(jù)累積速度還要更快。但是硬件平臺(tái)還很難進(jìn)行單向的無限制scale-out擴(kuò)展”,據(jù)張東透露,現(xiàn)在HADOOP、map reduce等分布式技術(shù)即使擴(kuò)展性比OLAP等技術(shù)有了重大的提高,但是仍存在擴(kuò)展上限,比如傳統(tǒng)的Oracle RAC最大可支持100個(gè)節(jié)點(diǎn),HADOOP集群技術(shù)理論支持4000個(gè)節(jié)點(diǎn),因而用戶在采用橫向擴(kuò)展架構(gòu)時(shí),更要注意縱向擴(kuò)展。
基礎(chǔ)設(shè)施規(guī)模不斷增大也會(huì)帶來其他的問題,首先是系統(tǒng)的可用性,因?yàn)榇笠?guī)模的系統(tǒng)只要其中一個(gè)硬件出現(xiàn)故障,馬上就會(huì)引起整個(gè)系統(tǒng)做恢復(fù),所以,分布式系統(tǒng)應(yīng)該采取多副本技術(shù),但是又會(huì)降低系統(tǒng)的效率。與此同時(shí),隨著規(guī)模的擴(kuò)展,網(wǎng)絡(luò)也會(huì)制約系統(tǒng)性能的發(fā)揮,網(wǎng)絡(luò)流量的增加是指數(shù)級的,通訊瓶頸讓規(guī)模無節(jié)制的擴(kuò)展失去了意義。
挑戰(zhàn)二:數(shù)據(jù)處理復(fù)雜性需要個(gè)性化平臺(tái)
無論是結(jié)構(gòu)化的,半結(jié)構(gòu)化的,非結(jié)構(gòu)化的數(shù)據(jù),直至最終的數(shù)據(jù)挖掘都需要把數(shù)據(jù)精細(xì)劃分,并且能夠形成準(zhǔn)結(jié)構(gòu)化的步驟,在這個(gè)基礎(chǔ)上建模型,進(jìn)行數(shù)據(jù)關(guān)聯(lián)性的分析,最后呈現(xiàn)在眼前的只是數(shù)據(jù)挖掘后的結(jié)構(gòu)。
這個(gè)過程說起來簡單,但實(shí)際很復(fù)雜。首先環(huán)節(jié)多,每一個(gè)環(huán)節(jié)對于數(shù)據(jù),對于軟件和硬件,對于IT基礎(chǔ)設(shè)施的要求是不一樣的,尤其從非結(jié)構(gòu)化數(shù)據(jù)里面挖掘出信息,比如從照片里面去做挖掘,第一步要挖掘大家穿什么衣服,接下來還要判斷這里面是年輕人還是老年人,衣服的顏色是什么……每一張照片可能完全不一樣,但是到后面再做數(shù)據(jù)模型的時(shí)候,數(shù)據(jù)的關(guān)聯(lián)度就會(huì)急劇上升,任務(wù)卻沒法做得非常非常細(xì)碎,用某一個(gè)單一的軟硬件無法處理數(shù)據(jù)挖掘里面的所有類型,所有應(yīng)用。
更重要的是,在中國行業(yè)用戶是大數(shù)據(jù)應(yīng)用的主體,行業(yè)用戶里不是每一個(gè)行業(yè)用戶都是IT方面的專家,不可能把環(huán)節(jié)里面所有事物全部解決,因此行業(yè)用戶就需要一個(gè)一體化的解決方案,把數(shù)據(jù)收集,從歸類,到挖掘,到展現(xiàn)全部解決掉,最后只是形成一種服務(wù),形成應(yīng)用。
總之,多類型、多維度數(shù)據(jù)處理環(huán)節(jié)的復(fù)雜性決定了無法依靠單一類型的設(shè)備完美處理,為不同的應(yīng)用類型和數(shù)據(jù)處理階段提供針對性的軟硬件方案也是大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)。
挑戰(zhàn)三:天價(jià)成本,“想說應(yīng)用不容易”
目前存儲(chǔ)越來越頻,存數(shù)據(jù)非常便宜,但是處理數(shù)據(jù)成本仍然比較高,特別采用傳統(tǒng)的方法,比如用數(shù)據(jù)倉庫這樣的技術(shù),可能花幾千萬構(gòu)建數(shù)據(jù)倉庫,然而能夠處理數(shù)據(jù)規(guī)模也不過是TB級的,平均下來每個(gè)TB甚至有十萬的成本在里面,而現(xiàn)在要處理大數(shù)據(jù)的量是相當(dāng)大的,幾十T,甚至上P都是很正常的,如果按照前面成本一個(gè)P大概100億的成本,這個(gè)是對很多用戶無法接受的。如何尋找低成本的方案幫助我們更多用戶采用大數(shù)據(jù)的處理技術(shù),把它的數(shù)據(jù)進(jìn)行處理,也將為大數(shù)據(jù)的應(yīng)用帶來挑戰(zhàn)。