數(shù)據(jù)世界瞬息萬變,給現(xiàn)有IT基礎(chǔ)設(shè)施帶來了巨大的挑戰(zhàn),實(shí)時(shí)產(chǎn)生的海量非結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)讓原有的數(shù)據(jù)庫架構(gòu)捉襟見肘。這些數(shù)據(jù)類型各異,既包括人們?cè)谏缃痪W(wǎng)絡(luò)上的各種情緒表達(dá),也有地理位置信息,傳感器產(chǎn)生的機(jī)器數(shù)據(jù),以及自動(dòng)生成的大量日志記錄等。
如果能善用這些數(shù)據(jù),企業(yè)用戶就可以得到以往難以企及的關(guān)鍵業(yè)務(wù)洞察。例如,臺(tái)灣著名茶點(diǎn)連鎖餐廳“黑丸”將來自零售網(wǎng)點(diǎn)的銷售數(shù)據(jù),與人們?cè)谏缃痪W(wǎng)絡(luò)上對(duì)其表達(dá)的情緒反饋,以及所在地的天氣信息等數(shù)據(jù)相結(jié)合,發(fā)現(xiàn)了能刺激客戶消費(fèi)的原因。通過將傳統(tǒng)數(shù)據(jù)源與全新的“大數(shù)據(jù)”相融合,他們發(fā)現(xiàn),其實(shí)氣溫高低并不會(huì)影響人們?nèi)ミx擇冷飲或者熱飲,現(xiàn)在他們可以真正從消費(fèi)者的需求出發(fā)對(duì)銷售策略做出調(diào)整。
類似的應(yīng)用場(chǎng)景引發(fā)了對(duì)Hadoop等大數(shù)據(jù)產(chǎn)品的需求熱潮。作為開源平臺(tái)的Hadoop能夠在相對(duì)廉價(jià)的消費(fèi)級(jí)硬件上,實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和處理。Hadoop具有如此強(qiáng)大功能的部分原因在于,其生態(tài)系統(tǒng)通過通用的計(jì)算模式實(shí)現(xiàn)了相同的數(shù)據(jù)存儲(chǔ)。這種存儲(chǔ)是一種分布式文件系統(tǒng),其規(guī)模能夠從幾個(gè)節(jié)點(diǎn)擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn),并且全都針對(duì)非結(jié)構(gòu)化數(shù)據(jù)。通過Hadoop與傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)相結(jié)合,用戶能從數(shù)據(jù)中得到以往難以想象的深入洞察。
但是,在多節(jié)點(diǎn)上創(chuàng)建Hadoop集群并非易事,需要有合適的硬件、周密的容量規(guī)劃,以及對(duì)Hadoop進(jìn)行設(shè)置和部署的專業(yè)知識(shí)。此外,Hadoop生態(tài)系統(tǒng)的快節(jié)奏創(chuàng)新也要求IT管理員不斷升級(jí)Hadoop軟件或?yàn)椴僮飨到y(tǒng)打補(bǔ)丁,因此后續(xù)的不間斷維護(hù)也將成為一大挑戰(zhàn)。而公有云上的Hadoop服務(wù)能幫助用戶克服這些挑戰(zhàn)。
由世紀(jì)互聯(lián)運(yùn)營(yíng)的Windows Azure宣布正式提供HDInsight服務(wù)的公眾預(yù)覽,從而成為中國(guó)第一個(gè)面向公眾的Hadoop云服務(wù)。作為在Windows Azure上運(yùn)行的Hadoop服務(wù),HDInsight為啟動(dòng)和運(yùn)行Hadoop提供了最快捷的方式。用戶無需任何專用硬件或?qū)I(yè)知識(shí),只要點(diǎn)擊幾下鼠標(biāo),就可以在幾分鐘內(nèi)建立一個(gè)Hadoop集群。用戶還可以根據(jù)需要對(duì)集群進(jìn)行擴(kuò)展,幾分鐘就能將集群從10個(gè)節(jié)點(diǎn)擴(kuò)展到1000個(gè)節(jié)點(diǎn)。此外,用戶還可以在HDInsight上充分利用Apache生態(tài)系統(tǒng)中的眾多開源項(xiàng)目,包括HBase NoSQL數(shù)據(jù)庫、類SQL查詢處理、機(jī)器學(xué)習(xí)等。其中Hive類SQL查詢處理集合了微軟SQL Server技術(shù)的Stinger項(xiàng)目,使Hive的查詢性能提高100倍。通過Excel中的Power Query插件,用戶還可以從HDInsight中得到更加直觀的數(shù)據(jù)洞察。