精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:存儲技術(shù)專區(qū) → 正文

Hadoop:解決大數(shù)據(jù)難題的希望之匙

責(zé)任編輯:vivian |來源:企業(yè)網(wǎng)D1Net  2012-03-02 09:21:45 本文摘自:搜狐

Hadoop的出現(xiàn)給人們帶來解決大數(shù)據(jù)問題的希望,特別是一批著名的大企業(yè),如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop開發(fā)出了開源的大數(shù)據(jù)管理系統(tǒng),讓人們看到了Hadoop在解決大數(shù)據(jù)難題時的巨大潛力,很多企業(yè)紛紛決定引入Hadoop,來解決自己的大數(shù)據(jù)難題。

不過,專家提醒,在決定利用Hadoop構(gòu)建自己的大數(shù)據(jù)管理系統(tǒng)之前,一定要確保自己充分了解Hadoop。采用Hadoop之前最好先對技術(shù)人員進行必要的培訓(xùn),以確保技術(shù)人員具備必要的數(shù)據(jù)分析專業(yè)知識。顯然,并不是所有的企業(yè)都能成功地開發(fā)和部署Hadoop應(yīng)用的。

目前,Hadoop還是一個剛剛起步的市場,有很多廠商提供與Hadoop有關(guān)的產(chǎn)品和服務(wù),其中有些是基于云的SaaS服務(wù)。

最重要的是,一定不要盲目跟風(fēng),每個企業(yè)都有自己的特殊需求,都有自己的技術(shù)條件。根據(jù)Forrester的市場調(diào)查,目前,在美國只有1%的Hadoop項目是真正應(yīng)用于生產(chǎn)環(huán)境中的。“這個數(shù)據(jù)肯定將在未來一年翻一番或兩番。” Forrester分析師吉姆·庫貝勒斯(James Kobielus)表示。他呼吁企業(yè)要保持謹慎,因為相關(guān)的技術(shù)還在演進之中,技術(shù)更新非???。

可以肯定的是,與傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)相比,Hadoop有自己的優(yōu)勢,尤其是它既能處理關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),同時也能處理諸如音視頻等非結(jié)構(gòu)化數(shù)據(jù),而后者在現(xiàn)實世界中普遍存在,要遠遠比結(jié)構(gòu)化數(shù)據(jù)更為常見。Hadoop系統(tǒng)還可以根據(jù)數(shù)據(jù)的規(guī)模和問題的復(fù)雜程度輕松地擴展。

“Hadoop的應(yīng)用真正改變了我們對數(shù)據(jù)的理解和使用方式。” eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯(Hugh Williams)表示。eBay如今擁有的數(shù)據(jù)量高達9個PB,這些數(shù)據(jù)既有Terabyte系統(tǒng)所產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),同時也有Hadoop系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。

“你可以在同樣的硬件資源上運行各種不同類型的工作負載。相比而言,在Hadoop之前我們使用硬件資源的方式太呆板、太不靈活了。”威廉姆斯說,“如今,你能以一種與過去完全不同的方式來充分發(fā)揮集群的計算能力。這將大大降低公司創(chuàng)新的門檻,從而有助于組織的創(chuàng)新。Hadoop功能太強了。”

隨需求增長自由擴展

位于美國佐治亞州德盧斯市的Concurrent公司是較早采用Hadoop的公司之一。這個公司對外銷售流媒體系統(tǒng)。同時,它還替客戶保存和分析大量的視頻數(shù)據(jù)。為了更好地應(yīng)對待處理數(shù)據(jù)量的不斷增長,兩年前Concurrent采用了Cloudera公司的Hadoop CDH系統(tǒng)。

“Hadoop是我們解決大數(shù)據(jù)難題必不可少的工具,借助它我們在很短的時間內(nèi)就能完成海量數(shù)據(jù)的處理。”Concurrent公司工程總監(jiān)威廉·拉扎羅(William Lazzaro)說。

拉扎羅介紹,Concurrent有一個部門專門收集和保存客戶的視頻點播統(tǒng)計數(shù)據(jù),Hadoop的部署給這個部門解決了一個很大的難題。“我們有一個客戶,現(xiàn)在一個月就可以新生成30億條記錄,我們預(yù)計,在未來3個月,它每月的數(shù)據(jù)量將會達到10億條。”

很長時間以來,Concurrent公司有兩個大的難題:一個是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法處理諸如視頻這類非結(jié)構(gòu)化數(shù)據(jù),另一個是需要進行處理和存儲的數(shù)據(jù)量成倍增長。“我們的客戶希望要保留4?5年的數(shù)據(jù)。”拉扎羅解釋說,“如果它們每天的數(shù)據(jù)量達到PB級,對我們而言,將是一個非常的挑戰(zhàn)。”

他說,幸運的是,Concurrent的工程師發(fā)現(xiàn),采用Hadoop他們可以應(yīng)對其客戶不斷增加的數(shù)據(jù)量帶來的巨大處理和存儲壓力。“測試過程中,工程師們曾經(jīng)完成過每天為客戶處理20億條數(shù)據(jù)記錄。如果數(shù)據(jù)量再增加,我們只要往節(jié)點中加入服務(wù)器,就可以馬上獲得所需要的處理能力。整個系統(tǒng)的可擴展性非常好。”拉扎羅說。

他說,作為比較,該公司采用傳統(tǒng)的數(shù)據(jù)庫來完成同樣的工作。他們發(fā)現(xiàn)Hadoop的主要好處之一是,在數(shù)據(jù)量增加時可以很容易和迅速地增加硬件,同時,還不需額外的授權(quán)費用,因為它是開源軟件。“這是Hadoop與傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)相比 一個非常大的不同。”拉扎羅說。

位于美國加利福尼亞州圣克拉拉市從事生命科學(xué)和基因組研究的NextBio公司也是Hadoop的用戶,它們所從事的人類基因測序和相關(guān)科研工作涉及的數(shù)據(jù)量也非常龐大。

“我們有非常多的各種基因組數(shù)據(jù),需要與其他數(shù)據(jù)進行關(guān)聯(lián)和比較,我們采用Hadoop來幫助完成這些工作。”NextBio工程副總裁薩特南·阿拉克(Satnam Alag)說,“我們通過Hadoop來對大量的公共數(shù)據(jù)進行各種分析,很多組織需要這些研究結(jié)果,如制藥公司、學(xué)術(shù)研究等。”NextBio使用的是MapR公司的一個Hadoop分發(fā)版本。

他說,一個典型的完整的基因組序列可以包含120GB?150GB的壓縮數(shù)據(jù),要對這些數(shù)據(jù)處理需要500GB的存儲空間。過去,要分析一個基因組序列就要3天,今天,用30?40臺服務(wù)器運行Hadoop,NextBio的工作人員在3?4個小時內(nèi)就可以完成。“對于那些必須要對這些數(shù)據(jù)進行全面分析的應(yīng)用程序,這種效率的提升是非常有用的。”

Hadoop另一大優(yōu)勢是,只要簡單地增加更多的節(jié)點就可以保證系統(tǒng)的處理能力得到增加。“如果不用Hadoop,系統(tǒng)的擴展將是一件具有挑戰(zhàn)性的工作,成本高昂。”他說這種所謂的橫向擴展 給由普通服務(wù)器組成的Hadoop集群中增加節(jié)點是一種性價比非常高的擴展系統(tǒng)方式,“Hadoop框架能自動地管理群集中失效的節(jié)點。”

他說,這極大地改變了公司增加計算能力來滿足其需求的方式。“我們不希望在硬件資源上就花上數(shù)百萬美元,我們沒有這么多的錢。”

[page]

支持新的應(yīng)用類型

拉扎羅說,Hadoop另一個用處是能夠?qū)嫶蟮臄?shù)據(jù)集進行分析并迅速發(fā)現(xiàn)趨勢。對一家大型零售商而言,這可能意味著它能對Facebook或Twitter的用戶數(shù)據(jù)進行分析,來了解去年圍巾流行什么顏色,并與今天的流行色進行比較,以幫助決定今年如何采購商品。

“它能讓你及時地對過去的數(shù)據(jù)進行分析和整理,從而發(fā)現(xiàn)和尋找到新的銷售機會。”拉扎羅說。過去Concurrent公司要為汽車經(jīng)銷商進行的商業(yè)活動或廣告進行分析,這是一件非常折磨人的事情,會涉及非常多的數(shù)據(jù)。“我們要對數(shù)據(jù)進行分析,看看誰在觀看廣告,借此發(fā)現(xiàn)你的銷售目標人群,據(jù)此引導(dǎo)你進行有針對性的銷售。你并不是總是知道你要找什么。”

傳統(tǒng)的數(shù)據(jù)庫可以滿足很多分類整理和分析的需要,但對于超大規(guī)模的數(shù)據(jù)集,Hadoop在完成這些工作時效率更高。拉扎羅說:“Hadoop就是專門為大數(shù)據(jù)分析設(shè)計的。”

對此eBay的工程師深有體會。“Hadoop能很快對非結(jié)構(gòu)化數(shù)據(jù)進行分析,迅速幫助eBay開發(fā)出新的應(yīng)用。”eBay威廉姆斯說。由于eBay的工程師可以對公司現(xiàn)有的3億多條商品報價、歷史銷售記錄以及大量的相關(guān)信息進行分析,這就使eBay能夠很好地了解客戶,并為客戶提供他們想要的用戶體驗。“這不是簡單的關(guān)于結(jié)構(gòu)化與非結(jié)構(gòu)化的問題,而是它讓我們的工程師能夠卷起衣袖,以一種前所未有的方式對現(xiàn)有的數(shù)據(jù)進行分析和處理,從而改進我們的服務(wù)水平和提升銷售業(yè)績。”他說。

去年,eBay已經(jīng)用Hadoop完成了一些非常了不起的事情,包括提高商品廣告效果、改善購買者的體驗以及讓客戶更方便地訪問網(wǎng)站。

例如,eBay的員工可以看到客戶在萬圣節(jié)和圣誕節(jié)提交的每一項查詢,從他開始輸入時就可以看到。“通過這項功能,我們的員工就知道人們都在尋找什么東西。放到5年前這種使用數(shù)據(jù)的方式,我們想都不敢想。”

[page]

技術(shù)貯備必不可少

正如Hadoop有非常突出的優(yōu)點一樣,利用它也有一些特別的注意事項。業(yè)內(nèi)人士提醒,首先不要盲目跟從一個供應(yīng)商,謹防廠商鎖定。因為目前Hadoop市場還剛剛起步。

Forrester的庫貝勒斯說,“廠商的技術(shù)還在持續(xù)快速發(fā)展之中,同時,生態(tài)系統(tǒng)也有待完善。”

Gartner的分析師馬庫斯·柯林斯(Marcus Collins)提醒說,要充分發(fā)揮Hadoop的價值,企業(yè)必須找到擁有Hadoop相關(guān)專業(yè)知識的人才。“使用Hadoop需要具有一定水平的數(shù)據(jù)分析能力,而許多企業(yè)現(xiàn)在并沒有這樣的專業(yè)人才。”他說, “企業(yè)需要對員工進行培養(yǎng),在數(shù)據(jù)分析能力方面進行投資,這樣才能確保你能用好Hadoop這項技術(shù)。”

另一個重要的考慮因素是:多數(shù)情況下Hadoop項目需要外聘專家,目前他們供不應(yīng)求,如果找不到就只能培養(yǎng)內(nèi)部員工。

“Hadoop對數(shù)據(jù)的使用方式與以前有很大相同。”eBay的威廉姆斯說,“因此,我們必須先把培訓(xùn)做好,使我們的工程師知道如何使用Hadoop,知道如何編寫代碼,這就意味著你將不得不投資在您的開發(fā)人員和項目經(jīng)理上,以使他們成長為熟練的使用者。不要低估這一點。”

對于那些關(guān)鍵的應(yīng)用還要考慮企業(yè)學(xué)習(xí)和適應(yīng)開源系統(tǒng)的過程。謹記在一些小項目中進行試驗是一回事,而在大規(guī)模復(fù)雜系統(tǒng)中應(yīng)用則是另外一回事。因此,最好提前讓企業(yè)的管理團隊在開源軟件的使用方面進行學(xué)習(xí)。

柯林斯的另一個建議是,密切關(guān)注和參與項目,以確保它按計劃進行。“不要把你的所有問題都交給你的Hadoop供應(yīng)商,畢竟最終使用這個系統(tǒng)的是你。”

此外,庫貝勒斯解釋說,Hadoop的最佳實踐仍在不斷完善,所以最好從一些能立竿見影的項目著手,避免要長時間才能看到效益的項目。隨著組織建立起自己的專業(yè)團隊以及經(jīng)驗的不斷豐富,組織將能利用Hadoop做更多更有價值的事情,在此期間,項目的規(guī)模和應(yīng)用的范圍也將不斷擴展。

[page]

不能代替?zhèn)鹘y(tǒng)數(shù)據(jù)庫

值得一提的是,大多數(shù)客戶使用Hadoop是作為輔助,而不是取代其他類型的軟件,比如傳統(tǒng)數(shù)據(jù)庫。例如,在eBay,該公司仍然在使用關(guān)系數(shù)據(jù)庫完成一些基于這些數(shù)據(jù)庫的分析和處理工作。用戶有必要保持靈活性,某項技術(shù)一統(tǒng)天下的局面現(xiàn)在還不會出現(xiàn)。

威廉姆斯解釋說:“在eBay,我們看到了綜合使用多種技術(shù)處理數(shù)據(jù)給我們帶來的價值。在某些方面,Hadoop是一個非常好的選擇,而在另外一些方面,需要與其他技術(shù)一起工作,才能更好地發(fā)揮作用。”

Concurrent的情況也是如此。Hadoop并沒有取代傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,包括MySQL、PostgreSQL和Oracle。“這是一個綜合的解決方案。”拉扎羅說,“我們用Hadoop來完成繁重的工作,如海量數(shù)據(jù)的處理,我們還使用Map/Reduce在Hadoop中創(chuàng)建匯總數(shù)據(jù),這些數(shù)據(jù)可以很容易通過傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)訪問。”

對關(guān)系型數(shù)據(jù)庫而言,如果系統(tǒng)過于龐大,比如,每天2.5億條記錄,數(shù)據(jù)庫的響應(yīng)就會變得很慢。“不過,”他說,“這種數(shù)據(jù)規(guī)模對Hadoop不成問題。因此,可以用Hadoop來存儲,比如,每天50億條記錄,然后用Map / Reduce來對數(shù)據(jù)匯總,最后把結(jié)果保存到傳統(tǒng)數(shù)據(jù)庫中,以支持傳統(tǒng)系統(tǒng)的快速訪問。

威廉姆斯說,在一般情況下Hadoop的使用沒有太多限制。“我認為Hadoop給我們帶來的是機會,幾乎關(guān)于Hadoop的任何技術(shù)問題都可以通過開源社區(qū)找到答案。有些人對Hadoop的確有抱怨,這是正常的,畢竟它是新的東西。這就像1993年或1994年的Linux一樣。”

威廉姆斯進一步解釋說,“我們也的確看到,Hadoop在應(yīng)對海量數(shù)據(jù)時所面臨的獨特技術(shù)挑戰(zhàn),如架構(gòu)數(shù)據(jù)中心、重新設(shè)計網(wǎng)絡(luò)、選擇合適的硬件來支持Hadoop。但總體而言,Hadoop給eBay帶來很多幫助。”

“對于我們來說,Hadoop絕對是一個能改變游戲規(guī)則的技術(shù),這也是為什么我們的工程師要使用它的原因,它確實幫助我們成為一個真正的數(shù)據(jù)驅(qū)動型的公司。”他說。

鏈接

用好Hadoop的兩個建議

eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯提供了幾條如何利用Hadoop的建議。

1.提高Hadoop的利用效率。“如果組織中有很多人同時在使用某個Hadoop集群,他們很可能會做一些同樣的事情。”威廉姆斯說,“這意味著他們很可能會產(chǎn)生相同的中間數(shù)據(jù)集來進行分析,這是一種浪費。”

他建議,更好的辦法是早上執(zhí)行一些通用的數(shù)據(jù)查詢,并把結(jié)果保存在一個地方,任何人需要它們都可以訪問,從而節(jié)省大量的處理時間及相關(guān)資源。“盡量先想想,哪些數(shù)據(jù)集對使用者是有用的,再為這些用戶創(chuàng)建這些數(shù)據(jù)集。”

2.對Hadoop集群進行清理是日常維護中的一個關(guān)鍵工作。“這非常重要。”威廉姆斯說,“組織中可能會運行很多Hadoop作業(yè),這樣會生成大量的數(shù)據(jù)。不過,通常情況下,人們做完后,帶上文件就一走了之。如果不及時清理,最后在系統(tǒng)中就會留下大量無用的Hadoop文件。”

“所以,你有必要創(chuàng)建一個策略,以保持您的Hadoop集群系統(tǒng)是干凈的,不至于無謂地浪費磁盤空間。在大型的Hadoop集群系統(tǒng)中這一點尤為重要。”

關(guān)鍵字:Hadoop谷歌大數(shù)據(jù)

本文摘自:搜狐

x Hadoop:解決大數(shù)據(jù)難題的希望之匙 掃一掃
分享本文到朋友圈
當(dāng)前位置:存儲技術(shù)專區(qū) → 正文

Hadoop:解決大數(shù)據(jù)難題的希望之匙

責(zé)任編輯:vivian |來源:企業(yè)網(wǎng)D1Net  2012-03-02 09:21:45 本文摘自:搜狐

Hadoop的出現(xiàn)給人們帶來解決大數(shù)據(jù)問題的希望,特別是一批著名的大企業(yè),如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop開發(fā)出了開源的大數(shù)據(jù)管理系統(tǒng),讓人們看到了Hadoop在解決大數(shù)據(jù)難題時的巨大潛力,很多企業(yè)紛紛決定引入Hadoop,來解決自己的大數(shù)據(jù)難題。

不過,專家提醒,在決定利用Hadoop構(gòu)建自己的大數(shù)據(jù)管理系統(tǒng)之前,一定要確保自己充分了解Hadoop。采用Hadoop之前最好先對技術(shù)人員進行必要的培訓(xùn),以確保技術(shù)人員具備必要的數(shù)據(jù)分析專業(yè)知識。顯然,并不是所有的企業(yè)都能成功地開發(fā)和部署Hadoop應(yīng)用的。

目前,Hadoop還是一個剛剛起步的市場,有很多廠商提供與Hadoop有關(guān)的產(chǎn)品和服務(wù),其中有些是基于云的SaaS服務(wù)。

最重要的是,一定不要盲目跟風(fēng),每個企業(yè)都有自己的特殊需求,都有自己的技術(shù)條件。根據(jù)Forrester的市場調(diào)查,目前,在美國只有1%的Hadoop項目是真正應(yīng)用于生產(chǎn)環(huán)境中的。“這個數(shù)據(jù)肯定將在未來一年翻一番或兩番。” Forrester分析師吉姆·庫貝勒斯(James Kobielus)表示。他呼吁企業(yè)要保持謹慎,因為相關(guān)的技術(shù)還在演進之中,技術(shù)更新非??臁?/p>

可以肯定的是,與傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)相比,Hadoop有自己的優(yōu)勢,尤其是它既能處理關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),同時也能處理諸如音視頻等非結(jié)構(gòu)化數(shù)據(jù),而后者在現(xiàn)實世界中普遍存在,要遠遠比結(jié)構(gòu)化數(shù)據(jù)更為常見。Hadoop系統(tǒng)還可以根據(jù)數(shù)據(jù)的規(guī)模和問題的復(fù)雜程度輕松地擴展。

“Hadoop的應(yīng)用真正改變了我們對數(shù)據(jù)的理解和使用方式。” eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯(Hugh Williams)表示。eBay如今擁有的數(shù)據(jù)量高達9個PB,這些數(shù)據(jù)既有Terabyte系統(tǒng)所產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),同時也有Hadoop系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。

“你可以在同樣的硬件資源上運行各種不同類型的工作負載。相比而言,在Hadoop之前我們使用硬件資源的方式太呆板、太不靈活了。”威廉姆斯說,“如今,你能以一種與過去完全不同的方式來充分發(fā)揮集群的計算能力。這將大大降低公司創(chuàng)新的門檻,從而有助于組織的創(chuàng)新。Hadoop功能太強了。”

隨需求增長自由擴展

位于美國佐治亞州德盧斯市的Concurrent公司是較早采用Hadoop的公司之一。這個公司對外銷售流媒體系統(tǒng)。同時,它還替客戶保存和分析大量的視頻數(shù)據(jù)。為了更好地應(yīng)對待處理數(shù)據(jù)量的不斷增長,兩年前Concurrent采用了Cloudera公司的Hadoop CDH系統(tǒng)。

“Hadoop是我們解決大數(shù)據(jù)難題必不可少的工具,借助它我們在很短的時間內(nèi)就能完成海量數(shù)據(jù)的處理。”Concurrent公司工程總監(jiān)威廉·拉扎羅(William Lazzaro)說。

拉扎羅介紹,Concurrent有一個部門專門收集和保存客戶的視頻點播統(tǒng)計數(shù)據(jù),Hadoop的部署給這個部門解決了一個很大的難題。“我們有一個客戶,現(xiàn)在一個月就可以新生成30億條記錄,我們預(yù)計,在未來3個月,它每月的數(shù)據(jù)量將會達到10億條。”

很長時間以來,Concurrent公司有兩個大的難題:一個是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法處理諸如視頻這類非結(jié)構(gòu)化數(shù)據(jù),另一個是需要進行處理和存儲的數(shù)據(jù)量成倍增長。“我們的客戶希望要保留4?5年的數(shù)據(jù)。”拉扎羅解釋說,“如果它們每天的數(shù)據(jù)量達到PB級,對我們而言,將是一個非常的挑戰(zhàn)。”

他說,幸運的是,Concurrent的工程師發(fā)現(xiàn),采用Hadoop他們可以應(yīng)對其客戶不斷增加的數(shù)據(jù)量帶來的巨大處理和存儲壓力。“測試過程中,工程師們曾經(jīng)完成過每天為客戶處理20億條數(shù)據(jù)記錄。如果數(shù)據(jù)量再增加,我們只要往節(jié)點中加入服務(wù)器,就可以馬上獲得所需要的處理能力。整個系統(tǒng)的可擴展性非常好。”拉扎羅說。

他說,作為比較,該公司采用傳統(tǒng)的數(shù)據(jù)庫來完成同樣的工作。他們發(fā)現(xiàn)Hadoop的主要好處之一是,在數(shù)據(jù)量增加時可以很容易和迅速地增加硬件,同時,還不需額外的授權(quán)費用,因為它是開源軟件。“這是Hadoop與傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)相比 一個非常大的不同。”拉扎羅說。

位于美國加利福尼亞州圣克拉拉市從事生命科學(xué)和基因組研究的NextBio公司也是Hadoop的用戶,它們所從事的人類基因測序和相關(guān)科研工作涉及的數(shù)據(jù)量也非常龐大。

“我們有非常多的各種基因組數(shù)據(jù),需要與其他數(shù)據(jù)進行關(guān)聯(lián)和比較,我們采用Hadoop來幫助完成這些工作。”NextBio工程副總裁薩特南·阿拉克(Satnam Alag)說,“我們通過Hadoop來對大量的公共數(shù)據(jù)進行各種分析,很多組織需要這些研究結(jié)果,如制藥公司、學(xué)術(shù)研究等。”NextBio使用的是MapR公司的一個Hadoop分發(fā)版本。

他說,一個典型的完整的基因組序列可以包含120GB?150GB的壓縮數(shù)據(jù),要對這些數(shù)據(jù)處理需要500GB的存儲空間。過去,要分析一個基因組序列就要3天,今天,用30?40臺服務(wù)器運行Hadoop,NextBio的工作人員在3?4個小時內(nèi)就可以完成。“對于那些必須要對這些數(shù)據(jù)進行全面分析的應(yīng)用程序,這種效率的提升是非常有用的。”

Hadoop另一大優(yōu)勢是,只要簡單地增加更多的節(jié)點就可以保證系統(tǒng)的處理能力得到增加。“如果不用Hadoop,系統(tǒng)的擴展將是一件具有挑戰(zhàn)性的工作,成本高昂。”他說這種所謂的橫向擴展 給由普通服務(wù)器組成的Hadoop集群中增加節(jié)點是一種性價比非常高的擴展系統(tǒng)方式,“Hadoop框架能自動地管理群集中失效的節(jié)點。”

他說,這極大地改變了公司增加計算能力來滿足其需求的方式。“我們不希望在硬件資源上就花上數(shù)百萬美元,我們沒有這么多的錢。”

[page]

支持新的應(yīng)用類型

拉扎羅說,Hadoop另一個用處是能夠?qū)嫶蟮臄?shù)據(jù)集進行分析并迅速發(fā)現(xiàn)趨勢。對一家大型零售商而言,這可能意味著它能對Facebook或Twitter的用戶數(shù)據(jù)進行分析,來了解去年圍巾流行什么顏色,并與今天的流行色進行比較,以幫助決定今年如何采購商品。

“它能讓你及時地對過去的數(shù)據(jù)進行分析和整理,從而發(fā)現(xiàn)和尋找到新的銷售機會。”拉扎羅說。過去Concurrent公司要為汽車經(jīng)銷商進行的商業(yè)活動或廣告進行分析,這是一件非常折磨人的事情,會涉及非常多的數(shù)據(jù)。“我們要對數(shù)據(jù)進行分析,看看誰在觀看廣告,借此發(fā)現(xiàn)你的銷售目標人群,據(jù)此引導(dǎo)你進行有針對性的銷售。你并不是總是知道你要找什么。”

傳統(tǒng)的數(shù)據(jù)庫可以滿足很多分類整理和分析的需要,但對于超大規(guī)模的數(shù)據(jù)集,Hadoop在完成這些工作時效率更高。拉扎羅說:“Hadoop就是專門為大數(shù)據(jù)分析設(shè)計的。”

對此eBay的工程師深有體會。“Hadoop能很快對非結(jié)構(gòu)化數(shù)據(jù)進行分析,迅速幫助eBay開發(fā)出新的應(yīng)用。”eBay威廉姆斯說。由于eBay的工程師可以對公司現(xiàn)有的3億多條商品報價、歷史銷售記錄以及大量的相關(guān)信息進行分析,這就使eBay能夠很好地了解客戶,并為客戶提供他們想要的用戶體驗。“這不是簡單的關(guān)于結(jié)構(gòu)化與非結(jié)構(gòu)化的問題,而是它讓我們的工程師能夠卷起衣袖,以一種前所未有的方式對現(xiàn)有的數(shù)據(jù)進行分析和處理,從而改進我們的服務(wù)水平和提升銷售業(yè)績。”他說。

去年,eBay已經(jīng)用Hadoop完成了一些非常了不起的事情,包括提高商品廣告效果、改善購買者的體驗以及讓客戶更方便地訪問網(wǎng)站。

例如,eBay的員工可以看到客戶在萬圣節(jié)和圣誕節(jié)提交的每一項查詢,從他開始輸入時就可以看到。“通過這項功能,我們的員工就知道人們都在尋找什么東西。放到5年前這種使用數(shù)據(jù)的方式,我們想都不敢想。”

[page]

技術(shù)貯備必不可少

正如Hadoop有非常突出的優(yōu)點一樣,利用它也有一些特別的注意事項。業(yè)內(nèi)人士提醒,首先不要盲目跟從一個供應(yīng)商,謹防廠商鎖定。因為目前Hadoop市場還剛剛起步。

Forrester的庫貝勒斯說,“廠商的技術(shù)還在持續(xù)快速發(fā)展之中,同時,生態(tài)系統(tǒng)也有待完善。”

Gartner的分析師馬庫斯·柯林斯(Marcus Collins)提醒說,要充分發(fā)揮Hadoop的價值,企業(yè)必須找到擁有Hadoop相關(guān)專業(yè)知識的人才。“使用Hadoop需要具有一定水平的數(shù)據(jù)分析能力,而許多企業(yè)現(xiàn)在并沒有這樣的專業(yè)人才。”他說, “企業(yè)需要對員工進行培養(yǎng),在數(shù)據(jù)分析能力方面進行投資,這樣才能確保你能用好Hadoop這項技術(shù)。”

另一個重要的考慮因素是:多數(shù)情況下Hadoop項目需要外聘專家,目前他們供不應(yīng)求,如果找不到就只能培養(yǎng)內(nèi)部員工。

“Hadoop對數(shù)據(jù)的使用方式與以前有很大相同。”eBay的威廉姆斯說,“因此,我們必須先把培訓(xùn)做好,使我們的工程師知道如何使用Hadoop,知道如何編寫代碼,這就意味著你將不得不投資在您的開發(fā)人員和項目經(jīng)理上,以使他們成長為熟練的使用者。不要低估這一點。”

對于那些關(guān)鍵的應(yīng)用還要考慮企業(yè)學(xué)習(xí)和適應(yīng)開源系統(tǒng)的過程。謹記在一些小項目中進行試驗是一回事,而在大規(guī)模復(fù)雜系統(tǒng)中應(yīng)用則是另外一回事。因此,最好提前讓企業(yè)的管理團隊在開源軟件的使用方面進行學(xué)習(xí)。

柯林斯的另一個建議是,密切關(guān)注和參與項目,以確保它按計劃進行。“不要把你的所有問題都交給你的Hadoop供應(yīng)商,畢竟最終使用這個系統(tǒng)的是你。”

此外,庫貝勒斯解釋說,Hadoop的最佳實踐仍在不斷完善,所以最好從一些能立竿見影的項目著手,避免要長時間才能看到效益的項目。隨著組織建立起自己的專業(yè)團隊以及經(jīng)驗的不斷豐富,組織將能利用Hadoop做更多更有價值的事情,在此期間,項目的規(guī)模和應(yīng)用的范圍也將不斷擴展。

[page]

不能代替?zhèn)鹘y(tǒng)數(shù)據(jù)庫

值得一提的是,大多數(shù)客戶使用Hadoop是作為輔助,而不是取代其他類型的軟件,比如傳統(tǒng)數(shù)據(jù)庫。例如,在eBay,該公司仍然在使用關(guān)系數(shù)據(jù)庫完成一些基于這些數(shù)據(jù)庫的分析和處理工作。用戶有必要保持靈活性,某項技術(shù)一統(tǒng)天下的局面現(xiàn)在還不會出現(xiàn)。

威廉姆斯解釋說:“在eBay,我們看到了綜合使用多種技術(shù)處理數(shù)據(jù)給我們帶來的價值。在某些方面,Hadoop是一個非常好的選擇,而在另外一些方面,需要與其他技術(shù)一起工作,才能更好地發(fā)揮作用。”

Concurrent的情況也是如此。Hadoop并沒有取代傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,包括MySQL、PostgreSQL和Oracle。“這是一個綜合的解決方案。”拉扎羅說,“我們用Hadoop來完成繁重的工作,如海量數(shù)據(jù)的處理,我們還使用Map/Reduce在Hadoop中創(chuàng)建匯總數(shù)據(jù),這些數(shù)據(jù)可以很容易通過傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)訪問。”

對關(guān)系型數(shù)據(jù)庫而言,如果系統(tǒng)過于龐大,比如,每天2.5億條記錄,數(shù)據(jù)庫的響應(yīng)就會變得很慢。“不過,”他說,“這種數(shù)據(jù)規(guī)模對Hadoop不成問題。因此,可以用Hadoop來存儲,比如,每天50億條記錄,然后用Map / Reduce來對數(shù)據(jù)匯總,最后把結(jié)果保存到傳統(tǒng)數(shù)據(jù)庫中,以支持傳統(tǒng)系統(tǒng)的快速訪問。

威廉姆斯說,在一般情況下Hadoop的使用沒有太多限制。“我認為Hadoop給我們帶來的是機會,幾乎關(guān)于Hadoop的任何技術(shù)問題都可以通過開源社區(qū)找到答案。有些人對Hadoop的確有抱怨,這是正常的,畢竟它是新的東西。這就像1993年或1994年的Linux一樣。”

威廉姆斯進一步解釋說,“我們也的確看到,Hadoop在應(yīng)對海量數(shù)據(jù)時所面臨的獨特技術(shù)挑戰(zhàn),如架構(gòu)數(shù)據(jù)中心、重新設(shè)計網(wǎng)絡(luò)、選擇合適的硬件來支持Hadoop。但總體而言,Hadoop給eBay帶來很多幫助。”

“對于我們來說,Hadoop絕對是一個能改變游戲規(guī)則的技術(shù),這也是為什么我們的工程師要使用它的原因,它確實幫助我們成為一個真正的數(shù)據(jù)驅(qū)動型的公司。”他說。

鏈接

用好Hadoop的兩個建議

eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯提供了幾條如何利用Hadoop的建議。

1.提高Hadoop的利用效率。“如果組織中有很多人同時在使用某個Hadoop集群,他們很可能會做一些同樣的事情。”威廉姆斯說,“這意味著他們很可能會產(chǎn)生相同的中間數(shù)據(jù)集來進行分析,這是一種浪費。”

他建議,更好的辦法是早上執(zhí)行一些通用的數(shù)據(jù)查詢,并把結(jié)果保存在一個地方,任何人需要它們都可以訪問,從而節(jié)省大量的處理時間及相關(guān)資源。“盡量先想想,哪些數(shù)據(jù)集對使用者是有用的,再為這些用戶創(chuàng)建這些數(shù)據(jù)集。”

2.對Hadoop集群進行清理是日常維護中的一個關(guān)鍵工作。“這非常重要。”威廉姆斯說,“組織中可能會運行很多Hadoop作業(yè),這樣會生成大量的數(shù)據(jù)。不過,通常情況下,人們做完后,帶上文件就一走了之。如果不及時清理,最后在系統(tǒng)中就會留下大量無用的Hadoop文件。”

“所以,你有必要創(chuàng)建一個策略,以保持您的Hadoop集群系統(tǒng)是干凈的,不至于無謂地浪費磁盤空間。在大型的Hadoop集群系統(tǒng)中這一點尤為重要。”

關(guān)鍵字:Hadoop谷歌大數(shù)據(jù)

本文摘自:搜狐

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 夏津县| 扎鲁特旗| 太保市| 灵丘县| 晋江市| 昌黎县| 色达县| 吴旗县| 邢台市| 安远县| 竹山县| 光山县| 修武县| 武冈市| 岢岚县| 海林市| 浑源县| 阿拉善盟| 德安县| 开化县| 通化县| 泽库县| 云霄县| 四子王旗| 易门县| 天长市| 林芝县| 北宁市| 淅川县| 合水县| 邢台县| 永安市| 麻城市| 平昌县| 万山特区| 石泉县| 青州市| 定襄县| 柞水县| 彭州市| 和顺县|