大數(shù)據(jù)對于傳統(tǒng)IT系統(tǒng)來說是個大問題,因為處理海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)有很多事情要做。然而,云計算可以讓IT管理大數(shù)據(jù)集,且無需獨占本地系統(tǒng)。
為了在云端有效管理大數(shù)據(jù),了解最新的工具和服務(wù)很重要。比如Hadoop是處理大數(shù)據(jù)的通用Apache框架。此外,很多主要的云提供商都有自己的大數(shù)據(jù)服務(wù),比如亞馬遜Web服務(wù)的彈性MapReduce、谷歌的BigQuery以及Pivotal的大數(shù)據(jù)套件。
下面是五個快速鏈接,可以用來探索云端大數(shù)據(jù),涉及基礎(chǔ)和進階的工具和服務(wù)。
1、哪一種云模式最適合你的大數(shù)據(jù)項目?
公有云、私有云和混合云都有自身的優(yōu)勢。公有云提供了按使用付費架構(gòu)的彈性和可擴展性。私有云,基于本地基礎(chǔ)架構(gòu),為企業(yè)提供了控制。混合云混合了私有云和公有云服務(wù),用編排實現(xiàn)了其混合。但是,在為大數(shù)據(jù)選擇合適的云模式時,需要更深入的關(guān)注每一個模式。
雖然密切的控制很誘人,但是私有云的本地屬性對于大數(shù)據(jù)來說并不理想。相反公有云更適合按需的大數(shù)據(jù)任務(wù)。然而,潛在帶寬限制和數(shù)據(jù)傳輸成本卻是令人擔(dān)憂的問題。
2、入門級大數(shù)據(jù)分析:Google BigQuery
大數(shù)據(jù)項目對于任何組織機構(gòu)都是是一項重大事業(yè)。為了成功實現(xiàn),找到適合你的數(shù)據(jù)需求的正確服務(wù)非常重要。雖然Hadoop是一個通用的大數(shù)據(jù)選擇,但是并不適合于每一個人。另一個替代品是谷歌BigQuery,尤其是對于相比MapReduce更喜歡SQL的開發(fā)者更是如此。
雖然BigQuery促進了大數(shù)據(jù)分析實現(xiàn),但是也伴隨著一些折扣。云專家Dan Sullivan會詳細(xì)解釋如何使用BigQuery以及什么類型的企業(yè)會更適合這個大數(shù)據(jù)分析服務(wù)。
3、大數(shù)據(jù)即服務(wù):企業(yè)客戶需要的遠不止分析
大數(shù)據(jù)工作負(fù)載會對傳統(tǒng)IT系統(tǒng)造成重大損害,因為巨大的數(shù)據(jù)集需要資源,而且通常運行這些數(shù)據(jù)很昂貴。這也正是公有云進入的地方,通過氣可擴展性和按使用服務(wù)的價格模式,公有云價格可以讓企業(yè)只支付使用的部分,而不是大數(shù)據(jù)項目的通用架構(gòu)。此外,公有云允許資源根據(jù)工作負(fù)載需求自旋加速或者減少。
但是對大數(shù)據(jù)使用公有云有一個隊里面。雖然軟件即服務(wù)可以削減成本,但是安全和延遲問題還存在。
4.Apache Sqoop:云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)
Apache框架Hadoop是一個越來越通用的分布式計算環(huán)境,主要用來處理大數(shù)據(jù)。隨著云提供商利用這個框架,更多的用戶將數(shù)據(jù)集在Hadoop和傳統(tǒng)數(shù)據(jù)庫之間轉(zhuǎn)移,能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾pache Sqoop就是這樣一款工具,可以在Hadoop和關(guān)系型數(shù)據(jù)庫之間轉(zhuǎn)移大量數(shù)據(jù)。
盡管Sqoop有其優(yōu)勢,但是默認(rèn)的并行性是個問題。本文中我們將看看具體如何使用這款工具。
5、云端大數(shù)據(jù)安全利器:亞馬遜DynamoDB和Accumulo訪問控制
雖然云計算對于大數(shù)據(jù)項目是一個可靠的選擇,但是對于一些組織而言安全是一個障礙。但是,根據(jù)Sullivan所說,有三個選擇可以讓NoSQL數(shù)據(jù)庫更加安全:Accumulo、Amazon Web Service的DynamoDB以及MarkLogic。Apache Accumulo是一個分布式的鍵值數(shù)據(jù)存儲,提供了基于單元的訪問控制,據(jù)定了誰可以訪問組織的大數(shù)據(jù)。AWS的鍵值數(shù)據(jù)存儲DynamoDB用身份及訪問管理(IAM)策略解決了訪問控制。MarkLogic是一個基于文檔的NoSQL數(shù)據(jù)庫,提供了基于角色的訪問控制和執(zhí)行。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88193.htm