當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

緊跟大數(shù)據(jù)步伐勇于接受新技術(shù)

責(zé)任編輯：editor008 |來源：企業(yè)網(wǎng)D1Net 2014-12-18 19:55:41 本文摘自：TT中國

隨著大數(shù)據(jù)時代的不斷發(fā)展，直至今日，企業(yè)雖然認(rèn)識到大數(shù)據(jù)分析能給企業(yè)帶來發(fā)展的價值，但傳統(tǒng)的數(shù)據(jù)管理和安全問題已經(jīng)阻礙了大數(shù)據(jù)的部署。

企業(yè)在什么情況下適合大數(shù)據(jù)，這是由企業(yè)處于發(fā)展中的位置決定的。

許多提供大數(shù)據(jù)業(yè)務(wù)的廠商肯定都爭相想做企業(yè)的生意。畢竟，大的數(shù)據(jù)不是最小的數(shù)據(jù)集合，但大數(shù)據(jù)需要充分利用盡可能多的數(shù)據(jù)管理。如果你正在尋找一個部署大數(shù)據(jù)的定義，這卻不是完整的定義。你需要一個增長的數(shù)據(jù)中心基礎(chǔ)設(shè)施相匹配所有這些增長的數(shù)據(jù)。

這個大的數(shù)據(jù)熱潮才真正開始與Apache Hadoop的分布式文件系統(tǒng)(HDFS)，開啟了基于成本效益規(guī)模的服務(wù)器使用相對便宜的本地磁盤群集的作為海量數(shù)據(jù)分析的時代。不管企業(yè)發(fā)展如何迅速，Hadoop及其相關(guān)大數(shù)據(jù)的解決方案，都可以保證持續(xù)分析各種原始數(shù)據(jù)(即，不完全結(jié)構(gòu)化的數(shù)據(jù)庫)。

問題在于，一旦你想從大數(shù)據(jù)入手，會發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)項目，包括那些熟悉的企業(yè)數(shù)據(jù)管理問題又會涌現(xiàn)出來了，比如數(shù)據(jù)的安全性，可靠性，性能和如何保護(hù)數(shù)據(jù)。

雖然Hadoop HDFS已經(jīng)趨于成熟，但仍有不少差距以滿足企業(yè)需求。事實證明，當(dāng)大數(shù)據(jù)在進(jìn)行產(chǎn)品生產(chǎn)數(shù)據(jù)收集時，這些存儲集群(DAS)上的產(chǎn)品可能實際上沒有提供最低的成本核算。

這里面，最關(guān)鍵的一點其實是大企業(yè)如何將大數(shù)據(jù)盤活了。我們當(dāng)然不是想簡單地拷貝、移動、備份大數(shù)據(jù)數(shù)據(jù)副本，復(fù)制大數(shù)據(jù)是一個大的工作。我們需要管理作為安全和謹(jǐn)慎，甚至更多的要求，所以，比小的不同的數(shù)據(jù)庫，不要抱著盡可能多的詳細(xì)信息。如果我們的關(guān)鍵業(yè)務(wù)流程的基礎(chǔ)上新的大數(shù)據(jù)的儲存中，我們會需要它的所有的操作彈性和高性能。

大數(shù)據(jù)歸屬的新選擇

物理DAS仍然是Hadoop最好的存儲介質(zhì)，因為相關(guān)的高水平的專業(yè)和業(yè)務(wù)的公司的都是經(jīng)過研究和實踐來確定存儲介質(zhì)。但這樣基于HDFS的數(shù)據(jù)儲存卻有很大的問題。

首先，默認(rèn)方案是所有資料進(jìn)行復(fù)制，移動，然后備份。HDFS是基于大數(shù)據(jù)塊的I/O優(yōu)化，省去了數(shù)據(jù)交互的時間。以后的使用通常意味著數(shù)據(jù)復(fù)制出來。盡管有本地快照，但他們并不完全一致或時間點不完全可恢復(fù)。

對于這些和其他原因，企業(yè)存儲廠商聰明的將HDFS做改變，一些技術(shù)狂人類型的大數(shù)據(jù)專家使Hadoop計算利用外部存儲。但對許多企業(yè)來說，它提供了一個很好的妥協(xié)：無需高維護(hù)存儲或存儲新的維護(hù)方式的適應(yīng)，但這有一定的成本。

許多供應(yīng)商，如EMC的 isilon提供對Hadoop集群遠(yuǎn)程HDFS的接口，是生意量比較大的企業(yè)首選。因為他們將是在isilon里，進(jìn)行任何其他數(shù)據(jù)處理大數(shù)據(jù)的保護(hù)，其中包括安全和其他問題。另一個好處是，在外部存儲的數(shù)據(jù)通常可以訪問其他協(xié)議(如網(wǎng)絡(luò)文件系統(tǒng)，NFS)的儲存，支持工作流和限制數(shù)據(jù)的傳輸和企業(yè)內(nèi)需要的數(shù)據(jù)副本。NetApp也基于這樣的原理處理大數(shù)據(jù)，一個大的數(shù)據(jù)參考架構(gòu)，結(jié)合一個組合的存儲解決方案，直接進(jìn)入Hadoop集群。

另外值得一提的是，虛擬化大數(shù)據(jù)分析。理論上，所有計算和存儲節(jié)點可以都可以進(jìn)行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而，幾乎所有的HDFS主機(jī)節(jié)點不能解決企業(yè)的存儲問題。一個有創(chuàng)意的新公司bluedata提出一個新的選擇。它模擬Hadoop計算方面使企業(yè)把現(xiàn)有的數(shù)據(jù)集——SAN/NAS——加速和轉(zhuǎn)儲到它的HDFS的覆蓋之下。在這種方式中，大數(shù)據(jù)分析可以做到一個數(shù)據(jù)中心的數(shù)據(jù)沒有任何變動，從而使用新的存儲架構(gòu)和新的數(shù)據(jù)流或數(shù)據(jù)管理的所有變化。

大多數(shù)Hadoop分布都是從近Apache的開源HDFS(目前軟件定義的存儲大數(shù)據(jù))開始，區(qū)別是它們采取了不同的方法。這基本上就是企業(yè)Hadoop所需存儲，從而建立自己的兼容存儲層在Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復(fù)制的支持，同時和原生支持的其他協(xié)議兼容，如NFS.它也非常有效，并有助于主要提供企業(yè)業(yè)務(wù)智能應(yīng)用程序，運(yùn)行決策支持解決方案依賴于大數(shù)據(jù)的歷史和實時信息。類似的想法，IBM已經(jīng)出爐的高性能計算系統(tǒng)存儲API為Hadoop發(fā)行版作為一種替代HDFS.

另一個有趣的解決方案可以幫助解決數(shù)據(jù)的問題。一個是dataguise，數(shù)據(jù)安全啟動，能切實有效地保護(hù)Hadoop的大數(shù)據(jù)集的一些獨特的IP，它可以在一個大的數(shù)據(jù)聚類自動識別和全局覆蓋或加密敏感資料。水平線數(shù)據(jù)科學(xué)(Water LineScience)是這個領(lǐng)域的新興技術(shù)，如果你連線登陸你的數(shù)據(jù)文件到Hadoop，無論數(shù)據(jù)在哪里，即使是HDFS，它都將自動儲存。大數(shù)據(jù)提供的產(chǎn)出物有助于快速建立商業(yè)應(yīng)用，利用數(shù)據(jù)的來源和位置來統(tǒng)計商業(yè)所需的資料。

D1Net評論：

對于廣大用戶而言，尤其是企業(yè)用戶，如果你一直持有Hadoop的管理或企業(yè)數(shù)據(jù)中心存儲的興趣，這是一個好時機(jī)去update自己對大數(shù)據(jù)的了解，如果你想跟得上大數(shù)據(jù)的腳步，就不應(yīng)該拒絕新技術(shù)的應(yīng)用。

關(guān)鍵字：技術(shù)大數(shù)據(jù)