精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

深入了解眾多廠商在Hadoop方面有著怎樣的作為?

責任編輯:vivian

2012-02-03 08:41:22

摘自:51cto

除了數據處理外,用戶還可以使用Karmasphere Analyst的基于服務的版本,Karmasphere Analyst是一種可視化工作區,用于在亞馬遜彈性MapReduce上分析數據。

Hadoop處于這個十年的大數據革命的暴風眼。自從Hadoop在2008年作為Apache開源項目發布以來,它就一直讓人備感興奮,原因在于它結合了成本低、可擴展性佳以及無需構建預定義模式(predefined schema)就能靈活地處理任何數據等優點。許多人覺得,Hadoop有望帶來全新一代的數據處理功能,就像結構化查詢語言(SQL)30多年前在數據計算領域引發革命那樣。

但是Hadoop不太成熟,在某些方面與SQL相比完全很原始、很粗陋。一些開路先鋒已經投入至少六年的時間來開發Hadoop,其中大多數人在雅虎等互聯網巨頭開始接觸這種框架。Hadoop取得的成功同時也促使主流市場對其穩定性、成熟的管理等更高的需求,包括SQL環境具有的那些豐富功能等等。

現在所有人寄希望于Hadoop廠商們開發出成熟可靠的工具、功能和技術創新。這個社區中有影響力的主要廠商包括Cloudera和亞馬遜。Cloudera是開山鼻祖,現在也是Hadoop軟件的最主要來源,它擁有CDH發行版和配套的管理軟件。它還是為Hadoop提供企業支持和培訓服務的最大供應商。亞馬遜很早就進入了這個領域,其亞馬遜彈性MapReduce服務在公共云中運行Hadoop。

2011年,MapR和Hortonworks(后者從雅虎拆分出來)一下子備受矚目,它們宣布了各自的Hadoop軟件發行版,另外提供支持和培訓服務;至于MapR,它還提供旨在提供高性能的專有版本。Hadoop要有所改進,競爭是一個方面,所以市面上出現更多版本以及新的支持和培訓服務應該讓每個人都受益。

數據處理是一回事,但是大多數Hadoop用戶最終希望實現的是分析數據。這時候,像Datameer、Hadapt和Karmasphere這些專門針對Hadoop的數據訪問、商業智能和分析工具廠商就閃亮登場了。

Hadoop邁向主流的標志是在2011年,它得到了五家主要的數據庫和數據管理廠商的積極接受,EMC、IBM、Informatica、微軟和甲骨文都紛紛進入Hadoop領域一較高下。IBM和EMC在去年發布了各自的發行版,后者還與MapR結為合作伙伴。微軟和甲骨文則分別與Hortonworks和Cloudera合作。EMC和甲骨文都發布了專門定制的硬件設備,隨時可以運行Hadoop。Informatica擴展了其數據集成平臺以支持Hadoop,現在它還將其解析代碼和數據轉換代碼直接融入到環境中。不妨深入了解這些有影響力的廠商們在Hadoop方面有怎樣的作為。

亞馬遜將MapReduce作為服務來交付

亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),絕非很晚進入Hadoop領域。所以說,亞馬遜對Hadoop的需求和應用可謂了若指掌,無論用戶是運行試點項目的新手,還是內部部署的預置型系統遇到需求過載時,利用彈性MapReduce來獲取額外容量的專業人士。

彈性MapReduce是一項能夠迅速擴展的Web服務,運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(Amazon S3)上。這可是貨真價實的云:面對數據密集型任務,比如互聯網索引、數據挖掘、日志文件分析、機器學習、金融分析、科學模擬和生物信息學研究,用戶需要多大容量,立即就能配置到多大容量。

除了數據處理外,用戶還可以使用Karmasphere Analyst的基于服務的版本,Karmasphere Analyst是一種可視化工作區,用于在亞馬遜彈性MapReduce上分析數據。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業流或本地文件系統上的結構化數據和非結構化數據,執行即席查詢和分析。用戶還可以提取結果文件,以便在數據庫或者微軟Excel或Tableau等工具中使用。

Cloudera力求Hadoop的企業安全性

作為歷史最悠久、實力最強大的Hadoop軟件和服務提供商,Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業使用的可靠平臺。這家公司有100多個客戶,不過鑒于Cloudera最近與IT業界老大的數據庫供應商甲骨文結為合作伙伴,今年其客戶數量有望大幅增加。

Cloudera為其Apache Hadoop軟件發行版增添了兩個重要部分:一個是用于控制和管理Hadoop部署環境的Cloudera管理器控制臺,另一個是企業級支持。Cloudera管理器提供了基于向導的安裝和配置菜單,以便部署Hadoop。另外,它還提供了一些工具,幫助系統管理人員監控平臺的運行狀況、診斷問題、優化性能,以及在配置和安全方面作出所需的變更。

Cloudera支持服務分每天8小時每周五天或每天24小時每周七天這兩種,服務包括配置檢查、問題逐級上報和解決、與第三方系統集成以及知識庫、文章及其他技術資源。除了現有的這些服務外,還有培訓和咨詢服務。Cloudera 企業解決方案包括Hadoop軟件發行版、Cloudera管理器及支持,標價為每年每個節點4000美元(不包括硬件)。

Datameer將商業智能運用到大數據上

Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對企業用戶的商業智能(BI)平臺。但是DAS并不將Hadoop當作信息孤島:它可以通過JDBC、Hive、HTTP或其他標準,連接到任何數據源。它包含了一個由向導驅動的集成平臺,讓用戶可以安排調度負載,并且轉換來自任何這些數據源的龐大的結構化、半結構化或非結構化數據集。然后,用戶可以通過類似電子表格的DAS界面,運用180多項分析功能中的任何一項功能。企業用戶可以獲得拖放式報告和儀表板功能。DAS可以在私有云或公共云上運行,而且有一套代表性狀態傳輸(REST)應用編程接口(API),用于數據導入和導出。

EMC提供單一的數據分析平臺

EMC自稱其EMC Greenplum統一分析平臺(UAP)是一款單一軟件平臺,數據團隊和分析團隊可以在該平臺上無縫地共享信息、協作分析,沒必要在不同的孤島上工作,或者在不同的孤島之間轉移數據。正因為如此,UAP包括ECM Greenplum關系數據庫、EMC Greenplum HD Hadoop發行版和EMC Greenplum Chorus,而后者是一種協作式、類似社交網絡的界面,可供數據分析團隊處理,無論團隊成員是有博士頭銜的數據科學家、數據集成專家和商業智能分析員,還是數據庫管理員和業務部門的用戶及管理人員。

EMC為大數據開發的硬件是模塊化的EMC數據計算設備(DCA),它能夠在一個設備里面運行并擴展Greenplum關系數據庫和Greenplum HD節點。DCA提供了一個共享的指揮中心(Command Center)界面,讓管理員可以監控、管理和配置Greenplum數據庫和Hadoop系統性能及容量。UAP軟件將數據訪問、管理和工作流統一起來,并與其他數據源和數據處理方法聯系起來;隨著Hadoop平臺日趨成熟,預計分析功能會急劇增加。

Hadapt統一關系數據庫環境和Hadoop環境

Hive是在Hadoop上運行的Apache數據倉庫組件,它一向以速度慢而出名。這時候,Hadapt上場了,它提供了一體化的分析環境,旨在對Hadoop里面的數據執行分析操作,還能對SQL環境中傳統的結構化數據進行分析。Hadapt公司表示,通常采用的方法是使用由擴充型連接件聯系起來的兩個不同系統,但是這帶來了延遲,因而導致這種方法顯得很孤立。而Hadapt的平臺設計成了可以在私有云或公共云環境上運行,提供了從一個環境就能訪問所有數據的優點,所以除了MapReduce流程和大數據分析工具外,現有的基于SQL的工具也可以使用。Hadapt可以在Hadoop層和關系數據庫層之間自動劃分查詢執行任務,提供了Hadapt所謂的優化環境,這種環境可以充分利用Hadoop的可擴展性和關系數據庫技術的快速度。

Hortonworks發揚了雅虎的Hadoop傳統

Hortonworks公司在2011年從雅虎拆分出來,憑借一支由近50人組成的核心團隊(其中一些人是Hadoop社區最資深最多產的貢獻者),辦成了一家完全致力于推進這個開源平臺的獨立公司。Hortonworks的主管們堅稱,這支雅虎團隊開發了Hadoop平臺背后的大部分代碼,將在引領該平臺的未來方面起到推動作用。

Hortonworks拉到的第一張重要的信任票(除了獲得風險創新資金外)是在去年10月與微軟結為合作伙伴;通過這種合作關系,Hortonworks將幫助微軟開發與Windows兼容,同時恪守Apache開源項目原則的Hadoop版本。Hortonworks隨后在去年11月推出了Hortonworks數據平臺(HDP)v1,Hadoop平臺的這個發行版不久將在2012年第一季度更新到v2版本,會加入最新的(0.23)Apache Hadoop版本。Hortonworks還提供Hadoop支持、培訓和咨詢,給Cloudera和MapR加大了競爭力度。

IBM提供BigInsights、BigSheets和BigCloud

僅僅幾年前,IBM開始在其實驗室嘗試使用Hadoop,但是它在去年將相關產品和服務納入到商業版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數據庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數據。

IBM隨后又在10月通過其智慧云企業(SmartCloud Enterprise)基礎架構,將BigInsights和BigSheets作為一項服務來提供。這項服務分基礎版和企業版;一大賣點就是客戶不必購買支持性硬件,也不需要IT專門知識,就可以學習和試用大數據處理和分析功能。據IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數據轉移到集群里面,數據處理費用是每個集群每小時60美分起價。

Informatica走得更深入一步

許多數據集成和數據管理廠商(IBM、甲骨文、Syncsort和Talend)處理的是很明顯的任務:讓數據進出Hadoop。Informatica公司在去年10月則更深入一步,當時它推出了HParser,這是一種針對Hadoop而優化的數據轉換環境。據Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發人員提供了即開即用的解析功能,以便處理復雜而多樣的數據源,包括日志、文檔、二進制數據或層次式數據,以及眾多行業標準格式(如銀行業的NACHA、支付業的SWIFT、金融數據業的FIX和保險業的ACORD)。正如數據庫內處理技術加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功能,不久會添加其他的數據處理代碼。

Informatica旨在提供一款單一平臺,希望能夠借助統一的環境和方法,全面滿足數據管理和數據集成方面的要求。這家公司的企業客戶超過4300個,它估計10%以上的客戶正進入到大數據領域(大數據的容量超過100TB)。市場地位和技術創新使得Informatica成為值得關注的一家Hadoop專業廠商。

Karmasphere玩轉Hadoop數據分析

來自傳統商業智能領域的眾多廠商(Jaspersoft、Pentaho、Tableau Software及其他公司)現在將其工具和技術對準了Hadoop這一數據源。但是自2010年以來,Karmasphere公司就一直在幫助數據專業人員挖掘和分析Hadoop里面的互聯網、移動設備、傳感器和社交媒體等數據。

Karmasphere提供了直接訪問Hadoop里面結構化和非結構化數據的優點,它還可以運用SQL及其他語言,用于即席查詢和進一步的分析。Karmasphere Analyst是核心協作工作區,以便數據專業人員和數據分析員可以直接訪問Hadoop里面的結構化和非結構化數據。使用SQL及其他語言,用戶就能創建即席查詢,然后處理結果。Karmasphere Studio為開發人員提供了一種圖形化環境,可以在里面開發自定義算法,為應用程序和可重復的生產流程創建實用的數據集。 Karmasphere與Hadoop領域的多家知名廠商達成了合作關系,面向亞馬遜彈性MapReduce的Karmasphere Analyst和Karmasphere Studio將相關工具運用到了這主要的基于云的MapReduce服務之一。

MapR Technologies聲稱性能更好

MapR公司在Hadoop領域顯得有點特立獨行,它提供了一款獨特的發行版。它從開源Apache項目獲取了該公司所需的組件,同時擯棄了它不喜歡的組件(特別是Hadoop分布式文件系統即HDFS,MapR認為這是單一故障點,并將它換成了基于Unix的網絡文件系統)。

Cloudera和Hortonworks的這個競爭對手將其M5商業Hadoop發行版與支持、培訓和咨詢等服務(M3發行版是免費的,還與Apache Hadoop百分之百兼容)結合起來。MapR與EMC結為了合作伙伴,EMC采用M5作為其EMC Greenplum HD企業版的基礎。

Hadoop的最新(0.23)版本解決了MapR對Hadoop架構有抱怨的諸多地方,但是這并沒有阻止這家公司繼續將性能發揮到極致,聲稱提供的性能勝過傳統的Hadoop發行版,而所需的硬件又只要一半。

微軟進入這個市場

EMC、IBM和甲骨文在2011年都大力追捧Hadoop,于是微軟也進入這個市場就不足為奇了。微軟在去年推出了基于Azure云平臺的測試版Hadoop服務,今年它承諾會推出與Windows兼容的基于Hadoop的大數據解決方案(Big Data Solution),這是微軟SQL Server 2012版本(首發日期還不知道)的一部分。

對于一款迄今為止在Linux上運行的開源平臺來說,在Windows上運行無異于是項新本領。微軟的版本會是免費、開源的嗎?這方面還沒有宣布,至于將來有沒有基于第三方硬件的支持性設備,也沒有任何動靜,而微軟與惠普及其他廠商合作開發了SQL Server并行數據倉庫。

微軟的主管們堅持認為,其發行版將“與Apache Hadoop核心保持一致、兼容。”考慮到微軟與從雅虎拆分出來的Hadoop專業廠商Hortonworks合作,開發Hadoop軟件發行版、向Hadoop社區重新捐獻代碼,這很可能是真的。

甲骨文走求大路線

今年1月發布的甲骨文大數據機(Oracle Big Data Appliance)將甲骨文-Sun分布式計算平臺與Cloudera的Apache Hadoop發行版、Cloudera管理器管理控制臺、R分析軟件的開源發行版以及甲骨文NoSQL數據庫結合起來。甲骨文還包括連接件,因而讓數據能夠在大數據機與甲骨文Exadata或傳統的甲骨文數據庫部署環境之間來回傳送。

甲骨文為這套綜合的軟硬件“工程一體化系統”提供了一線支持;但是即使出現棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓和咨詢服務。

如果喜歡,客戶將來可以配置和使用大數據機捆綁軟件。它可能是清一色的Hadoop、清一色的NoSQL或者在同一平臺上兩種節點對半分。該設備將完全通過全機架(full-rack)配置來提供,每個機架配備864GB主內存、216個處理器核心、648TB原始磁盤存儲容量,以及節點之間每秒40千兆的InifiniBand內部連接。軟硬件總計售價將達到45萬美元,每年還要收取12%的軟硬件支持費。這個價格頗具競爭力,相當于每TB不到700美元。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 天气| 东宁县| 安多县| 六枝特区| 法库县| 金华市| 金川县| 手机| 皮山县| 宕昌县| 台江县| 来凤县| 临泉县| 温宿县| 南溪县| 张家港市| 扎囊县| 山阴县| 梅州市| 纳雍县| 左权县| 蓬莱市| 开平市| 合川市| 泾阳县| 江川县| 江津市| 淮阳县| 新昌县| 吐鲁番市| 达尔| 灵山县| 慈溪市| 嵊州市| 且末县| 集安市| 徐州市| 磐安县| 龙南县| 万年县| 石城县|