精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據項目均是關乎云計算的

責任編輯:editor04

2015-04-30 21:45:57

摘自:機房360

摘要:選擇Spark還是Hadoop并不是決定您企業大數據項目成功的關鍵,選擇合適的基礎設施才是。在伍德看來,“實時數據處理的絕對會有進行向前發展的潛力,但其應該是大數據系統的催化添加劑。

摘要:選擇Spark還是Hadoop并不是決定您企業大數據項目成功的關鍵,選擇合適的基礎設施才是。

大數據并不是實時vs.批處理的問題。正如Ovum的分析師Tony Baer和其他一些分析師所指出的那樣,這不是一個非此即彼的問題。鑒于現如今的企業用戶在制定一套成功的大數據戰略方面有著廣泛的選擇和大量的工作負載,上述分析師的論斷也并不奇怪或有什么值得爭議的。

更具爭議性的話題是,雖然也許并不令人感到驚訝,是從被需要用以獲得大多數大數據的基礎設施中獲得其性質。例如,AWS(亞馬遜Web服務)的數據科學主管馬特·伍德警告說,雖然“分析是會令人上癮的,但如果你企業的基礎設施跟不上的話,這種積極的上癮會迅速逆轉。”

伍德說,大數據項目的成功的關鍵,不僅僅只是選擇Spark或Hadoop。其運行還依賴于彈性的基礎設施。

Hortonworks公司的企業戰略副總裁肖恩·康納利認為,云計算已經在大數據分析中發揮了很大的作用。但康納利表示,決定大數據在何處進行處理的最大的因素是“數據的引力”,而不是彈性。

康納利說,企業部署大數據項目的主要的驅動因素是要擴大和加強傳統的內部部署的系統,如數據倉庫。最終,這會導致大型企業需要在多處位置部署Hadoop和其他分析集群——通常需要在企業現場。

然而,康納利也承認,對于開發和測試新的分析應用程序和處理來自企業外部的大數據而言,云計算已然成為了新興的且越來越受歡迎的選擇。

大數據分析的基本成分

AWS大數據的客戶范圍相當廣泛,既包括像Reddit這樣的初創型企業,也包括Novartis和Merck這樣的大規模的企業,對于任何一款分析系統而言,伍德均建議企業從如下三大關鍵要素開始考量:

1、單一來源的真相。AWS提供了多種方式以存儲單一來源的真相(single source of truth),從S3存儲到像DynamoDB或RDS或從Aurora到諸如Redshift這樣的數據倉庫解決方案。

2、實時分析。伍德說,企業通常會利用streaming數據傳輸來增加這種單一來源的真相,如網站點擊量或金融交易情況。而AWS則提供了Kinesis以幫助實現實時的數據處理,其他已有的選項包括諸如Apache Storm 和Spark。

3、專用任務集群。任務集群是一組運行諸如Hadoop這樣的分布式框架的實例,但能夠執行專門的任務,如數據的可視化。

考慮到上述這些要素,伍德重申,大數據并不是一個批量處理VS.實時處理的問題,而是涉及廣泛的工具集,可以讓你以多種方式處理數據:

其不是選擇Spark或Hadoop的問題。其應該是一個多種選擇相加的“和”問題,而不是一個二選一的“或”的問題。如果你企業使用Spark,不排除你企業會在其他領域采用傳統的MapReduce或Mahout。你必須選擇恰當的工具,已完成工作。

在伍德看來,“實時數據處理的絕對會有進行向前發展的潛力,但其應該是大數據系統的催化添加劑。”

這也呼應了Hadoop的創始人Doug Cutting不久前在接受記者采訪時所說的。他在回答關于streaming數據傳輸或實時數據處理是否會取代如Hadoop的問題時,表示說:

我不認為市場會朝著streaming數據傳輸有任何大規模的轉向。而streaming數據傳輸現在加入到處理選項,企業用戶能夠有方法進行相應的處置。當他們需要互動的BI時,他們會用Impala;當他們需要分面搜索(faceted search)時,他們會使用Solr;當他們需要實時分析時,他們會使用Spark Streaming。企業當然也還是會進行回顧性分析,也會采取批處理的方法。一個成熟的平臺用戶可能會使用所有這些。

Hortonworks公司的康納利對于未來的發展也持有類似的觀點。Hadoop被企業作為一種以相當低的成本在現有應用程序的筒倉擴展數據倉庫和基礎設施分析的方法。但隨著客戶變得更加成熟,新的數據源,新的工具,會經常會讓云計算也參合進來:

如果你在考慮采用圍繞著360度視角的商業用例(其在不同的孤島整合客戶或產品數據),其可能已經開啟。但你的機器學習和數據發現可能是在云中。你可能有新的數據集如天氣數據和普查數據,而這些數據在您企業內部已經不可能有了,所以你可能要將現有數據進行組合,以便執行先進的機器學習。

康納利說,因為物理定律禁止數百TB或PB級的數據跨網絡進行方便的遷移,客戶將開啟Hadoop集群和各種云,以便能夠在大部署數據一登陸,就執行相應的分析。即他所謂的“數據的重要性”這一術語。當來源于企業外部的新的數據集到達時(如氣象數據、人口普查數據,以及機器和傳感器的數據),云計算成為一個執行數據處理的天然場所。

建立彈性和規模化

雖然很多人錯誤地認為大數據就是海量的數據,卻忽視了大內在的更常見的繁雜的種類和傳遞速度的快速的特點,其真實的數據量也不像某些人認為的那樣簡單。

在亞馬遜的伍德看來,大數據所帶來的挑戰“與其說是有關數據的絕對規模,還不如說是其相對的規模。”也就是說,雖然像人類基因工程這樣的項目可能始于十億字節規模的項目,但其很快就進入TB級,然后發展為PB級的規模。 “客戶目前正在經歷工具規模的大幅轉變。”伍德指出,但是,當規模進一步發生階躍型變化時,企業有可能完全措手不及。

正如伍德在我們之前的談話中告訴我的那樣,“那些走出去購買昂貴的基礎設施的企業會發現,問題的范圍和領域的轉變真的太快了。當他們剛剛解答了最初的問題的時候,企業的問題可能已經轉移了。”

換句話說,“企業需要一個平臺,能夠允許他們不斷的從一種規模進入到下一種規模,乃至再下一種規模。如果您數據中心無法應付如此大規模的轉變,那么,您企業的業務可能無法隨著時間的推移而向前邁進。”

伍德舉了天氣預報頻道作為一個例子,在過去,我們可能只會每個四個小時獲得一次僅僅只覆蓋了幾百萬個地理位置的天氣報告,而現在,在AWS上每隔幾分鐘都會有設計幾十億出地理位置的天氣狀況的數據更新,而且還是保證百分百的正常運行時間。換句話說,這不僅僅是關于大數據的處理,而且還涉及到數據的云交付。

對于Hortonworks公司的康納利來說,云計算的靈活性與其彈性的可擴展性一樣重要。“我們開始進行更多的開發測試,讓我們可以只需采用ad hoc集群即可實現圍繞著數據子集的工作,”他說。

他說,特別是在機器學習的情況下,你可以為機器學習解決方案推動足夠的數據,讓您得以能夠在云中創建你的決策模型。該模型將被用于更廣泛的應用程序,其可能部署到其他地方。

“云計算對于前端的‘概念證明,以及讓一些初步應用開始啟動’非常有幫助,”他補充道。“一旦這樣做了,問題就變成了:“因為這涉及到大量的數據,其是否需要遷移到企業內部,或是將其留在云中?”

康納利說,最終,這不是一個將數據“全部托管在云”與“全部存儲在企業內部”的困境的問題。大量的情況是:只要大量的數據被生成,相應的分析就將繼續。而在其他的情況下,如機器或傳感器數據流的處理情況下,云是一個自然的起點。

康納利認為:“在接下來的一年或兩年,圍繞著企業希望將預算花費在何處、數據的來源、以及企業希望在何處運行技術的話題將掀起廣泛的討論,我認為這將是一個廣泛聯系的混合的經驗技術周期。”

然而,其到底將如何形成,很明顯,最成功的大數據戰略將包括一系列的在云計算中運行的大數據技術。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 都兰县| 泸水县| 阿荣旗| 安泽县| 三台县| 康乐县| 轮台县| 治多县| 怀集县| 嫩江县| 元朗区| 全椒县| 巴楚县| 南安市| 石阡县| 南安市| 五华县| 县级市| 明水县| 凌云县| 个旧市| 吴忠市| 南平市| 高碑店市| 绥江县| 锦屏县| 安陆市| 南阳市| 西乌| 昭通市| 赣州市| 即墨市| 黔西| 神农架林区| 隆子县| 陵川县| 南丰县| 扶余县| 临猗县| 沿河| 宾阳县|