AWS在云端為大數據分析提供了幾個公共云交付選項。下面來看下AWS是否符合你所在企業的路線。
大數據的關鍵就是大。大量結構化和非結構化信息——通常是PB以上——會讓大多數傳統數據管理方法陷入困境。和政府機構一樣,本地成本會打破大多數福布斯全球2000強的公司的預算。
這也就是云的切入點。諸如AmazonWeb Services的云提供商目前可以提供強大的,節省成本的方法來支持和分析大數據。通常會根據使用情況定價,這些云服務將徹底改變我們對自身企業的理解方式。
這不僅僅是數據格式化和結構化來驅動有用的報告。它還是可操作的數據,可以提供對業務的實時查看。我們還可以將此分析功能和動態業務流程鏈接起來從而讓企業可以自我修復和自我優化。這也是其真正價值的所在。
AWS的大數據分析產品有時讓人迷惑不解,本文將揭開它的神秘面紗。
多種多樣的服務
當你在公共云里做大數據分析的時候首先需要考慮的問題就是數據集成,無論你用的是AWS還是其他提供商。你的數據需要從你所在企業的操作性數據存儲流入大數據系統,而這些很可能是在云中進行的。
AWS支持數據傳輸服務,例如AWS Direct Connect可以將大數據移入云中,也可以從云中移出。但是它并不能進行快速遷移。因為它是不收費的,所以當你對實時性要求不強時還是可以接受的。
另外一個中間件類型的服務是Amazon Kinesis。這是針對大數據流實時處理的一項云服務。它所支持的數據吞吐量從兆字節每秒到吉字節每秒,而且它還能夠處理來自成千上萬不同數據源的數據流。要考慮從你所在企業的多個數據源到AWS上的數據庫選擇來運行數據流。
從中間件遷移至實際數據庫,AWS服務目錄擁有SQL和NoSQL混合的數據庫技術。Amazon DynamoDB是一項可管理的NoSQL數據庫服務,很多企業已經發現了其價值。DynamoDB擁有有保證的吞吐量和極小的延時,這對于那些必須和大數據進行快速交互的大數據項目來說是非常適合的,例如移動計算支持。
Amazon Relational Database Service(RDS)是一個精心設計的關系型數據庫,它能夠對AWS云進行擴展。RDS適合于那些需要保持關系型模型且規模不會太大(大部分不會)的大數據系統。對此,你需要Amazon Redshift,它是一個專門設計用來支持大數據分析和傳統數據倉庫的拍字節規模的數據庫。
Redshift使用了柱狀存儲技術和分布式查詢,那些管理本地數據倉庫的人應該對此非常熟悉。但是Redshift的成本卻不到每年1000美元。
最后,Amazon Elastic MapReduce是一個基于Amazon ElasticCompute Cloud的Hadoop文件系統框架,它提供map和reduce查詢并且利用核心Hadoop工具。
數據庫和Hadoop技術
Amazon Relational Database Service(RDS)是一個精心設計的關系型數據庫,它能夠對AWS云進行擴展。RDS適合于那些需要保持關系型模型且規模不會太大(大部分不會)的大數據系統。對此,你需要Amazon Redshift,它是一個專門設計用來支持大數據分析和傳統數據倉庫的拍字節規模的數據庫。
Redshift使用了柱狀存儲技術和分布式查詢,那些管理本地數據倉庫的人應該對此非常熟悉。但是Redshift的成本卻不到每年1000美元。
最后,Amazon Elastic MapReduce是一個基于Amazon ElasticCompute Cloud的Hadoop文件系統框架,它提供map和reduce查詢并且利用核心Hadoop工具。
總結
AWS為云端的大數據分析提供了幾個公共云交付功能。AWS技術是可以滿足大多數的需求,但是AWS并不是唯一提供大數據技術的云。Google和Microsoft同樣有與之競爭的系統,而且還有一些規模較小的企業也在躍躍欲試。但是AWS為那些要建立大數據系統的架構師和開發人員提供了一站式的購物服務——并且其數據庫服務和中間件目錄是十分引人矚目的。