公有云不只是改變了計算和存儲的價格結構,而且還擴展了分析企業IT可以執行的范圍。在同大數據集工作時尤為明顯,沒有彈性計算和存儲的訪問就不會有實踐。
“大數據”的寬松定義是過大而不能用傳統數據管理技術和基礎架構處理的數據集。詳細的服務器日志、點擊流數據、社交網絡數據和移動設備數據都是數據倉庫中和商業智能系統中交易型數據類型的補充。此外,公有云數據存儲庫和第三方加速器也提供了大數據集話題,從Twitter流和Meetup博文到經濟和人口普查數據。
合并這些數據源可以進行更加詳細和精密的分析。獲得客戶如何在在你的網站上瀏覽以及他們就不同產品瀏覽多長時間的細節信息,獲取更多關于客戶偏好的洞察力,而不僅僅是追蹤產品購買。
大數據檢索:三源頭
在你能夠處理大數據之前,確定你要處理哪種類型的數據至關重要。大數據源分成三個廣泛的分類:內部生成數據、數據集市場和第三方數據生成器。
內部生成大數據通常是IT運營的副產品。包括網絡流量、點擊流數據和應用日志。在過去,企業針對重要事件捕捉有限的信息,比如購買東西的客戶。現在我們可以捕捉更多更為重要的信息,用你的業務應用就客戶的交互分析低級別的細節信息。用數據挖掘算法結合這些詳細信息,你會發現更多的洞察力,像界面的可用性、和低利潤交易相關的模式或者意外客戶類型群集。
數據集市場,比如Infochimps、亞馬遜Web服務(AWS)的公有數據集和Windows Azure Marketplace,將提供范圍廣泛的數據集訪問補充你的內部數據。如果你對于處方藥使用、零售數據、交易數據或者更廣泛的其他話題感興趣,你可以在這些數據市場中找到數據。很多數據市場提供云數據分析,因此你可以直接用虛擬機在云端進行工作。
第三方生成器是關注收集和為客戶提供數據或者供公共使用的組織。美國聯邦政府和歐盟都是這樣,生成大量的人口統計、經濟和公共健康數據。私有公司,比如Hoover也提供增值服務,比如為客戶提供市場和風險管理數據。
企業工具挖掘大數據潛能
很難結合大量非結構化和半結構化數據到關系型數據庫中。云數據分析工具給企業提供所有規格能夠分析這種數據。
如果數據結構化很好,你可能希望繼續做關系型數據庫,比如甲骨文或者微軟SQL Server,二者對于AWS、微軟Windows Azure以及其他的云提供商都可用。
當你開始處理億萬行數據時,是時候考慮Hadoop或者谷歌BigQuery了。AWS有一個Hadoop服務,稱之為彈性MapReduce,節省了安裝和配置Hadoop集群的時間。Hadoop很好的符合面向包的分析,但是BigQuery更適合交互式分析。BigQuery使用類SQL查詢語言,并支持Tableau Software的可視化工具,這是對專業分析的兩個重要考慮對象。
數據整合和管理
在數據倉庫進行大數據分析的很多任務中,和抽取、轉換和加載(ETL)操作相關聯。跨多個數據集耦合實體是數據集使用唯一識別符時的挑戰;數據格式需要表轉化。
關注聚集級別的不同之處。比如,一些數據何以在日常級別聚集,其他的數據則只能夠看作是普通的追蹤級別。
最重要的,要知道數據傳輸成本,通常都要伴隨著大數據出現。可能的話,在你存儲數據相同的云中使用虛擬機。在處理谷歌BigQuery時,記住你要根據潮汛處理的數據量付費,因此只查詢你需要的行和列。