你如何在大數(shù)據(jù)的海洋尋寶?對于那些擁有龐大信息需要處理的企業(yè),在數(shù)據(jù)分析之前要克服的第一個障礙就是——不能夠定位到相關(guān)并且有意義的信息。這 也是HGST遇到的問題,HGST(日立環(huán)球存儲科技公司)是一個計算機硬件的主要生產(chǎn)廠商,他們現(xiàn)在迫切需要追蹤在生產(chǎn)設(shè)施上收集到的數(shù)據(jù)。據(jù)HGST 的云計算與高性能解決方案主管David Hinz介紹,找到所需要的數(shù)據(jù)來評估生產(chǎn)過程是一個漫長或者說是不可能完成的任務(wù)。
“我們不能確定它在哪里,誰擁有它,以及如何得到它,”Hinz說,“對于HGST,我們想改善性能使其能夠及時得到數(shù)據(jù),并使團隊能夠快速找到它。然 后,我們就可以回過頭來開始分析并找出相關(guān)見解,來幫助我們改進制造工藝,改善客戶響應(yīng),并幫助產(chǎn)品推廣。”通過在云端集中和精簡數(shù)據(jù),數(shù)據(jù)檢索用戶能夠 在幾分鐘之內(nèi)找到想要的信息而不是幾周。事實證明這家公司在云端設(shè)立Hive數(shù)據(jù)倉庫是明智的選擇。
如今的數(shù)據(jù)絕大多數(shù)是非結(jié)構(gòu)化的,而且大多數(shù)這類數(shù)據(jù)都是用戶生成的。AWS的大數(shù)據(jù)及高可用性高級經(jīng)理Ben Butler發(fā)表評論說:“現(xiàn)在生成數(shù)據(jù)更加容易,并且成本更低。然而它卻把壓力推給了生命周期的其余部分:收集和存儲、分析和計算,從而能夠搞清楚這些 快速增長的數(shù)據(jù)的意義。”
如今,擁有PB數(shù)量級數(shù)據(jù),并且一直包含流媒體的大企業(yè)已經(jīng)不足為奇。可用信息的爆炸性增長意味著在可以被收集和高速分析的數(shù)據(jù)之間存在差距將越來越大。 “關(guān)于大數(shù)據(jù),你擁有的數(shù)據(jù)量,種類,以及增長速率都要求新的工具,”Butler說,“在云端,我們組合不同的計算,網(wǎng)絡(luò)以及存儲工具,你可以用來解決 這些問題。”
由云計算提供的彈性和按需配置,為讓企業(yè)組織能夠試驗和嘗試解決大數(shù)據(jù)的新方法提供了核心力量。企業(yè)可以根據(jù)供應(yīng)的基礎(chǔ)設(shè)施,用不同的迭代方式嘗試和操縱他們的數(shù)據(jù)。基礎(chǔ)設(shè)施不再限制用什么來處理數(shù)據(jù)。這些相同的靈活性使企業(yè)即使有高可變負載的情況下也不會超支。
根據(jù)需要可擴展性還可以減少數(shù)據(jù)處理的等待時間,這樣對資源的爭用就會更少。獲得無限制的資源可以讓企業(yè)在使用AWS解決方案時做出更好的決策。例如,把 EMR或其他解決方案植入Kinesis后臺,接近實時的分析可以在幾秒之內(nèi),通過把可視化的結(jié)果傳遞給BI系統(tǒng)展示出來。
大數(shù)據(jù)處理是一個挑戰(zhàn),對于這些數(shù)據(jù),如果沒有強有力的硬件做支撐處理,對其進行有意義的分析幾乎是不可能的。但幸運的是,云計算爆炸和彈性使用處理的能 力意味著小型企業(yè)組織現(xiàn)在可以完成曾經(jīng)只有大企業(yè)才能完成的任務(wù)。云計算已經(jīng)使大數(shù)據(jù)更易于管理,而且還可以對這些數(shù)據(jù)做更多,更快的分析。隨著大數(shù)據(jù)還 在不斷變大,更大的云計算將在那里等待處理。