《企業網D1Net》2月8日訊(上海)對于每一家負責提供客戶情況、潛在預期和市場動態等商業信息的IT公司,大數據是一種快捷、方便和有效的方式。
Facebook、Twitter、視頻以及增長的信息傳送,讓我們有了一個堅實的基礎,可以快速得出結果,并微調市場預測。企業已經達到每天自動產生TB級數據的地步,必須對數據進行收集、存儲和分析。
伴隨著開源Apache Hadoop的采用,數據管理軟件廠商已發生巨變。現在,基于Hadoop的基礎設施的前景日趨明朗,它可以關聯結構化和非結構化數據,擴展成本低廉,并能以此獲得快速的市場洞察力。 Hadoop和其生態系統在彈性、安全性和易用性上會為企業提供新的能力嗎?
現今CIO在利用大量和多樣化的數據時,需要考慮的關鍵技術因素包括:
1、與其他數據庫和數據管理環境共存。包括標準的關系環境(甲骨文)和分析數據倉庫(Teradata)。警告:數據移動和整合是必要的,但它增加了對各種提取、轉換和加載(ETL)工具的支出,也增加了運營成本。
2、存儲和硬件。創新的壓縮和重復數據刪除技術是解決大數據問題的關鍵。目前在這方面已有很大的進步,我們現在看到的多層次壓縮在容量方面比原始數據減少40倍。然而,重要的是考慮已壓縮的數據中有多少最終需要再次膨脹,這將影響你的容量。例如,如果再次膨脹時需要增加30%的容量,那可能不值得把壓縮擺在首位。
3、查詢和分析。并不是所有的數據都是同等的,查詢和業務分析的范圍變化很大,這取決于使用情況。有合適的工作工具是必須的。在許多情況下,快速反應的SQL查詢將足以生成所需要的信息。在其他情況下,深層的分析查詢需要一個具有完整的操作界面和可視化功能的商業智能工具。正確部署專有技術和開源Hadoop,將幫助您的組織實現具有規模的快速分析,同時防止運營成本不斷攀升。
4、規模和管理能力。由于企業面對不同的數據庫和分析環境,因此向外和向上的擴展能力是非常重要的。簡單的向外擴展能力是Hadoop為什么會被企業迅速采用的原因。通過低成本的服務器集群進行大規模并行處理是關鍵,比其他的數據管理方式需要更少的專業技能,而這直接影響您對IT資源的投資。(Vivian 編譯)