Informatica中國區首席產品顧問但彬認為:"大數據"包含了"海量數據"的含義,而且在內容上超越了海量數據,簡而言之,"大數據"是"海量數據"+復雜類型的數據。
但彬進一步指出:大數據包括交易和交互數據集在內的所有數據集,其規模或復雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些數據集的能力。
Informatica中國區首席產品顧問但彬
大數據是由三項主要技術趨勢匯聚組成:
海量交易數據:在從 ERP應用程序到數據倉庫應用程序的在線交易處理(OLTP)與分析系統中,傳統的關系數據以及非結構化和半結構化信息仍在繼續增長。隨著企業將更多的數據和業務流程移向公共和私有云,這一局面變得更加復雜。
海量交互數據:這一新生力量由源于 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成。它包括了呼叫詳細記錄(CDR)、設備和傳感器信息、GPS 和地理定位映射數據、通過管理文件傳輸(Manage File Transfer)協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。
海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構,例如具有開放源碼、在商品硬件群中運行的 Apache Hadoop。對于企業來說,難題在于以具備成本效益的方式快速可靠地從 Hadoop 中存取數據。