大數據技術,從本質上講是從類型各異、內容龐大的數據中快速獲得有價值信息的技術。目前,隨著大數據領域被廣泛關注,大量新的技術已經開始涌現出來,而這些技術將成為大數據采集、存儲、分析、表現的重要工具。
大數據處理的關鍵技術主要包括:數據采集、數據預處理(數據清理、數據集成、數據變換等)、大數據存儲、數據分析和挖掘、數據的呈現與應用(數據可視化、數據安全與隱私等)。
該圖展示了如何將大量的數據經過一系列的加工和處理,最終以有價值的信息形式到達用戶的手中。在數據分析中,云技術與傳統方法之間進行聯合,使得一些傳統的數據分析方法能夠成功地運用到大數據的范疇中來。
一、數據的采集技術
數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或傳感器形式等)的各種類型的結構化、半結構化的數據,并允許用戶通過這些數據來進行簡單的查詢和處理工作。
二、數據集成與處理技術
數據的集成就是將各個分散的數據庫采集來的數據集成到一個集中的大型分布式數據庫,或者分布式存儲集群中,以便對數據進行集中的處理。
該階段的挑戰主要是集成的數據量大,每秒的集成數據量一般會達到百兆,甚至千兆。
三、大數據存儲及管理技術
數據的海量化和快增長特征是大數據對存儲技術提出的首要挑戰。為適應大數據環境下爆發式增長的數據量,大數據采用由成千上萬臺廉價PC來存儲數據方案,以降低成本,同時提供高擴展性。
考慮到系統由大量廉價易損的硬件組成,為了保證文件整體可靠性,大數據通常對同一份數據在不同節點上存儲多份副本,同時,為了保障海量數據的讀寫能力,大數據借助分布式存儲架構提供高吐量的數據訪問。
目前,Google的GFS(Google File System)和Hadoop HDFS(Hadoop Distributed File System是較為有名的大數據文件存儲技術。HDFS是GFS的開源實現,它們均采用分布式存儲的方式存儲數據(將文件塊復制在幾個不同的節儲節點上)。在實現原理上,它們均采用主從控制模式(主節點存儲元數據、接收應用請求并且根據請求類型進行應答,從節點則負責存儲數據)。
大數據的數據管理技術的典型代表是Google 的 Big Table 和Hadoop的HBase。Big Table 基于GFS,HBase基于HDFS。作為NoSQL(Not only SQL)數據庫,它們為應用提供數據結構化存儲功能和類似數據庫的簡單數據查詢功能,并為MapReduce 等并行處理方式提供數據源或數據結果的存儲。
四、大數據的分析與挖掘
數據分析與挖掘是大數據處理流程中最為關鍵的步驟。
在人類全部數字化數據中,僅有非常小的一部分(約占數據量的1%)數值型數據得到了深入分析和挖掘(如:回歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如:排序)。占總量近60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。
大數據分析技術的發展需要取得兩個方面的突破:
一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識(如:從自然語言構成的文本網頁中理解和識別語義、情感、意圖等);
二是對非結構化數據進行分析,將海量數據復雜多源的語音、圖像和視頻數據轉化為機器可識別的,具有明確語義的信息,進而從中提取有用的知識。