大數據概述
一、大數據是什么?
大數據目前沒有一個嚴格的定義,但是我們可以舉出很多具體的例子!例如:互聯網上的網頁數據、社交網站上的用戶交互數據(如新浪微博)、物聯網中產生的活動數據(如智能家居)、電話網絡中的話單數據(如移動語音詳單)等等都是大數據的具體表現。
二、大數據的三個特征
1、數據量大小–大容量
我們現在常說大數據,到底有多大呢?先看一組公式:
1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB。
在淘寶上,每天新增的數據量大約有50TB,1年累計下來大約18PB。
與淘寶相對地,自人類開始記錄歷史以來,到現在為止全人類全部的印刷書本文字加起來大約50PB。
也就是說,僅淘寶3年的新增數據,就超過了全人類全部書本的數據量!
所以,大數據的第一個特征就是大容量!大到什么地步呢?遠超于以前人類文明史全部書本的總數據量!
而且,不僅僅是容量大,而且增長速度也是越來越快的!
2、數據類型–多類型
大數據并不僅僅強調數據量的大小,還關系到數據類型的變化!
數據類型簡單的可以分為結構化數據和非結構化數據。
在大數據出現的初期,數據基本都是以結構化的形式存儲在數據庫。
但是隨著大數據的蓬勃發展,目前已經超過80%的數據是以非結構的形式存在的!并且非結構化的數據增長速度遠遠超過結構化數據。
所以,大數據的高速發展讓數據從結構化形式快速地轉向了非結構化,非結構化數據已經是占統治地位的數據。
正是非結構化數據的迅速增長,促進了現代數據處理技術從算法到架構的全方位變革,也就是下面即將提到的MapReduce計算模式。
3、數據時效性–高時效
在傳統的數據分析或商業智能中,數據處理的工作重點更對地是放在對歷史數據的分析和挖掘。例如,客戶關系管理(BI),企業資源規劃(ERP),幾乎所有分析報表的產生都是以過去若干周或若干月的數據為基準產生,然后提交給企業管理者,以便他們做出決策。
但是在大數據時代,企業或組織必須具有實時分析所擁有的最新數據,并具備挖掘出有價值的信息的能力,才能產生對決策者有意義的分析結果。例如,搜索引擎如百度需要將幾分鐘前上線的新聞快速歸并到檢索索引中。因為,如果一個搜索引擎不能及時建立搜索結果,用戶必將流失到時效性更高的其他搜索引擎中。電子商務網站如京東必須在當天分析用戶的購買行為并預測第二天的貨物短缺狀況,如果不能達到這樣的處理速度,第二天的缺貨狀況必將引來不可估量的用戶流失和收入損失。地質管理機構必須在地震發生后的幾分鐘內發布海嘯或其他災害的預警,如果做不到及時發布,后果非常嚴重!
三、大數據的三大關鍵要素
1、存儲
1 提升系統容量
傳統地方式是通過提高硬盤性能,來滿足直連式存儲的需求。
但是這種方式根本不能滿足大數據的要求。大數據采用的是網絡接入存儲,也就是云存儲。現在常用的是HDFS架構存儲大數據。
2 提升系統吞吐量
對單個硬盤,提升吞吐量的主要方法是提高硬盤轉速、改進磁盤接口形式或增加讀寫緩存等。而提升數據存儲系統的整體吞吐量,比較典型的技術是早期的專用數據庫機體系。
數據庫機具體實現架構按特點可以分為三類:每磁道專用處理架構(PPT)、每磁頭專用處理器架構(PPH)、多處理器緩存架構(MPC)。
2、計算
1 多處理技術
提高計算節點的性能有兩個途徑,一方面是增加單處理器的計算能力;另一方面是增加處理器的數量。
2 并行計算
并行計算是指在具有并行處理能力的計算節點上,將一個計算任務分解成多個并行子任務,并分配給不同的處理器,各個處理器之間相互協同,并行執行子任務,從而達到加速計算速度或提升計算規模的目的。
3、容錯
1 數據存儲容錯
目前主要的數據存儲容錯技術包括以下3類。
(1)磁盤鏡像和磁盤雙工。(例如磁盤鏡像,操作系統備份還原)
磁盤鏡像是使用1個通道控制主盤和從盤(從盤就是鏡像盤),而磁盤雙工是使用兩個通道控制兩個磁盤。
(2)基于RAID的磁盤容錯
RAID就是冗余磁盤陣列,這個技術的基本原理就是采用多塊便宜的磁盤組合成一個容量巨大的磁盤陣列。RAID技術常見的等級有RAID0~RAID5這幾個等級。
(3)基于集群的數據容錯
集群容錯的基本思想是將一份數據在集群中的不同節點進行冗余存儲,確保部分節點的故障不會導致系統整體的正常運行。(例如百度云盤)
2 計算任務容錯
(1)失效節點檢測
心跳機制是目前在集群環境中進行失效節點檢測使用最為廣泛的技術,起基本思想是在網絡中各節點定期互相發送報文來通知對方自己的當前狀態。
(2)計算任務遷移
計算任務遷移就是將一個計算任務從當前節點移動其他指定節點。
(3)數據定位與獲取
在集群數據容錯機制中,會對數據在多個節點進行冗余備份,所以必須解決任務遷移時新的任務節點對計算任務所需的數據進行定位和獲取的問題。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/14138.html