精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據方案 → 正文

深度解讀大數據并行計算方式

責任編輯:editor004 |來源:企業網D1Net  2013-10-15 10:03:03 本文摘自:it168網站

對于大數據,串行的處理方式難以滿足人們的要求,現在主要采用并行計算方式。現有的并行計算可以分為兩種:

·細粒度的并行計算。這里細粒度主要是指指令或進程級別,由于GPU比CPU擁有更強的并行處理能力,人們將一些任務交給GPU并行處理,一些GPU制造商也推出了方便程序員使用的編程模型,如NVIDIA推出的CUDA等。

·粗粒度的并行計算。這里粗粒度指的是任務級別,人們將工作分布到不同機器中執行,最近流行的網格計算、分布式計算都屬于粗粒度級別。

由于現有GPU編程模型還未完善,開發人員需要考慮大量的并行細節且任務較重,因此未得到流行。而一些新推出的分布式編程模型以其簡單、方便等特點受到開發人員的歡迎并變得炙手可熱,這里我們主要討論粗粒度的并行計算。

由于大數據都分布在集群中,因此對數據的處理和分析需要在集群中進行,但是在多臺機器上對分布式數據進行分析會產生巨大的性能開銷,即使采用千兆比特或萬兆比特帶寬的網絡,隨機讀取速度和連續讀取速度都會比內存慢幾個數量級。但是,現在高速局域網技術使得網絡讀取速度比硬盤讀取要快很多。因此,將數據存儲在其他節點上比存儲在硬盤上的性能要好,而且還可以在多個節點上并行處理數據集。

對大數據分布處理會帶來一些問題,首先就是節點間通信對并行處理的代價,一些操作如搜索、計數、部分聚集、聯合等可以在每個節點上獨立執行。單個節點處理后的結果需要合并,因此節點間的通信是不可避免的,但是并不是所有的聚集操作都能分散成可以獨立操作的子操作,如求得所有數據的中位數。不過,大部分重要的操作都有分布式算法來減少節點間的通信。

節點間負載不平衡也是出現的主要問題。理想情況下,每個節點的計算量是相同的,否則工作量最大的節點將決定整個任務的完成時間,這個時間往往比負載平衡情況下的時間要長。最壞的情況下,所有的工作都集中在某個機器上,無法體現出并行的優勢。數據在節點間如何分布對負載平衡產生影響,例如,一個包含1000個傳感器10年內的觀測值的數據集,傳感器每15秒收集一次數據,這樣一個傳感器10年內將產生兩千多萬個觀測值。我們將數據根據傳感器并按時間順序分布到10個節點上,每個節點包含100個傳感器的觀測值,如果對某個傳感器收集的數據進行操作,那么大部分節點將處于閑置狀態。如果先按時間順序對數據進行分布,那么根據時間的操作也會造成負載不平衡。

分布式系統的另一個問題就是可靠性。就像擁有四個引擎的飛機比擁有兩個引擎的飛機更容易出現引擎故障一樣,一個擁有10個節點的集群很容易出現節點故障。這可以通過在節點間復制數據來解決,對數據進行復制,既可以提高數據分析的效率,也可以通過冗余來應對節點故障。當然,數據集越大,對數據副本的管理和維護也越困難。

目前對大數據處理和分析的應用更多的是集中在數據倉庫技術、預測分析、實時分析、商業智能、數據統計等方面。這些需求對企業有巨大的幫助。

將PB級的數據存儲起來并不是一件困難的事情,但是如何進行高效的存儲并不簡單。首先要考慮的是,如何組織數據的結構使其能夠更多地支持上層的軟件,而不需要對數據進行轉儲和重新組織。當數據需要發生轉換的時候避免因轉儲、抽取、整合等而帶來的延遲。

有效的預測分析技術,尤其是實時分析對企業的決策有很大的幫助。例如,超市可以根據龐大的用戶歷史消費記錄來預測某一用戶下次購買商品的傾向,從而在結賬的時候可以專門針對某一用戶打印其關心的優惠券。足球隊管理層可以根據用戶的購票記錄為其推薦更人性化的月票、季票等套票。

目前,像SAS、SPSS等傳統數據分析軟件因其數據處理能力受限于單機的計算能力,對大數據的處理顯得力不從心。IBM Netezza等新興的數據分析軟件往往需要支付昂貴的許可費用,因此Hadoop,MapReduce,R等開源的大數據分析工具受到越來越多的關注和青睞。

相比于商業軟件,開源軟件完全免費且不需要支付昂貴的許可費用,另外在其背后還擁有龐大的開源團隊的支持。但是能否完全跟得上市場的需求和發展速度是關鍵性的問題,畢竟這些軟件不像商業軟件那樣有巨大的利益驅動推動它們的發展。

關鍵字:CUDA歷史消費NoSQL大數據

本文摘自:it168網站

x 深度解讀大數據并行計算方式 掃一掃
分享本文到朋友圈
當前位置:大數據方案 → 正文

深度解讀大數據并行計算方式

責任編輯:editor004 |來源:企業網D1Net  2013-10-15 10:03:03 本文摘自:it168網站

對于大數據,串行的處理方式難以滿足人們的要求,現在主要采用并行計算方式。現有的并行計算可以分為兩種:

·細粒度的并行計算。這里細粒度主要是指指令或進程級別,由于GPU比CPU擁有更強的并行處理能力,人們將一些任務交給GPU并行處理,一些GPU制造商也推出了方便程序員使用的編程模型,如NVIDIA推出的CUDA等。

·粗粒度的并行計算。這里粗粒度指的是任務級別,人們將工作分布到不同機器中執行,最近流行的網格計算、分布式計算都屬于粗粒度級別。

由于現有GPU編程模型還未完善,開發人員需要考慮大量的并行細節且任務較重,因此未得到流行。而一些新推出的分布式編程模型以其簡單、方便等特點受到開發人員的歡迎并變得炙手可熱,這里我們主要討論粗粒度的并行計算。

由于大數據都分布在集群中,因此對數據的處理和分析需要在集群中進行,但是在多臺機器上對分布式數據進行分析會產生巨大的性能開銷,即使采用千兆比特或萬兆比特帶寬的網絡,隨機讀取速度和連續讀取速度都會比內存慢幾個數量級。但是,現在高速局域網技術使得網絡讀取速度比硬盤讀取要快很多。因此,將數據存儲在其他節點上比存儲在硬盤上的性能要好,而且還可以在多個節點上并行處理數據集。

對大數據分布處理會帶來一些問題,首先就是節點間通信對并行處理的代價,一些操作如搜索、計數、部分聚集、聯合等可以在每個節點上獨立執行。單個節點處理后的結果需要合并,因此節點間的通信是不可避免的,但是并不是所有的聚集操作都能分散成可以獨立操作的子操作,如求得所有數據的中位數。不過,大部分重要的操作都有分布式算法來減少節點間的通信。

節點間負載不平衡也是出現的主要問題。理想情況下,每個節點的計算量是相同的,否則工作量最大的節點將決定整個任務的完成時間,這個時間往往比負載平衡情況下的時間要長。最壞的情況下,所有的工作都集中在某個機器上,無法體現出并行的優勢。數據在節點間如何分布對負載平衡產生影響,例如,一個包含1000個傳感器10年內的觀測值的數據集,傳感器每15秒收集一次數據,這樣一個傳感器10年內將產生兩千多萬個觀測值。我們將數據根據傳感器并按時間順序分布到10個節點上,每個節點包含100個傳感器的觀測值,如果對某個傳感器收集的數據進行操作,那么大部分節點將處于閑置狀態。如果先按時間順序對數據進行分布,那么根據時間的操作也會造成負載不平衡。

分布式系統的另一個問題就是可靠性。就像擁有四個引擎的飛機比擁有兩個引擎的飛機更容易出現引擎故障一樣,一個擁有10個節點的集群很容易出現節點故障。這可以通過在節點間復制數據來解決,對數據進行復制,既可以提高數據分析的效率,也可以通過冗余來應對節點故障。當然,數據集越大,對數據副本的管理和維護也越困難。

目前對大數據處理和分析的應用更多的是集中在數據倉庫技術、預測分析、實時分析、商業智能、數據統計等方面。這些需求對企業有巨大的幫助。

將PB級的數據存儲起來并不是一件困難的事情,但是如何進行高效的存儲并不簡單。首先要考慮的是,如何組織數據的結構使其能夠更多地支持上層的軟件,而不需要對數據進行轉儲和重新組織。當數據需要發生轉換的時候避免因轉儲、抽取、整合等而帶來的延遲。

有效的預測分析技術,尤其是實時分析對企業的決策有很大的幫助。例如,超市可以根據龐大的用戶歷史消費記錄來預測某一用戶下次購買商品的傾向,從而在結賬的時候可以專門針對某一用戶打印其關心的優惠券。足球隊管理層可以根據用戶的購票記錄為其推薦更人性化的月票、季票等套票。

目前,像SAS、SPSS等傳統數據分析軟件因其數據處理能力受限于單機的計算能力,對大數據的處理顯得力不從心。IBM Netezza等新興的數據分析軟件往往需要支付昂貴的許可費用,因此Hadoop,MapReduce,R等開源的大數據分析工具受到越來越多的關注和青睞。

相比于商業軟件,開源軟件完全免費且不需要支付昂貴的許可費用,另外在其背后還擁有龐大的開源團隊的支持。但是能否完全跟得上市場的需求和發展速度是關鍵性的問題,畢竟這些軟件不像商業軟件那樣有巨大的利益驅動推動它們的發展。

關鍵字:CUDA歷史消費NoSQL大數據

本文摘自:it168網站

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 宕昌县| 西安市| 上犹县| 增城市| 广汉市| 渑池县| 普格县| 庐江县| 徐闻县| 东阳市| 蒙城县| 宝应县| 望都县| 汕尾市| 新闻| 肥乡县| 韶山市| 开鲁县| 兰西县| 云南省| 新绛县| 将乐县| 乐至县| 边坝县| 南投县| 宝应县| 临朐县| 康保县| 岳阳县| 安西县| 恭城| 宽甸| 旬邑县| 美姑县| 毕节市| 滕州市| 商洛市| 绥滨县| 临沭县| 从化市| 绥阳县|