亚洲综合成人在线,国产精品系列在线观看,91精品国产免费久久久久久青草

實時計算流數據處理系統簡單分析

責任編輯：editor004

2014-06-13 10:58:22

摘自：CSDN

實時計算一般都是針對海量數據進行的，一般要求為秒級。2）顯示某個到訪顧客的所有歷史來訪記錄，同時實時跟蹤顯示某個訪客在一個店鋪正在訪問的頁面等信息；3）支持根據訪客地理位置、訪問頁面、訪問時間等多種維度下的實時查詢與分析。

一．實時計算的概念

實時計算一般都是針對海量數據進行的，一般要求為秒級。實時計算主要分為兩塊:數據的實時入庫、數據的實時計算。

主要應用的場景：

1) 數據源是實時的不間斷的，要求用戶的響應時間也是實時的（比如對于大型網站的流式數據：網站的訪問PV/UV、用戶訪問了什么內容、搜索了什么內容等，實時的數據計算和分析可以動態實時地刷新用戶訪問數據，展示網站實時流量的變化情況，分析每天各小時的流量和用戶分布情況）

2) 數據量大且無法或沒必要預算，但要求對用戶的響應時間是實時的。比如說：

昨天來自每個省份不同性別的訪問量分布，昨天來自每個省份不同性別不同年齡不同職業不同名族的訪問量分布。

二．實時計算的相關技術

主要分為三個階段（大多是日志流）:

數據的產生與收集階段、傳輸與分析處理階段、存儲對對外提供服務階段

　　下面具體針對上面三個階段詳細介紹下

1）數據實時采集：

需求：功能上保證可以完整的收集到所有日志數據，為實時應用提供實時數據；響應時間上要保證實時性、低延遲在1秒左右；配置簡單，部署容易；系統穩定可靠等。

目前的產品：Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume，淘寶開源的TimeTunnel、Hadoop的Chukwa等，均可以滿足每秒數百MB的日志數據采集和傳輸需求。他們都是開源項目。

2）數據實時計算

在流數據不斷變化的運動過程中實時地進行分析，捕捉到可能對用戶有用的信息，并把結果發送出去。

　　實時計算目前的主流產品：

Yahoo的S4：S4是一個通用的、分布式的、可擴展的、分區容錯的、可插拔的流式系統，Yahoo開發S4系統，主要是為了解決：搜索廣告的展現、處理用戶的點擊反饋。Twitter的Storm：是一個分布式的、容錯的實時計算系統?？捎糜谔幚硐⒑透聰祿欤魈幚恚?，在數據流上進行持續查詢，并以流的形式返回結果到客戶端（持續計算），并行化一個類似實時查詢的熱點查詢（分布式的RPC）。Facebook 的Puma：Facebook使用puma和HBase相結合來處理實時數據，另外Facebook發表一篇利用HBase/Hadoop進行實時數據處理的論文（ApacheHadoop Goes Realtime at Facebook），通過一些實時性改造，讓批處理計算平臺也具備實時計算的能力。

關于這三個產品的具體介紹架構分析：http://www.kuqin.com/system-analysis/20120111/317322.html

　　下面是S4和Storm的詳細對比

　　其他的產品：

早期的：IBM的Stream Base、 Borealis、Hstreaming、Esper

4. 淘寶的實時計算、流式處理

1) 銀河流數據處理平臺：通用的流數據實時計算系統，以實時數據產出的低延遲、高吞吐和復用性為初衷和目標，采用actor模型構建分布式流數據計算框架（底層基于akka），功能易擴展、部分容錯、數據和狀態可監控。銀河具有處理實時流數據（如TimeTunnel收集的實時數據）和靜態數據（如本地文件、HDFS文件）的能力，能夠提供靈活的實時數據輸出，并提供自定義的數據輸出接口以便擴展實時計算能力。銀河目前主要是為魔方提供實時的交易、瀏覽和搜索日志等數據的實時計算和分析。

2) 基于Storm的流式處理，統計計算、持續計算、實時消息處理。

在淘寶，Storm被廣泛用來進行實時日志處理，出現在實時統計、實時風控、實時推薦等場景中。一般來說，我們從類kafka的metaQ或者基于HBase的timetunnel中讀取實時日志消息，經過一系列處理，最終將處理結果寫入到一個分布式存儲中，提供給應用程序訪問。我們每天的實時消息量從幾百萬到幾十億不等，數據總量達到TB級。對于我們來說，Storm往往會配合分布式存儲服務一起使用。在我們正在進行的個性化搜索實時分析項目中，就使用了timetunnel +HBase + Storm + UPS的架構，每天處理幾十億的用戶日志信息，從用戶行為發生到完成分析延遲在秒級。

3) 利用Habase實現的Online應用

4）實時查詢服務

半內存：使用Redis、Memcache、MongoDB、BerkeleyDB等內存數據庫提供數據實時查詢服務，由這些系統進行持久化操作。全磁盤：使用HBase等以分布式文件系統（HDFS）為基礎的NoSQL數據庫，對于key-value引擎，關鍵是設計好key的分布。全內存：直接提供數據讀取服務，定期dump到磁盤或數據庫進行持久化。

關于實時計算流數據分析應用舉例：

對于電子商務網站上的店鋪：

1）實時展示一個店鋪的到訪顧客流水信息，包括訪問時間、訪客姓名、訪客地理位置、訪客IP、訪客正在訪問的頁面等信息；

2）顯示某個到訪顧客的所有歷史來訪記錄，同時實時跟蹤顯示某個訪客在一個店鋪正在訪問的頁面等信息；

3）支持根據訪客地理位置、訪問頁面、訪問時間等多種維度下的實時查詢與分析。

　　下面對Storm詳細介紹下：

整體架構圖

整個數據處理流程包括四部分：

第一部分是數據接入該部分從前端業務系統獲取數據。

第二部分是最重要的Storm 實時處理部分，數據從接入層接入，經過實時處理后傳入數據落地層；

第三部分為數據落地層，該部分指定了數據的落地方式；

第四部分元數據管理器。

數據接入層

該部分有多種數據收集方式，包括使用消息隊列（MetaQ），直接通過網絡Socket傳輸數據，前端業務系統專有數據采集API，對Log問價定時監控。(注：有時候我們的數據源是已經保存下來的log文件，那Spout就必須監控Log文件的變化，及時將變化部分的數據提取寫入Storm中，這很難做到完全實時性。)

Storm實時處理層

首先我們通過一個 Storm 和Hadoop的對比來了解Storm中的基本概念。