隨著互聯網+時代的來臨,互聯網已經從InformationTechnology (IT)時代過度到Data Technology (DT)時代,數據量也以幾何量級遞增,數據整體呈現出5V特征,大體量(Volume)、多樣性(Variety)、時效性(Velocity)、準確性(Veracity),大價值(Value)。大體量體現為數據量可以從TB到PB,甚至到EB規模,google資料顯示,其每天搜索提供的數量達到 30PB(1P=1024TB), 這些數據如果打印出來將超過5千萬億張A4紙,但是資料同時也顯示,人類到目前為止,生產的所有印刷材料的數據量僅為20PB。多樣性體現在,數據的形式也從結構化的文本數據形式存在,更多的是圖片,視頻,音頻、地理位置這樣的非結構化的數據。時效性體現在,越來越的多的實時計算需求,計算結果需要在秒級,毫秒級,甚至微秒級內完成。準確性體現在,高效快速的結果結果并需是真實有效的。數據包含著無限的價值,利用大數據分析和挖掘技術將帶來巨大的商業和非商業價值。
數據在企業中已經發揮著越來越重要的角色,但是如何挖掘數據中的價值正在困擾著大多數中小型企業。投投有道帶你揭開大數據處理神秘面紗,了解大數據處理過程常用的技術和工具。
大數據整體系統架構一般分為數據采集,數據存儲,數據加工,數據分析挖掘,數據呈現5大部分,如下圖所示:
下面對各個部分做個簡單的介紹和說明:
數據采集
數據即可來源線上產生的源源不斷日志用戶行為日志,比如用戶搜索了什么,瀏覽了什么,評論了什么,買了什么,點擊了什么廣告,看了什么視頻,聽了什么音樂等等,又可來源企業用戶屬性數據,也可來源于ERP管理系統,通過數據通道和ETL工具將這些源源不斷產生的數據入庫落地。
數據存儲
依托于分布式Hadoop存儲方案,企業可以解決海量數據存儲問題。Hadoop是一個能夠對大量數據進行分布式存儲和計算軟件框架,由Apache基金會開發,用戶可以在上面開發和處理海量數據,體現為以下幾個特點:
高擴展性,集群資源可以快速的部署和上線,同時可以組合上千臺服務器完成分布式存儲;
高效性,通過數據分發,能夠在節點之間動態地移動數據,同時保證各個節點負載;
高容錯性,能夠自動維護數據的多個備份,并且能夠在失敗之后自動從其他節點恢復數據。
數據加工
集中存儲的海量數據進行工具化的清洗和整理加工,形成需要的各種中間或臨時計算數據,同時開發海量數據的實時秒級計算,為線上的數據挖掘和分析提供api服務。
數據挖掘
該過程的特點和挑戰主要是用于挖掘的算法很復雜,算法工程師通過不斷的建模和優化,在沒有預設主題的情況下,對數據基于各種算法對數據進行分類、聚合,從而實現機器自動化學習。典型算法有Kmeans、SVM,NaiveBayes,回歸分析,因子分析,多元優化等。,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
數據可視化
數據可視化可以幫助用戶理解和使用數據,分析得到各種指標數據結果,如目標用戶和實際到訪用戶的重合度,到訪用戶的實際標簽屬性特征等。
以上各個模塊是任何一個中小企業在大數據處理過程中都需要密切關注的。
-----------------------------------------------------------------------------------
投投有道是一款基于用戶行為大數據分析,為廣告主提供最優投放方案的數據服務產品。我們提供精準的媒體選擇,合理的廣告競價,實時投放效果追蹤,針對搜索廣告我們提供深度細化分析關鍵詞投入產出比,全網匹配最佳投放關鍵詞,更具用戶行為自動化優化關鍵詞和競價,輕松倍化ROI。基于自建和第三方合作DMP,立體化 360度刻畫用戶屬性,為廣告主提供受眾群體分析,基于歷史數據,建立數據分析模型,確定每個用戶LTV(用戶終身價值),高效準確預測最后收入。