本文將介紹大數據分析的主要步驟和面臨的挑戰。大數據分析包括以下步驟:
數據采集——從各種常規和非常規來源收集非結構化和結構化數據,包括機器傳感器。
數據存儲——將數據存儲到穩定、分布式和可擴展的存儲中,它們位于有復制副本的消費類硬件中。
描述性分析——匯總數據并開發數據可視化。
預測分析——使用可用數據通過監督學習算法開發模型。
規范性分析——開發利用預測結果的場景。
我們仍然沒有涉及到幫助我們優化大數據分析步驟的挑戰。我將介紹探尋大數據真實價值過程中會遇到的一些挑戰。下面是一些問題及解決方法。
缺少數據源或隱藏數據源的標識:有可能數據采集步驟中沒有隱藏的數據源。大數據并不限制數據源的數量,并且鼓勵從所有可用數據源采集所有的數據。一個經驗法則是采集所有用于解決大數據問題的數據。在這種情況下,我們需要保證采集所有數據的方法有足夠的安全性。可以有多個團隊參與數據采集。
數據安全性、缺少統一數據服務層和統一數據建模可能導致數據存儲步驟產生數據孤島。我們可以使用統一數據模型來定義業務實體、統一服務層和采用身份驗證與授權形式的安全實現,以此來解決這個問題。有一個新概念叫數據湖(DataLake),它需要將數據存儲為生產者和消費者之間預先協定的模式。
傳統上,分析一直與較小規模數據集相關聯,并且在OLAP模式中執行。除非我們能夠說服干系人接受大數據的分析優勢——實時分析與較大規模數據集并行處理能力,否則我們很難替代現有的分析/BI工具,也很難改進這些工具。一些算法也已經移植到大數據軟件包,這是一個令人興奮的消息。大數據技術將能夠利用現有的分析平臺——R語言、Python、SAS,并且能夠提供統一的分析平臺。此外,大數據人才也具備了分析技能,有能力執行描述性、預言性和規范性分析。
小結
大數據分析現在更多致力于精確定義數據、統一處理和開發數據驅動的智能產品。