而事實上,這兩者并非一回事。盡管通過訪問海量數據與新的數據類型,開發出更好的預測模型的能力會得到顯著增強。但是分析管理人員與其團隊需要更多考慮數據的構成,以及在大數據環境中如何管理這類基礎性問題。
首先,讓我們審視預測分析過程本身。在主流的預測分析過程中,會涉及到某些與業務應用相集成的統計分析與模式匹配,從而推動運營決策與操作。但是,預測模型的實時需要多項步驟,其中包括:
數據準備工作,清理、轉換與重組數據,使其符合預測分析或機器學習算法所需的格式。包括分析數據、尋找異常、確定應用和待修復的數據質量標準類型、設計適合分析的數據模型,并執行轉換,使數據集保持一致。
預測模型開發,包括創建試用數據集,選擇特定算法進行處理,從而測試某些分析模式。這一步需要有計劃地進行,將被分析的數據分為不同的子集,包括試用數據集和一份或多份測試數據集。
測試過程,即在各模型上運行測試數據集,對性能加以評估,從而確定哪種模型能夠得到最佳效果。
集成與實施,選中的模型被納入生產業務流程、實際上線、并產生真實的分析結果,以此采取行動。
調整所選的預測模型以確保其持續有效與準確,重復分析、不斷更新。
大數據帶來特定的挑戰
接下來,讓我們看看大數據環境中出名的3V數據——即容量,多樣性和速度——并思考在大數據環境,預測分析過程中必須解決的一些特定挑戰。
數據容量。除了那些顯而易見的,與管理與海量數據有關的考量因素,包括數據獲取、分段和防止延遲,你必須有精簡的流程,從而支持各不同階段的分析過程。例如,你需要能夠提取到可以使用不同算法快速分析的試用數據集,也需要能夠充分反映整體數據的那部分信息。
數據的多樣化。企業越來越多地得到各式各樣的數據輸入,從傳統的結構化數據到日益增長的非結構化數據類型。而且,隨著更多的非結構化數據流成為業務流程中不可或缺的組成部分,例如對推特信息流的持續監測可以識別客戶情緒,非結構化數據正成為預測模型必不可少的數據源。這意味著你必須擁有一套非常強大的流程,用于掃描、分析和處理非結構化數據,以將其轉化為可用作分析算法輸入的數據集。
數據的速度。處理大量不同數據所帶來的復雜性,與更快速的數據流輸入速度疊加。使得你不僅必須能夠處理輸入速度更快的數據源,而且需要應對這些數據源的結構或格式可能會發生的變化。更要命的是,這種變化通常難以預測,因此迫切需要做好數據分析與準備工作。
智慧的分析策略
設計大數據系統預測分析策略能夠應對上述挑戰,以便你可以成功管理或優化流程中的關鍵點。
例如,考慮如何將龐大的數據集合轉化為容量更為合理的試用數據塊。在某些情況下,最佳實踐是,不要隨機選擇試用數據集,而是通過過濾器來減少數據集合的大小,這樣或許會消除特例的那部分記錄。另外一些情況中,你的目標可能是增加大數據系統的計算資源,使分析算法有能力處理更大的訓練集——并且無需過濾任何記錄。
另一個例子是,解決數據在速度方面挑戰或許意味著擴大系統對數據流的吞吐能力,從而可以讓每個數據逐一進入預測模型;當然,你同樣可以降低模型的復雜度,以便更快速地加以執行。
當涉及到設計、工程量、復雜性和成本這些問題時,每一次選擇都意味著相應的取舍。一組更精確的預測模型可能需要更多的處理和存儲資源,但分析帶來的優勢或許會超越所增加的成本。又或者,你所在的企業組織也許可以從并不復雜的模型中,以較少的處理資源,獲得大數據應用中的預測分析能力。
預測分析必須與大數據處理相結合,從而為分析管理人員、甚至企業高層提供所期待的結果。要做到這一點,就必須弄清楚如何在預測分析帶來的收益與大數據所需的性能和管理之間做出平衡。