大數據的部署實施需要結合具體的應用場景。實際上,企業大數據的存儲處理可以用 “三只小豬蓋房子”(分別使用稻草、木頭和磚頭)的故事來說明,這個故事能更形象地反映數據存儲環境下與交付服務(成本)相對應的不同保護級別(完整性和可靠性)。
財務數據、對外報告和法規遵從性數據需在“磚房”(BRICKS)環境中存儲處理。這些數據需要可靠的硬件基礎設施,并與其原始來源保持一致。企業中多個職能部門使用產品服務定價決策、銷售業績及分析以及至關重要的員工/管理層薪酬激勵機制計算等財務數據,這是很常見的情況。
精心設計的“木房”(STICK)環境可確保存儲數據牢固耐用。該環境專用于應用程序,而并非針對企業級使用和跨職能部門數據共享而設計。該數據類型可專門用于數據轉換,通常包括大量營銷數據集市。僅數據轉換、協調及沿襲等必要功能即可滿足特定商業用途。與上述“磚房”相比,“木房”從本質上講,成本更低,速度更快。
最后介紹“草房”(HAY)。“草房”實際上是指在需要使用數據的特定日期對數據進行轉換、分組及匯總。其中,數據可能以原始來源的數據格式存在,幾乎不需要任何數據結構。用戶可任意調整數據格式。雖然 “草房”設計無法輕易復制或縱向擴展,卻適用于應對非特定、非重復性商業問題。該方案對數據協調及復制的需求低。
使用“三只小豬”的類比相當直觀,但具體解決方案應參考數據管控(Data Governance)方針。如能應對自如,業務部門希望快速獲得低成本解決方案;而IT部門則需要依托可靠的解決方案,提供健全、可靠的服務。這也是業務及IT部門大多數討論中的固有矛盾。
由于部署迅速、成本低且失敗的代價低,“草房”解決方案備受關注。在新的經濟機制下,特別是在自助式環境下用戶對數據(包括大數據)價值的認可,是數據實驗室和探索環境快速發展的原因。因此,業務部門選擇快速、低成本的解決方案也不足為奇。
但將“草房”方案升級為“木房”或“磚房”環境時,IT部門的成本令人非常震驚。“為什么他們不能使用我們兩周內設計的解決方案?”他們可以。但在“草房”的基礎上部署“磚房”甚至是“木房”方案都行不通。利用“草房”的設計方案部署“木房”及“磚房”方案,將浪費IT部門大量預算。
其主要挑戰是識別數據重要性的數據管控策略和過程。在“草房”環境中設計出的“創意”方案需遷移至更穩定的環境時,參與數據管理方式(草房、木房還是磚房)決策的相關負責人需要全面了解下游數據的重要性。