導語:現在,企業開始越來越關注大數據在企業中的應用,如何通過數據分析和數據挖掘讓數據產生價值和為企業制定決策提供依據,然而這些如何在一個安全的“沙箱”測試環境中對數據處理和查詢能力進行實驗,這對于企業IT部門和最終用戶至關重要。
隨著企業越來越關注大數據,能夠在一個安全的“沙箱”測試環境中對數據處理和查詢能力進行實驗,這對于企業IT部門與最終用戶來說都是非常重要的。然而,建立一個安全、合適的大數據沙箱測試環境,和創建一個針對交易型數據及報告的傳統測試環境是不同的。下文將列出由Transworld Data總裁Mary Shacklett總結的10個實施沙箱項目的注意事項。
1、數據集市還是主數據庫?
數據庫管理員需要從早期就做出決定,決定是讓測試沙箱使用直接來自生產用的主數據庫中的數據,亦或者最佳解決方案是將這些數據復制或者片段剝離到獨立的數據集市中,僅供測試使用。完整數據庫的好處是,可以測試用于生產中實際使用的數據,這樣測試結果更加精確。缺點是,可能會和生產本身產生數據沖突。有了數據集市的戰略,你不用冒著與生產數據發生沖突的風險,但是可能需要定期更新數據,以保持與生產數據的同步,更加接近于生產環境。
2、工作日程
日程安排是大數據沙箱活動最重要的一件事,這確保了所有沙箱操作都是在最佳狀態下運行的,可通過同時安排一組較小的任務和一個更大的任務同時運行來實現。對于IT來說,這個過程的關鍵是坐下來和各種使用沙箱的用戶進行交流,這樣每個人都對日程安排有一個前期的了解,并清楚其背后的原理以及他們的工作期待運行時間。
3、設置限制
如果幾個月的時間過去了卻沒有使用一個特定的數據集市或者沙箱,那么企業用戶及IT部門就應該制訂一個可接受的策略以凈化這些資源,這樣就能重新放到一個可以針對其他活動重新配置的資源池中。這個測試環境應該和生產環境一樣被有效管理起來,這樣資源只有正處于使用狀態的時候才會被調用。
4、使用純凈數據
大數據管道工作的一個前提,應該是準備好數據并凈化數據,這樣在應用數據集市解決方案時,才能確保數據具備用于測試的質量。在一個不完整、不準確、甚至是遭到破壞的測試環境中使用數據是一個壞習慣——因為數據在放到測試區域之前并不安全。要學會摒棄這些壞習慣。
5、監控資源
假設大數據資源都集中在數據中心內,IT部門應該設置資源權限并監控沙箱使用率。一個需要經常密切關注的問題是:隨著加入沙箱活動的終端用戶部門越來越多,會導致出現過量配置的問題。
6、注意項目重疊問題
在某些時候,成立一個跟蹤整個公司內各種正在進行中的沙箱項目的“監督委員會”是很有必要的,這樣可以確保不會出現重疊或者冗余的項目。
7、嘗試將計算資源交給IT部門集中管理
有些企業做大數據項目,先從特定的一些部門開始,然后馬上會發現他們對付不了大數據,接著又去做他們自己的日常功能工作,管理計算資源。最終,他們把設備搬到數據中心,讓IT部門自行管理。這讓他們把精力專注在業務上,這也是大數據可以帶來的價值。
8、組建大數據團隊
即使在沙箱的測試項目中,讓處理大數據的專業團隊來輔助完成任務也是很重要的。通常情況下,這個團隊應當由業務分析師、數據科學家以及一名具備軟硬件資源優化能力、能與數據庫專家協作的IT專家組成。
9、不要忘記業務價值目標
在將創新的想法融入進沙箱項目中時,不要完全忘記了最初的業務價值目標是什么。
10、明確大數據沙箱的定義
很多來自終端企業的參與者并不知道“沙箱”意味著什么。與早期的沙箱一樣,大數據沙箱的目的是自由發揮,做與大數據相關的實驗——但這是帶有一定的目的性的。這個有目的的項目應該遵守沙箱實驗的基本規則,例如什么時候、在哪兒以及如何使用沙箱,用實驗與測試給企業帶來有意義、有商業價值的結果。