我是一名從事大數據項目的IT系統分析師。在深入這個項目前需要了解些什么呢?
學習大數據的最佳方法就是先從了解信息系統是如何工作著手,尤其是數據庫和基礎設施。同樣在開始前還需要了解大數據工具,如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop與Mesos。
系統分析師需要明白如何組織、管理和保護數據。在市面上有幾十款數據管理產品可以用于管理數據。你的大數據數據庫可能包含了各種來源的結構化數據和非結構化 數據——數據倉庫、Hadoop、NoSQL、內存數據、文件以及應用程序——所以你必須學會組織數據,以便系統有效的處理他們。確保你的主數據一致性, 以避免出現多個版本的數據——多個不同步的數據庫。
數據保護同樣重要;要熟悉組織的數據安全處理過程,同樣還需要了解安全、合規性以及治理流程。根據數據敏感程度的不同、考慮屏蔽、編校或加密保護。
大數據源的定義
數據倉庫HadoopNoSQL內存數據文件數據應用程序數據
在接觸這個項目之前的最后一步,考察客戶對服務質量的要求。他們需要分析多大的數據,以及這些數據的響應速度。例如,對于大型數據庫,近乎實時響應的需求會 需要將其放置在內存或者閃存緩存中。IBM的BLU Accelerator 和SAP HANA都十分適合在內存中快速讀取的應用場景。此外,理解你用戶的預期結果——他們正試圖得到的答案。如果你知道他們需要的結果,就可以組織數據與系 統,以更有效的達到目標。