大數據趨勢代表了不斷變化的處理大量數據的需求,需要新的技術解決方案,而不一定是老一代的數據庫處理方式。那么,企業開始與大數據打交道時需要考慮哪些因素呢?
首先,他們需要知道什么是大數據。如下是我如何定義大數據這一概念:
“新興技術和實踐方案,使收集、處理、發現和儲存大量結構化和非結構化數據變得快速而富有成本效益。”
大數據涵蓋了眾多社會生活的范疇——從金融交易到人類基因組,從汽車的遙測傳感器到互聯網上社會媒體日志。利用傳統的數據庫方式來處理和存儲這些大數據是相當昂貴的。為了解決這個問題的新技術,利用開放源解決方案和商業硬件高效存儲數據,并行工作負載,提供快速處理能力。
隨著越來越多的IT部門開始研究大數據的替代品,討論中心棧,處理速度和平臺。而這些IT部門無法很好的把握其現有技術的局限性,許多不能闡明這些替代方案的商業價值,更遑論他們將如何進行分類和優先級的數據排序,進入大數據治理。
事實上,我們所看到的新出現的大數據需求,以及關于其處理平臺和流程的討論只是大數據傳輸整體的一部分。在現實中,實現的全部潛在大數據的交付過程,需要七個步驟:
收集:從數據源和分布在多個節點處收集數據——通常是一個網格——每個進程的一個子集,并行數據。
流程:然后系統使用相同的高功率并行執行,對每個節點上的數據進行快速計算。節點“壓縮”結果數據到更多的消費數據,由此產生的數據集可以被人工(在分析的情況下)或機器(在解釋大型結果的情況下)使用。
管理:正在處理大數據往往是異構的,來自不同的交易系統。這些數據通常需要理解、定義、注釋,并且以安全起見,還要進行掃描和審核。
測量:公司往往會測量數據的速率,可與其他客戶的行為或記錄進行整合,并隨時間的推移來決定是否對其進行整合或校正。業務要求應告知測量和持續跟蹤的類型。
消耗:所產生的使用數據應符合原要求的處理流程。例如,如果利用幾百TB的社會化媒體數據互動,有助于我們了解社會媒體數據如何驅動用戶額外購買產品,那么我們應該建立社會媒體的數據應當如何被訪問和更新的規則。這與機器對機器的數據訪問是同樣重要的。
存儲:由于“數據即服務”趨勢的形成,越來越多的數據開始存儲在單一位置,以便于進程的訪問。數據用于短期的存儲批處理或長期保留,應審慎處理存儲解決方案。
數據管理:數據治理是驅動業務的決策和監督數據。根據數據治理的定義,數據治理適用于六個前階段的大數據傳輸。通過建立流程和指導原則,制裁圍繞數據的行為。大數據需要根據其預期消費進行管轄。其他的風險是對于數據分配的不滿,更不用說過度投資。
大多數工作人員負責調查和獲取大數據解決方案側重于收集和存儲步驟,而犧牲了其他的步驟。他們的問題是:“我們如何收集所有這些數據,我們把這些數據存儲在何處?”
但許多IT部門仍然逃避了定義離散的大數據業務需求的進程。而業務人士經常將大數據的趨勢看成只是一個IT重新整修的借口,沒有明確的終點的游戲。這種相互嘲諷的環境就是為什么大數據沒有超越“前期調查階段”的罪魁禍首。
正如“ITBusinessEdge”一書的作者洛林勞森在其最近的博客中所說,“確保您的分享是合理性的唯一途徑是要保證你有一套有效的管理大數據的計劃。”
挖掘數據治理進程,盡最大的努力確保數據:
商業價值和理想的結果是明確的
處理關鍵數據的相關政策已經被批準
專業知識應用到大數據問題
定義關鍵數據的規則是明確的
沖突和問題升級有一個過程
數據管理——執行數據治理政策的戰術是相關的
在關鍵問題發展階段有決策權的
執行數據隱私政策
總之,數據治理意味著大數據的應用程序是有用的和相關的。這一保險政策是一個正確的問題。確保我們不會浪費新的大數據,使得處理、存儲和交付速度更具成本效益,比以往的技術更靈活。