大數據龐大而又復雜。這不僅體現在信息的積累上,而且體現在其對經營策略的影響上。據IDC預測,2018年,全球業務分析開支將高達896億美元。成功利用大數據已成為眾多企業的關鍵要素,其中包括制定平臺戰略,無論它是“數據中心”,還是“數據平臺”亦或是“數據湖”。
很多還未實施大數據項目的企業正在評估他們2016年的數據戰略,其它公司則在審視它們現有的項目,探索利用分析改善經營和增加收入的新方法。事實上,大數據并不容易做到。據Gartner預測,直到2018年,由于技能和集成上的問題,70%的Hadoop系統可能將無法滿足成本節約和創收目標。因此,如何才能把大數據“物盡其用”變得至關重要。以下是一些您應該規避的最常見的大數據陷阱:
陷阱1:缺乏企業平臺或以數據為本的架構
Hadoop系統通常是以具體應用的原型身份進入企業的,然后逐漸成為重心,吸引越來越多的數據,并很快成為一個巨獸——由一小撮“數據科學家”領導的數字運算引擎。企業必需從一個企業平臺策略和一個以數據為本的架構開始,打破在各種規模的企業中盛行并削弱企業力量的數據孤島。大數據需要能夠在一個完全可擴展的分布式環境中實施并行處理,并盡可能地減少阻力。與傳統數據庫系統或應用孤島不同,在一個以數據為本的架構或企業平臺中,數據不受限制,不綁定模式,也沒有被鎖定。
陷阱2:缺乏“數據湖”愿景
對于企業而言,“數據湖”具有改變游戲規則的變革性意義。它是一個數據集中目的地,可提供企業急需的各類型的數據集成,其中包括結構化、非結構化和半結構化數據以及內部數據、外部數據和合作伙伴數據。數據湖存儲庫通過“大數據經濟學” 創造巨大效益,與傳統解決方案相比,它可將數據存儲和分析的成本降低30到50倍。 數據湖能夠在任何數據轉換或模式創建之前捕獲“原始數據”,并提供自動快速攝取機制。在向企業數據接入、無縫數據訪問、迭代算法開發和敏捷開發演進的過程中,數據湖發揮著舉足輕重的作用。
陷阱3:沒有針對數據增長和成熟度進行規劃
當數據湖成為默認的數據目的地時,管理和細粒度安全性從一開始就變得異常重要。元數據訪問及存儲、數據沿襲及標注會成為內置,而原始數據和不同階段的轉換數據仍能毫無沖突地共存。各類應用可以通過Hadoop使用彼此的數據。外部數據可以根據明確的處理/分析要求被屏蔽或集成,所有數據集能夠在數據湖中和睦相處,這提高了數據的可用性,縮短了應用部署時間,并可支持無限的數據擴展和增長。
陷阱4:分析小樣本數據集
很多人認為數據不需要被集成,人們可以使用小樣本數據集,這是一種危險的錯誤觀念,因為這會導致分析結果常常被延展到較大的數據集,而且不考慮差異,少則造成誤導,嚴重的話甚至可能導致極度扭曲的結果。這通常被稱為小樣本數據集分析魔咒。例如,當您使用小樣本數據集時,您可能會遇到很多離群數據或異常數據。如果使用的是小樣本數據集,您無法知道異常數據在較大的數據集中是否具有結構性,或離群數據是否處于一種具備明確特征的模式。
陷阱5:采集更少的數據,依賴更高級的算法
另一個錯誤觀念是:高級和復雜的算法能夠解決所有問題。如果是這么簡單的話,生活就太美好了。由于是在邏輯進程上運行,計算機將無條件地處理意外、甚至荒謬的輸入數據,并生成無用、荒謬的輸出數據。在信息與計算機科學中,當未被凈化的數據被輸入到復雜算法中,被稱為“垃圾進入/垃圾輸出”。缺失/稀疏的數據、空值和人為錯誤必須被清除。IT人員應避免依賴未經驗證的假設或弱關聯,而去盡可能多地采集數據,讓數據自己說話。在部署數據平臺時,這一點非常經濟高效。
制定一個成功的大數據策略
如果將規避以上陷阱做為動機,從一開始就把事情做對,即可事半功倍,幫助企業更快、更好地利用大數據。