那么,在運行大型數據項目時,數據團隊的感知能力與實際性能之間的脫節程度如何?
以下是企業在實施大型數據項目或達到大數據成熟度時報告的五個最重要的挑戰:
01.確保數據質量
很少有人會否認大數據在世界各地的組織所發揮的重要作用,但是發現這些好處需要保持高質量的數據——這一點變得越來越困難,并且被認為是IT和數據專業人員面臨的最大挑戰。在許多情況下,企業收集的數據的關鍵方面可能會因失誤,錯誤或不完整的數據而被破壞,所有這些都可能導致數據團隊的錯誤結論。這被稱為臟數據,它對希望利用這些數據來驅動洞察力和改進業務操作的公司來說是一個巨大的障礙。骯臟的數據并不是一個小問題。據數據倉庫研究所(TDWI)的報告,遭到損壞或不完整的數據最終導致美國公司每年損失6000億美元。
現在采取步驟清理數據并防止這個問題的發生將大大有助于組織充分利用他們收集的信息。企業可以通過定期更新系統來幫助保持數據的干凈,以確保數據可以處理大量的數據收集和分析,而不會在此過程中造成損害。擁有正確技術的企業甚至可以進行數據清洗,這是一個徹底的清理過程,涉及到數據集的過濾、解碼和轉換。
02.保持預期成本
CIO們往往難以準確地預測大型數據項目的成本,特別是在缺乏經驗的情況下。其挑戰在于考慮到與每個項目相關的各種不同的成本-從獲取新的硬件或軟件,支付云提供商,雇用額外的所需人員等等。由于大型數據項目的趨勢很快擴大,與這些項目相關的成本可能很快就會變得壓倒一切,如果公司沒有準備好的話。對于尋求內部部署項目的企業,決策者必須考慮培訓、維護和擴大其數據庫和員工的成本。另一方面,雖然基于云的大數據部署通常比內部部署數據中心具有更低的成本要求和更快的生產時間,但追求云模型的企業也需要評估與供應商的服務級別協議,以確定如何收取使用費用,如果有任何額外費用可能會發生的話。
03.滿足業務需求和期望
雖然數據團隊對提供自我服務洞察能力以滿足日益增長的需求的能力非常有信心,但很少有人能夠滿足企業的高期望值。這個問題的一部分是由于缺乏有效運行大數據操作所需的技術資源。事實上,Dimensional Research最近進行的一項調查中,近三分之一的受訪者表示,他們無法獲得實施內部部署大型數據項目所需的基礎設施或技術。盡管企業可能在開始實施一個大數據項目的期望很高,他們往往沒有投資數據團隊正確實施這些項目所需的資源。為了避免這個問題,數據團隊領導者應該在開始一個項目之前,與業務負責人磋商,根據現有資源制定預期。同時,數據團隊必須作為教育者,向決策者通報技術,基礎設施和實現特定目標所需的人員的情況。
04.量化大數據項目的價值
雖然大多數組織都主張實施自己的大數據項目的好處,了解需求和能夠量化所需的投資價值并不總是齊頭并進。例如,決定在內部數據中心運行數據分析的企業將需要購買一些昂貴的服務器,并使用適當的軟件將其部署到數據中心,并運行測試以確保所有功能正常運行。這個過程可能需要幾個月甚至幾年的時間,也就是在第一個查詢甚至可以運行之前。如果一個數據小組在這個時候被要求投資回報,他們根本無法進行回應。
云計算已經大大改變了這種情況。雖然仍有不少組織將選擇投資于本地部署的大型數據基礎設施,,但越來越多的企業正在意識到基于云的大數據基礎設施的優勢,可以降低前期投資和更快的部署時間。
05.缺乏行業專長
最后,組織在實施大數據項目時面臨的最大挑戰之一就是尋找合格的工作人員。雖然83%的調查對象表示他們的數據團隊正在增長,但超過三分之一企業表示,他們難以找到具有處理其數據操作所需的專業知識和技能的人員。事實上,一個成功的大型數據項目無法由單一類型的用戶處理,企業需要聘請開發人員,數據科學家,分析師和其他人員,這些人都具有自己的技能和專業領域,所以這個問題進一步加劇。
然而,即使企業有一個熟練的團隊,許多數據團隊也會陷入維護大型數據基礎設施的工作中。而不是簡單地添加人員來處理這些數據管理任務,企業應該集中精力尋找工具來幫助他們的數據團隊更有效地工作。通過云計算和機器學習,諸如容量規劃和軟件更新等耗時的任務可以實現無縫自動化,讓團隊專注于高價值的工作,以推動運營改進和收入。
大數據是困難和復雜的,并且充分利用它面臨很多障礙。雖然在某種程度上,在某些層面上,許多公司似乎認識到與實施大數據項目有關的困難,但在其他方面,他們往往對實現下一個成熟階段所需的努力和專門知識抱有不切實際的期望。在企業能夠執行自己成功的成熟的大數據計劃之前,他們首先需要開發必要的基礎設施,工具和專家資源來克服上述每個挑戰。通過采用DataOps方法,企業可以構建一個自助服務數據模型,從而在整個組織中提供洞察驅動的業務決策。