可能有些人沒有聽說過數(shù)據(jù)宕機這個術(shù)語,但他們其實已經(jīng)親身體驗過數(shù)據(jù)宕機以及不良數(shù)據(jù)帶來的后果。
數(shù)據(jù)宕機是指數(shù)據(jù)丟失、錯誤或不準確的情況。它可能讓人回憶起互聯(lián)網(wǎng)的早期階段,當時的網(wǎng)站會以令人震驚的頻率出現(xiàn)故障。
現(xiàn)在回想起來,這是有道理的。當時不僅存在基礎設施方面的挑戰(zhàn),而且使用網(wǎng)絡的人并不多,網(wǎng)站也沒有那么有價值。隨著云計算、電子商務和SaaS的興起,這種情況發(fā)生了變化,確??煽啃猿蔀槠髽I(yè)的關(guān)鍵任務,站點可靠性工程(SRE)應運而生。
數(shù)據(jù)如今處于相似的時刻。技術(shù)在進步,企業(yè)的業(yè)務正在向云遷移,數(shù)據(jù)變得比以往任何時候都更加廣泛和更具價值。
由此得出的結(jié)論是,隨著數(shù)據(jù)變得更有價值,數(shù)據(jù)質(zhì)量差的后果變得更加嚴重。在一兩年前還適用的最佳實踐、技術(shù)和投資現(xiàn)在可能影響企業(yè)的競爭能力。
根據(jù)調(diào)研機構(gòu)Gartner公司的預計,到2025年,80%尋求擴展數(shù)字業(yè)務的企業(yè)將會失敗,因為他們沒有采用現(xiàn)代方法進行數(shù)據(jù)和分析治理。
以下是不良數(shù)據(jù)導致成本上升的8個原因:
1.數(shù)據(jù)正在向下游移動
不良數(shù)據(jù)的成本取決于誰發(fā)現(xiàn)了問題。如果數(shù)據(jù)工程師發(fā)現(xiàn)了錯誤的數(shù)據(jù),他們就會得到獎勵。如果公眾發(fā)現(xiàn)不良數(shù)據(jù),那么可能會根據(jù)情況產(chǎn)生聲譽或法律影響。
每個階段還充當過濾器,防止不良數(shù)據(jù)向下游移動。目前的挑戰(zhàn)在于,目前數(shù)據(jù)存在多種趨勢,這些趨勢正在加快數(shù)據(jù)從數(shù)據(jù)民主化、數(shù)據(jù)產(chǎn)品、反向ETL等向下游移動的步伐。
2.數(shù)據(jù)堆棧變得越來越復雜
不良數(shù)據(jù)越往下游傳播,修復成本就越高。讓數(shù)據(jù)工程師對ETL管道進行故障排除,這比讓數(shù)據(jù)科學家重新訓練已輸入錯誤數(shù)據(jù)的機器學習模型要容易和快捷得多。
數(shù)據(jù)的修復成本高昂。隨著企業(yè)越來越依賴復雜的數(shù)據(jù)資產(chǎn)來幫助執(zhí)行業(yè)務決策,不良數(shù)據(jù)的機會成本也隨之上升。
例如,一家擁有機器學習模型的投資公司就遇到這樣的情況,該模型可以在債券符合特定標準時自動購買債券。模式錯誤會使模型離線數(shù)天或數(shù)周,其結(jié)果導致這部分業(yè)務陷入停頓。
隨著數(shù)據(jù)堆棧變得越來越復雜,也有更多的數(shù)據(jù)“交接”,從而為更多問題帶來了機會。例如,一家游戲開發(fā)商就注意到他們的新用戶在獲取數(shù)據(jù)時出現(xiàn)了偏差。
他們投放廣告的社交媒體平臺改變了數(shù)據(jù)時間表,因此他們每12小時而不是24小時發(fā)送一次數(shù)據(jù)。該公司的ETL設置為每天只提取一次數(shù)據(jù),因此這意味著在突然之間,發(fā)送給他們的一半活動數(shù)據(jù)沒有得到處理或傳遞到下游。
3.增加數(shù)據(jù)采用率
隨著數(shù)據(jù)宕機,現(xiàn)在有更多的人在等待,企業(yè)可能擁有更多的數(shù)據(jù)消費者,這些消費者比一年前更加依賴數(shù)據(jù)。企業(yè)已經(jīng)認識到數(shù)據(jù)民主化的力量,并正在迅速采取行動,使他們的企業(yè)更加以數(shù)據(jù)為驅(qū)動力。
根據(jù)谷歌云和哈佛商業(yè)評論發(fā)布的一份調(diào)查報告, 97%的接受調(diào)查的行業(yè)領(lǐng)導者認為,在企業(yè)范圍內(nèi)訪問數(shù)據(jù)和分析對于他們的業(yè)務成功至關(guān)重要。事實上,英國最大的汽車交易網(wǎng)站Auto Trader UK一半以上的員工每月至少一次定期在Looker儀表板上處理數(shù)據(jù)。
這是一個令人敬畏的趨勢。然而,更多的數(shù)據(jù)消費者和更多的數(shù)據(jù)分析師意味著當數(shù)據(jù)宕機時會擔負更多的責任。
4.數(shù)據(jù)消費者的期望不斷提高
數(shù)據(jù)消費者的期望比以往任何時候都高。他們習慣于利用SaaS產(chǎn)品來保證5個9的可用性,這意味著他們每年的停機時間不到12分鐘。事實上,不知道有哪個數(shù)據(jù)團隊能夠達到這個目標。
不幸的是,大多數(shù)數(shù)據(jù)團隊都是根據(jù)感覺進行評估的。數(shù)據(jù)消費者和企業(yè)高管都“感覺”團隊做得好或者不好。據(jù)Gartner稱,這是因為將近60%的企業(yè)沒有衡量不良數(shù)據(jù)的年度財務成本。
由于消費者對數(shù)據(jù)的期望很高,而衡量性能的定性數(shù)據(jù)很少,數(shù)據(jù)宕機不僅對企業(yè),而且對數(shù)據(jù)團隊都有嚴重的影響。
5.數(shù)據(jù)工程師難以尋求
招聘數(shù)據(jù)工程師可能需要一段時間,而從數(shù)據(jù)團隊那里聽到的最常見的抱怨之一是,在當今競爭激烈的勞動力市場上招聘是多么困難。他們的沮喪是顯而易見的,因為經(jīng)歷了漫長而艱巨的人員招聘過程,但找不到任何數(shù)據(jù)工程師來擔任這份工作。
根據(jù)生物制藥商Dice公司的2020年技術(shù)工作報告,數(shù)據(jù)工程師是技術(shù)領(lǐng)域需求增長最快的工作,空缺職位數(shù)量同比增長50%,2022年報告的數(shù)據(jù)工程師平均年薪為117295美元。
數(shù)據(jù)工程師正迅速成為最有價值的資產(chǎn)之一。讓他們放下自己的工作以修復數(shù)據(jù)宕機成本高昂,并且反復這樣做可能會讓他們決定離職。
6.數(shù)據(jù)質(zhì)量責任正在變得分散
數(shù)據(jù)網(wǎng)格或分散的團隊模型分配數(shù)據(jù)質(zhì)量責任。目前數(shù)據(jù)中最熱門的概念之一是數(shù)據(jù)網(wǎng)格,它將數(shù)據(jù)所有權(quán)在域數(shù)據(jù)所有者之間聯(lián)合起來,這些所有者負責將數(shù)據(jù)作為產(chǎn)品提供,同時促進不同位置的分布式數(shù)據(jù)之間的通信。
這樣做的好處是讓數(shù)據(jù)團隊更接近業(yè)務,并了解所有相關(guān)數(shù)據(jù)操作的目的。然而,就其性質(zhì)而言,也分散了責任。
分散的設置給清晰的溝通和清晰的流程帶來了更大的負擔。如果沒有強大的流程,責任分散可能會延長解決不良數(shù)據(jù)所需的時間或這些問題跨域時的數(shù)據(jù)宕機時間。
7.cookie的困境
由于GDPR等法規(guī)更加嚴格以及行業(yè)不再使用cookie,企業(yè)將更加依賴第一方數(shù)據(jù)和第三方數(shù)據(jù)。
這意味著他們將需要收集更多數(shù)據(jù),這將變得更有價值,因為他們不再依賴谷歌算法來幫助他們的廣告找到合適的消費者。因此,數(shù)據(jù)宕機時間開始對企業(yè)營銷和運營產(chǎn)生更大的影響,不良數(shù)據(jù)的成本正在上升。
8.數(shù)據(jù)正在成為一種產(chǎn)品,并且具有超強競爭力
數(shù)據(jù)團隊正在創(chuàng)建復雜的數(shù)據(jù)產(chǎn)品,這些產(chǎn)品正迅速成為客戶產(chǎn)品的一部分,并為他們的公司釋放新的價值。
這在某些行業(yè)已經(jīng)成為超級競爭。如果企業(yè)的團隊沒有產(chǎn)生可操作的見解,那么很快就會被其他人超越。
在媒體領(lǐng)域經(jīng)??吹竭@種情況,數(shù)據(jù)已成為一場軍備競賽。數(shù)據(jù)團隊的規(guī)模和對他們的投資是天文數(shù)字。這些公司從每小時一次批處理到縮短到15分鐘,再到每5分鐘一次,現(xiàn)在開始實現(xiàn)流式傳輸,真是令人嘆為觀止。
在這種環(huán)境下,沒有不良數(shù)據(jù)的余地。在某一媒體的數(shù)據(jù)宕機期間,其他媒體正在發(fā)布獨家新聞、獲得點擊并獲得對其受眾的寶貴見解。
預防勝于治療
考慮到不良數(shù)據(jù)的成本不斷增加以及大多數(shù)企業(yè)的數(shù)據(jù)質(zhì)量問題比他們想象的要多時,增加對數(shù)據(jù)質(zhì)量或數(shù)據(jù)可觀察性的投資似乎是明智之舉。
一些數(shù)據(jù)團隊在內(nèi)部信號方面非常敏銳,這表明是投資數(shù)據(jù)質(zhì)量的時候了(從遷移到像Snowflake或Redshift這樣的云數(shù)據(jù)倉庫),但像以上提到的外部驅(qū)動因素可能會讓企業(yè)迷失方向。
建議采取積極主動的方法。考慮如何在人員、流程和技術(shù)方面進行投資,以降低不良數(shù)據(jù)不斷上升的成本。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。