她是前途看好的產品管理主管,準備向高階團隊作重要的簡報時,注意到市占率數據中,有個數字看起來不對勁。她馬上請一位助理查核那些數字。助理深入查看后發現,市場研究部門提供的數據有個錯誤,於是這位主管作了必要的改正,避免了一場災難。簡報進行得非常順利,她高興得當場獎賞那個 助理,并總結說:「嗯,我們該制訂一個政策:每次都要仔細檢查這些數字。」 沒有人想到要告知市場研究部門人員這個錯誤,更別提該部門不會采取任何行動,來確保下回提供的數據是正確的。
我擔任「數據醫生」(的職涯中,在數十家公司見過類似情況。在電信業,維修部門可能必須改正客戶服務部門輸入的錯誤地址;在金融服務業,風險管理部門可能必須包容不正確的貸款發放細節;在醫療保健業,醫生必須在面對不完全的臨床數據時,努力改善患者的治療效果。的確,數據的品質問題,困擾著各種產業的各個部門、各個層級,并涉及各類型的資訊。
就像前述那位前途看好的主管,員工在日常工作中,經常要避開或糾正大量的這類錯誤。但這麼做的成本非常高。研究顯示,知識工作者浪費多達50%的時間搜尋數據、找出錯誤予以糾正,以及為他們不信任的數據尋找有確切證據的來源。
假設有許多錯誤數據流出,可能會造成哪些影響:醫院實驗室錯誤的衡量數據,可能害死病人。不清楚的產品規格,可能會增加數百萬美元的生產成本。不正確的財務報告,可能破壞了最佳的投資機會。這類錯誤對聲譽造成的后果可能很嚴重,例子之一就是蘋果公司的地圖服務Apple Maps,在2012年秋天爆發許多問題,釀成風暴。
如果數據不可靠,經理人很快就不再信任數據,退而倚靠直覺去做決定、帶領公司及執行策略。比方說,從大數據分析當中出現的那些有違常理的重要結果,經理人常不愿接受。
在「垃圾進,垃圾出」這個詞問世五十年后的今天,我們仍在辛苦應付數據品質的問題。但我相信,要解決這個問題,不像許多人想的那樣困難。解決方法并不是靠更好的技術,而在於:數據建立者與使用者之間的溝通必須更好;致力追求未來的好品質;最重要的是,數據品質的責任不應再放在資訊科技人員身上,他們無法掌控會產生那些數據的商業流程,而應由經理人來承擔這個責任,他們投注極大努力要讓數據正確。
從品質的角度來看,在數據的生存期當中,只有兩個時刻是重要的:建立數據的那一刻,以及使用數據的那一刻。數據的品質,在建立數據的當下就已確定。但我們直到使用它的那一刻,才真正要判斷它的品質。如果人們認為數據的品質不良,通常的反應是避開那個數據,或是自行改正錯誤。
但改善數據品質的重點,不在於大膽改正別人的錯誤數據,而在於讓數據的建立者和使用者(他們的「顧客」)合作,以便讓數據建立者找出錯誤的根本原因,并想出辦法改善未來的品質。回想一下前述那位前途看好的主管。她沒有把那個錯誤通知市場研究部門,而是自行改正錯誤,因而讓他人成為同一筆錯誤數據的受害者。她也自行調整那些數字,盡管她遠不如數據建立者適合和擅長做這件事。
好消息是,一點點溝通就會大有助益。我曾多次在與數據建立者和使用者開會時,聽到有人說:「我們不知道有人在使用那個數據集,所以沒有花太多時間在上面。現在我們已經知道它很重要了,會努力提供你需要的東西。」最容易、最有效的一個改善品質做法,是確保數據建立者知道,其他人是如何使用數據的。
更好的消息是,解決大部分的數據品質問題,不需要在新科技或流程再造方面進行重大投資。可以確定的是,嚴謹的衡量、自動化的控制、六標準差等方法,是有助益的,對較復雜的問題來說更是如此。但決定性的第一步,就只是讓數據的使用者與建立者互相交談。
致力使新數據正確
一旦公司發現自家數據的品質低於一般水準,通常第一個反應是采取大規模行動,清理現有的錯誤數據。其實,更好的做法是聚焦在改善新數據建立的方式,找出、并排除錯誤的根源。完成這項工作之后,未來可能還是得做一些清理工作,但不必持續清理。
以年營收2,300億美元的能源巨擘雪弗龍石油公司為例。該公司鉆井部門雖然沿用產業標準采用的系統,來收集數據,以評估鉆井、規畫新油井、制訂安全方案,但獲得的數據往往不足。例如,從數據中,經理人無法確定某一油井的鉆探工作,是否在預算內完成。雪弗龍推出了一個計畫,來清理和油井相關的最重要數據。但公司領導人很快就發現,全面清理數據需要花費長達五年的時間,而且,除非他們做出改變,否則這五年期間建立的一切數據,都不會比今天的數據來得好。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13778.html