隨著大數據技術逐步在企業端應用,越來越多的企業在利用數據技術提升管理效率和決策的科學性。企業對數據分析人才的需求也越來越旺盛,對管理者的數據分析能力也提出了新的要求。
數據的質量直接影響著數據的價值,并且還影響著數據分析的結果以及我們依此做出的決策的質量。質量不高的數據會影響企業的經營管理決策;如果數據是錯誤的,那么還不如沒有數據,因為沒有數據時,我們會基于經驗和常識做出不見得是錯誤的決策,而錯誤的數據會引導我們做出錯誤的決策。因此,數據質量是治理企業經營管理數據的關鍵所在。
數據的質量可以通過八個指標進行衡量,每一個指標都從一個側面反映了數據的品相。這八個指標分別是:準確性、及時性、即時性、真實性、精確性、完整性、全面性和關聯性。
我們在比較兩個數據集的品相時往往采用如下圖所示的這種圖形表示。例如常規來講,內部數據集的準確性、真實性、完整性高,而全面性、及時性、即時性、精確性和關聯性方面取決于企業內部對數據的重視程度以及采集數據的技術手段;
而外部數據集(如微博數據、互聯網媒體數據等)的全面性、及時性和即時性都可以通過技術手段如網絡爬蟲等得到提高,但在準確性、真實性、精確性上難以保證,也難以控制,而關聯性取決于數據采集和挖掘的相關技術。
數據的準確性
數據的準確性(Accuracy)是指數據的采集值或者觀測值與真實值之間的接近程度,也叫誤差值,誤差值越大,數據的準確度越低。數據的準確性由數據的采集方法決定的。
數據的精確性
數據的精確性(Precision)是指對同一對象在重復測量時所得到的不同觀測數據之間的接近程度。精確性,也叫精準性,它與數據采集的精度有關系。精度越高,要求數據采集的粒度越細,誤差的容忍程度也越低。
例如在測量人的身高時,可以精確到厘米,多次測量結果之間的誤差只會在厘米級別;在測量北京到上海的距離時,可以精確到千米,多次測量結果之間的誤差會在千米級別;用游標卡尺測量一個零件的厚度時,可以精確到 1/50 毫米,多次測量結果之間的誤差也只會在 1/50 毫米級別。因此,可以說采用的測量方法和手段直接影響著數據的精確性。
數據的真實性
數據的真實性,也叫數據的正確性(Rightness)。數據的正確性取決于數據采集過程的可控程度。數據采集過程可控程度高,可追溯情況好,數據的真實性就容易得到保證,而可控程度低或者無法追溯,則數據的真實性就難以得到保證。
為了提高數據的真實性,采用無人進行過程干涉的智能終端直接采集數據,能夠更好地保證所采集的數據的真實性,減少人為干預,減少數據造假,從而讓數據更加準確地反映客觀事物。
數據的及時性
數據的及時性(In-time)是指能否在需要的時候獲到數據。例如企業在月初會對上個月的經營和管理數據進行統計和匯總,此時的數據及時性是指這些數據能否及時處理完成,財務能否在月度關賬后及時核算。數據的及時性是數據分析和挖掘及時性的保障。如果企業的財務核算流程復雜,核算速度緩慢,上個月的數據在本月月中才能統計匯總完成,那么等需要調整財務策略的時候,已經到月底了,一個月已經快過完了。特別是當企業做大了之后,業務覆蓋多個市場、多個國家,如果數據不能及時匯總,則會影響到高層決策的及時性。數據的及時性與企業的數據處理速度及效率有直接的關系,為了提高數據的及時性,越來越多的企業采用管理信息系統,并在管理信息系統中附加各種自動數據處理功能,在數據上傳到系統中之后自動完成絕大部分報表,從而提高了數據處理的效率。使用計算機自動處理中間層數據是提高企業數據處理效率的有效手段。
企業除要保證數據采集的及時性和數據處理的效率外,還需要從制度和流程上保證數據傳輸的及時性。數據報表制作完成后,要及時或者在要求的時間范圍內發送到指定的部門,或者上傳到指定的存儲空間中。
數據的即時性
數據的即時性包括數據采集的時間節點和數據傳輸的時間節點,在數據源頭采集數據后立即存儲并立即加工呈現,就是即時數據,而經過一段時間之后再傳輸到信息系統中,則數據的即時性就稍差。例如一個生產設備的儀表即時地反映了設備的溫度、電壓、電流、氣壓等數據,這些數據生成數據流,隨時監控設備的運行狀況,這個數據可以看作即時數據。而
當將設備的即時運行數據存儲下來,用來分析設備的運行狀況與設備壽命的關系時,這些數據就成了歷史數據。
數據的完整性
數據的完整性是指數據采集的程度,即應采集的數據和實際采集到的數據之間的比例。例如在采集員工信息數據時,要求員工填寫姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學歷、最高學歷專業、最高學歷畢業院校、最高學歷畢業時間共 12 項信息,而某個員工僅僅填寫了部分信息,例如只填寫了其中的 6 項,則該員工所填寫數據的完整性只有一半。
一家企業中的數據的完整性體現著這家企業對數據的重視程度。要求采集的數據在實際中并未完整采集,這就是不完整的數據,這往往是企業對數據采集質量要求不到位導致的。
另外,對于動態數據,可以從時間軸去衡量數據的完整性。比如,企業要求每小時采集一次數據,每天應該形成 24 個數據點,記錄為 24 條數據,但是如果只記錄了 20 條數據,那么這個數據也是不完整的。
數據的全面性
數據的全面性和完整性不同,完整性衡量的是應采集的數據和實際采集到的數據之間的比例。而數據全面性指的是數據采集點的遺漏情況。例如,我們要采集員工行為數據,而實際中只采集了員工上班打卡和下班打卡的數據,上班時間員工的行為數據并未采集,或者沒有找到合適的方法來采集,那么這個數據集就是不全面的。
再例如,我們記錄一個客戶的交易數據,如果只采集了訂單中的產品、訂單中產品的價格和數量,而沒有采集客戶的收貨地址、采購時間,則這個數據采集就是不全面的。
騰訊 QQ 和微信的用戶數據記錄了客戶的交流溝通數據;阿里巴巴和京東的用戶數據記錄了用戶的交易數據;百度地圖記錄了用戶的出行數據;大眾點評和美團記錄了客戶的餐飲娛樂數據。對全面描述一個人的生活來說,這些公司的數據都是不全面的,而如果把他們的數據整合起來,則會形成更加全面的數據。所以說,數據的全面性是一個相對的概念。過度追求數據的全面性是不現實的。
數據的關聯性
數據的關聯性是指各個數據集之間的關聯關系。例如員工的工資數據和績效考核數據是通過員工關聯在一起來的,而且績效數據直接關系到工資數據。采購訂單數據與生產訂單數據之間通過物料的追溯機制進行關聯,而生產訂單又是由員工完成的,即通過員工作業數據與員工信息數據關聯起來的。
本書探討的企業經營數據,每個數據集都是相互關聯的,有的是直接關聯的,如員工工資數據和員工績效數據;有的是間接關聯的,如物料采購訂單數據與員工工資數據。這些數據是由公司的資源,包括人、財、物和信息等關聯起來的。如果有任何的數據集不能關聯到其他的數據集,就會存在數據割裂或者數據孤島。數據割裂和數據孤島是企業經營數據關聯性不足導致的。而數據的關聯性直接影響到企業經營數據集的價值。
——本文摘自《企業經營數據分析 : 思路、方法、應用與工具》,作者:趙興峰 著