數據質量的定義
根據維基百科的定義:數據質量指的是“數據對其在操作、決策支持和規劃中扮演角色的適應程度”。下面是數據質量常見的五個方面:
(1)一致性:信息集合中每個信息都不包含語義錯誤或相互矛盾的數據。例如,信息(公司=“先導”,國碼=“86”,區號=“10”,城市=“上海”)就不一致,因為10是北京區號而非上海區號。又如,若銀行信用卡信息庫顯示某持卡人同時在北京和新疆使用同一信用卡消費,這時就出現了同一時刻兩個地點信息不一致的情況。
(2)精確性:信息集合中每個信息都能準確表述現實世界中的實體。例如,某城市人口數量為4130465,在信息庫中的記載為400萬。此數據看似合理,卻不精確,未能包含剩余的130465人。
(3)完整性:信息集合中包含足夠的信息來實現回答問題、查詢信息或進行知識發現等功能。這也同樣是數據質量評定中的一個重要因素!例如,某醫療信息庫中的信息遺失了某些患者的既往病史,從而存在不完整性。一旦該患者需要治療,這些缺失的信息將會導致醫生不正確的診斷甚至引發嚴重醫療事故。
(4)時效性:信息集合中每個信息都要與時俱進。例如,把某小區住戶的地址看作是數據的話,其中某位住戶所登記的家庭地址是2010年的,但在2011年他可能搬家了,此時他所登記的家庭地址信息就不正確了,即信息過時,而這些過時信息將會導致嚴重后果。
(5)實體同一性:信息集合中描述同一實體的不同表示形式共享同一標識。例如,為防止信用卡欺詐,銀行需監測信用卡的使用者和持有者是否為同一人。又如,同一企業中維護著各自不同的信息庫的部門在兼并和重組時,會使新的客戶信息庫中產生大量具有差異的重復客戶信息,而導致客戶信息的混亂。
大數據中的數據質量問題
大數據,顧名思義,其最本質的特點在于數據量“大”,除此之外,還包括了獲取、管理以及處理時的復雜性。大數據具有明顯的時代特征,使用者們習慣上將其總結為4個“V”:規模性(volume),高速性(velocity),多樣性(variety)和價值稀疏性(value)。由于這些特征,大數據才有更大可能產生數據質量問題,即更有可能出現不一致、不精確、不完整、過時等問題或者描述同一實體的數據出現了沖突(簡稱為實體不同一)等錯誤,具體原因包括:
(1)大數據具有規模性大的特點:越大規模的數據就越有可能在獲取、存儲、傳輸和計算過程中產生更多錯誤。即使想要進行人工錯誤檢測與修復也會由于成本極其巨大以至難以有效實施。
(2)大數據具有高速性的特點:數據的大量更新會導致過時數據迅速產生,在這個過程中也更易于產生不一致數據,為人工錯誤檢測與修復帶來困難。例如,某一大型實驗設備中包含了15億個傳感器,平均每秒收集超過4億條實驗數據,每一秒鐘就會有這些數據迅速過時,傳統方法想要實現新數據替換對應的舊數據,就顯得有些力不從心。
(3)大數據具有多樣性的特點:它的多樣性指的是數據來源和形式上的多樣,這就使得數據有更大的可能產生不一致和沖突。例如,在互聯網上的不同網購網站中獲取到的同一商品的一些信息就有很大可能存在沖突。
數據質量的影響
如果沒有良好的數據質量,大數據將會對決策產生誤導,甚至產生不可估量的結果。
根據估算,數據錯誤每年對美國工業界造成的經濟損失約占GDP的6%。
在醫療方面:根據美國醫療委員會的統計,由于數據錯誤引起的醫療事故僅在美國每年就導致高達98000名患者喪生。
在電信產業:數據錯誤經常導致故障排除的延誤、多余設備租用和服務費收取錯誤,損害了企業信譽甚至會因此失去很多用戶。
在商業上:美國零售業每年僅因標價錯誤就損失25億美元。2009年戴爾臺灣網站,在8小時內,售價本應是4800元新臺幣的19吋顯示器被按照錯誤標價以500元新臺幣訂購140萬臺!
在金融企業中:因數據質量問題導致的信用卡欺詐失察在2008年即造成48億美元的損失。2001年 雷曼兄弟公司將 £300萬錯輸入為£3億,導致金融時報指數瞬間暴跌120點,百家藍籌股的300億英鎊市值化為烏有, 損失£500萬-£1000萬。2005年瑞穗證券同樣因為輸入錯誤,在16分鐘內損失了19億元人民幣。
大數據質量管理的研究成果
在國家973高科技基礎研究計劃的資助下,哈爾濱工業大學等單位合作圍繞 “數據質量”這一重要主題進行項目“海量信息可用性基礎理論與關鍵技術研究” 已經超過3年,在數據質量方面已經取得了以下一系列研究成果:
數據質量評估技術:從數據質量常見的五個方面分別提出了數據質量不同的自動評估技術,并研究了這五個方面的關系,從而可以根據應用的需求判定數據的質量是否達到要求。
數據自動修復技術:利用網絡提供的海量數據及從其中獲得的知識來對數據進行修復。通過分析定義錯誤修復的語義蘊含與表現形式、自動修復的充分必要條件和基于WEB的自動修復模型,提出了查詢關鍵詞生成模型及算法,通過遺傳算法實現查詢關鍵詞的自適應性調整,提出了實體抽取模型,該方法采用圖模型來描述實體集之間的關系,利用圖匹配的相關技術進行信息抽取,并基于抽取出的信息進行數據的自動修復。
實體識別技術:實體識別用于找出描述現實世界同一實體的數據。如今的數據集合大多具有復雜結構并具有更新頻繁特點。課題組通過研究此種數據實體識別的理論和算法,提出了一系列針對關系數據、XML數據和圖數據的實體識別算法,并將提出的技術應用到了商品信息的實體識別中。借助所得到的結論將淘寶等購物網站進行改進。
弱可用信息上的知識發現技術:網絡上很多,要么不完整,要么帶有可能誤導用戶的信息的數據以及很多通過自動化方法從非結構化數據中(比如文本和圖片)提取出來的數據,都是是典型的弱可用數據。課題組針對網絡上的弱可用信息提出了多種知識發現的方法,使得人們可以借助多種數據挖掘方法在這些弱可用數據上進行知識提取,并且將這些提取出來的知識在不同領域的不同應用場景中進行驗證。
數據質量自動檢測技術在社保中的應用:在社保數據中,由于數據源多種多樣,信息成因具有階段性和分布性特點,造成了大量的數據孤島的存在,即來自不同信息網絡的數據信息經常會出現無法共享的問題,比如公安系統、民政局系統可能就會有信息重復或信息不匹配的情況發生。課題組利用數據質量自動檢測技術解決了這些問題,確保了社保經濟數據工程的順利開展。