當“大數據”和“高性能數據分析”這些詞匯成為SAS 2011年度分析系列會議的流行語時,與會者表示,目前主要的分析障礙仍然可以概括為一個詞:數據質量。
這個問題也并不是什么驚人的發(fā)現了。在2010年英國商業(yè)應用軟件研究中心(簡稱BARC)發(fā)起過一次2000人以上的調查,在該調查中發(fā)現BI項目的頭號障礙就是低劣的數據質量。2009年Gartner研究公司針對140家公司也做過一次調查,其中22%的公司估計他們每年在壞數據上的損失能達到兩千萬美元。
Michael Click是美國亞特蘭大太陽信托銀行公司(SunTrust Banks)數據庫營銷分析師,他說:“在大型組織中,你有從各條業(yè)務線收集到的不同數據。當試圖把所有數據集中起來做全面分析時,我發(fā)現匹配數據是相當有挑戰(zhàn)的事。”
Click強烈要求數據集中,這樣可以幫助消除數據孤島,他的同事Adam Lewis也同意他的觀點。他說:“你可以得到唯一的真相。這樣你就不必花時間解釋為什么一組數據可能與另一組數據有細微差別了。”
Lewis說,事實上,如果來自不同團隊的數據與開始交流時確定的不一致,討論可能就該結束了。
Click說,“每一個細小的差異都可以令人失去信心。我們是要用數據說話,而不是要講故事。”
不是只有Click和Lewis把數據質量問題放在了問題列表的首位,其他人也在關注。
Paulo Cost是Cisco系統(tǒng)公司高級分析總監(jiān),他說:“我們一直在遇到的一個問題就是數據質量問題,你一定知道俗話說‘進來是垃圾,出去也一定是垃圾。’”
例如,Cisco的B2B電子商務市場使用Dun & Bradstreet的商業(yè)數據。Costa說,當這些數據即將改造時,我們仍然需要做一些工作:“數據需要值得整理,而對應的外部和內部源可能會有問題。”
問題是存在的,而且很耗時。Costa估計分析師80%的時間都花在了單獨數據準備上了。在組織繼續(xù)面對數據質量問題的同時,最著名的供應商產品發(fā)布都集中在不連貫的、更大的大數據困擾中。
在早些時候,微軟公司宣布與Hortonwork公司建立了新的合作伙伴關系,后者致力于Hadoop開發(fā)。在十月份,Oracle公司發(fā)布了其新版NoSQL數據庫企業(yè)版,它是運行于Hadoop之上的大數據軟件之一。
最新的發(fā)布出現在SAS公司2011年度分析系列會議上,SAS放棄了Hadoop路線,計劃發(fā)布“高性能分析”的新平臺。該應用與Teradata公司和EMC公司Greenplum合作之后,提供了數據庫分析和內存分析的結合,可以為大數據負荷提供更高效、更快的計算能力。
當然,目前并不是所有企業(yè)都把數據質量或者甚至是大數據看作嚴重問題來關注。一位不愿透露姓名的與會者透露了他所在公司的策略,他認為壞數據確實是問題,而且最終要被解決。但更緊迫的問題是為在經濟形勢扭轉時的變革做準備。
他說:“我們如何在風險不再是一個關鍵問題時保留我們的風險分析團隊是一個大問題。”
作為總部設于美國中西部聯(lián)邦儲備銀行團隊的一員(金融崩潰之后增招過人員),他說,經濟最終一定會反彈,那就意味著金融體系會將他和其他分先分析師的重要角色降級。
原文鏈接:http://www.searchdatabase.com.cn/showcontent_56420.htm