當前位置：大數據 → 業界動態 → 正文

數據是一種信仰——他到底是否值得信賴?

責任編輯：editor005 作者：Bob Hayers |來源：企業網D1Net 2016-04-12 14:12:45 本文摘自：化學數據聯盟

利用數據來驅動商業決策的制定，對于現在的企業來說，顯得尤為重要，企業可以因此知道如何向自己的客戶群做銷售以及服務。然而IBM調查發現，有大約三分之一的企業領導不相信他們用來做決策制定的信息。當企業領導人不相信自己的數據的時候，他們極有可能不會支持公司花費精力收集更多數據，反而不去利用數據。那么你可以有什么樣的辦法讓你的執行者對他們所使用的數據信息深信不疑呢?那么首先，你應該讓他們清除的認識到數據本身所具備的真實性。

大數據

　　數據真實性

現如今，我們可以用很多不同種類型的性質來描述數據，在大數據時代，其中有三種關于數據的特性——規模、速度和多樣性——已經主導了人們在談論大數據話題時候的內容。但是還有一些人又為數據的特性引入了另外三種特性(比如Value-價值，Veracity-真實性，Viability-可行性)。但是Seth Grimes正確地指出了這三種新特性正在誤導人們對大數據的理解，因為和三種特性并沒有清晰地向你解釋你的數據有何“大”之有。盡管如此，我們還是需要考慮數據的這些特性——你的數據體量龐大還是渺小，穩定還是不斷移動，結構化的還是非結構化的。

你的數據的真實性關乎到數據的準確和可信賴程度，也關乎數據分析得到的結果。你的數據的真實性會因其生成、收集以及分析等過程中所產生的不同類型誤差而收到影響。如果你的數據在處理過程中引入越多的誤差，那么你的數據的可信任程度就不會很高。

EnsuringVeracity of your Data 務必確保數據的準確真實性

在2013年年初，Kate Crawford(凱特·克勞福德)在《哈弗商業評論》期刊上面以一篇名為《大數據背后隱藏的偏見》的文章發表了自己對于數據“真實性”的這種特質的觀點。“如果你的足夠量的數據的話，它的數量就已經不言而喻了”——對于這個觀點的爭論，凱特正確地闡述道人們為數據賦予了發言權;人們從數據當中得出推斷，并賦予了數據跟多的內涵。但不幸的是，人們將自己的偏見引入到了其中，無論是刻意為之還是出于無意，這種做法都將數據的質量大打折扣。

如果向提高數據的真實性，那么你必須降低來自不同誤差源的發生頻率。這些誤差源往往和以下方面息息相關：采樣方法、缺失數據、科研偏見以及差強人意的測量方式等。在你利用數據做出決定之前，請先認真回答下面的問題：

1.What is (are) your hypothesis(es)? 你的假設是什么?

“大數據技術就是找到各個變量之間的關聯性而非檢測有這種關系存在的原因”——盡管該觀點廣受歡迎，但是我相信對于企業的長期價值而言，大數據技術應該是弄清楚變量之間的偶然關聯問題。假設實驗是為了辨認出為什么變量相互之間會存在某種關聯，以及驅使這些被發現的關系的基本流程。假設實驗有助于通過試錯法改進分析模型，這樣做可以找到因果變量并幫助你從不同的條件當中找到新發現。

在過剩的變量和數據集的幫助下，企業能夠快速檢測出成百上千種關系。發現數據中存在的統計學關系的可能性會在檢測關系的絕對數量時有顯著的提升。經常因為幾率的原因，當變量之間的關聯性不存在原因的時候，實際上，我們可以發現兩個變量之間存在的統計學關系。因此，如果你使用這些虛假的發現結果為支持你現存的想法的化，那么這樣做的結果就是你的決策肯定不是最優的。

你能做的就是先做一個假設，然后對其進行測試。

2.Whatare your biases? 你的偏見有哪些?

人們總是尋找/記住/解釋支持他們現有觀念的結果，并忽略或者低估那些無法支撐他們觀點的結果。這些被當作確認偏見的認知捷徑，往往導致你對數據的錯誤結論。

你能做什么呢?具體來講，你需要做的是就是查看你的數據，并從中得到可以駁斥你的信念的證據。如果你在預測消費者忠誠度的是時候人為產品質量遠比服務質量重要的話，那么你一定要為服務質量帶來的相關影響搜集證據。

你也不要依賴你的記憶。在任何一種數據的基礎上做決策的時候，記得要引述那些有相關數據出現的報告或者研究案例。參考你的信息員可以幫助其他人辨認信息并幫助他們理解你的決策，并讓他們知道你將如何實現你的決策。如果他們得到結論和你大相徑庭，一定要弄清楚你的結論和別人相比存在怎樣的差異(數據質量?不同的指標?還是不同的分析?)

你還要使用推理統計學方法從隨機雜音當中區分出真實的、系統性的以及有內涵的數據差異。在圖片下面要加上語言描述。清晰的描述可以保證你的圖片不會引起太多的誤解。你也可以讓來自不同領域的專業人士(比如IT或者銷售)為你進行闡述，，這樣的話你會得到關于一個數據的不同角度的解讀。

3.What isthe sample size? 樣本的大小如何?

我們幾乎很少(或者根本沒有)獲取到那些對我們感興趣的所有群體。相反，我們依靠從該群體中提取出的樣本的測量來對這些群體進行推斷。比如從我們的客戶群(樣本)中的一部分收集消費者滿意度信息來了解整個消費群體的滿意度。

當你使用樣本來理解整個群體情況的時候，你不得不去了解樣本中存在的誤差。樣本誤差可以反映出來自客戶群體數據的樣本的誤差。因為這種樣本僅僅是整個群體的一個子集，我們的評估僅僅會因為樣本只是整個消費群體的一部分，而涵蓋誤差在里面。

你可以做什么?你可以利用推斷統計學方法幫助你進行理解，如果你發現樣本有可能會反映出整體人群當中的情況。

4.What is the data source? 數據源是什么樣子的?

數據源

即使當我們有大量數據集的時候，其中存在的樣本誤差可能會因為數據量的巨大而有所降低，我們需要知道數據源在哪里——因為數據不會憑空產生。我們可以刻意產生一些數據并進行收集，然后通過這些數據來解決問題。比如，我們可以分析在颶風桑迪發生期間人們發布推特的地點，數據向我們展示了和新澤西相比，更多的博文來源于曼哈頓的鬧市區。依靠簡單的數據計數，你會發現颶風的主要攻擊地點位于曼哈頓鬧市區。但事實上，颶風襲擊的是新澤西，但是颶風讓新澤西電力供應癱瘓，所以人們一時無法使用推特發布推文。

除此之外，據估計僅有18%的美國青年網民使用推特，其年齡主要分布在18到29歲之間。同樣，在2012年僅有8%的人使用移動設備進行購物并通過推特發布自己的購物體驗。推特，在商業情景當中，代表了一小撮，也許也是一種有偏見的數據集。

你能做什么?仔細審查數據源，看看數據是否適合有足夠信息量來支撐你的發問。可以考慮使用不同的數據源對你的假設進行測試。多重線路的聚合證據總比單一線路的證據更有說服力。

最后的想法

商業決策的質量取決于商業數據的質量(以及使用數據的預測分析模型)。如果你從最最華而不實的分析模型當中進行推論的時候，而且你的數據建立在不可靠而且無效的信息基礎之上，那么當你的模型在實際中運行時(比如你的模型可以預測現實)，整個過程就像煉獄一樣。就像業內人士說的那樣——輸入的是垃圾，輸出的也是垃圾!

關鍵字：誤差源缺失數據