當前位置：大數據 → 業界動態 → 正文

認識大數據錯誤實踐避免走彎路

責任編輯：editor004 |來源：企業網D1Net 2014-01-10 10:57:45 本文摘自：IT168

最近一段時間以來，圍繞數據可視化所展開的討論可謂層出不窮——其話題之豐富、交鋒之激烈甚至不亞于大數據技術本身。目前業界普遍認為可視化是最優秀的(或者說是惟一一種)數據內容表達方式，甚至如果不對數據進行可視化處理，我們將錯失大量寶貴信息。

可視化是獲取并分享觀點的絕佳途徑，但很多大數據團隊卻沒能選對正確的方式。可視化怎么會出現問題?原因很簡單，因為存在多種可能破壞數據可視化效果的實施方式。下面我們就一同來探討最為常見的三種錯誤實踐。

錯誤一：顯示所有數據

盡管我們在學校里被告知表達意見應當盡全面，但事實上大多數人根本不在乎我們實際做過多少工作，他們不關心我們每天處理了多少數據或者Hadoop集群的規模到底有多大。客戶與內部用戶需要的是具體且緊緊圍繞核心問題的答案，而且最好能讓他們盡早得到這些答案。我們的答案與他們的需求關聯越是緊密，他們在尋找答案方面所投入的精力也就越少。請千萬記住，頁面上顯示的無關數據越多、找出正確結論與相關信息就變得越困難;無論出于什么樣的理由，無關數據就是分散注意力、浪費時間資源的干擾因素。

這類干擾因素在信息面板當中顯得特別普遍，因為這類面板的指導理念往往是“顯示所有狀態”。但事實上其中大部分狀態都是正常、乏味、甚至不值一提的，因此把這些沒問題的內容顯示出來很可能導致相關人員因為視覺疲勞而忽略了真正異常的狀況。

出色的信息面板方案應該只顯示那些值得關注或者重要性較高的內容。優先顯示重要信息、而后是意外信息、接下來是可操作性信息，其它內容則都應該盡可能淡化。深入挖掘數據信息當然也很重要，不過信息面板并不是處理這項工作的舞臺。對于信息挖掘工作，報告等包含廣泛非可操作性數據的表達載體更為適合。

錯誤二：信息關聯性不好、復雜性過高

這種錯誤的危險性絕不遜于第一條。顯示全部信息子集當然不錯，但前提是數據的關聯性必須得到保證。舉例來說，如果大家關注銷售情況，那么同時也可能希望了解各個地區的銷售走勢或者其隨時間推移而發生的變化。首先考慮到用戶對數據的使用方式，而后才能作出正確決策。

將所有信息都塞進同一套圖表當中很可能不足以概括整體情況，相比之下制作多份緊密關聯的圖表才是最理想的處理方式。一般來說，多份簡潔而清晰的圖表在實際表現方面要優于單一且高度復雜的數據可視化成果。

錯誤三：糟糕的數據表現形式

即使我們在繪制圖形時使用的數據完全正確，得到的結果也仍然無法保證有效。結合實際體驗，大家會發現日常工作中很少見到某些奇特的圖形設計——這是因為它們的效果并不好。在滿足可視化需求方面，絕大部分優秀的案例都會相對保守地使用樣形圖、折線圖、散點圖以及餅狀圖(其中餅狀圖的制作難度更大一些)。

我們需要思考不同數據字段之間的核心關聯，并想辦法將這些字段鋪設在坐標軸之上。接下來，按照類型進行分組，并以時間、幅度或者重要性為依據對數據加以排序。(如果這些排序方式都不合適，按照首字母或者拼音排序也是可行的。)另外，請務必用顏色來標記不同類別(而不要用大小);大家可以利用不同亮度或者色彩飽和程度來說明大小。再有，請使用標簽及其它標記有選擇地引導閱讀者的注意力，同時又不至于擾亂正常查看。

良好的設計

思考與規劃優先要規避上述錯誤，最好的辦法就是首先專注于我們想要表達的核心目標。在考慮可視化方案的直觀效果之前，請大家依次回答以下幾個問題：

1.我們需要采取哪些行動(或者我們關注什么樣的重點)?

2.我們需要傳達怎樣的決定(我們又將如何將其付諸實施)?

3.我們需要提出怎樣的問題?

4.我們需要看到哪些數據?

5.我們要選擇什么樣的最佳結構來準確提示數據內容之間的重要關系?

6.我們需要突出顯示哪些數據信息?

在大家回答了上述問題之后，就可以開始著手設計并利用正確的數據來實施理想的可視化方案了。當然，在處理過程中我們可能還需要作出各種調整。調整并不是壞事，我們可以利用迭代、測試、測試不同的實現方法而后再次迭代的方式來找到最佳選項。只有經過深思熟慮且堅持面向用戶的設計方案才能打造出切實有效且更富效率的數據可視化成果。

關鍵字：數據可視化數據內容 Hadoop