當前位置：大數據 → 業界動態 → 正文

大數據可視化的途徑

責任編輯：cres 作者：Sarah 譯者：HERO |來源：企業網D1Net 2017-11-27 10:24:25 原創文章企業網D1Net

人們預期數據可視化過程會繼續發展，也許更多的是藝術和科學的混合，而不是數字計算技術。

顯示結果

數據可視化是指以圖形或圖表格式通過人工或以其他方式組織和顯示數據，以使受眾能夠：

•更清楚地查看分析結果

•簡化正在使用的數據中的復雜性

•了解并掌握正在使用的數據制作方法

可視化并不是一個新的概念

這種使用圖片(排版、色彩、對比度和形狀)來傳達或理解數據的概念并不是新鮮事物，從17世紀的手工描繪地圖和圖形到十九世紀初發明的餅圖都是這種形式。

如今，計算機可以用來快速處理大量的數據，使可視化更具價值。展望未來，人們可以預期數據可視化過程將會繼續發展，也許更多的是一種藝術和科學的混合，而不是數字計算技術。

即時滿足

數據可視化演進過程的一個令人興奮的例子是，業界如何將數據可視化過程轉移到生成和發布圖表和圖形的過程中，供觀眾進行審查和仔細考慮，從而設定了交互式可視化的期望。

通過交互式的可視化，人們可以更多地使用數據可視化的概念，進一步利用技術讓觀眾與數據交互，為用戶提供自助服務能力，以實時(或接近實時)交互式地深入到生成的圖片、圖表、圖形(訪問更多或特定的細節)來改變顯示的數據(可能是不同的時間框架或事件)以及如何處理和/或呈現(可能選擇條形圖而不是餅圖)。這使可視化更加有效和個性化。

人們可以通過使用數據驅動文檔(D3)的典型網絡瀏覽器在各種示例中介紹顯示大數據分析結果的主題。D3允許將預先構建的數據可視化應用于數據集。

數據驅動的文件

數據驅動的文檔在開放社區中被稱為D3。D3是一個采用JavaScript編寫的開源庫。其目標是允許使用標準網頁瀏覽技術(如HTML或CSS)輕松地處理基于數據的文檔。它的附加值是為用戶提供全面的功能，而無需自己構建或綁定到某個專用的框架中。

這些庫組件為用戶提供了優秀的大數據可視化工具和DOM操作的數據驅動方法。 D3的功能風格允許用戶重新使用已經構建的庫代碼模塊(或者其他已經構建的代碼模塊))來添加用戶需要或想要(或不想要)的任何特定功能。這就創建了一種可以變得像用戶想要的那樣強大(或者有時間去做)的手段，為其數據可視化提供一個獨特的風格，操縱并使之互動，這正是用戶想要或需要的。

儀表板

正如前面所討論的，事實上人們每天都在收集和積累大量數據，而組織出于各種原因依賴這些信息。

這些數據使用各種報告格式，包括數據儀表板。就像所有的事情一樣，人們對于數據儀表板的定義有各種各樣的擔心。

例如，A.Chiang寫道：“儀表板是實現一個或多個目標所需的最重要信息的直觀展示。在一個屏幕上合并和排列，以便一目了然地監視信息。”

無論其定義如何，如果設計和建造得當的話，任何儀表板都有能力為受眾提供及時而重要的信息，供決策者使用。

儀表盤以相關的、簡明的、深思熟慮的方式(不僅僅是工作簿或電子表格中的可視表示的集合)呈現數據是至關重要的。而儀表盤上的數據顯示過時和錯誤，那么由此做出決定可能會導致災難。

通過儀表板可以演示解決方案的工作示例，而這樣的示例基于使用Tableau的實時儀表盤格式，基于大數據分析有效呈現出結果。

Tableau是一種商業智能軟件，旨在幫助人們查看和理解數據。Tableau不僅僅是一個代碼庫，也被認為是一組或一系列交互式數據可視化產品。

Tableau的結構可以使人們能夠將來自多個來源的多個數據視圖組合到一個高效的儀表板中，從而為數據消費者提供更豐富的見解。Tableau還可以處理各種格式(包括結構化和非結構化)的數據，并且可以處理大數據量(可能是TB字節或PB字節，或數百萬或數十億行代碼)，從而將大數據轉化為針對目標受眾的有價值的可視化結果。

為了解決當今大數據世界的速度問題，人們可以使用Tableau直接連接到本地數據中心和云端的數據源，或者將數據導入快速內存性能。

Tableau的另一個目標是自助服務分析，用戶可以通過對話選擇數據來提問(實時模式而不是批處理模式)使用簡單的點擊分析直觀地挖掘大數據，并有效地發現數據集或數據集中可能存在的理解和機會。

Tableau提供的一些令人興奮的功能包括：

•實時拖放聚類分析

•交叉數據源加入

•強大的數據連接器

•移動啟用

•實時的地區或區域數據探索

異常值

異常點是一個與數據中其他觀測數據點相距甚遠或極大不同的觀測點。盡管異常值通常只表示大約1%到5%的數據，但當企業處理大數據時，調查甚至只是查看數據的1%到5%是相當困難的。

調查和決定

人們可以看到，異常值可以被確定為非影響力的或者對數據可視化所要處理的點非常有影響力。

做出這一決定的行為或過程對于企業的分析非常重要，但處理大數據的大容量、多樣性和速度也是非常困難的。例如，幫助做出這個決定的一個基本步驟是測定樣品的大小，這是一個計算異常值與數據樣本大小的主要數學過程，當數據量十分龐大時，這不是一個簡單的任務。

人們可以使用Python高效地識別和處理大數據異常值(以及其他一些數據集異常)。Python是一種腳本語言，它非常容易學習，因為它的編碼語法非常類似于英語。

Python是2016年9種最受歡迎??的編程語言之一，由Bouwkamp公司提供，Python被列在頂級的按需編程語言中。

Python誕生于1989年，由Guido van Rossum創建，實際上Python的使用非常簡單，但業界也認為其功能非常強大，速度快，可以在任何環境中運行。

根據定義描述，“開放源代碼Python是世界各地許多公司和機構的生產力，軟件質量和可維護性成功公式的一部分。”

業界對利用Python語言進行數據分析和大數據分析的興趣日益濃厚，而且它是數據科學家日常工作的選擇，因為它提供了一個庫，實際上是一個標準庫(甚至有些專注于大數據，如Pydoop和SciPy)來完成幾乎所有人需要或想要處理的數據，包括：

•自動化

•建立網站和網頁

•訪問和操作數據

•計算統計

•創建可視化

•報告

•建立預測和解釋模型

•評估額外數據的模型

•將模型整合到生產系統中

最后要說明的是，Python的標準庫非常廣泛，提供了一系列內置模塊來提供對系統功能的訪問，以及標準化的解決方案來解決日常編程中出現的許多問題，這是探索處理大數據離群值和相關處理的一個明顯選擇。

操作智能

操作智能(OI)是一種分析方法，試圖通過(通常是機器生成的)操作或事件數據來提供可視性和洞察力，實時運行針對數據流饋送的查詢，產生作為操作指令的分析結果，可以通過人工或自動操作(將數據集轉化為價值的明確例子)讓組織立即執行。

復雜的操作智能(OI)系統還提供了將元數據與數據中發現的某些度量、流程步驟、渠道等相關聯的能力。有了這個能力，就很容易獲得額外的相關信息，例如，機器生成的操作數據通常都具有唯一的標識符和結果或狀態代碼。這些代碼或標識符對于處理和存儲可能是有效的，但是并不總是易于理解。為了使這些數據更具可讀性(因此更有價值)，可以將更多用戶友好的附加信息與數據結果相關聯 - 可能是以狀態或事件描述的形式，或者可能是產品名稱或機器名稱。

一旦了解將基本分析和可視化技術應用于操作大數據的挑戰，數據的價值可以更好或更快地實現。人們將運用Splunk智能化操作來展示操作或大數據評估解決方案的工作示例。

那么，什么是Splunk?Splunk開始是一種“Google for Log”文件。它還有更多的功能...它存儲所有的日志，并提供非常快速的搜索功能，大致就像Google為互聯網做的一樣...

Splunk軟件是幫助實現隱藏的價值在機器生成的一個很好的工具，使用Splunk，企業可以在一個地方收集、索引、搜索、分析，以及可視化所有數據，從幾乎任何地方提供一種整合方法，可以從大量機器數據中組織和提取實時信息。

Splunk將數據存儲在文件中，為文件分配索引。 Splunk不需要在后臺運行任何數據庫軟件來實現此目的。Splunk調用這些文件索引器。Splunk可以對任何類型的時間序列數據(具有時間戳的數據)進行索引，使其成為大數據操作智能(OI)解決方案的最佳選擇。在數據索引期間，Splunk會根據其標識的時間戳將數據分解為事件。

盡管使用簡單的搜索術語(例如機器ID)，Splunk也提供了自己的搜索處理語言(SPL)。 Splunk SPL(將其視為SQL類型)是一種非常強大的工具，用于搜索大數據并對特定場景中的相關內容執行統計操作。

關鍵字：大數據數據可視化