美國Kimberly-Clark公司的全球總監Robert Abate說道:“ 每個人都認為其他所有人都在研究大數據,所以都說自己也在研究。 ”
一語中的。
一些人知道大數據的真正含義,然而其他人聲稱自己懂大數據,只是為了讓他們看起來并不低人一等。盡管大數據是一個熱門話題,但是對許多企業和數據專業人員來說,它仍然很難理解。不清楚其價值所在,就更談不上該如何利用了。
大數據對企業那么有用是因為它可以給企業的許多問題提供答案,而這些問題他們先前甚至都不知道。換句話說就是它提供了參考點。有了這樣大的信息量,公司可以用各種它們認為合適的方法重新處理數據或進行測試。這樣,就能用一種更容易理解的方式查明問題。收集大量數據,并在數據中發現趨勢,使企業能夠更快、更平穩、更有效地發展。這也可以讓它們在利益和名聲受損之前排除一些問題。
尤其是跟信息圖表和可視元素用在一起時,能夠更快地得到問題的答案。
舉個銷售類的例子, Abate 的團隊幫助他們的客戶整理數據。他們從數據集中刪除了任何不相關的或離群的數據,從而縮小到一個關鍵問題或用戶信息統計。這樣,他們就能分辨出哪一類產品出售的多,哪一類產品沒有出售,因此可能要被淘汰。他們關注4個主要的數據:收入、頻率、價值、年期。Abate先生強調,同一時間,在任何給予的可視化范圍內,超過4個數據就會讓人更難跟蹤。通過淘汰沒有出售的產品,他們正在減少浪費來增加未來的收入。但是沒有數據可視化,他們不可能完成這項工作。
接下來,我們就看一下,全球頂級的5個數據可視化案例。
一、航線星云
關于洞察
截止到2012年1月,開源網站OPENFLIGHTS.ORG上記載了大約6萬條直飛航班信息,這些航班穿梭在3000多個機場間,覆蓋了500多條航線。
通過高級分析技術,我們可以看到世界上各家不同的航空公司看起來就像是一個美麗的星云(國際星云的組成部分)。同種顏色的圓點和粗線提供了見解,它們代表提供相同航線的航空公司,顯示出它們之間的競爭以及在不同區域間的潛在合作。
這張基于數據可視化的Sigma圖表顯示了服務城市相似的不同航空公司。圖中的圓點或圓圈代表航空公司,連線的粗細和遠近則反映兩個航空公司之間的相似性;連線越粗或越短則代表兩家航司服務的城市越相似。圖表中有幾組航空公司,直觀地表現了它們所服務的地理區域。
這張圖表中的關鍵洞察當然地是航空公司之間的相似性甚至是重疊,它們是中國的南航和東航、阿聯酋航空和卡塔爾航空、英航和漢莎航空、美航和達美航空;我們可以從中看出這些公司之間的競爭關系。瑞安航空則通過服務與漢莎航空和英航存在潛在協力的城市占據了一個利基市場;比起意大利或漢莎等其他的歐洲航司,法國航空則與美國聯航等美國航空公司更為相似,這也許可以解釋為聯合品牌效應。本質上說,這是一張多維的韋恩圖,用一種簡明扼要的方式揭示了不同主體間的復雜關系。
總的來說,這張圖表揭示了不同航司之間的相似性和競爭情況,有利于發掘潛在的合作關系、增加市場份額和市場覆蓋面。這項技術可以通過不同參與者之間的相同變量,用于分析任何生態系統。
分析技術
這張可視化圖表通過Aster App中心生成,運用到了關聯挖掘的分析技術,研究上下文中各條目的共現關系。其中關聯挖掘的算法是協同過濾,它作用于航線和城市數據,并將數據當做零售籃子數據。也就是說,籃子代表城市,而航空公司則是條目。兩個航司之間的相似性由相似性得分確定,計分的原則是比較各個航司獨有的航線以及同時運營的航線。之后再將這些成對的相似性得分當做連線的權重,再把各個航司當做節點,共同輸入可視化儀器當中,運用具有模塊上色技術的force-atlas算法,最終生成出這張美麗的圖表。
二、Calling Circles
關于洞察
我們無論何時何地都在使用手機并且產生出非常大量的資料,這些資料代表了我們每天的行為及活動。我們與其他人的每通電話及簡訊都對應到我們的社會關系、商業活動以及更廣泛的社群互動并且形成了許多復雜互相聯結的通話圈。
這個資料視覺化圖表是從行動電話使用者的通話模式資料所制作的。每個點都代表一個使用者撥出的手機號碼,愈大的點就代表這個號碼被撥打愈多次。每條兩點之間的線都代表著從一個號碼撥打到另一個號碼。
每個行動電話使用者都會有一種獨特的通話模式,這種模式可以用來發展適合的話費方案并且可以用來定義或預測他/她的行為。舉例來說,當一個使用者正要從現在的行動電話服務商轉換到另一個服務商時,我們可以從網內及網外發現兩個類似的通話模式。
這張特別的圖表是在前期由一連串的分析產生用來過濾第一層的通話模式。這里使用到的資料只從在幾秒鐘的時間取得。從圖表的左上角可以看到許多大回圈,這些回圈表示短時間內這些號碼被撥打了許多次。可以推測這些號碼有可能是機器,像是自動答錄機、互動式語音應答(IVR) 系統、安全系統或警報。人類不可能在短時間撥出這么多電話。這些電話會先放置在一個分開的群組,后續的分析就可以集中在個人使用者的通話模式上。
分析技術
我們利用圖表來達成資料視覺化,雖然在調整版面格式的參數與傳統展示圖表不同。有一個常見的問題就是這些互連的圖表通常在短時間就會變成非常巨大且因為龐大的互動次數導致幾乎不可能被視覺化。從一個高度連結的圖表里選出一段范例是一個困難的問題,因為我們需要決定忽略哪些連結。在這個例子里,我們取用來自非常短的時間的資料來達到一個可以呈現的資料范圍。
資料格式就相對簡單,撥話號碼、收話號碼、撥話時間、通話時間。我們先利用機器學習(machine-learning) 來對資料作分群然后再利用Aster Lens 來展示圖表。
三、互聯網絡
關于洞察
這一匿名可視化報告用于支持一家Telco運營商分析住宅Telco線路。該項目旨在確定線路與網絡硬件性能之間的關聯,此類關聯可能影響到客戶體驗。
點(節點)代表Telco網絡上的DSLAM(數字用戶線接入復用器)。DSLAM提供了一項重要服務,能夠影響客戶呼叫體驗;它們可將客戶線路連接到主網絡。
DSLAM服務級別有多項測量指標,例如衰減、比特率、噪聲容限和輸出功率,并可針對每條線路整合至三個性能類別。紫色節點顯示具備卓越性能的DSLAM,橙色顯示具備出色性能的DSLAM,白色顯示性能較差的DSLAM。
在圖表中,僅少數DSLAM體驗到了高質量服務(紫色)。這些 DSLAM 在同一建筑中與主網絡基礎設施共置,由于靠近中央網絡中樞,從而帶來了優質服務。大多數客戶實現了出色體驗(橙色),同時我們發現城市郊區存在服務較差(白色)的DSLAM。
當客戶獲得可變網絡質量時,客戶體驗和滿意度會受到很大影響。Telco的主要目標是確保客戶獲得一致的體驗,即使是那些身處主城市外部的用戶也不例外。此圖表確定了每個提供可變服務級別的 DSALM;以出色(橙色)和較差(白色)簇之間共享的節點表示。借助這一數據,Telco現在能夠調查和優化可變DSLAM。
分析方法
這一西格瑪可視化報告使用內建分析和在Teradata Aster平臺內發現的可視化創建而成。
收到的數據來自整個城市的住宅線路,其屬性包括衰減、比特率等。我們對這些屬性進行了整合,以確定表明客戶網絡體驗的性能等級。
這些簇構成了關性和回歸分析的基礎,以確定在不同因素下網絡性能的變化,這些因素包括:線路技術和長度、調制解調器類型和配置、DSLAM、卡技術、地理位置等。
該西格馬可視化圖表僅顯示了整體分析的一部分,即DSLAM與網絡性能間的聯系。
四 、綜合數據庫(IDW)淘金熱
關于洞察
歡迎來到“中介大數據”的世界。在這個世界里,諷刺地是,大數據將被用于降低成本和優化大數據本身。
如果你可以看到一個大型的綜合數據庫(IDW)里面,你會發現那是一個由數百萬相互關聯的數據元素和對象交織成的巨大網絡。在一個綜合數據庫每天加載數據時,成百上千的對象將在一個微小卻精心設計的處理鏈上相互作用,并將越加相互關聯緊密。在此過程中,數據被轉化、整合,并生成出最終的用戶視圖和報告。
那很棒,但是,如果你想要縮減數據庫加載時間,優化分析生態系統中的數據存儲,或者想轉到一個雙活性系統時,那該怎么辦呢?
首創“元數據科學家”保羅.丹瑟提出了這一無名的可視化方法。在Teradata 數據庫一個很大的產品持續近20年的發展歷史中,這個可視化第一次顯示出數據對象網絡的完全復雜性。金點(節點)顯示數據庫對象,灰線(邊緣)顯示他們相互的依賴性,因此我們可以看見那些微小而相互關聯的過程鏈。大塊密集群體是核心的、整合的數據結構,外側疏散的島嶼則是集市。
可視化讓我們能夠看到,所有微小的過程鏈都是相互依賴,且按順序排列的。因此,它就是優化IDW最好的工具。其圖表可以被用來決定雙活性選擇,并能在沒有依賴風險下,針對數據庫對象順序進行細節設計和部署。該可視化還可以揭露出大量各種各樣的非正式遺產“提取轉換與加載”模式(ETL),這些模式對優化新的加載和轉換程序十分的異常與危險。
分析方法
預定的Java應用曾通過獲取圖形進行可視化,遞歸式地從每個對象中提取“數據定義語言”(DDL)。其對象均起始于Teradata數據庫層次結構中的一個根。每個定義作為候補參考對象被搜索,并匹配一個模式,然后在內存中依據一個完整的數據庫對象進行驗證。一旦確定有效,“頂點”或者“節點”與“邊緣”關系將會被加入“有向非循環圖”對象中。
另外,一個對象列表也會輸出指定一個有效的順序部署。順序是通過“拓補排序法”在圖上決定的。有效的順序部署有很多種。
Teradata系統配置的加載最小化,利用Java應用在客戶端進行文本模型匹配和圖形處理。
五、Branch社區之樹
關于洞察
這張可視化圖表被用于幫助開發和分析Qlik的開源程序員社區Branch,這個社區被設計成為一個互動性開放式的探索導航平臺,而這個新的應用使得訪客得以發現關于網站中用戶、項目和它們之間關系的新含義。這張圖表可以用來理解這個網絡社區的社會動態,也能了解每個個體用戶的行為。為了加深理解、獲取洞察,關于相似性、類目、瀏覽量、評論和公司的元數據都被反映在這張圖表中。
圖中的圓點代表不同的項目,其大小代表瀏覽量的多少,這使得我們可以方便快速地發現那些最受歡迎的項目。節點還反映了項目的參與者及評論的多少,使我們能夠直觀地看到不同項目中合作程度的高低。圖中的圓點按照產品類目進行聚合并著色;圓點之間的連線則代表項目之間就相似程度和用戶群的聯系。
圖中最大的兩個點集標識了Qlik社區對于可視化拓展的關注;此外還有七個中等大小、五個小型的點集,向我們展示了這個社區的發展空間。淺藍色的線條連接著每個類目中的相似項目以及Qlik的兩個主要可視化類目;綠色的連線給出了一個令人驚訝的信息:大多數貢獻者傾向于跨越整個產品譜系開發項目,這也印證了Qlik分析平臺的威力。
分析方法
這張網絡可視圖利用Qlik Sense生成。圖中數據利用Kimono APIs從Qlik Branch網站中收集,并被存到Sense的儲存器中。圖中的分析主要關注哪些是已經公開的信息,之后也許會整合其他的網絡分析技術。
這張可視化圖表利用到了HTML, Javascript, CSS和高人氣的D3.js數據驅動可視化庫。最初的圖層基于把相似項目拉到一起的力導向圖;為了按類目進行項目分類,之后又增強了聚合力圖層;最后再利用Danny Holten的分層邊緣捆綁算法畫出連線。我們將來計劃開始利用Teradata Aster的K最近鄰聚類、樸素貝葉斯分類器等功能,創造更多關于這個數據集的洞察。這張圖表依然保持著與新用戶活動的互動,并每天進行更新。