排雷啦~咱們聊聊可視化技術中的一些常見誤區。
所謂數據可視化是指把數據以圖形動畫及地圖等形式呈現出來,這樣既直觀又美觀,易于理解從而看出數據背后的問題。
要做好數據可視化,需要兩方面的能力。一方面是“藝術”能力,即知道什么樣的數據用什么形式去表現最合適,該用柱形圖時不能用餅圖,顏色搭配也要合理,等等;另一方面是“技術”能力,設計好的呈現方案還要能真地做出來,并且要把成本控制在可接受范圍內。這里我們不深入討論“藝術”問題,來看看考察和選擇可視化技術中的一些常見誤區。
誤區:考察報表,挑可視化技術最好的?
報表原則上也是一種可視化手段,大多數報表工具在很久以前都提供了統計圖的功能,可算是可視化的初級階段。用戶自然會想到選購報表工具解決可視化需求,繼而也會自然地認真考察備選產品的呈現效果,挑一個可視化技術最好的出來?
這個想法對于大多數產品都是正確的,但在考察報表工具的可視化技術時卻不是這樣。
確實,可視化技術的門檻不低,要做出炫麗的圖形動畫并不容易,地圖呈現還需要事先準備大量數據。按說這種高門檻技術,各廠家產品一定會有明顯的差異。但是,可視化領域有一批無私奉獻的團隊在免費提供開源圖形包(含動畫、地圖等,當然也可能未必無私,只是咱不懂人家的賺錢模式,反正都不要錢、做得好、種類多),大家只要簡單集成這些開源包就能擁有很好的可視化能力了。
結果,產品的技術差異并不在報表工具上,而在這些開源包上。報表工具顯然不會把自己憋死,一般都能集成所有常見的開源包。結果就是,集成了開源包的報表工具在可視化技術上沒有差別!實在要比較報表工具在這方面的差別,也是比較數據規整和傳遞手段等集成方案,與可視化技術本身沒多大關系。如果只是圖形需求,那直接使用開源包即可。不過可視化呈現常常需要圖表混合,而開源包的報表能力一般很弱甚至沒有,并且要借助報表的格式和計算能力對原始數據做對齊整理,所以大部分情況下還是配合報表工具更好些,這時要對比的還是報表工具本身的能力。
報表工具向可視化發展并不能樹起新的技術門檻,門檻都在開源包那里。為了可視化能力而去購買某種報表工具也是花冤枉錢。還有些可視化產品使用自己的技術而不是開源包,但豐富程度與開源包沒法比,功能還要更弱,再考慮到價格,更是不值。
誤區:廠商演示漂亮,我們就能漂亮?
與上面類似的一種想法是:那家公司演示的可視化效果真好,買了他們產品后我們也能做出這種效果了?
很多用戶都會掉進這個坑里,買了某些產品后才發現自己并不能輕易地做出廠商演示的好效果。
有時用戶確實能明顯感到某些廠家的演示效果比其它廠家要好很多。但如前所述,既然采用開源包的可視化產品的技術能力是一樣的(不采用的,一般更弱一點),為什么還會有這樣的現象呢?原因是:感官上的差別并不是技術能力造成的,而是開始提到的“藝術”能力,具體來講就是行業知識和美術感覺的完美結合。幾家著名國外產品的可視化效果都很好,就是因為其藝術能力超強。
購買產品就能獲得產品所附帶的技術能力,但藝術能力卻沒那么簡單,它需要有豐富經驗的人根據現實情況來具體設計,這就變成一個服務而不是產品了。有些產品提供了模版能一定程度地把藝術能力傳遞出來,能適應有急迫需求的場景,但大多數情況還是要根據數據的行業特征和可視化的目標再設計并不斷修改才能獲得期望的好效果。把上面的話改成那家公司演示的可視化效果真好,請他們團隊幫我們做就能有這種效果了!就靠譜多了。
目前許多報表工具廠商也熱衷于向可視化方向發展,結果也是這樣。“技術”能力是開源包提供的,并不能構成門檻。想贏得用戶獲取收益,就只能靠“藝術”能力,商業路徑沒有問題,但“藝術”能力具有強烈的服務屬性,沒有辦法通用,會迫使公司轉型到服務型業務。
誤區:開源包太麻煩了,封裝簡化后就好了?
開源包內容豐富、功能強大,但也概念復雜、參數眾多,這意味著學習成本較高。一個普遍的想法是開源包用起來太麻煩了,有誰在外面封裝一層簡化一下就好了?
對效果要求不高的情況是沒有問題的,大部分集成了開源包的可視化產品(包括報表工具)也都會做簡化封裝以降低初次上手人員的學習門檻。但是,對于希望獲得優秀效果的用戶,那恐怕要失望了。
換位思考一下就能明白,這些開源包的作者們當然很希望自己的產品被廣泛應用,那自然也會努力把產品做得更易用,而且顯然這群人非常專業,那為什么還要做得這么復雜呢?答案是沒有辦法,如果想控制得深入自由,那就必須有足夠的參數才可以(目前的人工智能技術還沒有達到自動替用戶選定參數的水平),現在提交出來的已經是最好的結果了。試想一下,飛機的儀表盤和操控設備可能比汽車要多出十倍,但有哪個能省掉呢?
所以,如果想隨心所欲地做出炫麗效果,要充分利用開源包的功能,這個成本是省不掉的!其實這些開源包看起來復雜,實際上已經被作者們精心設計過的,學習成本并沒有乍看起來那么高,對于有前端開發經驗的程序員來說不難上手。當然這比直接使用封裝后的模版還是要難,那就要掂量一下需求簡單時是否還值得花錢來買這些模版了。
誤區:大數據可視化?
大數據也是個熱門詞,把兩個熱門詞結合起來的大數據可視化是個什么鬼?
數據可視化,不管是服務還是產品,也不管門檻高或不高,都是實實在在的業務。但加了個"大"字后,就有很大可能性變成忽悠了。
可視化的結果是要讓人看的,而人類視力有生理極限,無論圖形、表格、動畫等形式,都不可能直接觀察"大"數據(當然有人把幾萬條數據也稱作"大"那就另當別論了)。大數據要經過后臺處理變成"小"數據之后才能進入可視化環節去呈現,可視化階段已經不必再處理也處理不了數據量大的問題了。有時大數據也指數據來源形式多樣化,但即使這種"大",也不是可視化環節去處理的,仍然是在后臺數據準備階段處理。所謂的大數據可視化是個偽技術!可視化是可視化,大數據是大數據,這兩種技術沒啥直接關系。
不過,在業務上,大數據可視化是有意義的。從大量數據中如何選擇或匯總出哪些最該呈現的內容來展示、怎樣體現數據的多樣化,這些都是學問。只是,這都是前述的“藝術”能力,與“技術”能力無關。
聽到廠商喊大數據可視化時,要區分出其賣點在于“藝術”還是“技術”。一般行業軟件開發商屬于前者,他們優勢在于對行業的深刻理解,這是相對實在的;但大多數喊得兇的反而是后者,這些公司沒什么行業經驗,這么做只是為了博眼球。其實道理也簡單:如果某個技術廠商能把大數據準備工作做好(即把"大"變"小"的過程),這本身就是一個難得的好產品了,根本用不著綁著可視化一起說話;而如果大數據技術不過關,不敢單獨出來練,就會常常捆上可視化概念來引人注意了。天天喊大數據可視化技術的,可以直接鑒定成大忽悠。
蔣步星,潤乾軟件創始人、首席科學家。 清華大學計算機碩士,著有《非線性報表模型原理》等。
1989年,中國首個國際奧林匹克數學競賽團體冠軍成員,個人金牌。
2000年,創立潤乾公司,首次在潤乾報表中提出非線性報表模型,完美解決了中國式復雜報表制表難題,目前該模型已經成為報表行業的標準。
2014年,不依賴關系型數據的計算引擎——集算器正式發布。有效地提高了復雜結構化大數據計算的開發速度和運算效率。
2016年,榮獲中國電子信息產業發展研究院評選的“2016年中國軟件和信息服務業十大領軍人物”。
他將在近期來到“清華大數據”講座上,具體探討數據庫前沿技術,活動將于近期發布在“THU數據派”上,敬請期待!