Cloudera等大數(shù)據(jù)供應商談論了Hadoop和其他數(shù)據(jù)如何為用戶“民主化數(shù)據(jù)”。Cloudera公司的Justin Kestelyn表示,他們實現(xiàn)這一目標的的做法之一是為數(shù)據(jù)分析師提供多種方法來訪問數(shù)據(jù):“分析師現(xiàn)在可以使用BI工具、SAS、SQL命令行,或者甚至是自由文本搜索來訪問Hadoop,為各類用戶提供了各種選擇。”
但Kestelyn展示的其實是為某一類用戶提供多種選擇。
除了數(shù)據(jù)科學專家,對于大多數(shù)用戶而言,大數(shù)據(jù)也意味著大痛苦,這里的原因也很顯而易見。正如Mitchell Sanders所指出的,最好的數(shù)據(jù)科學家應該具備域知識、編程技能以及數(shù)學/統(tǒng)計分析技能。我們可能想要民主化對數(shù)據(jù)的訪問,但做起來很困難。
MongoDB公司的Joe Drumgoogle無奈地指出:“有些東西并不適合大眾市場,例如駕駛飛機或者做數(shù)據(jù)分析。”
即使對于數(shù)據(jù)科學家而言,Hadoop也很復雜。盡管如此,DataStax的Alex Popescu表示,這種復雜性是可以理解的,因為Hadoop讓我們可以實驗和嘗試新的想法,同時繼續(xù)積累和存儲你的數(shù)據(jù)。“它是開源且免費的,讓試錯過程很廉價。”
但如果大數(shù)據(jù)仍然只是數(shù)據(jù)精英的工具,大數(shù)據(jù)并不會走太遠。
民主化大數(shù)據(jù)
Kestelyn表示:“BI和Hadoop具有相同的挑戰(zhàn),這并不是技術挑戰(zhàn),而是如何讓企業(yè)變成數(shù)據(jù)驅(qū)動的企業(yè)。”
如果是這樣,那么,只有少數(shù)人具有查詢數(shù)據(jù)的能力,豈不是更強大?但事實是,如果你不能訪問數(shù)據(jù),很難做到“數(shù)據(jù)驅(qū)動”,并且通常情況下,最深入了解公司業(yè)務的人并不是懂得Spark或Hive的人。
現(xiàn)代BI和大數(shù)據(jù)離主流用戶很遠,正如Serendipity公司的Mare Lucas所說:
多年來,關于BI和數(shù)據(jù)分析的談話主要圍繞如何聚合海量數(shù)據(jù),然后讓數(shù)據(jù)科學家從中發(fā)現(xiàn)價值。現(xiàn)在,盡管信息泛濫,企業(yè)決策者往往無法以有效的方法來訪問數(shù)據(jù)。這些工具通常是針對懂得算法和統(tǒng)計分析的人,一般用戶很難使用這些工具。最終的結(jié)果?大數(shù)據(jù)的發(fā)展速度會很慢,大數(shù)據(jù)的魔力掌握在少數(shù)人手中。
行業(yè)專家Peter Goldmacher解釋說:“大數(shù)據(jù)領域最大的贏家并不是大數(shù)據(jù)技術供應商,而是利用大數(shù)據(jù)來創(chuàng)造全新業(yè)務或擾亂傳統(tǒng)業(yè)務的公司。”
但由于只有數(shù)據(jù)科學家擁有分析數(shù)據(jù)的能力,這并不會很快發(fā)生。
大數(shù)據(jù)和你
Tableau、Clearstory和Domo等新一代數(shù)據(jù)可視化工具旨在讓更廣泛的受眾來使用企業(yè)數(shù)據(jù)。這些公司提供交互式儀表板來顯示各種數(shù)據(jù)來源(Hadoop或Spark集群;Teradata EDW;MongoDB、MySQL、Cassandra或Oracle數(shù)據(jù)庫等),讓所有企業(yè)用戶都可以使用,并不需要特殊技能。
讓大數(shù)據(jù)更簡單的市場要比構(gòu)建大數(shù)據(jù)基礎設施的市場大得多。因此,鑒于銷售開源基礎設施支持合同的困難度,我們可以看看,現(xiàn)在的Hadoop供應商是否會購買Clearstorys和SlamData來真正實現(xiàn)數(shù)據(jù)民主化。
但就目前而言,大多數(shù)企業(yè)應該密切關注數(shù)據(jù)可視化供應商。在大多數(shù)情況下,這些不會是過去的BI供應商(他們都在努力應對非結(jié)構(gòu)化數(shù)據(jù)),而是現(xiàn)代BI初創(chuàng)公司,他們了解現(xiàn)在的數(shù)據(jù)很混亂,但可以通過正確的可視化工具來挖掘其價值。