近期,有關大數據的新聞占據著各大媒體科技報道的主要版面。但是,有許多文章似乎華而不實,一些報道鼓吹大數據是能夠解決一切問題的解決方案,如它能進行入侵檢測、預防詐騙、治療癌癥,甚至還能設置最優的產品價格。
但是,業界定義的大數據是指迅速收集的、各種各樣的、大量的數據集合,而不是能夠處理一切問題的萬能解決方案。在現實中,如果一些企業偏信這些與大數據相關的謬見,那么這些企業很可能會偏離正軌,走向錯誤的發展方向,浪費大量的時間和金錢,喪失其在市場上有利的競爭地位,還可能損害企業的聲譽。
此篇文章就講述了業界常出現的有關大數據五大謬見。
1. 只有數據科學家才能處理大數據
事實上,在處理大數據時,光靠數據科學家是遠遠不夠的。
“如果你不能首先確定到底需要什么樣的信息的話,那么單憑數據科學家自己是不可能成功地從大數據中提取有用信息的”,賓夕法尼亞大學醫院(Penn Medicine)數據分析部門高級主管Pat Farrell說:“你還需要熟悉業界動態、掌握相關領域知識的人才,他們知道問題的所在,也了解什么樣的解決方案對于你所從事的領域最有價值。”
例如,在賓夕法尼亞大學醫院有兩個系統,一個是醫療系統,一個是醫學院系統。長期以來,醫療系統通常從一個數據倉庫中收集臨床醫療數據。與此同時,在醫學院系統中,出現了一個新的技術,可以實現對人類基金組的排序,并產生了大量的數據。
Farrell說:“我們知道這些數據一定存在著某些價值,而我們最終也有了能夠獲取這些價值的計算能力。我們將專業的醫療知識與數據分析技術相結合,為預測醫療開拓了一片新的、更廣闊的領域。”
2. 數據越大,價值越大
收集數據,并把它儲存起來再登記入冊,這會花費許多時間、占用很多資源。如果企業或機構在收集數據時不加選擇、任意地收集大量數據,那么很可能會造成大量的資源浪費,而這些資源完全可以用到更有價值的項目上去。
Farrell建議企業在收集數據之前一定要有一個具體的目標,或關鍵性能指標,要明確自己需要什么樣的數據,再去有目的地收集數據。
Farrell說:“你需要從你收集的數據中提取有價值的信息,但這并不代表你收集的數據越多,你所獲得的價值越大。”
3. 大數據用于大企業
大企業或許會有更多的內部數據來源,他們可以利用這些數據獲取對自身企業發展有價值的東西。但這并不代表大數據只用于大企業,小企業也能夠收集來自社交媒體平臺、政府機構和數據供應商的數據,并從這些數據中提取有利信息。
戴爾軟件信息管理解決方案部門的產品管理高級總監Darin Bartik說:“對于企業來說,不管它的規模有多大,利用數據分析制定的決策總比單純依靠直覺或第六感制定的決策要好得多,且更加可靠。”
小企業雖然不像大企業那樣經常利用數據分析來制定決策,但是當這些小企業真正這樣做的時候,它們會使公司走向快速、正確的發展軌道。
Darin Bartik說:“小企業可以利用其最佳實踐,進一步推動數據分析決策在企業中的發展,以此趕超或者勝過那些強大的競爭對手。”
[page]
4. 收集數據后不及時整理分類
位于美國舊金山的云計算商業智能供應商Birst的首席執行官Brad Peters表示,雖然數據存儲的成本越來越低,但它并不是免費的。然而,對于許多大公司來說,它們對于數據欲望的增長速度要比數據存儲成本降低的速度快得多。
許多企業往往在收集完數據之后,并不迅速處理這些數據,造成數據存儲成本增加。Brad Peters說:“我發現很多大的企業或機構收集了一大堆數據之后卻不及時處理這些數據,導致他們在這些數據上的開支逐漸增大,而他們也并沒有從這些數據中獲取任何價值。”
事實上,企業中的一些數據集已經開始造成了企業的收益遞減。這種現象就像通過分析選民數據信息來預測選舉結果一樣,在預測過程中,你需要一定數量的選民作為樣本,但是如果樣本數量超過一個臨界點之后,無論增加多少選民,對于預測結果不會有任何太大的影響。也就是說,樣本數量過多,所花費的成本也就越多,但對于目標沒有任何實質性的價值。
“數據冗余的話,企業支出的不僅僅是存儲成本,還會面臨許多其他的問題”, Recommind公司信息治理和大數據管理全球主管Dean Gonsowski說。比如,如果數據泄露的話,那么公司也會承擔相應的損失。Recommind是一家位于美國舊金山的專注于非結構化數據分析的公司。
最終,數據越多,那么分類整理數據所需要的時間也就越多。Dean Gonsowski說:“當數據倉庫的規模達到數十億條記錄時,那么光是檢索數據就需要花上幾個小時,甚至是幾個星期。這時候,這些信息非但不會給企業帶來商業價值,反而會阻礙企業系統的運轉,因為這些系統根本不能處理這么大信息量。”
5. 所有數據都是一樣的
美國佛吉尼亞州曾收集過在過去20年里學生的注冊信息、獎學金,以及學位授予情況的數據,但這并不意味著20年前收集的與之存儲在同一個數據域里的數據就一定是相同的數據。
佛吉尼亞州高等教育委員會的政策研究和數據倉庫部門的主管Tod Massa說:“由于數據都存儲在一個數據倉庫里,這導致研究人員認為這些數據都是等同的,而這正是我需要處理的一個最大的問題。我們收集的ACT(American College Test,美國大學入學考試)和SAT(Scholastic Assessment Test,學術能力評估測試)的學生成績,最初我們收集的只是整個佛吉尼亞州的學生成績,但這導致我們的調查研究出現一個缺口,所以后來我們不僅收集了佛吉尼亞州的數據,還收集了其他州學生的數據。而且,不同種族在K-12級和高等教育的數據也不同。”
事實上,任何特定的數據,如果由不同的組織機構,或在不同的時間內,或由不同的人發布的話,也有所不同。Tod Massa說:“假如收集數據的這家公司或機構是完全孤立或與世隔絕的,那么情況可能會不一樣。但我認為,隨著時間的推移,它們收集的數據也會有所變化。”
因此,數據分析人員不僅要有數據統計的技能,還要掌握一定的數據知識,并清楚地了解相關行業內的動向和整體發展趨勢。
這一點也同樣適用于從外部數據源收集的數據,過去的那種數據收集和分析的方式已經完全改變了。能夠了解不同的數據文化背景和數據環境,對于充分利用這些數據是非常必要的。