1.大數據解決所有問題
在大數據的世界里,其炒作催生了一個全新的前提:有人認為如果企業使用大數據,它會自動使企業更成功,而企業通常會吹噓他們的數據集的作用,就像一個老漁夫談起他所捕獲的魚的個頭(到少是真實大小的兩倍,聽起來更有影響力)。而這些企業就像可憐的漁夫一樣,想要人們感覺大數據更為重要,這是為什么有些東西被夸大的原因。即使這些并沒有被夸大,這并不意味著僅僅因為收集的大數據集,就會使企業業務表現良好。
夸大信息的假定優勢似乎是可以理解的,因為你知道的越多,就可能期望更好的結果。不幸的是,一旦數據確實變得更大,更多的問題也會出現:信息更多,收集和系統化變得越困難。因此,當企業設法收集和系統化數據,以便實際可以對數據運行分析時,不僅不會夸大數據集的大小,而且也不會在冷數據倉庫中消失。
2.所有數據都是好的
由于許多公司吹噓他們的數據集有多大,那么出現了一些主要的問題:有多少數據是必要的,是否適合提高你的決策質量?額外的信息(即數據點)是否添加了任何值,如果沒有,則為什么它在數據集中?在其本質上,人們如何知道所收集的數據是其需要的數據,如何能夠獲得目前擁有的大部分信息?
大數據的使用只有在用于優化和自動化解決方案并解決問題時才有意義。人們需要將注意力從僅收集大量所有可能的數據轉移到在自己的具體領域內對收集的數據進行分類。為了使數據有價值,它必須在模型中進行排序,處理和使用。長期短期收集數據是很好的行為,但要確保知道如何有效地理解它的意義是有效的。
3.人們知道需要什么數據
大數據的最大問題是了解大量的數據是很困難的,這在規模的上是無法理解的。雖然人們仍然相信數據,大數據已經變成一種營銷術語,這使企業業務聽起來更酷,如果企業正好使用它。
讓人們面對:數據可能有問題。即使較小的數據集在技術上也可能是相當難以管理。更糟的是,沒有人知道你可能需要什么數據,除非你嘗試它。如果你的目標是運行許多實驗(這是值得鼓勵的),還需要可靠的慣例實驗,不僅是基于工具,而是主要依靠一個有能力的數據科學團隊,控制一個有意義的框架來生成模型所使用的數據集,過度擬合等),并且開發適當的目標變量,使得所收集的數據能夠有新的使用案例。