讓十位首席信息官去定義大數據,你會得到十個不同的答案。 Gartner分析師Mark Beyer說,這是因為大數據對企業的IT專業人員來說仍然并不規范。
Beyer在今年Gartner的Symposium / ITxpo會議上說。“當事情變得很常見,那它就開始正?;?,我們的工作,作為IT專業人士,就是在2020年前使大數據變得正?;?rdquo;
首席信息官們可以通過從大數據謊言中區分出事實,來幫助他們的企業一步步走向正常。 “神話有助于緩解焦慮,而無益于實際情況,”他說。
這里是Beyer提出的八個大數據神話:
1.大數據起始于100 TB。
不要再去尋覓大數據標準尺寸了,因其并沒有標準尺寸。 “大數據是對數據的處理,而不是數據的大小,”Beyer說。
2.想要大數據就必須更換基礎設施。
“如果我因為有新的需求就決定改變整個基礎架構,那我是把之前所有的東西都當做了賭注,”Beyer說。他的經驗教訓是什么? “你要搞清楚,(基礎設施)成熟度犧牲的風險是否值得。”
3.百分之八十的數據是非結構化的。
這可能是最經常被引用的大數據統計了,但根據Beyer所說,其并不準確。 “世界上最大的信息資產是機器數據。因為其并未相互關聯就說它們非結構化絕對是個謊言。機器數據是結構化的數據。” 順便說一句,這些大量的機器數據,往往是重復的信息,確認了一切的正常。“這就是機器數據通常所表達的,”他說。
4.工具將取代數據科學家。
放心,所有花在吸引,拉攏,獲取數據科學家上的錢都不會白花,Beyer說。“工具是一種工程,工程是對已經發現的事實的重復利用。而科學是去發現新的事實。”工具不會取代數據科學家 –至少在工具可以自行復制和發展之前不會。
5.更多的數據就可以解決數據質量的問題。
“數據質量越低,答案質量就越低,”Beyer說。首席信息官們應該關注數據質量。以通過手機收集的氣質地理定位數據為例,有些人把手機等同于真實的個人,他說。然而,手機可以被不小心留在辦公室,或者GPS功能可以在任何時間點被關閉。“手機不是人,”Beyer說。
6.實時只是速度更快而已。
實時操作,并不意味著加快了當前數據的攝入清理和分析過程,Beyer說。而是“確保數據收集和決策之間的間隔越短越好,”他說。此外,大多數企業數據是不需要實時操作的。
7.數據量優于專業知識。
那些認為可以簡單地不再管業務流程的人,請再想一想。這是因為,“一位好的數據科學家必須在某一時刻被叫停”,Beyer說。如果沒有業務流程,數據科學家將不斷不斷不斷的進行下去而不能提供商業價值。需要有人幫忙劃清界線。
8.數據模型沒有用。
這一論斷很絕對。不過,Beyer澄清說,任何數字資產里的東西都有其數字模型。“我們不會因為大數據就舍棄模型,”他說。