八個大數據“神話”a
對于大數據而言,如果讓十位企業首席信息官(CIO)去定義它,相信會得到十種不同的案。近日,Gartner分析師Mark Beyer談及這種情況,主要是因為大數據對企業IT專業人員仍然并不規范。Gartner的Symposium/ITxpo會議上談到,當大數據變得常見就會正常化,而作為IT專業人士在2020年大數據或變得正常化。
企業首席信息官們可以通過從大數據謊言中區分出實際需求的事實,來幫助他們的企業一步步走向正常。Gartner分析師Mark Beyer提出八個大數據“神話”:
1.100TB以上屬于大數據
就大數據而言,是對數據的處理,而非數據的大小,企業不要再去尋覓大數據標準尺寸,因為大數據并沒有標準尺寸。
2.大數據需更換基礎設施
如果企業因為有新的需求就決定改變整個基礎架構,分析師Mark Beyer表示企業是把之前所有的東西都當做賭注。對于CIO而言,IT基礎設施成熟度犧牲的風險是否值得。
3.80%數據是非結構化
從數據上看,結構化和非結構化被經常引用大數據統計,但根據Beyer所談最大的信息資產是機器數據,其并未相互關聯說它們非結構化是絕對的謊言,而機器數據是結構化的數據,通常也是重復的信息。
4.工具將取代數據科學家
對于數據科學家,工具是一種工程,是對已經發現的事實的重復利用。而科學是去發現新的事實,所以工具不會取代數據科學家,至少在工具可以自行復制和發展之前不會。
5.海量數據解決質量問題
Gartner分析師Mark Beyer認為:“數據質量越低,答案質量就越低”。企業CIO們應該關注數據質量,通過手機收集的氣質地理定位數據為例,有些人把手機等同于真實的個人,但對于數據質量來說有可以被不小心留在辦公室,或者GPS功能可以在任何時間點被關閉。
6.實時只是速度更快而已
實時操作,并不意味著加快了當前數據的處理和分析過程,而是確保數據收集和決策之間的間隔越短越好。此外,大多數企業數據是不需要實時操作的。
7.數據量優于專業知識
對于大數據來說,那些認為可以簡單地不再管業務流程的人,通常一位好的數據科學家并不能完全提供企業需求,如果沒有業務流程管理,數據科學家將不能提供商業價值,需要企業有效的區分業務管理和大數據應用進而產生商業價值。
8.數據模型沒有用
Gartner分析師Mark Beyer談到,數據模型沒有用這一論斷很絕對。任何數字資產里的東西都有其數字模型,企業不應該因為大數據就舍棄模型。