大數據作為繼云計算、物聯網之后IT行業又一大顛覆性技術革命,很多人對它并不陌生,然而大數據是否等同于海量數據,是否得到了有效地管理和利用,第三方互聯網數據服務提供商締元信CEO秦雯對此表示,行業中對大數據的認知有些混亂,大數據有待被重新認識和合理利用。
近年來,我國大數據產業已初具規模,被廣泛應用于各行各業,然而人們對于大數據的認識還存在歧義,這對于大數據產業的跨越式發展十分不利。這些認識偏差主要體現于以下幾個方面,首先,數據中心并不是大數據公司,數據中心涵蓋所有互聯網業務的網絡基礎設施,大數據只是其支撐業務的一部分。其次,云計算不等于大數據。很多云計算公司認為自己是大數據公司,海量數據的處理固然憑借云計算得以實現,但云計算只是大數據的系統基礎設施。
再次,并不是所有數字化信息一定能產生大數據。秦雯認為,大數據是數字化信息的生產和被消費的過程數據。并且,大數據并不等同于海量數據,樣本的數量和分析結果的準確性并不一定存在相關關系。美國東北大學與哈佛大學的研究人員發現,海量數據與經過嚴謹科學試驗和采樣設計得到的數據之間存在很大的不同。首先,大未必全,其次,大則可能魚龍混雜。海量數據和事件之間甚至會出現偽相關關系,例如Google曾在研究搜索“流感”與流感爆發的某種相關關系時嚴重高估了流感病例的數量,因為搜索“流感”的人除了感冒患者之外還有對媒體報道的跟風搜索者。因此缺少清洗的數據并不是大數據,歸根結底,還需要對數據進行模式分析,海量數據才能變成大數據。
大數據在數據資源的合理利用上存在不少實操上的問題。在搜集數據的環節,企業存在對數據的認知和業務脫節的現象。在管理數據的環節,企業的內部、外部數據存在孤島現象。易傳媒副總裁高照對此表示,一個大型企業里不同的數據分屬于不同的部門,CRM部門、市場部門等都有自己的數據,市場部門內的小組還可能有自己的數據,產品的制造、零售、社會化營銷過程中也有自己的數據。由于每一個數據來源不同,對應的產品不同,要把所有的數據綜合在一起,很難建立一個完整的畫像。在企業外部,一些分屬于不同行業的企業之間事實上已經存在數據流動或置換的意愿。在應用數據的環節,很多的企業盛行長官意志,領導人急功近利,追求速效。
與此同時,大數據的應用在生態環境方面面臨的問題主要有四點,政府在其中沒有起到應有的作用。第一個問題涉及公共數據,第二是用戶隱私,第三是數據開放,第四是技術倫理。在公共數據方面,很多人認為政府在中國擁有最多的數據,然而值得注意的是,政府在業務上的數據絕大部分都是統計數據。此外,由于中國全社會沒有養成數據培育和數據管理的習慣,數據質量存在很大的問題,政府部門也不例外。并且許多官方數據存在缺位現象,中國的IP地址數和IP地址分布情況在市場上流行的是民間整理的資料,然而這件事應當由政府來做,并且作為公共數據開放出來。在技術倫理方面,很多企業深受其害的廣告虛假點擊問題突出,而大數據的技術應用需要講究商業道德和倫理,如果這個問題不解決,大數據在中國落地將永遠是泡沫。
秦雯強調,大數據應用的前提是可用和有用,可用是指具備系統化、標準化、實時更新的數據管理平臺,有用是指業務的互聯網化、具有科學的管理決策理念,在此前提下企業才能形成從搜集數據到管理數據,到應用數據的閉環。但是,在上述這三個環節中都存在著現實上的問題。