《企業網D1Net》3月17日訊
在大數據時代下,大數據行業的發展之快,令人驚訝萬分,與此同時,隨著大數據分析的應用深入,大數據分析已經成為企業決策新助手。但中國有句古話“盡信書不如無書”,其實大數據分析沒有你想象的那么完美。這主要是由于大數據中并不是所有的數據對用戶都有價值,一些垃圾信息甚至對數據價值帶來深深的傷害,如何對收集的數據進行篩選、去偽存真,才是大數據真正實現價值的關鍵。
不可否認的是大數據擁有巨大的價值,但是就目前情況看來,大數據更像是鏡中花水中月,看似美好,實則言過其實。在浩如煙海的數據中心去發掘對用戶有價值的數據,就好比在垃圾場撿拾寶貝一樣,就好比在沙漠中尋找寶石一樣。
那么,如何從大量數據中心獲得對用戶有價值的信息呢?下面讓我們看一下當前人們是如何剔除垃圾信息,尋找數據價值。
為何要剔除這些垃圾信息你?其中一點上文中我們已經提到,這些垃圾信息影響我們的數據分析結果,讓數據價值難以體現,其實這只是垃圾信息的一種危害。同時,過多的垃圾信息還會造成客戶基礎設施的瓶頸,給系統帶來負擔,并增添存儲、主機等設備成本,大大增加企業用戶的運維成本。那么如何去除這些垃圾信息呢?
大數據相比于傳統的數據有著一個重要的區別,那就是非結構化數據的出現,這讓傳統的按照原本特定的規則和參數剔除垃圾信息的方式失去了用武之地。大數據時代需要新的垃圾信息剔除方式。但如今大數據正處于發展出去,各大IT廠商雖然都競相推出了大數據解決方案,但是針對垃圾信息剔除方面的方法幾乎沒有。
筆者認為不妨從以下兩個方面入手:
人力方面:如今的大數據分析方面缺乏只能,這樣很多解決方案并不能真正的實現智能分析,而人工就要承擔其中的智能部分。有些數據分析問題會被發送于負責相應問題的專員,由相關的大數據分析專業人員提供問題的解決方案。
IT廠商方面:除了在人力方面加大力度,培訓專業的人才。還需要更多的大數據廠商來提供更加智能的解決方案,光靠人力顯然是不夠的。
在未來面對這么大一堆的垃圾,這將是大數據廠商的一個重要挑戰。廠商們需要確立新的數據標準,幫助用戶更加深入的分析數據,能夠智能分辨數據的級別,自動剔除重復的、同一IP地址的或者惡意干擾的數據,這樣才會大大加快數據分析的速度。從無到有,有的時候可能就是一點點,然后需要一點點時間,逐步的積累,這是對大數據廠商的長期考驗。
D1Net評論:
隨著大數據價值的凸顯,很多企業都紛紛運用大數據為企業創造價值,然而,大數據并非都是好的,也存在很多垃圾數據,在運用過程中,需遵循取其精華,去其糟粕的原則,這樣才能將大數據的真正價值應用到實處。