在大數據時代,隨著數據的爆炸式增長,數據變得越來越多,雖然數據很多,但無用的也很多。要么是沒有價值的,要么就直接是錯誤的。使用大數據的技術需要解決數據清理問題。
取用數據的第一件事情就是要清理數據。甚至在將數據從數據源中取出放入存儲地之前,要先確認你輸入的數據是有效的。有時候,你要濾去5%的數據,有時候你甚至要忽略掉95%的數據,因為數據實在是太龐雜了。人們不應該存儲你不需要的數據,那樣做很浪費。現在的技術可以幫助你將一件事情分成多步,使人們可以在存儲和加工前,去除許多你不需要的數據。
許多企業都希望能躋身于大數據的變革中來。許多人認為他們需要做的,就是取用他們能獲取的所有數據。這其實是不經濟的,因為數據量實在太大了。所以,需要更明確自身的需求。就像你在烘焙蛋糕一樣,你可能想把各種佐料都加進去,但是你不會在里面放紅辣椒,因為這和烘焙蛋糕不相關。所以,要以大數據為基礎解決問題,你就會希望去除不相關的數據,而把精力集中在那些有價值的數據上。
關于大數據有一個很有趣的地方。“大數據”這個名字來源于兩個方面。一方面是源于數據繁多,也就是我們為什么稱之為大數據。另一方面是源于數據的無序性。過去,計算機只能處理以一種形式輸入的數據。當你輸入的數據形式不對時,你要去重新調整它。大數據的本質就是能處理那些并非必要的數據。自從人們和企業開始處理非結構化的數據,他們就發明出了新的技術工具,比如說分布式計算。這些新的技術工具使得人們可以將數據以非結構化的形式儲存。
因為數據繁多,你不能總是帶著一臺主機,或者通過一臺超級計算機來瀏覽這些數據。你要做的是,將大問題化解成一系列的小問題,然后采用更加高效的運算體系來一一破解這些小問題。這就是“并行運算”。
D1Net評論:
越來越多的數據充斥著大數據時代,令人眼花繚亂,在眾多紛繁的數據中,真正有用的數據其實并不多,而數據的真正價值在于加工,將數據進行二次加工,才能真正發揮數據的價值和作用。