IBM公司最近發布的調查報告表明,“當今全球90%的數據都是在過去兩年內創建的”。并且每天的數據正在以2.5ZB字節增長,這個數字將接下來的幾年得到爆炸式增長。
這似乎令人印象深刻,但其中大部分僅僅是原始數據。但是,人們可能會指出,有了這些數據,人們正在推進技術,改進結果,豐富生活,做出更好的決策。這是事實。但是,如果所有這些數據都得到了豐富,那么這些結果有多大的改善呢?考慮一下豐富數據的概念,使數據真正成為組織、項目或研究的資產。它也顯示了以多種方式積極使用數據的共同重要性。
當然,數據豐富程度也不盡相同,能夠以不同的方式工作。在這個過程中使用了大量的工具,其最終目標是數據的細化。這可能就像修正輕微的數據輸入錯誤,使用算法的拼寫錯誤或拼寫錯誤一樣簡單。遵循這個基本原理,數據豐富工具可以將信息添加到基本數據表中。數據豐富的另一個例子是通過外推數據。這是通過使用諸如模糊邏輯等數據方法完成的,數據庫管理員或數據科學家可以從給定的原始數據集中生成更多的數據。
在大數據的世界里,數據豐富化已經實現,使集成數據的業務價值顯著提高。正如人們最近注意到的有關ETL供應商和開發人員的工作,他們傳統上只是將數據從源數據移動到目標數據?,F在是使用數據濃縮過程和技術改進結果的時候了。但是,需要注意的是,企業應該領導和管理豐富數據的定義。
人們可能會問,企業的業務或流程如何為其數據增加價值,并支持跨越數據豐富的更大決策。基本的數據豐富服務可以很容易地從一些提供商獲得,如Lusha,Crunchbase,Trillium等獲得。當企業選擇一個數據豐富的合作伙伴時,重要的是清楚地將組織的業務目標傳達給潛在合作伙伴。
數據收集的好處
那么現在企業可以豐富其正在收集的數據,但是是否了解收集所存儲的這些數據的好處?企業可以做出正確的決定,確保盡可能高效地收集和存儲數據。當然,這對企業的業務或項目至關重要。然而,真正的價值在于如何增加數據,并將最終獲得它的好處。如果企業能夠更好地理解和了解自己的業務,從而幫助企業改善決策,激發客戶參與度,并提高盈利水平,那么數據豐富的程度將最為重要。
最終,企業的目標是提高當前存儲的數據。無論是在捕獲點還是在數據積累之后,從全面的信息源中增加洞察力,這都是獲得真正價值的地方。有了這個洞察力,企業將獲得對自己的前景和目標市場更好、更完整的理解。從本質上講,企業將通過將業務信息附加到自己捕獲和存儲的記錄中,詳細了解市場,找出業務前景的關鍵社會人群,或提高整個業務部門的效率。
豐富到下一個層次-機器學習
當然,使用精確算法是豐富數據的一種常用方法,但是如何使用機器學習來實現更高級別或更快速的數據豐富化過程呢?通常在談論機器學習時,企業將構建預測模型關聯起來,從而產生洞察力,直接幫助業務經理做出決策。使用機器學習作為數據豐富應用程序的一部分,通常用于向現有數據添加有用的標簽或其他材料,以便更有效地使用該數據。在這些過程中,機器學習的功能發生在分析或豐富數據的早期階段。在大數據環境下工作時,有時收集的數據量太大,人為地將這種分類信息添加到數據中是不切實際的。因此,機器學習對這些巨大任務將會有一定的依賴。