數據統一在數據分析領域里是個長期的挑戰,從事數據分析的從業者希望在數據分析之前,來自不同實體的數據能夠在同一個地方呈現出來。數據統一由七部分組成:1、獲取數據 2、清洗數據 3、轉換數據、4、模式集成 5、重復數據刪除、6、分類 7、導出
一般而言,企業實現數統一有兩種方法,提取轉換加載(ETL)和主數據管理(MDM)。
提取轉換加載(ETL)具有靈活性的優勢,適合不同的數據來源,使程序員可以手工編寫轉換程序,能夠確保源數據模式與集中式數據倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉換加載帶寬能超過20個數據源沒有多少家公司。
主數據管理(MDM),它與ETL類似的地方在于,預設一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應商等的所有文件符合主記錄格式。但和ETL有所區別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規則,把所有不同的文件轉換成主格式。
可難解的是,在數據量過大的情況下,不管是ETL還是MDM,都無法解決數據統一難題。加上大數據集的龐大規模以及對程序員的苛刻要求任何的可規模化數據統一項目都必須在很大程度上實現自動化,不能依靠手動編寫的程序。
著名計算機科學家、Tamr聯合創始人兼首席技術官邁克爾·斯通布雷克(Michael Stonebraker)針對數據統一存在的限制難題,提出數據統一的七條原則。
一、所有的可規模化系統,都必須自動進行絕大多數的操作。
二、模式為先(schema-first)的產品永遠無法規模化。唯一的選擇是采用‘模式為后’(schema-last)的產品。
三、需要進行具體的域操作時,只有協作性的系統才可實現規模化。
四、為了實現可規模化,任何的統一計算必須在多個核心和多個處理器上運行。
五、盡管存在第四條原則,但真正的可擴展應用需要復雜性低于N ** 2的并行算法。
六、規則系統實現是無法規模化的。只有機器學習系統才能將規模擴展到大公司所需要的程度。
七、必須支持實時增量統一。