精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

打破數據統一的七大原則

責任編輯:editor005

作者:黎婷

2017-07-10 14:42:45

摘自:中國IDC圈

數據統一在數據分析領域里是個長期的挑戰,從事數據分析的從業者希望在數據分析之前,來自不同實體的數據能夠在同一個地方呈現出來。

數據統一在數據分析領域里是個長期的挑戰,從事數據分析的從業者希望在數據分析之前,來自不同實體的數據能夠在同一個地方呈現出來。數據統一由七部分組成:1、獲取數據 2、清洗數據 3、轉換數據、4、模式集成 5、重復數據刪除、6、分類 7、導出

數據統一

一般而言,企業實現數統一有兩種方法,提取轉換加載(ETL)和主數據管理(MDM)。

提取轉換加載(ETL)具有靈活性的優勢,適合不同的數據來源,使程序員可以手工編寫轉換程序,能夠確保源數據模式與集中式數據倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉換加載帶寬能超過20個數據源沒有多少家公司。

主數據管理(MDM),它與ETL類似的地方在于,預設一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應商等的所有文件符合主記錄格式。但和ETL有所區別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規則,把所有不同的文件轉換成主格式。

可難解的是,在數據量過大的情況下,不管是ETL還是MDM,都無法解決數據統一難題。加上大數據集的龐大規模以及對程序員的苛刻要求任何的可規模化數據統一項目都必須在很大程度上實現自動化,不能依靠手動編寫的程序。

著名計算機科學家、Tamr聯合創始人兼首席技術官邁克爾·斯通布雷克(Michael Stonebraker)針對數據統一存在的限制難題,提出數據統一的七條原則。

一、所有的可規模化系統,都必須自動進行絕大多數的操作。

二、模式為先(schema-first)的產品永遠無法規模化。唯一的選擇是采用‘模式為后’(schema-last)的產品。

三、需要進行具體的域操作時,只有協作性的系統才可實現規模化。

四、為了實現可規模化,任何的統一計算必須在多個核心和多個處理器上運行。

五、盡管存在第四條原則,但真正的可擴展應用需要復雜性低于N ** 2的并行算法。

六、規則系統實現是無法規模化的。只有機器學習系統才能將規模擴展到大公司所需要的程度。

七、必須支持實時增量統一。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 云梦县| 从江县| 安康市| 东乡族自治县| 泰来县| 嘉黎县| 灌阳县| 上饶县| 宁阳县| 新密市| 修水县| 洮南市| 鸡泽县| 乌兰县| 滕州市| 玛曲县| 松滋市| 肃北| 阿巴嘎旗| 观塘区| 陵川县| 永春县| 太白县| 无极县| 阿尔山市| 沈丘县| 上林县| 武胜县| 开阳县| 徐闻县| 社旗县| 新干县| 临江市| 郴州市| 昔阳县| 湘阴县| 达拉特旗| 大姚县| 温宿县| 布尔津县| 太康县|