精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:云計算行業(yè)動態(tài) → 正文

將數(shù)據(jù)遷移到云:回到未來?

責(zé)任編輯:cres 作者:Paul Barth |來源:企業(yè)網(wǎng)D1Net  2018-06-20 11:12:48 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。
 
我在最近的“賭場之夜”活動中,在21點上押上了所有籌碼,并在最后一手牌大獲全勝。同事對我的勇氣大加贊賞,我還贏得了獎勵(我們不是為了錢而賭博),他們問我為什么冒險下注,我回答說:“沒有什么危險的。”
 
規(guī)劃云遷移的大型企業(yè)也是如此。按需容量,低成本存儲以及豐富的開源和商業(yè)工具生態(tài)系統(tǒng)的前景十分激動人心。但是風(fēng)險是真實存在的,特別是在數(shù)據(jù)遷移方面。數(shù)百家公司現(xiàn)在已經(jīng)證明,單一數(shù)據(jù)泄露可能會造成長期的經(jīng)濟,法律和品牌上的損失。除了數(shù)據(jù)保護之外,僅僅管理云中的數(shù)據(jù)是不同的,如果做法不當(dāng),成本,復(fù)雜性和風(fēng)險會使一切毀于一旦。
 
將數(shù)據(jù)倉庫或數(shù)據(jù)湖泊簡單地“提升并轉(zhuǎn)移”到云中將不會產(chǎn)生成本節(jié)省來證明這其中付出的合理性。對總擁有成本(TCO)和規(guī)模都有顯著影響的云技術(shù)是低成本的對象存儲(例如Amazon S3,ADLS)和彈性數(shù)據(jù)處理(EMR,Spark)。事實上,利用這些措施來建立一個彈性的(而不是固定的)數(shù)據(jù)管理云環(huán)境,這可以將總擁有成本降低85%之多。
 
管理云中的數(shù)據(jù)需要多少成本?
 
需要注意的是,降低數(shù)據(jù)存儲成本的技術(shù)提供的數(shù)據(jù)管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng))所具備的數(shù)據(jù)完整性控制、負載平衡和自動化。同樣,S3比Hadoop數(shù)據(jù)節(jié)點上的存儲更便宜,但它只是一個文件系統(tǒng)。沒有表,字段或數(shù)據(jù)類型。如果你要在S3上查詢或處理數(shù)據(jù),你需要使用商業(yè)或開源工具(例如AWS Glue、EMR)或編寫自定義程序。為了管理和更新S3中的數(shù)據(jù),你需要一個數(shù)據(jù)管理工具(Redshift、Snowflake、Podium)。數(shù)據(jù)保護僅限于加密文件——當(dāng)你想要分析在某些字段中具有PII的數(shù)據(jù)集時,數(shù)據(jù)保護功能不是很有用。盡管對象存儲可擴展,價格低廉且靈活,但它使數(shù)據(jù)管理倒退了幾十年。
 
與很多不成熟的技術(shù)一樣,對象存儲的局限性也被鼓吹為功能特性。它們“允許”程序員處理任意大小,形狀或質(zhì)量的數(shù)據(jù),并解釋其結(jié)構(gòu)和內(nèi)容。這種“讀取模式(schema on read)”方法適于處理非結(jié)構(gòu)化數(shù)據(jù)或頻繁更改結(jié)構(gòu)的數(shù)據(jù)。但它妨礙了自動化、標(biāo)準化和規(guī)模化,這對于協(xié)作和重用來說至關(guān)重要,因為數(shù)據(jù)的含義隱藏在代碼中。這聽起來是不是很熟悉?是的。關(guān)系數(shù)據(jù)庫的口號就是要使數(shù)據(jù)的結(jié)構(gòu)和含義成為聲明式的,而不是嵌入在COBOL重定義中(你可以去查)。
 
根據(jù)目錄優(yōu)先策略建立的紐帶
 
高度結(jié)構(gòu)化的數(shù)據(jù)庫和“為所欲為”的對象存儲之間的紐帶是數(shù)據(jù)目錄。目錄是一個共享數(shù)據(jù)庫,為對象庫中的數(shù)據(jù)提供結(jié)構(gòu)和含義。Hadoop目錄包括HIVE、Atlas和Navigator,它們定義了HDFS文件如何構(gòu)成表和字段。通過API,程序可以查詢目錄來查找邏輯數(shù)據(jù)對象的結(jié)構(gòu),其技術(shù)和業(yè)務(wù)屬性,訪問權(quán)限以及數(shù)據(jù)文件的位置。然后這些程序可以將洞察和結(jié)果推回到目錄中以豐富它。
 
但是,很多云目錄都是被動的——它們掃描文件和日志,在數(shù)據(jù)得到處理后推斷數(shù)據(jù)的結(jié)構(gòu)和使用。然而,數(shù)據(jù)管理必須是主動的,以確保敏感數(shù)據(jù)不會暴露,重要的數(shù)據(jù)標(biāo)準得到了遵守,圖謀不軌者不會實施不牢靠的計劃。所有云遷移都應(yīng)采用以目錄為中心的策略:
 
•所有共享和敏感數(shù)據(jù)都在一個通用目錄中注冊
 
•所有程序都將通過目錄訪問數(shù)據(jù)并記錄其活動
 
這使得公司可以提供支持各種快速發(fā)展的技術(shù)的基本數(shù)據(jù)管理。S3上的數(shù)據(jù)湖泊可以支持Hadoop處理、自定義PySpark代碼、R分析,Amazon Glue等,同時維護(并豐富)共享數(shù)據(jù)資產(chǎn)。此外,人們還可以制定一個如何存儲,更新和檢查數(shù)據(jù)質(zhì)量的標(biāo)準,從而實現(xiàn)這些任務(wù)的自動化。
 
目錄還支持彈性,這對云經(jīng)濟至關(guān)重要。目錄可以在一臺服務(wù)器上全天候提供使用,它支持業(yè)務(wù)用戶購買數(shù)據(jù),開發(fā)人員設(shè)計新數(shù)據(jù)產(chǎn)品,管理員檢查質(zhì)量并添加業(yè)務(wù)定義。只有數(shù)據(jù)處理任務(wù)(如數(shù)據(jù)加載、刷新、準備和分析)需要并行處理能力。關(guān)系數(shù)據(jù)庫和Hadoop習(xí)慣上將存儲,處理和目錄結(jié)合在一個固定的系統(tǒng)中,隨著數(shù)據(jù)的增長,成本會全線上升。在新的世界里,目錄又是處理能力和廉價存儲之間的橋梁。大量的數(shù)據(jù)可以通過目錄進行合理管理,并且可以控制處理成本。實際上,如果目錄具有分析統(tǒng)計信息(例如基數(shù)、最小值、最大值),那么它就可以優(yōu)化數(shù)據(jù)的處理。
 
以目錄為中心的另一個好處是可移植性。云供應(yīng)商迫切希望你注冊他們的集成的專有工具。這就是他們的策略——一旦他們的應(yīng)用程序中擁有你的數(shù)據(jù)和代碼,他們就掌握了你。目錄為你提供了選擇——我們確實在一個周末將一個客戶從一家云供應(yīng)商遷移到另一家供應(yīng)商,因為另一家供應(yīng)商是由目錄驅(qū)動并自動化的。
 
在防火墻后面,目錄優(yōu)先策略是最好的,它使你對以目錄為中心的戰(zhàn)略做好準備。自動編目工具可以使你在幾周內(nèi)洞悉所有的數(shù)據(jù)資產(chǎn)(關(guān)系型、大型機、Hadoop、文件),并為你提供遷移劇本(playbook)。
 
•我們應(yīng)該遷移什么資源?
 
• GDPR和PII數(shù)據(jù)在哪里?
 
•我們應(yīng)該將哪些重復(fù)的和相關(guān)的數(shù)據(jù)合理化?
 
•什么是各個字段的配置文件,內(nèi)容和質(zhì)量?
 
人們的目標(biāo)就是通過可驗證的審計跟蹤(audit trail)來創(chuàng)建云就緒(cloud-ready)數(shù)據(jù),以證明其來源、血緣和質(zhì)量。此外,目錄通過對廣泛用戶群體的安全,自助訪問為敏捷性和擴展性提供了基礎(chǔ)。如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

關(guān)鍵字:云計算

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 將數(shù)據(jù)遷移到云:回到未來? 掃一掃
分享本文到朋友圈
當(dāng)前位置:云計算行業(yè)動態(tài) → 正文

將數(shù)據(jù)遷移到云:回到未來?

責(zé)任編輯:cres 作者:Paul Barth |來源:企業(yè)網(wǎng)D1Net  2018-06-20 11:12:48 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。
 
我在最近的“賭場之夜”活動中,在21點上押上了所有籌碼,并在最后一手牌大獲全勝。同事對我的勇氣大加贊賞,我還贏得了獎勵(我們不是為了錢而賭博),他們問我為什么冒險下注,我回答說:“沒有什么危險的。”
 
規(guī)劃云遷移的大型企業(yè)也是如此。按需容量,低成本存儲以及豐富的開源和商業(yè)工具生態(tài)系統(tǒng)的前景十分激動人心。但是風(fēng)險是真實存在的,特別是在數(shù)據(jù)遷移方面。數(shù)百家公司現(xiàn)在已經(jīng)證明,單一數(shù)據(jù)泄露可能會造成長期的經(jīng)濟,法律和品牌上的損失。除了數(shù)據(jù)保護之外,僅僅管理云中的數(shù)據(jù)是不同的,如果做法不當(dāng),成本,復(fù)雜性和風(fēng)險會使一切毀于一旦。
 
將數(shù)據(jù)倉庫或數(shù)據(jù)湖泊簡單地“提升并轉(zhuǎn)移”到云中將不會產(chǎn)生成本節(jié)省來證明這其中付出的合理性。對總擁有成本(TCO)和規(guī)模都有顯著影響的云技術(shù)是低成本的對象存儲(例如Amazon S3,ADLS)和彈性數(shù)據(jù)處理(EMR,Spark)。事實上,利用這些措施來建立一個彈性的(而不是固定的)數(shù)據(jù)管理云環(huán)境,這可以將總擁有成本降低85%之多。
 
管理云中的數(shù)據(jù)需要多少成本?
 
需要注意的是,降低數(shù)據(jù)存儲成本的技術(shù)提供的數(shù)據(jù)管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng))所具備的數(shù)據(jù)完整性控制、負載平衡和自動化。同樣,S3比Hadoop數(shù)據(jù)節(jié)點上的存儲更便宜,但它只是一個文件系統(tǒng)。沒有表,字段或數(shù)據(jù)類型。如果你要在S3上查詢或處理數(shù)據(jù),你需要使用商業(yè)或開源工具(例如AWS Glue、EMR)或編寫自定義程序。為了管理和更新S3中的數(shù)據(jù),你需要一個數(shù)據(jù)管理工具(Redshift、Snowflake、Podium)。數(shù)據(jù)保護僅限于加密文件——當(dāng)你想要分析在某些字段中具有PII的數(shù)據(jù)集時,數(shù)據(jù)保護功能不是很有用。盡管對象存儲可擴展,價格低廉且靈活,但它使數(shù)據(jù)管理倒退了幾十年。
 
與很多不成熟的技術(shù)一樣,對象存儲的局限性也被鼓吹為功能特性。它們“允許”程序員處理任意大小,形狀或質(zhì)量的數(shù)據(jù),并解釋其結(jié)構(gòu)和內(nèi)容。這種“讀取模式(schema on read)”方法適于處理非結(jié)構(gòu)化數(shù)據(jù)或頻繁更改結(jié)構(gòu)的數(shù)據(jù)。但它妨礙了自動化、標(biāo)準化和規(guī)模化,這對于協(xié)作和重用來說至關(guān)重要,因為數(shù)據(jù)的含義隱藏在代碼中。這聽起來是不是很熟悉?是的。關(guān)系數(shù)據(jù)庫的口號就是要使數(shù)據(jù)的結(jié)構(gòu)和含義成為聲明式的,而不是嵌入在COBOL重定義中(你可以去查)。
 
根據(jù)目錄優(yōu)先策略建立的紐帶
 
高度結(jié)構(gòu)化的數(shù)據(jù)庫和“為所欲為”的對象存儲之間的紐帶是數(shù)據(jù)目錄。目錄是一個共享數(shù)據(jù)庫,為對象庫中的數(shù)據(jù)提供結(jié)構(gòu)和含義。Hadoop目錄包括HIVE、Atlas和Navigator,它們定義了HDFS文件如何構(gòu)成表和字段。通過API,程序可以查詢目錄來查找邏輯數(shù)據(jù)對象的結(jié)構(gòu),其技術(shù)和業(yè)務(wù)屬性,訪問權(quán)限以及數(shù)據(jù)文件的位置。然后這些程序可以將洞察和結(jié)果推回到目錄中以豐富它。
 
但是,很多云目錄都是被動的——它們掃描文件和日志,在數(shù)據(jù)得到處理后推斷數(shù)據(jù)的結(jié)構(gòu)和使用。然而,數(shù)據(jù)管理必須是主動的,以確保敏感數(shù)據(jù)不會暴露,重要的數(shù)據(jù)標(biāo)準得到了遵守,圖謀不軌者不會實施不牢靠的計劃。所有云遷移都應(yīng)采用以目錄為中心的策略:
 
•所有共享和敏感數(shù)據(jù)都在一個通用目錄中注冊
 
•所有程序都將通過目錄訪問數(shù)據(jù)并記錄其活動
 
這使得公司可以提供支持各種快速發(fā)展的技術(shù)的基本數(shù)據(jù)管理。S3上的數(shù)據(jù)湖泊可以支持Hadoop處理、自定義PySpark代碼、R分析,Amazon Glue等,同時維護(并豐富)共享數(shù)據(jù)資產(chǎn)。此外,人們還可以制定一個如何存儲,更新和檢查數(shù)據(jù)質(zhì)量的標(biāo)準,從而實現(xiàn)這些任務(wù)的自動化。
 
目錄還支持彈性,這對云經(jīng)濟至關(guān)重要。目錄可以在一臺服務(wù)器上全天候提供使用,它支持業(yè)務(wù)用戶購買數(shù)據(jù),開發(fā)人員設(shè)計新數(shù)據(jù)產(chǎn)品,管理員檢查質(zhì)量并添加業(yè)務(wù)定義。只有數(shù)據(jù)處理任務(wù)(如數(shù)據(jù)加載、刷新、準備和分析)需要并行處理能力。關(guān)系數(shù)據(jù)庫和Hadoop習(xí)慣上將存儲,處理和目錄結(jié)合在一個固定的系統(tǒng)中,隨著數(shù)據(jù)的增長,成本會全線上升。在新的世界里,目錄又是處理能力和廉價存儲之間的橋梁。大量的數(shù)據(jù)可以通過目錄進行合理管理,并且可以控制處理成本。實際上,如果目錄具有分析統(tǒng)計信息(例如基數(shù)、最小值、最大值),那么它就可以優(yōu)化數(shù)據(jù)的處理。
 
以目錄為中心的另一個好處是可移植性。云供應(yīng)商迫切希望你注冊他們的集成的專有工具。這就是他們的策略——一旦他們的應(yīng)用程序中擁有你的數(shù)據(jù)和代碼,他們就掌握了你。目錄為你提供了選擇——我們確實在一個周末將一個客戶從一家云供應(yīng)商遷移到另一家供應(yīng)商,因為另一家供應(yīng)商是由目錄驅(qū)動并自動化的。
 
在防火墻后面,目錄優(yōu)先策略是最好的,它使你對以目錄為中心的戰(zhàn)略做好準備。自動編目工具可以使你在幾周內(nèi)洞悉所有的數(shù)據(jù)資產(chǎn)(關(guān)系型、大型機、Hadoop、文件),并為你提供遷移劇本(playbook)。
 
•我們應(yīng)該遷移什么資源?
 
• GDPR和PII數(shù)據(jù)在哪里?
 
•我們應(yīng)該將哪些重復(fù)的和相關(guān)的數(shù)據(jù)合理化?
 
•什么是各個字段的配置文件,內(nèi)容和質(zhì)量?
 
人們的目標(biāo)就是通過可驗證的審計跟蹤(audit trail)來創(chuàng)建云就緒(cloud-ready)數(shù)據(jù),以證明其來源、血緣和質(zhì)量。此外,目錄通過對廣泛用戶群體的安全,自助訪問為敏捷性和擴展性提供了基礎(chǔ)。如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

關(guān)鍵字:云計算

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 瓮安县| 喀什市| 从江县| 庆云县| 淅川县| 昌江| 珲春市| 罗定市| 平舆县| 荆州市| 铜鼓县| 江陵县| 平定县| 白朗县| 禹城市| 军事| 小金县| 龙口市| 石泉县| 西乌珠穆沁旗| 肇州县| 宁乡县| 黄平县| 温泉县| 应用必备| 淮滨县| 乐陵市| 华容县| 定边县| 探索| 铜川市| 凤凰县| 十堰市| 洪洞县| 乌鲁木齐县| 耿马| 湟中县| 通榆县| 泰安市| 新密市| 石门县|