客戶在使用數(shù)據(jù)湖架構(gòu)實(shí)現(xiàn)數(shù)據(jù)分析解決方案時,通常有75%的時間花在數(shù)據(jù)集成任務(wù)上,需要從各種數(shù)據(jù)源提取數(shù)據(jù),對其進(jìn)行規(guī)范化,并將其加載到數(shù)據(jù)存儲中。AWS Glue消除了ETL作業(yè)基礎(chǔ)設(shè)施方面的所有重復(fù)勞動,讓Amazon S3數(shù)據(jù)湖中的數(shù)據(jù)集可以被發(fā)現(xiàn)、可用于查詢和分析,極大地縮短分析項(xiàng)目中做ETL和數(shù)據(jù)編目階段的時間,讓ETL變得很容易。
AWS Glue在從客戶選擇的數(shù)據(jù)源把數(shù)據(jù)爬取出來之后,會自動識別數(shù)據(jù)格式和模式(schema),構(gòu)建統(tǒng)一的數(shù)據(jù)目錄,并為客戶提供所選數(shù)據(jù)的中央視圖。這使得客戶很容易跨越各種數(shù)據(jù)存儲,檢索和管理所有數(shù)據(jù),而不必手動搬運(yùn)它們。當(dāng)客戶從數(shù)據(jù)目錄中標(biāo)識出數(shù)據(jù)源(例如一個數(shù)據(jù)庫表)和數(shù)據(jù)目標(biāo)(例如一個數(shù)據(jù)倉庫) 時,AWS Glue將匹配相應(yīng)的模式,生成可定制、可重用、可移植、可共享的數(shù)據(jù)轉(zhuǎn)換代碼。開發(fā)人員可以調(diào)度任意數(shù)量的ETL作業(yè),AWS Glue則會管理其余的工作,根據(jù)客戶ETL工作負(fù)載自動啟用或關(guān)閉計(jì)算資源。通過簡化創(chuàng)建ETL作業(yè)的過程,AWS Glue讓客戶可以構(gòu)建可伸縮、可靠的數(shù)據(jù)準(zhǔn)備平臺。這些平臺可以跨越數(shù)千個ETL作業(yè),具有內(nèi)置的依賴性解析、調(diào)度、資源管理和監(jiān)控功能。
“AWS可擴(kuò)展、可靠的云存儲,加上我們廣泛的分析服務(wù),使客戶比以往任何時候都更容易收集、存儲、分析和共享數(shù)據(jù),”AWS全球副總裁及大中華區(qū)執(zhí)行董事張文翊表示,“隨著AWS Glue在由西云數(shù)據(jù)運(yùn)營的AWS中國(寧夏)區(qū)域正式上線,中國區(qū)域的客戶可以輕松地從任意多的數(shù)據(jù)源傳輸和處理數(shù)據(jù),整合數(shù)據(jù)到數(shù)據(jù)湖,并且可以選用多種AWS分析服務(wù),迅速開始分析所有數(shù)據(jù)。”
當(dāng)前,包括德比軟件、嘉云數(shù)據(jù)、殼木軟件和趣加等在內(nèi)的諸多中國客戶都在使用AWS Glue解決他們復(fù)雜的數(shù)據(jù)挑戰(zhàn)。
德比軟件為酒店和旅游行業(yè)提供在線銷售和產(chǎn)品分銷方面的技術(shù)和系統(tǒng)服務(wù),并擁有全部產(chǎn)品和服務(wù)的自主知識產(chǎn)權(quán)。它擁有全球超過18萬家酒店的數(shù)據(jù),每月處理超過800萬間夜的訂單。德比軟件大數(shù)據(jù)團(tuán)隊(duì)技術(shù)經(jīng)理戴岳表示:“AWS Glue使得ETL和異構(gòu)數(shù)據(jù)源的處理變得更加容易,大大降低了開發(fā)和運(yùn)營成本。它非常適合于開發(fā)和啟動敏捷數(shù)據(jù)項(xiàng)目。另外,AWS Glue的數(shù)據(jù)目錄功能讓我們可以輕松使用Amazon Elastic MapReduce (Amazon EMR) 來直接處理和查詢Amazon S3上的數(shù)據(jù),提高了我們的開發(fā)效率。”
北京殼木軟件有限責(zé)任公司(Camel Games)是神州泰岳旗下的手機(jī)網(wǎng)游公司,2011 年獲得了Google Play 官方頒發(fā)的 Top Developer(頂尖開發(fā)者)稱號。Camel Games服務(wù)器主管張華表示:“AWS Glue幫助我們完成了復(fù)雜的ETL任務(wù),可以從數(shù)百個Amazon Relational Database Service (Amazon RDS) 數(shù)據(jù)庫中定時提取所需要的數(shù)據(jù),供數(shù)據(jù)分析部門進(jìn)行迅速而直觀的全局統(tǒng)計(jì),大大縮短了原本跨表查詢的時間”。