Databricks最新發(fā)布Apache Spark云平臺(tái)架構(gòu)數(shù)據(jù)工程版本,其進(jìn)行了優(yōu)化,使SQL、結(jié)構(gòu)化流、ETL和機(jī)器學(xué)習(xí)在Spark上均可運(yùn)行。
為給數(shù)據(jù)工程師提供更佳工具來(lái)開(kāi)創(chuàng)生產(chǎn)數(shù)據(jù)通道,Databricks發(fā)布了Databrick數(shù)據(jù)工程新版本(Databricks for Data Engineering),其基于Apache Spark云平臺(tái)架構(gòu),特別為數(shù)據(jù)工程工作負(fù)載進(jìn)行了優(yōu)化。
Databricks為Apache Spark原班人馬所創(chuàng)建,其早先已提供過(guò)一個(gè)云版本來(lái)支持?jǐn)?shù)據(jù)科學(xué)工作負(fù)載。但是Databricks的CEO及聯(lián)合創(chuàng)始人Ali Ghodsi認(rèn)為公司近500企業(yè)級(jí)客戶和50,000社區(qū)版用戶正在尋求SQL、結(jié)構(gòu)化流、ETL和機(jī)器學(xué)習(xí)等均可以在Spark上運(yùn)行,并部署數(shù)據(jù)通道獲得產(chǎn)出。
模糊數(shù)據(jù)清洗
“他們所獲取的可能是模糊不準(zhǔn)的數(shù)據(jù),或者是錯(cuò)誤數(shù)據(jù),所以他們正利用Spark去創(chuàng)造一個(gè)通道來(lái)清洗數(shù)據(jù),并將其結(jié)構(gòu)化。”Ghodsi表示,“這是我們最常見(jiàn)的真實(shí)案例,他們利用互動(dòng)API來(lái)探索挖掘數(shù)據(jù)集,并將這些數(shù)據(jù)集即刻轉(zhuǎn)入生產(chǎn)數(shù)據(jù)通道且無(wú)人工干預(yù)。”
Ghodsi表示利用最新版本來(lái)構(gòu)建這些通道比以往的版本更具成本效率優(yōu)勢(shì),可以節(jié)約50%至75%的成本。
Databrick數(shù)據(jù)工程最新版本包括以下特點(diǎn):
· 性能優(yōu)化Databricks I/O (DBIO) 技術(shù)提供涵蓋范圍更廣的優(yōu)化Spark 版本,亦可接入優(yōu)化AWS S3訪問(wèn)層。Databricks認(rèn)為DBIO十倍級(jí)加速了數(shù)據(jù)探索。
· 成本管理 集群管理功能,例如自主縮放和AWS Spot instances服務(wù)降低了運(yùn)營(yíng)成本,避免了創(chuàng)建、配置和維護(hù)復(fù)合Spark架構(gòu)的耗時(shí)任務(wù)。“其自動(dòng)決定了計(jì)算工作負(fù)載所需的最佳機(jī)器數(shù)量,”Ghodsi說(shuō)道:“我們看到很多人無(wú)論何時(shí)都使用過(guò)多機(jī)器,他們很難算出他們的工作負(fù)載需要多少機(jī)器合適。”
· 優(yōu)化整合 平臺(tái)提供全套R(shí)EST API 以編程方式來(lái)啟動(dòng)集群和其他工作,以及整合從Amazon Redshift 和Amazon Kinesis到機(jī)器學(xué)習(xí)架構(gòu)例如谷歌的TensorFlow這些工具或者服務(wù)。一個(gè)集成的數(shù)據(jù)源目錄可以讓Databricks用戶直接獲得數(shù)據(jù)源,而不需重復(fù)工作。
· 企業(yè)級(jí)安全 Databrick數(shù)據(jù)工程內(nèi)置的安全標(biāo)準(zhǔn)涵括并符合SOC 2 Type 1認(rèn)證、HIPPA合規(guī)、端到端數(shù)據(jù)加密、AWS S3可調(diào)試詳細(xì)日志接入和IT管理功能,例如SAML2.0 單點(diǎn)登錄支持,集群、工作以及筆記本等不同接入控制權(quán)限設(shè)置。
· 數(shù)據(jù)科學(xué)整合 該平臺(tái)整合了Databricks的數(shù)據(jù)科學(xué)作業(yè)領(lǐng)域,使其將數(shù)據(jù)工程和互動(dòng)數(shù)據(jù)科學(xué)工作負(fù)載之間無(wú)縫交互。
Ghodsi認(rèn)為最后一項(xiàng)特點(diǎn)尤其重要。“事實(shí)上在互動(dòng)計(jì)算和生產(chǎn)通道之間的互相過(guò)渡非常難。我認(rèn)為擁有這種智力模型的人可以做兩件不同的事:你可以做互動(dòng)分析,或者你也可以創(chuàng)建數(shù)據(jù)通道。這并不是常規(guī)開(kāi)發(fā)者的工作,當(dāng)他們開(kāi)發(fā)一個(gè)數(shù)據(jù)通道時(shí),他們不得不探索數(shù)據(jù)并且做調(diào)試和測(cè)試,來(lái)確保這個(gè)數(shù)據(jù)通道的確在正常工作。在這個(gè)過(guò)程中,他們需要互動(dòng)分析。”
在不同模式中穿行
當(dāng)你希望你的數(shù)據(jù)通道可以正常運(yùn)行而無(wú)需人工干預(yù)時(shí),如果你遭遇問(wèn)題,你需要能夠無(wú)縫進(jìn)入一個(gè)互動(dòng)模式,然后再進(jìn)一步開(kāi)發(fā)。
Ghodsi認(rèn)為:“我們想確信你可以非常容易地、無(wú)縫地在兩種模式中交互。”
“Databricks的數(shù)據(jù)工程最新版本使其更易開(kāi)始于Spark——其提供了可適用于整合開(kāi)發(fā)環(huán)境和部署通道的平臺(tái),”Dollar Shave Club數(shù)據(jù)工程部工程經(jīng)理Brett Bevers說(shuō)道。“我們從用Databricks的第一天起,就已經(jīng)整裝待發(fā),做好面對(duì)各種數(shù)據(jù)挑戰(zhàn)的準(zhǔn)備了。”
新套件已經(jīng)面世,定價(jià)基于數(shù)據(jù)工程工作負(fù)載的具體情況,例如ETL和自動(dòng)工作(除AWS成本外,0.20美金/Databricks Unit)