繼去年九月發布了Microsoft Azure Data Factory(ADF)第二版(v2)的公共預覽版之后,近期Microsoft繼續跟進,發布了該服務新的可視化工具的公開預覽版。
在前期發布的ADF v2服務中,添加了對下列功能的支持:
新的調度功能,支持一次運行(Run-Once)和復雜調度場景。增加了對條件循環(Conditional Looping)等復雜工作流的控制能力。支持用于數據出入(Ingress/Egress)的Web端點。支持在基于云的Integration Runtime中執行SSIS軟件包。但是在去年九月發布ADF v2服務時,并未提供可視化工具,依然需要手工創建ADF v2組件和流水線。最新發布的可視化工具,使v2版服務具備了和以前版本相同的功能。
新的可視化工具是基于Web的。對于已部署的Azure Data Factory,需要在Azure門戶上加載。
工具在啟動后,提供以下功能:
創建新的ADF流水線。允許用戶通過拖放可視化接口構建處理流水線,并支持復雜分支、計算組件(例如HDInsight和Azure Data Lake Analytics)。流水線中可添加一些基于Web的新數據源,也支持更多的傳統數據源,例如Azure SQL Database和文件。
創建新的ADF復制(Copy)流水線。與ADF v1中使用的自動過程一樣,允許用戶選取源數據集和目標數據集,快速地創建一個復制流水線。當前,ADF v2的源數據支持33種數據源,包括Amazon Redshift、Oracle和SAP HANA等;目標數據支持13種數據源,包括部分Azure服務,以及Oracle和Salesforce等。
配置新的SSIS Integration Runtime。允許用戶在Azure SQL Database中創建新的SSIS Integration Runtime,以支持在云升級轉換(Lift-and-Shift)場景下執行SSIS軟件包。據Microsoft宣稱,只要滿足數據源連接性和可用性要求,本地部署(On-Premises)的SSIS軟件包同樣可在Azure中正常執行。
配置Git軟件庫。允許用戶配置ADF實例和Visual Studio Team Services賬戶間的連接性。但目前尚不支持軟件庫以GitHub作為宿主。
為支持復制活動和計算任務卸載(Offloading),ADF v2還提供了一種同時支持基于Azure(Azure-based)或本機(Self-Hosted)運行的Intergration Runtime組件類型。具體使用哪一種方式,取決于數據源和計算資源的位置。
圖片來源:https://docs.microsoft.com/en-us/azure/data-factory/concepts-integration-runtime
Self-Hosted Integration Runtime可用于集成本地部署資源,它替代了上一版ADF中推出的On-Premises Data Management Gateway組件。該組件可以下載并安裝在Windows系統中,目前尚不支持任何Linux系統。對于運行在ADF v2服務上的Azure-based Integration Runtime組件,至少需要關聯兩個節點才能實現本地部署組件的高可用性,目前最多可以關聯四個節點。
該可視化工具的發布,彌補ADF v2發布后一直缺失的易用性。Microsoft的大數據管理解決方案,意在抗衡Software AG webMethods、 Talend Big Data Platform或Hitachi Pentaho的類似方案,同時在Azure Logic Apps、Mulesoft或Dell Boomi等工具之外,為用戶另提供了一種iPaaS(集成平臺即服務,Integration Platform as a Service)工具選擇,解決了原有iPaaS工具并不能很好地適用于大規模和大批量數據的問題。
在Azure上運行的SSIS Integration Runtime,給出了SSIS軟件包的遷移路徑。這樣,Microsoft具備在云平臺服務上繼續使用本地部署投資的能力。
當前,Azure Data Factory v2工作負載可部署到East US、East US2和West Europe數據中心,但服務依然是公開預覽版的。
使用ADF服務的詳細信息,可參考Microsoft官方文檔。在Microsoft自己的媒體頻道上,也提供了演示工具基本使用的視頻。
查看英文原文: Microsoft Releases Azure Data Factory V2 Visual Tools in Public Preview