微軟已經向測試者們開放了另一個新的Azure服務:Azure Data Factory。Azure Data Factory允許開發者集成不同數據來源,在過去幾個月中這項服務一直處于私下預覽的狀態。
10月29日發布在Azure博客上的一篇文章將Data Factory描述為一項“將數據存儲、處理和遷移服務組織到管理數據生產管道的管理服務”。測試者們可以創建新的數據工廠,并將其連接到各種數據并用來處理資源。他們可以獲得一個可視化的布局,了解通過Azure Preview Portal的所有數據的輸入輸出,以及作業執行、數據生產狀態和系統健康狀態的歷史記錄。
剛發布的公開預覽版提供了對SQL Server中的本地數據以及Azure Blob、Table以及Database服務中運輸局的訪問,微軟方面這樣透露。對本地數據的訪問是通過一個數據管理網關提供的,該網關連接到本地的SQL Server數據庫。微軟將根據預覽階段客戶的反饋添加額外來源。
微軟Azure企業副總裁Jason Zander表示:“云生態系統包括大量需要集成的工作負載。”用戶使用Azure Data Factory將能夠獲得更多洞察力,通過把像物聯網(IoT)日志條目這樣的原始數據輸送到微軟HDInsight Hadoop-on-Azure服務或者MapReduce,然后直接與其他像Azure Machine Learning這樣的服務集成。
今天的博客文章透露了更多關于可能實現哪種集成的進一步細節:
“最初的數據處理是通過Hive、Pig和定制C#活動實現的。這種活動可以用于清理數據、掩模數據字段、并以各種復雜的方式轉換數據。Hive和Pig活動可以運行在一個你創建的HDInsight集群上,你可以允許Data Factory以你的方式全面管理這個Hadoop集群生命周期。創建活動、并將其結合到一個管道、設置一個執行進度,然后就大功告成了——不需要Hadoop集群設置或者管理。Data Factory還提供了一個即時監視儀表盤,這意味著你可以部署你的數據管理并且立即開始在監視儀表盤上查看這些管道。”
微軟已經提供了大量Azure數據和分析服務,包括Azure SQL Database(管理關系型數據庫即服務)、HDInsight(管理Hadoop集群);緩存、機器學習、Apache Storm分析處理、DocumentDB(最近增加了NoSQL文檔數據庫即服務)、Azure Search(新的全文搜索服務)。
其他關于Azure的新聞,微軟方面還提供了新Stream Analytics服務的預覽,這項服務實時提供來自設備、傳感器、基礎設施、應用和其他數據來源的洞察力。微軟已經全面提供Azure Event Hubs,一種發布訂閱接收器,允許用戶處理和分析來自連接設備和傳感器的數據。