谷歌公司正力圖將其Google Cloud Dataflow平臺拓展至其它語言及環境當中。
谷歌目前正著力推動一套Java SDK,旨在將其與Google Cloud Dataflow托管服務加以整合,從而將對流數據的實時分析能力作為這套平臺的拓展支持組成部分。
通過以開源形式進行共享,這套SDK能夠充當基礎、幫助Dataflow獲得與其它語言及執行環境相適應的能力,谷歌公司軟件工程師Sam McVeety在最近的一份公告當中指出。“我們已經積累到了豐富的經驗,了解到該如何將數據轉化為情報、同時讓原本的FlumeJava編程模型(以Cloud Dataflow為基礎)繼續在谷歌公司內部得以發展。”
谷歌方面希望能夠在對Dataflow服務進行拓展之外,同時將流數據與批處理模式加以結合從而實現進一步創新。“隨著數據規模的不斷增長,編程語言與執行模式的數量也在持續提升,”McVeety表示。“我們目前正在為該SDK打造一款面向Python的第三套版本,旨在為開發人員提供更多可行性選項并保證Dataflow能夠訪問更多類型的應用程序。可重復使用的編程模式可以稱得上幫助開發人員提升工作效率的核心利器。Cloud Dataflow SDK的出現則恰好為批量與流數據處理任務帶來了一套統一化執行模式。”
對于其它環境,McVeety指出現代開發、特別是在云環境當中的開發工作主要涉及異構服務與多種機制間的相互組合。“隨著Storm、Spark以及日益擴展的Hadoop家族的不斷成熟,開發人員不得不面對由編程模式斷層帶來的嚴峻挑戰。我們希望幫助開發人員擺脫疲于奔命的負面態勢,通過支持可作用于多種環境的執行與服務方案為大家帶來更多部署平臺選項。”
Google Cloud Dataflow平臺于今年六月首次公布,其定位在于為數據處理任務提供一套托管服務模型。盡管目前尚處于alpha測試階段且僅向特定“白名單”用戶(新用戶必須通過申請方能接入該服務)開放,但Cloud Dataflow能夠切實簡化執行流程、幫助用戶在無需分神于底層數據管道及處理基礎設施維護的前提下將精力集中在真正的分析工作身上。我們此前曾經發布過一篇Cloud Dataflow分析文章,其中指出該項目雖然還稱不上Hadoop家族中的殺手級項目、但卻能夠幫助Google Cloud用戶迎來更為豐富的應用程序備選方案。