第二次蛻變讓大數據從“大平臺”向“敏捷制造”的開發范式演進。在2021阿里云峰會上,阿里巴巴集團副總裁、阿里云智能計算平臺事業部高級研究員賈揚清發布基于DataWorks的一站式大數據開發治理的平臺,就是這個蛻變最好的佐證。
值得一提的是, 誕生于2009年阿里巴巴集團內部的DataWorks,不僅見證了阿里巴巴十多年大數據幾次蛻變發展,更是阿里巴巴數據中臺建設的最佳實踐之一。如今 DataWorks平臺可以支撐阿里巴巴內部上百個業務團隊的數據業務建設,每天穩定調度上千萬數據處理任務。阿里巴巴每天有超過5萬名員工在DataWorks上完成數據分析、數據開發和數據治理工作。
那么,DataWorks如何讓大數據向 “敏捷制造” 演進,背后具備什么樣的核心能力?在全鏈路數據服務—大數據與AI分論壇,DataWorks產品負責人黃博遠透露了DataWorks核心的三個“ONE”能力。
簡單來講,DataWorks以一站式的理念,通過一條數據開發鏈路,一套數據標準架構,一套數據治理體系,與大數據計算引擎結合,讓企業擁有一站式的數據開發與治理能力。
1、一條數據開發鏈路
很多的企業發展到一定階段以后都會面臨這種情況:
1)數據來自于不同地域的數據中心,比如阿里云上有公共云、專有云,對于企業來講也有自己的私域,同時又要服務企業外部的客戶與合作伙伴,數據非常分散。
2)大數據的引擎百花齊放,選擇多樣。不管是阿里自研的SaaS模式云數據倉庫MaxCompute、交互式分析Hologres和分析型數據庫AnalyticDB,還是開源的EMR、CDH、Flink、Elasticsearch等等,種類極為豐富,我們很難說哪一款產品是最好的,對于企業來說這種技術選型是多樣的,按需的。
3)數據與AI及應用如何更好地結合?大數據加工處理完的數據還需要結合AI算法,以服務化的方式給到數據應用,如何實現BI與AI一體化,釋放數據價值。
針對以上痛點,DataWorks可以幫助企業實現數據集成、數據開發、數據治理和數據服務,將大數據全生命周期管理整合到一條完整鏈路中。
首先滿足企業在復雜網絡條件下,DataWorks實現近50種異構數據源的離線/實時的同步,讓企業更好地邁出大數據建設的“第一步”。其次,它的底層對接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、實時計算Flink版等大數據引擎,讓多種計算引擎的數據開發治理工作都可以在同一個平臺一站式的完成。最后,大數據平臺加工好的數據集可以無縫對接到機器學習平臺中進行AI訓練與在線預測服務,也可以通過數據服務以API方式給到BI、大屏等各類數據應用。
2、一套數據標準架構
對于企業而言,數據絕不是簡單地堆積在一起,阿里巴巴通過數據中臺建設,規范了集團統一的數據標準架構,將數據進行清晰的結構分層,每一層又有明確的范圍與邊界。在貼源層,企業將完成全域數據的匯聚,保留所有的原始數據。在整合層,企業通過數據標準、數據建模等方式確立數據的規范體系。在匯總層,企業將基于業務需求對數據進行匯總加工,提煉公共的數據指標。在應用層,面向前臺業務應用構建數據集市,為應用提供源源不斷的高質量數據服務。這一套架構本身不具備產品化能力,但企業可以基于DataWorks,快速復制這套數據標準架構。
3、一套數據治理體系
企業如何管理數據資產?如何保障數據質量?如何保障數據安全?如何有效地控制成本以及減少不必要浪費?這些問題都對數據治理提出了更高的要求。正常來講,各類數據治理工作通過人工的方式其實也能夠完成,但是阿里巴巴現在每天處理的數據超過1.7EB,每天調度的任務數在千萬級,很難想象靠人工來完成所有的治理工作。DataWorks將阿里巴巴十多年數據治理的實踐沉淀成產品化能力,完整覆蓋模型設計、數據質量管理、元數據管理、安全管理等貫穿數據加工處理和使用的全鏈路所需的治理能力。一個平臺,就具備一套完整的體系化的能力。
在分論壇現場,DataWorks全新發布數據建模產品,讓企業從業務視角進行數倉規劃、數據標準定義、維度建模和數據指標設計,用規范化的“圖紙”指導大數據“建設”工作,提升企業數據中臺建設的規范性和標準性,大大降低企業數據中臺建設門檻和成本。同時DataWorks將持續加大與生態伙伴合作,推出具備不同行業屬性和不同建模方法的數據建模類產品,以支撐不同行業不同場景的數倉模型設計。DataWorks數據建模產品將于2021年7月開啟公測,屆時歡迎大家在阿里云官網搜索“DataWorks”開通體驗。
除了數據建模外,DataWorks覆蓋了數據同步、元數據、數據資產、數據質量、數據地圖、任務運維、數據安全、數據分析、數據服務等數據全生命周期的治理能力。
事實上,DataWorks已經應用到各行各業的數字化轉型中。在工業行業,DataWorks幫助三一重工打通86個核心業務系統,處理每月50PB的各類圖像、視頻、物聯網數據,建設業內場景最全的數據中臺。在能源行業,DataWorks幫助企業建立10余種數據中臺運營規范,完成四大場景50+指標產出,規范數據治理流程,提升數據可用率。在鋼鐵行業,DataWorks讓數據在數據中臺進行自由流動,保證數據準確、準時、一致,讓企業綜合成本削減1億元。在互聯網行業,得物APP通過DataWorks OpenAPI構建全鏈路數據血緣,自主研發全鏈路解析能力,下線2萬張表與近千個計算任務,讓企業成本降低20%。
未來企業的數字化轉型將對數據的治理與分析提出更高的要求,DataWorks將幫助企業快速構建數據中臺,通過全鏈路的數據治理提供高質量的數據底座,讓數據的“敏捷制造”成為企業數字化的“敏捷轉型”。