當前位置：云計算 → 技術專區 → 正文

打造云上統一的數據基礎底座讓大數據與機器學習互相成就

責任編輯：shjiaz 作者：查士加 |來源：企業網D1Net 2022-05-10 17:49:49 原創文章企業網D1Net

數據是企業的一項重要資產，這一點在業界已然達成共識，但是很多企業并沒有將數據的價值充分利用。福布斯調研報告顯示，如果企業轉型成為一家數據驅動型公司，那么在其收入增加20%的同時，成本會減少30%。實際上，越來越多的企業看到了數據驅動型組織突出的競爭力，正在通過業務產生的數據反向驅動企業戰略，通過融合大數據和機器學習能力提升業務產出，以充分發揮數據的價值。

IDC報告顯示，到2023年，AI系統支出將達到979億美元，與2019年相比增加2.5倍。據Gartner分析預測，到2024年，75%的企業將把機器學習技術真正用于生產，為業務賦能。

在近日的媒體溝通會上，亞馬遜云科技大中華區產品部總經理陳曉建表示：“很多企業在業務創新中往往面臨一個困境，有大量的數據和分析技術儲備，也嘗試了很多先進的機器學習模型，但就是很難有實際的業務產出，究其原因，往往缺乏云上統一的數據基礎底座。”為此，亞馬遜云科技推出“云、數、智三位一體”的大數據與機器學習融合服務組合，幫助企業推進大數據和機器學習的融合，打通兩個領域的數據治理底層服務，將機器學習由實驗轉為規模化落地實踐，為企業節本增效提供業務發展的新動力。

亞馬遜云科技大中華區產品部總經理陳曉建

大數據和機器學習融合的趨勢與價值

從用戶邏輯來看，大數據和機器學習技術互相成就，大數據技術所提供的能力是機器學習建模的基礎，而機器學習為大數據技術提供更高智能，為業務帶來更多價值。但是從技術發展的趨勢來看，這兩項技術走的卻是完全不同的路：大數據技術的側重點在于如何實現海量數據的采集、清洗和查詢等能力，但是機器學習更注重對算法本身的優化。

在機器學習領域，算法工程師們津津樂道的是神經網絡結構、網絡層數、超參數的優化等等，他們往往對數據采集、處理和優化不是非常看重。但是，一個算法最終能否產生好的效果，不光取決于算法結構的調參，對數據質量的優化同樣重要。當然，在項目實施的過程中，僅依靠傳統的大數據技術無法全方位提供充足的數據見解，仍需要機器學習模型的能力補充，因此越來越多的數據項目要融合大數據和機器學習兩者的能力。

亞馬遜云科技大中華區產品部技術專家團隊總監王曉野在演講中提到：“大數據與機器學習的融合代表著“智能湖倉”架構的深度智能能力再升級。絕大多數機器學習項目的數據源受制于大數據平臺的數據提供能力，但是由于數據在企業中的發展階段不同，大數據團隊往往并不能向機器學習團隊提供有效的數據。”

結合當前的發展趨勢，亞馬遜云科技認為：企業要重塑數據洞察，一定是將數據(大數據技術)和智能(機器學習技術)進行融合和統一。這種融合帶來的價值顯而易見：既能更加高效地圍繞數據構建和實施項目，使得數據在兩者之間無縫流轉，又能讓成員快速具備相關能力，推動企業的數字化轉型邁向新的高度。

數據分析和機器學習融合的三大難題

陳曉建提到，數據分析和機器學習融合并非易事，必須解決三個問題：

第一：大數據和機器學習分而治之，數據及技術孤島制約敏捷迭代。例如車企數據產生于生產制造和行車兩個環節，通常是由制造部門和運營部門分別負責，被存儲于不同的數據倉庫里。機器學習要從不同的業務部門拿到數據，同時還要花費時間理解這些數據背后的定義、原因和算法，這往往是額外的負擔。

第二：數據處理能力不足，優秀的算法要想發揮其真正價值，離不開大量業務數據的不斷迭代。而現實情況是，很多機器學習團隊不具備處理海量數據規模的能力，如果模型開發成功后，沒有海量的運營數據支撐，往往無法達到預期的業務目標。

第三：數據分析人員的參與度低。現實情況經常是，模型在實驗環節效果良好，但在實際使用中卻不盡人意，因為實驗環境只是對真實環境的簡單模擬，而生產環境則要復雜得多。如果算法不給力，系統不給力，數據不健全，導致無法反復迭代，一定難以取得好的成效。

“云、數、智三位一體”的大數據和機器學習融合服務組合

為了幫助企業破解上述困境，亞馬遜云科技在其“智能湖倉”架構的基礎之上推出 “云、數、智三位一體”的大數據和機器學習融合服務組合，通過在云中構建統一的數據治理底座，提供數據分析服務保障機器學習的生產實踐，實現機器學習反向賦能智能化數據分析，促進云、數、智三者的統一與融合，幫助客戶推進機器學習項目的落地。

在云中打造統一的數據基礎底座

陳曉建強調：“企業實現數智融合最有效的途徑是在云中打造統一的數據基礎底座，如數據質量、數據權限、數據開發、數據工作流、可視化。在此基礎之上，大數據和機器學習應該是高效充分的雙向循環，雙劍合璧為企業發展提供創新引擎。”云中統一的數據治理底座不僅能提升大數據和機器學習的高效融合，還能減少重復構建的工作，并且顯著降低成本。

亞馬遜云科技能幫助客戶構建統一的數據治理底座，構建三大核心能力：實現大數據和機器學習的數據共享，數據權限的統一管控，以及兩者統一的開發和流程編排。

一是統一數據共享：建立統一的數據采集、數據存儲、數據質量的標準，能夠打破數據孤島，讓數據在不同系統間流動，實現數據的資產化;

二是統一權限管控：只有具備完善的細粒度的權限控制能力，才能放心的讓數據在不同的業務系統之間流轉;

三是統一開發及流程編排：融合端到端的大數據和機器學習任務，能夠提升整體的開發效率，確保數據從開始采集到算法落地更好地為業務所用。

Amazon Lake Formation作為“智能湖倉”架構的核心功能，實現了數據網格跨部門的數據資產共享，以及基于單元格的最細粒度的權限控制機制，支持跨部門、跨地域，允許不同組織內的機構共享同一個元數據，可讓智能營銷項目或新項目輕松地了解自身以及其他部門擁有哪些數據可以為已所用。

通過Amazon SageMaker Studio統一的開發界面，數據科學家或數據工程師可一站式地完成數據開發、模型開發及相關的生產任務，該服務基于多種專門構建的服務，如交互式查詢服務Amazon Athena、云上大數據平臺Amazon Elastic MapReduce (Amazon EMR)、云數據倉庫服務Amazon Redshift、Amazon SageMaker等，為大數據和機器學習提供統一的開發平臺。

為機器學習提供生產級的數據處理能力

算法從實驗走向實踐，打磨成生產級業務可用的算法，最關鍵的一步是具備海量的數據處理能力。為此，亞馬遜云科技提供多種靈活可擴展、專門構建的大數據服務，幫助客戶進行復雜的數據加工及處理，應對數據規模的動態變化，優化數據質量。

陳曉建強調：企業要想具備生產級的數據處理能力，一是通過底層大數據平臺的開放引擎解決數據的開放問題，能夠對多元和異構的數據進行處理;二是靈活的平臺，也就是具備云的彈性能力，能夠根據業務負載對底層資源進行靈活的彈性伸縮;三是優化數據質量，通過采集、清洗、查詢等大數據技術能力，為機器學習提供高質量的數據源。

據悉，Amazon Athena能夠對支持多種開源框架的大數據平臺(包括Amazon EMR、高性能關系數據庫Amazon Aurora、NoSQL數據庫服務Amazon DynamoDB、Amazon Redshift)等多種數據源進行聯邦查詢，快速完成機器學習建模的數據加工。而以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 為代表的無服務器分析能力，可以讓客戶無需配置、擴展或管理底層基礎設施，即可輕松地處理任何規模的數據，為機器學習項目提供兼具性能和成本效益的特征數據準備。

讓數據分析智能化，賦能業務人員探索創新

通過智能數據分析，能夠進一步統一技術和業務的價值，讓研發和業務之間進行充分合作。AI機器學習能夠豐富智能分析場景，更好地發揮數據的價值。亞馬遜云科技不斷提供更加智能的數據分析服務，賦能業務人員通過BI可視化工具方便地調用算法，并進一步檢驗算法效果;甚至讓業務人員根據自身需求通過數據自己訓練算法。

例如，在日常分析工具中集成機器學習模型預測能力，其中深度集成機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結果中添加基于模型預測的Amazon Athena ML，可幫助用戶使用熟悉的技術，甚至通過自然語言來使用機器學習。亞馬遜云科技還提供如Amazon Redshift ML、可視數據準備工具Amazon Glue DataBrew、零代碼化的機器學習模型工具 Amazon SageMaker Canvas等服務，讓業務人員探索機器學習建模。

王曉野提到：在全球追求數據驅動企業創新路徑的諸多企業中，寶馬集團是其中之一，它基于大數據和機器學習融合的共同底座，通過無服務器的大數據分析和機器學習靈活的擴展能力，讓業務人員實現自助式建模。寶馬集團的第一個項目通過Cloud Data Hub構建門戶網站的形式，將元數據在網站中共享;與此同時利用亞馬遜云科技Amazon Alexa和Amazon Glue等無服務器的分析工具，為業務人員提供數據處理能力，探索業務創新。

在對成功的機器學習項目規模化復制的過程中，寶馬集團采用基礎架構即代碼的方式，將一個成功的機器學習項目，從數據的預處理、加工清洗，到機器學習的模型訓練再到上線，完全通過代碼方式實現模板化，供之后的機器學習項目復用。值得一提的是，寶馬也在創新性的使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自動機器學習能力，讓業務人員能夠自助式的從Cloud Data Hub上取得數據，進行機器學習訓練。

最后，王曉野強調：“機器學習和大數據的融合不是單純依靠技術就能解決的問題，‘授人以魚’不如‘授人以漁’，因此亞馬遜云科技通過面向快速算法原型的數據實驗室的應用科學家、面向生產精度可用的模型訓練指導的機器學習解決方案實驗室，以及提供端到端咨詢及交付的專業服務團隊，通過這些不同分工的專家，和客戶肩并肩，幫助客戶探索機器學習與大數據融合時的挑戰，共同學習優秀企業在數據驅動轉型成功路上寶貴的經驗。”

關鍵字：云計算大數據機器學習數據基礎底座