微軟新推出的云計算數(shù)據(jù)和分析平臺名為Microsoft Fabric,是一套全面的工具,能夠使企業(yè)客戶存儲、管理和分析其最重要應(yīng)用程序的數(shù)據(jù)。該平臺還集成了滿足微軟公司所有數(shù)據(jù)用戶的產(chǎn)品,從處理數(shù)據(jù)的工程師到希望從數(shù)據(jù)中獲得見解并做出決策的分析師。
Microsoft Fabric目前處于公開預(yù)覽模式,并將在未來幾個月更新更多功能,這讓許多事先沒有聽取微軟公司簡報的行業(yè)專家感到驚訝。一些人保留了自己的原先判斷,直到看到它確實在實踐中發(fā)揮重要作用。有些人稱贊該平臺是一個重大進步,可以幫助微軟公司超越亞馬遜和谷歌等其他云計算提供商,至少在為大型企業(yè)提供服務(wù)方面。分析人士稱,Microsoft Fabric也將給Snowflake公司和微軟公司的親密合作伙伴Databricks公司等其他科技供應(yīng)商帶來競爭壓力。
調(diào)研機構(gòu)Forrester公司的分析師Noel Yuhanna說,“將所有這些功能結(jié)合在一起,微軟公司目前肯定比其他超大規(guī)模企業(yè)有一些優(yōu)勢。”
研究機構(gòu)Gartner公司聲稱,甚至在宣布這一消息之前,微軟就已經(jīng)成為數(shù)據(jù)和分析軟件領(lǐng)域的領(lǐng)導(dǎo)者。分析人士表示,微軟已經(jīng)將其產(chǎn)品的集成和易用性提升到了一個新的水平,這可能是其競爭對手短期內(nèi)難以匹敵的。
分析師稱,Microsoft Fabric提供了主導(dǎo)產(chǎn)品,其關(guān)鍵在于執(zhí)行。亞馬遜公司的AWS云服務(wù)在總收入上仍明顯領(lǐng)先于微軟Azure,而且這種優(yōu)勢可能還會持續(xù)一段時間。在企業(yè)分析和數(shù)據(jù)領(lǐng)域,微軟的云產(chǎn)品目前在功能的廣度方面處于領(lǐng)先地位。Amalgam Insights公司的分析師Hyoun Park表示,“執(zhí)行能力通常是由銷售來定義的。因此,這個數(shù)字尚未得到證實。”
Microsoft Fabric的秘方:OneLake
那么是什么讓Microsoft Fabric脫穎而出呢?據(jù)分析人士稱,這是微軟用一個名為OneLake的數(shù)據(jù)湖簡化和統(tǒng)一其數(shù)據(jù)架構(gòu)的方式,該數(shù)據(jù)湖可以存儲并允許訪問來自不同來源和應(yīng)用程序的各種數(shù)據(jù)。
他們表示,這種方法將在節(jié)約成本、透明度、靈活性、管理和數(shù)據(jù)質(zhì)量方面為客戶帶來顯著好處。OneLake不僅被設(shè)計為微軟自己的軟件服務(wù)生成的數(shù)據(jù)的中心存儲庫,而且還被設(shè)計為來自外部來源的數(shù)據(jù)的中心存儲庫,例如第三方應(yīng)用程序。它還為用戶提供一致的體驗和界面,無論數(shù)據(jù)的類型或格式如何。這聽起來似乎是一個顯而易見的想法,但對于包括微軟、亞馬遜和谷歌在內(nèi)的大多數(shù)云計算提供商來說,這一想法一直難以實現(xiàn)。
多年來,這些科技巨頭已經(jīng)收購或開發(fā)了數(shù)十種用于各種數(shù)據(jù)和分析任務(wù)的軟件工具,例如商業(yè)智能、數(shù)據(jù)科學(xué)、機器學(xué)習和實時流媒體,但他們在很大程度上以零碎的方式將這些工具拼湊在一起,而沒有創(chuàng)建一個連貫無縫的平臺。
因此,客戶必須處理復(fù)雜而分散的工具和數(shù)據(jù)庫,每個工具和數(shù)據(jù)庫都有自己的資源配置、定價和數(shù)據(jù)池,這給客戶帶來了挫敗感,并降低效率,他們不得不花費更多的時間和費用來管理他們的數(shù)據(jù)基礎(chǔ)設(shè)施。它還對客戶征收“集成稅”,客戶要為每項服務(wù)的計算和存儲資源分別支付費用。
Microsoft Fabric承諾通過提供真正的集成來消除這種復(fù)雜性——只包括一個數(shù)據(jù)副本、一種體驗和一個接口。Amalgam公司的Park說,“這里的部分創(chuàng)新在于,微軟公司以一個集成包的形式提供了所有這些功能。雖然聽起來很簡單,但這并不是大多數(shù)數(shù)據(jù)和分析供應(yīng)商能夠提供的。”
Gartner公司的分析師Jason Medd對此表示認同。他說,Gartner公司對首席數(shù)據(jù)官的調(diào)查顯示,只有約30%的首席數(shù)據(jù)官表示,他們從數(shù)據(jù)和分析工具中獲得了價值。通過整合工具和降低價格,微軟公司正在解決這些痛點。
OneLake數(shù)據(jù)湖是如何工作的
微軟公司是如何通過OneLake實現(xiàn)這種簡單和統(tǒng)一的呢?關(guān)鍵是OneLake以一種稱為Apache Parquet的通用格式存儲了來自微軟公司各種服務(wù)的所有數(shù)據(jù)的單一副本。這是一種在業(yè)界廣泛使用的開源文件格式,它按列來組織數(shù)據(jù)。
這使得查詢和分析數(shù)據(jù)變得更加容易和快速。無論何時,客戶向其系統(tǒng)添加或更新任何數(shù)據(jù),Microsoft Fabric都會自動以Parquet格式將其保存在OneLake數(shù)據(jù)湖中,而不管其原始格式如何。這意味著客戶可以直接從OneLake訪問和查詢他們的數(shù)據(jù),而不必通過多個來源或服務(wù)。
例如,如果客戶想要使用微軟公司的商業(yè)智能工具Power BI來分析來自微軟數(shù)據(jù)倉庫Synapse的數(shù)據(jù),他們不必向Synapse發(fā)送查詢。Power BI只是從OneLake檢索數(shù)據(jù),這減少了跨服務(wù)的查詢數(shù)量,并降低了客戶的成本,客戶只需為單個存儲和數(shù)據(jù)存儲桶付費,而不必為多個存儲和數(shù)據(jù)桶付費。
OneLake如何從外部來源獲取數(shù)據(jù)
OneLake的簡潔性和統(tǒng)一性也延伸到了微軟生態(tài)系統(tǒng)之外的數(shù)據(jù)。這就是技術(shù)細節(jié)的問題所在:OneLake以一種名為Delta Lake的開源格式存儲其數(shù)據(jù)表,該格式創(chuàng)建了一層元數(shù)據(jù),可將來自各種來源(例如CSV或JSON文件)的原始數(shù)據(jù)轉(zhuǎn)換為可被業(yè)內(nèi)任何計算引擎分析的通用格式。
DBInsights公司的分析師Tony Baer在談到微軟公司擁抱開源時說,“微軟在這方面做了正確的事情。”
他說,供應(yīng)商之間的競爭不在于文件格式,而在于實現(xiàn)數(shù)據(jù)庫的準確性和一致性標準,即ACID。Fabric通過開放格式進行的集成就是朝著這個方向邁出的一步。微軟的數(shù)據(jù)工廠提供了150多個預(yù)先構(gòu)建的連接器,讓客戶可以輕松地從第三方服務(wù)轉(zhuǎn)換數(shù)據(jù)。
微軟公司也在研究自動化轉(zhuǎn)換過程的方法,而不是依賴于傳統(tǒng)的、耗時的提取、轉(zhuǎn)換和加載(ETL)方法。
Microsoft Fabric還支持多云場景,而亞馬遜公司在這方面進展緩慢。通過一項名為“快捷方式”的功能,OneLake可以在亞馬遜的S3存儲和谷歌的存儲(即將推出)中虛擬化數(shù)據(jù)存儲。
微軟Azure Data副總裁Arun Ulagaratchagan在接受行業(yè)媒體采訪時說:“既然要使用單一的開放格式進行共享,所有這些引擎都可以與數(shù)據(jù)原生協(xié)同工作,而不是碎片化。”他表示,微軟是第一個從完全受保護的格式轉(zhuǎn)向完全開放的格式的主要云計算供應(yīng)商。
Ulagaratchagan說,在過去的幾年里,他與財富500強中的100家公司進行了探討,他們最感興趣的是Fabric的低成本、易于使用和無鎖定的承諾。
Microsoft Fabric的集成工作耗時數(shù)年
微軟發(fā)布Microsoft Fabric這一舉措可能看起來很突然,但這是該公司四年多來打破孤島和整合其數(shù)據(jù)服務(wù)的成果,這還需要克服內(nèi)部政治和不同高管之間的斗爭。
其中一個里程碑是Synapse,它將多個服務(wù)(例如數(shù)據(jù)湖和數(shù)據(jù)倉庫)合并到一個中心。Microsoft Fabric是最終的集成,它將Synapse、Power BI和其他數(shù)據(jù)服務(wù)整合為一個單一的SaaS產(chǎn)品。
Blue Badge Insights公司行業(yè)顧問Andrew Brust說,“我認為這是一種跨越。它的功能是全面而有凝聚力的,這在以前是不可能的。” 他指的是微軟公司在Microsoft Fabric方面的舉動。
Brust承認自己有偏見。他表示,微軟公司是他的客戶,他是微軟數(shù)據(jù)平臺的產(chǎn)品經(jīng)理,這使他成為在Microsoft Fabric發(fā)布之前了解Fabric的一群顧問、客戶和合作伙伴中的一員。Brust還表示,微軟將Microsoft Fabric作為SaaS,而不是PaaS,這一點意義重大。這意味著數(shù)據(jù)工程師不必處理計算單元的供應(yīng),這簡化了他們的工作。他認為,亞馬遜和谷歌在這一領(lǐng)域還有很多工作要做。
數(shù)據(jù)質(zhì)量是贏得企業(yè)云競賽的關(guān)鍵
分析人士還強調(diào),云計算提供商之間的主要競爭是數(shù)據(jù)質(zhì)量,這是使客戶能夠獲得更好的見解并做出更好決策的因素。
Forrester公司的分析師Noel Yuhanna表示,他每天都會與三到四位企業(yè)客戶交談,他們抱怨遷移到云計算并沒有解決他們的數(shù)據(jù)質(zhì)量問題。Yuhanna總結(jié)了大多數(shù)企業(yè)高管的觀點,他說,“我們有計算,有存儲,有Kubernetes。這很酷。但是我們真的使這個系統(tǒng)實現(xiàn)現(xiàn)代化了嗎?”他表示,這就是BearingPoint、Capgemini、Infosys和Wipro等系統(tǒng)集成商迄今為止通過云計算提供見解而獲利的原因。他們有自己的顧問,將根據(jù)數(shù)據(jù)編寫報告。
這也是微軟公司推動Microsoft Fabric的原因。Yuhanna表示,通過將數(shù)據(jù)源連接在一起,Microsoft Fabric提高了數(shù)據(jù)的一致性和可信度。他說,“數(shù)據(jù)復(fù)制的最大挑戰(zhàn)是數(shù)據(jù)到處都是,用戶無法再獲得一致的數(shù)據(jù)……Microsoft Fabric真的提供了數(shù)據(jù)的一致性。”
通過提供一個地方,就像提供了一個單一的窗口來查看數(shù)據(jù)管理。他說,“安全、治理、集成、發(fā)現(xiàn),這正是它的意義所在。”
如果客戶希望將安全規(guī)則應(yīng)用于他們的數(shù)據(jù),他們可以在OneLake完成大部分工作。微軟公司在發(fā)布的一份聲明中表示,所有訪問數(shù)據(jù)的Microsoft Fabric下游應(yīng)用程序都必須遵守這些規(guī)則。例如,如果客戶在Power BI中有敏感的工資信息,他們只希望某個團隊訪問,那么他們可以設(shè)置規(guī)則來確保這一點。無論文件被導(dǎo)出到哪里,它們都將遵循同樣的規(guī)則——甚至如果發(fā)送到Microsoft Fabric之外,也將遵循同樣的加密規(guī)則。
微軟趕上了Lakehouse的潮流
微軟公司落后于一些競爭對手的領(lǐng)域之一是所謂的“Lakehouse”,它結(jié)合了兩種技術(shù):存儲企業(yè)數(shù)據(jù)的數(shù)據(jù)湖和分析數(shù)據(jù)的數(shù)據(jù)倉庫。
由于人工智能等需要大量數(shù)據(jù)和分析的應(yīng)用程序的興起,Lakehouse變得流行起來。尤其是一家名為Databricks的公司,它一直是創(chuàng)建安全、開放的“Lakehouse”的行業(yè)先驅(qū),許多分析師認為這是行業(yè)領(lǐng)先的技術(shù)。畢竟,是Databricks公司創(chuàng)建了DeltaLake協(xié)議。
另一家供應(yīng)商Snowflake公司也提供了集成良好的Lakehouse產(chǎn)品。據(jù)報道,在Synapse品牌下,微軟公司在這一領(lǐng)域的產(chǎn)品表現(xiàn)不佳,微軟公司通過與Databricks公司建立密切的合作關(guān)系來彌補這一不足,Databricks公司在其Azure云平臺上提供支持。所以Microsoft Fabric也采用了DeltaLake協(xié)議也就不足為奇了。所有使用Databricks的客戶將繼續(xù)使用Microsoft Fabric。
分析師表示,Microsoft Fabric的整合也縮小了與Databricks公司和Snowflake公司的差距,并旨在超越它們。Microsoft Fabric將Databricks公司開創(chuàng)的開放格式擴展到微軟數(shù)據(jù)棧的其余部分,這更加全面。雖然微軟公司的Ulagaratchagan表示,很高興通過與Databricks這樣的平臺合作,為客戶提供選擇,但他也明確表示,微軟的Synapse打算引領(lǐng)Lakehouse市場。他說,“我們確實打算成為最好的產(chǎn)品和最好的套件。”
分析人士說,微軟的單一體驗和轉(zhuǎn)向SaaS產(chǎn)品,幫助Fabric的Synapse在一些關(guān)鍵方面取得了飛躍。Databricks仍然是一個PaaS產(chǎn)品,這意味著數(shù)據(jù)工程師仍然需要做更多的工作,并指定他們想要運行處理作業(yè)的節(jié)點數(shù)量。
Microsoft Fabric將其在商業(yè)智能和數(shù)據(jù)科學(xué)方面的優(yōu)勢結(jié)合起來,并增加了其他功能,例如模式檢測和工作流(Data Activator),這是一件大事,Amalgam的Park表示,將商業(yè)智能與人工智能結(jié)合起來對企業(yè)來說仍然是一個挑戰(zhàn)。微軟公司正在提供一個軟件包,在更大程度上解決了這個問題,超過了任何競爭對手。
生成式人工智能的力量尚未實現(xiàn)
最后,微軟公司表示,正在利用其從OpenAI公司投資中獲得的生成式人工智能技術(shù)來增強其Copilot工具。Copilot可以幫助用戶執(zhí)行任務(wù),例如閱讀和匯總數(shù)據(jù)報告。借助OpenAI公司的技術(shù),Copilot現(xiàn)在可以讓開發(fā)人員和分析師使用自然語言提出數(shù)據(jù)問題,并以自然語言接收答案。微軟的Ulagaratchagan表示,雖然這將提高生產(chǎn)力,但在Microsoft Fabric產(chǎn)品中應(yīng)用生成式人工智能的全面影響還需要一段時間才能看到。
畢竟,Microsoft Fabric是客戶第一次體驗到端到端的數(shù)據(jù)集成,他們還沒有探索生成式人工智能能夠做什么。
Ulagaratchagan說:“你可以認為,它不僅僅是利用生成式人工智能加速客戶旅程中的一步,而是整個旅程,所以這是客戶尚未發(fā)現(xiàn)的機會。從客戶的實際使用情況中學(xué)習,并獲得正確的體驗,這一點至關(guān)重要。”
關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,同時在運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。