2022年是魔幻的一年,2.24號(hào),玖章算術(shù)CEO葉正盛正帶領(lǐng)團(tuán)隊(duì)在雪山之巔團(tuán)建,就聽(tīng)聞了剛剛打響的俄烏戰(zhàn)爭(zhēng)的全球大新聞。4月招聘上海員工,但因?yàn)橐咔楣芸刂荒苓h(yuǎn)程報(bào)到,杭州亞運(yùn)會(huì)也被迫推遲,隨后幾個(gè)月大家都籠罩在陰影中,唯有世界杯帶來(lái)了快樂(lè),但原計(jì)劃12.18號(hào)一起看決賽,沒(méi)想到公司瞬間陽(yáng)了一半,看球活動(dòng)也被迫取消。好在疫情快速消停,和家人度過(guò)一個(gè)大團(tuán)圓春節(jié)。
2022年也是玖章算術(shù)創(chuàng)業(yè)完整的第一年,主要打造了多云數(shù)據(jù)管理平臺(tái)NineData,致力于讓每個(gè)人用好數(shù)據(jù)和云。這一年團(tuán)隊(duì)、產(chǎn)品和技術(shù)都突飛猛進(jìn),其中離不開(kāi)支持NineData的客戶(hù)、朋友、投資人和業(yè)務(wù)伙伴等,NineData技術(shù)團(tuán)隊(duì)今天還很年輕,接下來(lái)還需要像創(chuàng)業(yè)前輩們繼續(xù)學(xué)習(xí)。
玖章算術(shù)CEO葉正盛,作為數(shù)據(jù)領(lǐng)域20年的從業(yè)者,曾負(fù)責(zé)過(guò)阿里云數(shù)據(jù)庫(kù)產(chǎn)品的整體規(guī)劃,經(jīng)歷了不一樣的2022,接下來(lái)想談?wù)?023年可能會(huì)不一樣的數(shù)據(jù)庫(kù)。
一、百倉(cāng)大戰(zhàn),一觸即發(fā)
2020年Snowflake上市,市值沖高到1000億美金,數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)重新被點(diǎn)燃,要知道二十年數(shù)倉(cāng)王者Teradata市值也不到50億美金。
2010以后,數(shù)據(jù)倉(cāng)庫(kù)也一直被大數(shù)據(jù)概念碾壓,仿佛是落后技術(shù)代表,但是經(jīng)過(guò)10年發(fā)展,人們逐漸認(rèn)識(shí)到大數(shù)據(jù)困境,一般的企業(yè)投入大、落地難、技術(shù)架構(gòu)復(fù)雜,大數(shù)據(jù)巨頭Cloudera在2021年黯然退市。而數(shù)據(jù)倉(cāng)庫(kù)是更成熟的理念,也是企業(yè)核心需求。
2020年開(kāi)始,誰(shuí)會(huì)是中國(guó)的Snowflake,這個(gè)是投資人和技術(shù)創(chuàng)業(yè)者最關(guān)心的事情。中國(guó)做數(shù)據(jù)技術(shù)的大牛們開(kāi)始陸續(xù)投身到創(chuàng)業(yè)浪潮里,并且拿到不少的啟動(dòng)資金,前期有積累的公司產(chǎn)品陸續(xù)面世,雖然很多還在孵化期,但參與者誰(shuí)都知道,百倉(cāng)大戰(zhàn),一觸即發(fā)。
Snowflake
不管是OLAP,還是HTAP,都在面向同樣的業(yè)務(wù)場(chǎng)景,避免不了兵戎相見(jiàn)。如果是在大公司內(nèi)部孵化,還可以有穩(wěn)定的公司內(nèi)部業(yè)務(wù)支撐,但是在外部市場(chǎng)就大相徑庭。外部市場(chǎng)是充分競(jìng)爭(zhēng)的,并且是有時(shí)機(jī)的,不容許創(chuàng)業(yè)公司慢慢研發(fā),如果市場(chǎng)被瓜分完了,并且還有生態(tài)優(yōu)勢(shì),那后發(fā)者會(huì)更難突破,需要投入更多的資金并且更考驗(yàn)公司的業(yè)務(wù)能力。市場(chǎng)競(jìng)爭(zhēng)是殘酷的,軟件技術(shù)產(chǎn)品競(jìng)爭(zhēng)和互聯(lián)網(wǎng)產(chǎn)品類(lèi)似,將來(lái)都會(huì)是贏者通吃,也許只有前三能活好。
二、基礎(chǔ)軟件國(guó)產(chǎn)化浪潮
達(dá)夢(mèng)IPO
中國(guó)軟件技術(shù)蓬勃發(fā)展,在互聯(lián)網(wǎng)領(lǐng)域基本上實(shí)現(xiàn)了自主可控,這里面使用了大量的開(kāi)源技術(shù)和自主研發(fā)的平臺(tái),但是在傳統(tǒng)IT領(lǐng)域,尤其是大型政企市場(chǎng),核心基礎(chǔ)軟件仍然由國(guó)際巨頭占領(lǐng)。
大家都清楚,國(guó)產(chǎn)化浪潮是大趨勢(shì),這不只是因?yàn)檎邔?dǎo)向,而是中國(guó)基礎(chǔ)軟件技術(shù)已經(jīng)蓄勢(shì)待發(fā),只要大力發(fā)展市場(chǎng)經(jīng)濟(jì),政策決策不犯錯(cuò)誤,國(guó)產(chǎn)化是必然趨勢(shì)。有如中國(guó)的電視、手機(jī)、汽車(chē)等領(lǐng)域,中國(guó)企業(yè)不僅是看中國(guó),而是已經(jīng)開(kāi)始走出國(guó)門(mén)。
基礎(chǔ)軟件國(guó)產(chǎn)化浪潮
再回到數(shù)據(jù)庫(kù)領(lǐng)域,2022年,達(dá)夢(mèng)已經(jīng)提交了上市申請(qǐng),預(yù)計(jì)是500億人民幣的市值,大家都非常期待能成功IPO。達(dá)夢(mèng)是我非常敬佩的公司,如果中國(guó)數(shù)據(jù)庫(kù)只留下一款產(chǎn)品,那達(dá)夢(mèng)數(shù)據(jù)庫(kù)是強(qiáng)力競(jìng)爭(zhēng)者。不管是產(chǎn)品的成熟度,還是對(duì)核心技術(shù)的掌控以及市場(chǎng)的影響力,我認(rèn)為達(dá)夢(mèng)都是國(guó)內(nèi)的領(lǐng)導(dǎo)者。
2023年,希望達(dá)夢(mèng)能夠成功上市,這將極大增強(qiáng)中國(guó)企業(yè)發(fā)展核心技術(shù)的信心。要知道,很多中國(guó)企業(yè)對(duì)基礎(chǔ)技術(shù)是極度缺乏信心的,甚至不惜走抄襲、仿冒、貼殼包裝這種低劣操作。
三、分布式與HTAP融合
數(shù)據(jù)庫(kù)號(hào)稱(chēng)是計(jì)算機(jī)軟件的明珠,而分布式一直是數(shù)據(jù)庫(kù)領(lǐng)域大難題,OceanBase、Spanner、TiDB、CockroachDB、PolarDB-X、Vitess都是領(lǐng)域的先行者。中國(guó)在這個(gè)領(lǐng)域已經(jīng)處于全球領(lǐng)先的水平,但是從市場(chǎng)需求來(lái)看,分布式是面向海量數(shù)據(jù)的問(wèn)題,是大型系統(tǒng)需求,導(dǎo)致市場(chǎng)拓展壓力大。Oracle和MySQL這些數(shù)據(jù)庫(kù)也推出過(guò)分布式數(shù)據(jù)庫(kù)功能,但并沒(méi)有得到市場(chǎng)的認(rèn)可。從技術(shù)角度來(lái)看,分布式技術(shù)是復(fù)雜的,運(yùn)維會(huì)更復(fù)雜,基本是要專(zhuān)業(yè)團(tuán)隊(duì)才能搞定。
市場(chǎng)需求和技術(shù)的復(fù)雜度,導(dǎo)致分布式雖然有技術(shù)的制高點(diǎn),但是業(yè)務(wù)拓展非常困難,可能80%的場(chǎng)景都很難發(fā)揮分布式數(shù)據(jù)庫(kù)價(jià)值。分布式數(shù)據(jù)庫(kù)必須要能挖掘更普遍的業(yè)務(wù)場(chǎng)景。
一般系統(tǒng)的并發(fā)和數(shù)據(jù)沒(méi)有那么大,核心需求是在線(xiàn)業(yè)務(wù)辦理和報(bào)表分析,數(shù)據(jù)量普遍在1TB以?xún)?nèi),甚至沒(méi)有數(shù)據(jù)庫(kù)管理員,所以大部分企業(yè)級(jí)軟件(ERP、CRM)要考慮規(guī)模化推廣,都支持使用了單個(gè)數(shù)據(jù)庫(kù)來(lái)解決在線(xiàn)業(yè)務(wù)和報(bào)表查詢(xún)需求,數(shù)據(jù)倉(cāng)庫(kù)也暫時(shí)不建。所以在企業(yè)級(jí)軟件里HTAP(OLTP+OLAP)是數(shù)據(jù)庫(kù)的默認(rèn)需求,Oracle、DB2、SQLServer幾大數(shù)據(jù)庫(kù)在OLTP和OLAP方面都是領(lǐng)導(dǎo)者,這個(gè)足以證明HTAP在通用市場(chǎng)的重要性。
我們看見(jiàn)TiDB和OceanBase兩大分布式數(shù)據(jù)庫(kù)都在發(fā)力HTAP能力,雖然大家的技術(shù)方案完全不同,但是要解決的問(wèn)題是相似的,HTAP核心是要同時(shí)具備TP和AP能力,并且AP不能影響TP的響應(yīng)時(shí)間。TiDB使用了不同的引擎來(lái)解決OLTP和OLAP需求,通過(guò)內(nèi)置的數(shù)據(jù)傳輸來(lái)解決數(shù)據(jù)同步問(wèn)題。OceanBase與Oracle等傳統(tǒng)數(shù)據(jù)庫(kù)類(lèi)似,使用了一套引擎來(lái)實(shí)現(xiàn),沒(méi)有數(shù)據(jù)同步問(wèn)題,通過(guò)增強(qiáng)資源隔離能力來(lái)解決AP對(duì)TP的干擾。我感覺(jué)技術(shù)難度都非常大,TiDB的方案會(huì)更適合互聯(lián)網(wǎng)公司,而OceanBase的方案更適合企業(yè)級(jí)市場(chǎng)。
在企業(yè)級(jí)市場(chǎng)核心數(shù)據(jù)庫(kù)場(chǎng)景里HTAP是標(biāo)配,HTAP實(shí)際是部分?jǐn)?shù)據(jù)庫(kù)在補(bǔ)足與主流商業(yè)數(shù)據(jù)庫(kù)差距提出的問(wèn)題,我印象中曾經(jīng)HANA宣傳過(guò)比較多。Oracle、DB2、SQLServer等數(shù)據(jù)庫(kù)在TP和AP方面都非常強(qiáng),這些產(chǎn)品在復(fù)雜SQL多維查詢(xún)能力是非常優(yōu)秀的,不管是執(zhí)行優(yōu)化、診斷分析、資源隔離都是業(yè)界領(lǐng)先,但是在分布式擴(kuò)展性方面落后了,因?yàn)榛ヂ?lián)網(wǎng)企業(yè)在分布式方面有更高的性?xún)r(jià)比要求,所以才有了今天分布式數(shù)據(jù)庫(kù)、大數(shù)據(jù)的新格局。
HTAP能力在中小型系統(tǒng)(數(shù)據(jù)量不到TB級(jí),數(shù)據(jù)采集來(lái)源單一)里是非常有競(jìng)爭(zhēng)力,這也是很多企業(yè)使用了Oracle、SQLServer,在數(shù)據(jù)量還沒(méi)有增長(zhǎng)起來(lái)不需要建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的原因。不管是企業(yè)日常運(yùn)維還是簡(jiǎn)單BI分析,如果能在單一數(shù)據(jù)庫(kù)里完成,對(duì)于業(yè)務(wù)軟件研發(fā)效率和運(yùn)維都是巨大的優(yōu)勢(shì),很多商場(chǎng)、醫(yī)院、工廠(chǎng)都是這么解決的,有些互聯(lián)網(wǎng)早期產(chǎn)品也是不用AP發(fā)展起來(lái)的。
HTAP對(duì)于大型核心系統(tǒng)的價(jià)值在慢慢下降,核心原因是大型系統(tǒng)數(shù)據(jù)量大、并發(fā)高,所以資源隔離更加復(fù)雜,數(shù)據(jù)來(lái)源也有多個(gè)渠道甚至是多個(gè)供應(yīng)商。所以企業(yè)使用單獨(dú)的AP系統(tǒng)可以有更好的性?xún)r(jià)比,這樣也能保障TP業(yè)務(wù)的穩(wěn)定性。第二個(gè)原因是大型企業(yè)要具備更強(qiáng)大的數(shù)據(jù)分析挖掘能力,需要保留大量歷史數(shù)據(jù)做趨勢(shì)分析和預(yù)測(cè),如果使用原始的TP或者HTAP,一份數(shù)據(jù)是很難滿(mǎn)足的,所以更需要單獨(dú)的AP系統(tǒng)。
我理解今天很多TP產(chǎn)品在增強(qiáng)AP能力是合理的,不管是在單一引擎做還是通過(guò)數(shù)據(jù)復(fù)制多種引擎做都是有價(jià)值,也是成長(zhǎng)為未來(lái)企業(yè)核心數(shù)據(jù)庫(kù)必須要具備的能力,但是也要看到企業(yè)大型場(chǎng)景使用單獨(dú)AP是更合理的數(shù)據(jù)規(guī)劃。
四、邁向云數(shù)據(jù)庫(kù)3.0
邁向云數(shù)據(jù)庫(kù)3.0
云數(shù)據(jù)庫(kù)是近10年來(lái)數(shù)據(jù)庫(kù)領(lǐng)域最大的變化,依然會(huì)是未來(lái)10年的主線(xiàn),結(jié)合云計(jì)算做數(shù)據(jù)庫(kù)已經(jīng)是海內(nèi)外基本共識(shí)。我把云數(shù)據(jù)庫(kù)發(fā)展分為三個(gè)階段,每個(gè)階段不是說(shuō)提一個(gè)架構(gòu)就行,而是需要在市場(chǎng)上等到驗(yàn)證,一款產(chǎn)品要能獲得全球10億美金或者中國(guó)10億人民幣的收入,這里RDS、Aurora、PolarDB、DynamoDB都得到了市場(chǎng)驗(yàn)證。
第一階段是以RDS、EMR這類(lèi)托管服務(wù)為代表云數(shù)據(jù)庫(kù)1.0,這個(gè)階段核心技術(shù)是構(gòu)建云管控平臺(tái),具備基礎(chǔ)的開(kāi)源數(shù)據(jù)庫(kù)內(nèi)核修改能力,確保內(nèi)核能即時(shí)更新并且發(fā)現(xiàn)重大bug時(shí)可以快速修復(fù),對(duì)客戶(hù)最大價(jià)值是提升了數(shù)據(jù)庫(kù)運(yùn)維效率和穩(wěn)定性。
第二階段是以AWS Aurora、阿里云PolarDB引領(lǐng)的存儲(chǔ)計(jì)算分離架構(gòu)為代表的云數(shù)據(jù)庫(kù)2.0,這個(gè)階段需要對(duì)數(shù)據(jù)庫(kù)IO架構(gòu)深入理解,充分發(fā)揮云平臺(tái)的優(yōu)勢(shì),結(jié)合分布式存儲(chǔ),把數(shù)據(jù)庫(kù)做成面向云的存儲(chǔ)計(jì)算分離架構(gòu),需要對(duì)數(shù)據(jù)庫(kù)的IO模型徹底改造,第二階段相比第一階段的RDS最重要是提升了數(shù)據(jù)庫(kù)彈性擴(kuò)展能力。
第三階段是指在云上構(gòu)建Serverless+HTAP的云原生數(shù)據(jù)庫(kù),稱(chēng)為云數(shù)據(jù)庫(kù)3.0。這需要對(duì)數(shù)據(jù)庫(kù)做更徹底的重構(gòu),要融入到云架構(gòu)骨髓,會(huì)涉及到數(shù)據(jù)庫(kù)的計(jì)算引擎重構(gòu),并且要面向云建立新的商業(yè)模式,甚至要重新定義面向數(shù)據(jù)庫(kù)的開(kāi)發(fā)模式,這將是更難的突破。在NoSQL和數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)走在前面,尤其是云廠(chǎng)商全新構(gòu)建的產(chǎn)品,如AWS的DynomoDB,阿里云的MaxCompute和Google的BigQuery,但是在云數(shù)據(jù)庫(kù)最重要的關(guān)系型模型還沒(méi)有完全突破,海外也還是探索中,Serverless是難點(diǎn),HTAP是剛需,我覺(jué)得今天大家都還有時(shí)間和機(jī)會(huì)去引領(lǐng)這個(gè)創(chuàng)新。
這三個(gè)階段的產(chǎn)品會(huì)共存,畢竟云計(jì)算還沒(méi)有完全普及,隨著云計(jì)算的全面普及,云數(shù)據(jù)庫(kù)3.0的競(jìng)爭(zhēng)力將大幅增強(qiáng)。
五、新數(shù)據(jù)爆發(fā)
計(jì)算機(jī)讓人類(lèi)有了第二個(gè)大腦;互聯(lián)網(wǎng)讓你我遠(yuǎn)在天邊,近在咫尺;移動(dòng)互聯(lián)網(wǎng)讓人們的生活更加便利、美好。
我們來(lái)到了數(shù)據(jù)時(shí)代,新數(shù)據(jù)在不停的產(chǎn)生,數(shù)字、文字、語(yǔ)音、圖片、視頻已經(jīng)充滿(mǎn)了世界,IDC預(yù)測(cè)2025年全球數(shù)據(jù)量將達(dá)到175ZB,隨著物聯(lián)網(wǎng)和AIGC(AI Generated Content)的成熟,數(shù)據(jù)又將迎來(lái)大爆炸。
IDC預(yù)測(cè)2025年全球數(shù)據(jù)量將達(dá)到175ZB,數(shù)據(jù)將迎來(lái)大爆炸。
物聯(lián)網(wǎng)雖然沒(méi)有當(dāng)初人們想象對(duì)家庭帶來(lái)巨大變革,但是我們已經(jīng)感受到智能車(chē)聯(lián)網(wǎng)、機(jī)器人時(shí)代就要來(lái)臨,這必將帶來(lái)海量的新數(shù)據(jù)處理需求。
我們看到面向物聯(lián)網(wǎng)設(shè)計(jì)的時(shí)序數(shù)據(jù)庫(kù)在蓬勃發(fā)展,國(guó)內(nèi)有TDEngine、DophinDB、YMatrix、GreptimeDB、IoTDB、Lindorm等等,國(guó)際上的InfluxDB、TimescaleDB、OpenTSDB、Prometheus,雖然國(guó)際的產(chǎn)品起步早,但是中國(guó)的產(chǎn)品發(fā)展迅速,物聯(lián)網(wǎng)場(chǎng)景也更加豐富,很有機(jī)會(huì)引領(lǐng)時(shí)代。
在圖片、視頻充滿(mǎn)屏幕的時(shí)代,面向新媒體數(shù)據(jù)的識(shí)別分析會(huì)有更多場(chǎng)景,尤其是與AI結(jié)合,Milvus、Pinecone等產(chǎn)品都在這個(gè)領(lǐng)域探索。AIGC概念會(huì)給數(shù)據(jù)庫(kù)帶來(lái)新的變數(shù),今天數(shù)據(jù)庫(kù)是用來(lái)采集、存儲(chǔ)、分析數(shù)據(jù),如果將來(lái)數(shù)據(jù)庫(kù)也具備了AIGC的能力,那就可以自己產(chǎn)生并存儲(chǔ)數(shù)據(jù),我們已經(jīng)領(lǐng)教了ChatGPT的威力,數(shù)據(jù)和AI的結(jié)合會(huì)帶來(lái)無(wú)限想象。
當(dāng)時(shí)序數(shù)據(jù)庫(kù)在面向海量數(shù)據(jù)場(chǎng)景發(fā)展時(shí),而另外一個(gè)創(chuàng)業(yè)熱潮是圖數(shù)據(jù)庫(kù)。圖數(shù)據(jù)庫(kù)是NoSQL浪潮的重要分支,也是最需要?jiǎng)?chuàng)新的領(lǐng)域。文檔、時(shí)序等數(shù)據(jù)庫(kù)本質(zhì)上是關(guān)系型數(shù)據(jù)庫(kù)的特殊場(chǎng)景優(yōu)化,而圖數(shù)據(jù)庫(kù)是在徹底重構(gòu)數(shù)據(jù)存儲(chǔ)與檢索模型,圖數(shù)據(jù)庫(kù)更像人腦思考模型,而今天大量的數(shù)據(jù)組織是按計(jì)算機(jī)模型準(zhǔn)備的,所以這是巨大的挑戰(zhàn),必須要在輸入和輸出側(cè)都發(fā)生變化才可能成功。我們也看到Neo4j、TigerGraph、Nebula、Galaxybase、Neptune等產(chǎn)品在不停探索,目前主要是場(chǎng)景化突破,期待能在新數(shù)據(jù)爆發(fā)時(shí)代發(fā)力。
六、現(xiàn)代數(shù)據(jù)棧MDS
Modern Data Stack,簡(jiǎn)稱(chēng)MDS。
這是2020年圈子里開(kāi)始探討的理念,早期是dbt和Fivetran提出來(lái)的,Modern Data Stack翻譯過(guò)來(lái)是現(xiàn)代數(shù)據(jù)棧,隨著新數(shù)據(jù)爆發(fā),結(jié)合當(dāng)前數(shù)據(jù)需求和技術(shù)特征,本質(zhì)是云原生的實(shí)時(shí)多源數(shù)據(jù)管理產(chǎn)品體系。
Modern Data Stack
從技術(shù)和市場(chǎng)的角度看,單一數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿(mǎn)足各種客戶(hù)場(chǎng)景,所以客戶(hù)需要各種數(shù)據(jù)源統(tǒng)一管理,面對(duì)業(yè)務(wù)競(jìng)爭(zhēng),客戶(hù)會(huì)要求數(shù)據(jù)能更實(shí)時(shí)的傳輸和處理,同時(shí)要能簡(jiǎn)潔易用、安全可靠,另外云數(shù)據(jù)庫(kù)是大方向,所以MDS本質(zhì)是云原生的實(shí)時(shí)多源數(shù)據(jù)管理產(chǎn)品體系。
Snowflake,F(xiàn)ivetran是具備了一些MDS特征,提供了簡(jiǎn)潔易用的云服務(wù),并且能夠?qū)崟r(shí)處理各種數(shù)據(jù),在國(guó)際市場(chǎng)得到了廣泛的應(yīng)用。另外阿里云DTS、AWS的DMS,是云廠(chǎng)商推出的數(shù)據(jù)傳輸類(lèi)產(chǎn)品,玖章算術(shù)NineData(www.ninedata.cloud)是新一代云原生數(shù)據(jù)管理服務(wù),這些產(chǎn)品都是面向云時(shí)代設(shè)計(jì)的解決多種數(shù)據(jù)源實(shí)時(shí)數(shù)據(jù)管理問(wèn)題,包括存儲(chǔ)、開(kāi)發(fā)、傳輸、備份等等,是MDS的落地實(shí)踐。MDS的思想在持續(xù)醞釀,相信很快會(huì)在領(lǐng)域內(nèi)綻放,非常期待。
最后
2023年,我們會(huì)走出疫情,國(guó)家對(duì)平臺(tái)和民營(yíng)經(jīng)濟(jì)的支持,信心逐漸回歸,一切都在向好的方向發(fā)展。創(chuàng)業(yè)是艱難的,但是創(chuàng)業(yè)者一定是樂(lè)觀(guān)的,雖然看見(jiàn)了遍地的機(jī)會(huì),但是我們更需要腳踏實(shí)地,在產(chǎn)品技術(shù)和商業(yè)模式上不斷突破,我相信中國(guó)基礎(chǔ)軟件很快會(huì)在中國(guó)崛起并服務(wù)全球市場(chǎng)。