阿明薦文
這是一個(gè)長文,有故事,有花邊,有內(nèi)涵,有技術(shù),有大咖。作者飛總是一位旅居西雅圖的華人,從2008年起開始從事大數(shù)據(jù)相關(guān)的基礎(chǔ)構(gòu)架研究和開發(fā)。見多識廣,加上親力親為的研發(fā)實(shí)踐,自然對數(shù)據(jù)庫這個(gè)領(lǐng)域諳熟的飛總,當(dāng)然也少不了他從大洋西岸帶來的八卦。
和consumer市場上的硝煙彌漫,大數(shù)據(jù)云計(jì)算橫行一樣,在企業(yè)級市場上也一樣充滿了競爭。這個(gè)市場最初的時(shí)候是SAP占據(jù)了ERP,而底層的數(shù)據(jù)庫則主要為Oracle和IBM占據(jù)。自從Oracle這個(gè)野心勃勃的公司開始了一系列的收購,甚至很多是惡意的收購,譬如PeopleSoft,譬如BEA,眨眼之間,做底層的公司開始有了上層應(yīng)用。而那個(gè)上層很漂亮卻沒有底層數(shù)據(jù)存儲支持的SAP則裹足不前,越來越有二流公司的模樣。當(dāng)然,同期的Microstrategy早就是一個(gè)二流的樣子了,至今死不死活不活的那個(gè)德行。IBM目前來看也有死不死活不活的前景,我只是看不到IBM的前途在哪里。
今天我們講HANA,一個(gè)廣大IT宅不太熟悉但是在Database領(lǐng)域卻有一定知名度,而在企業(yè)級應(yīng)用市場舉足輕重的東西,出自SAP這個(gè)從來都不是做數(shù)據(jù)庫和底層系統(tǒng)的公司。
Michael Stonebraker夢碎
作為故事的開頭部分,我們還會(huì)涉及一個(gè)圖靈獎(jiǎng)獲得者M(jìn)ichael Stonebraker,一個(gè)獲得圖靈獎(jiǎng)的商人和賣了大半打公司的教授,以及一些我親身經(jīng)歷的八卦。
讓我們把時(shí)間先退回到2009年的SIGMOD。作為數(shù)據(jù)庫領(lǐng)域最重要的兩大會(huì)議之一(另外一個(gè)是VLDB),2009年的大會(huì)keynote多少顯得有點(diǎn)點(diǎn)的格格不入。在會(huì)議上,SAP的董事會(huì)主席,創(chuàng)始人之一,已經(jīng)在大學(xué)任教的 Professor Hasso Plattner給了一個(gè)這樣的talk:
A Common Database Approach for OLTP and OLAP Using
an In-Memory Column Database
這宣告了HANA作為SAP企業(yè)戰(zhàn)略的新的重心的開始。
作為一個(gè)數(shù)據(jù)庫,HANA有著很多的創(chuàng)新。但是更重要的是,Doctor Hasso在已經(jīng)退居二線很久之后,以著敏銳的眼光和卓越的見識,在整個(gè)行業(yè)的關(guān)鍵時(shí)刻和BigData即將興起的時(shí)候,以力挽狂瀾的方式站出來,以比別人早了3年多的時(shí)間在正確的道路上邁出了對SAP來說極其關(guān)鍵的一步,今天回頭去看,這實(shí)在是非常卓越的成就。這是為什么SAP今天在企業(yè)級市場上依然引領(lǐng)潮流,并且第一次對Oracle的核心領(lǐng)域Database系統(tǒng)造成了實(shí)質(zhì)性的傷害,以至于Oracle慌忙的推出了一系列的產(chǎn)品跟風(fēng),包括最新的Oracle 12c in-memory database。
我們先講個(gè)故事,至于故事的主角HANA和Michael Stonebraker的詳細(xì)情況,我們留到下篇文章來細(xì)聊。但是有一點(diǎn)先提一下,Michael Stonebraker算得上是database community里呼風(fēng)喚雨的人物。他手指抖一抖,整個(gè)學(xué)術(shù)圈加半個(gè)industry都得搖三搖。 介紹人物不貼圖片不好,貼了又怕人家告我侵權(quán),那就只好貼個(gè)我和大神的合影吧。請忽略那個(gè)胖的要死又顏值巨低的我。
本文作者飛總和Michael Stonebraker的私家合影
2009年開會(huì)的時(shí)候,我不巧起來的比較晚,到keynote 現(xiàn)場的時(shí)候就坐到了第二排。前排坐的當(dāng)然是這位大神,此外還有David Lomet等微軟幾個(gè)大牛古董級別的人物,我想做database 研究的人一定知道我在說的是哪些人了。臺上Hasso一邊講,臺下的Michael就一邊不停的罵:
This is the worst keynote that I have ever heard.
三個(gè)月以后和David Lomet約飯,吃飯途中聊起這個(gè)事情,David Lomet非常開心的笑笑說,Hasso壞了Michael的生意,所以Michael特別的生氣。那么這門生意是怎么回事呢?大家如果記性好的話,我曾經(jīng)寫過一篇從database的陳年公案看如何有理有據(jù)的胡說八道。那篇文章的作者和這個(gè)Michael算得上是一伙人,在database圈子里很大的一個(gè)山頭。壞了人家生意可不是什么好事情。只是我想還是先賣個(gè)關(guān)子,等下一篇仔細(xì)介紹這個(gè)拿圖靈獎(jiǎng)的商人的一些故事的時(shí)候再來詳細(xì)介紹吧。今天的主要任務(wù)是先挖個(gè)坑。
Michael Stonebraker的生意經(jīng)
Michael Stonebraker,1943年出生,2015年獲得計(jì)算機(jī)界有諾貝爾獎(jiǎng)之稱的圖靈獎(jiǎng)。這是一個(gè)傳奇的人物,在計(jì)算機(jī)界尤其在做database系統(tǒng)的人里面無人不知無人不曉,有著無數(shù)的崇拜者。同時(shí)也是database的community的一座大山,說說話有著很多的影響力。我作為一個(gè)小蝦米,其實(shí)不具備資格去客觀公正的評價(jià)這樣一個(gè)人。但是作為講故事的一部分,不妨給出自己一個(gè)極具有偏見的評價(jià):一個(gè)拿了圖靈獎(jiǎng)的business man,一個(gè)開了很多公司又賣了很多公司的教授。
Stonebraker最開始始于UCBerkeley,當(dāng)時(shí)做了database歷史上頗具有影響力的Ingres系統(tǒng)。很多時(shí)候人們把Ingres和SystemR相提并論,作為關(guān)系數(shù)據(jù)庫原型系統(tǒng)的先驅(qū)之一。不可否認(rèn),作為這個(gè)時(shí)候的Michael是受人尊重,值得我獻(xiàn)上膝蓋的。Ingres的另外一個(gè)成就是Stonebraker把一個(gè)research prototype做成了一個(gè)產(chǎn)品,并且正正經(jīng)經(jīng)的和IBM以及Oracle堂堂正正的競爭了一段時(shí)間。所謂行百里者半九十。Research community在這方面,幾十年如一日的建設(shè)各種玩具,一個(gè)又一個(gè)。沒有多少人愿意把玩具真正做成產(chǎn)品。所以最近在BigData領(lǐng)域非常紅火的Spark出自UCBerkeley,這個(gè)傳統(tǒng)早在很多年前就已經(jīng)有了。無論從任何角度上來說,我覺得都值得我去尊重,也值得每個(gè)做數(shù)據(jù)庫系統(tǒng)研究的人去認(rèn)真思考。很大程度上我是厭倦了這個(gè)圈子里自娛自樂的狀態(tài),所以對做研究發(fā)SIGMOD VLDB的興趣基本上沒了。當(dāng)然我并沒有因此貶低發(fā)SIGMOD VLDB的價(jià)值。事實(shí)上,讓我來以此作為謀生,我也不能保證自己一年下來能不能發(fā)出幾篇來。始終是件不容易的事情。
Ingres的商業(yè)化并不成功。按照Stonebraker自己的觀點(diǎn),是因?yàn)镺racle抄襲了IBM新出來的SQL語言而Ingres使用了更為先進(jìn)的語言。結(jié)果先進(jìn)的被落后的淘汰了。至于刺眼是否屬實(shí),我想我生的太晚,錯(cuò)過了那個(gè)時(shí)代,只能從故紙堆里看蛛絲馬跡,貌似還有銷售和運(yùn)營的問題。
Michael Stonebraker賣掉了Ingres,然后開始了新的project。Postgres是其中最著名的一個(gè),如今成為開源database的兩大支柱之一,另外一個(gè)是MySQL。然而此位從此也走向了一條說不清楚好還是不好的路途,簡單來說就是做project,開startup,然后吹起來,賣掉。Postgress給賣給了Informix,當(dāng)時(shí)第四大database vendor。Informix的人覺得此人如此之牛,請了他做CTO。然后他在任上成功的把Informix賣給了IBM。還好IBM沒有再請他繼續(xù)做CTO了。
我想2000年左右的Michael一定不再是1980年的Michael。有錢,有名,又賣了不少公司。所以做項(xiàng)目,開startup,賣公司成了他的套路。那么,我們客觀一點(diǎn)說,他對database的理論和系統(tǒng)是不是做出了什么樣breakthrough的影響了嗎?其實(shí)我想任何一個(gè)東西單獨(dú)拿來看,估計(jì)都不能說是。他做系統(tǒng)很多,但是Oracle的funder們做系統(tǒng)也很牛,從這個(gè)角度來說,是不是圖靈獎(jiǎng)應(yīng)該給他們呢?這個(gè)圖靈獎(jiǎng)的爭議很多,但是且等后面再詳細(xì)談。而坊間傳聞的他是不是在抄襲其他人原創(chuàng)的idea,這尤其是很有意思的話題。譬如說大家去找MonetDB去聊聊天,他們會(huì)不會(huì)覺得所謂column store其實(shí)是自己先做的呢?以至于2015年VLDB的時(shí)候c-store的論文被確認(rèn)為10 year best paper,MonetDB的人就沒去開VLDB了。當(dāng)然,那個(gè)一直以來不是那么討老人喜歡的SIGMOD,老早就開搞double-blinded review的SIGMOD,第二年就給MonetDB頒了個(gè)獎(jiǎng)。這也算得上是以牙還牙以眼對眼了。
大概在2007還是2008年的時(shí)候,Stonebraker覺得自己手頭的牌差不多了,就發(fā)表了一篇論文,忘記是在維也納的VLDB還是溫哥華的SIGMOD了。當(dāng)時(shí)我還是DB小白的時(shí)候,讀起來覺得我身處在Database變革的最好的時(shí)代,熱血沸騰啊。這篇論文大致的想法是,database作為一個(gè)通用的系統(tǒng)已經(jīng)存在很多年了,又作OLTP的又作OLAP的,又貴又笨拙的,不符合時(shí)代發(fā)展潮流了。以后的時(shí)代應(yīng)該是專業(yè)的database做專業(yè)的事情,比如說column store要做OLAP,row store去做OLTP. 現(xiàn)在回頭看,自己還是太過于幼稚了,容易上當(dāng)受騙。那個(gè)時(shí)候Michael手里已經(jīng)攢了一摞牌了:
c-store,著名的column store,后來改名叫Vertica,再后來被HP這個(gè)傻子買了。
h-store,著名的row store,做transaction的,改名VoltDB,至今沒賣掉。
StreamBase, 上一波里遺留下來做streaming的,后來終于賣給TIBCO了。
SciDB,array database,做科學(xué)計(jì)算的,剛開始做沒多久。
Michael已經(jīng)不是當(dāng)年的Michael了,他可以呼風(fēng)喚雨告訴整個(gè)research commuity未來的發(fā)展方向,以及買他手頭一摞的公司了。這就是今天來看,被SAP那個(gè)從來沒做過database的傻帽co-found給壞掉的生意。我們再來看看,2009年的keynote,說得到底是什么:
A Common Database Approach for OLTP and OLAP Using
an In-Memory Column Database
哇,我Michael剛定好了生意經(jīng),column-store給OLAP, row-store給OLTP,你就跳出來說要做一個(gè)同時(shí)能搞定兩者而且又非常快的column-store。誰允許你說column-store可以做OLTP的。我給你蓋章了么?所以那個(gè)c-store倒是給HP買了,那個(gè)h-store至今無人問津。壞人生意不是擋人財(cái)路么?壞了Michael的生意的HANA,在database的research community到底能有多受待見呢?我們下回再詳細(xì)講HANA的故事。
心黑膽肥的SAP
花開兩枝,講完黯然神傷的Michael和他可憐的賣不掉的H-store,我們來看看SAP的葫蘆里賣的什么藥。以事后諸葛亮的態(tài)度來說,SAP演出了一場大戲,從研發(fā)到宣傳到銷售到并購,很多東西是不是精心策劃我無從判斷,然而起碼從結(jié)果上來說,可謂心夠黑膽夠肥。
HANA是High Performance Analytic Appliance的簡稱,它作為一個(gè)新型的數(shù)據(jù)庫,有著一些其他數(shù)據(jù)庫所不具備的特點(diǎn)和創(chuàng)新性,我們先了解一下這些主要的創(chuàng)新性:
首先,HANA是第一個(gè)支持ACID的transaction 語義的column-store。這應(yīng)該是一個(gè)非常了不起的成就。雖然說實(shí)際上實(shí)現(xiàn)起來并非極其困難,但是對transaction的協(xié)議的改動(dòng)還是很多的。當(dāng)然這也是Michael很不喜歡HANA最根本的原因,撈過界了。
其次, HANA做了一個(gè)在09年看來非常大膽的決定。就是這個(gè)產(chǎn)品以堆高大上硬件的方式,把幾乎所有的數(shù)據(jù)都放在內(nèi)存里。想想看內(nèi)存的速度和硬盤能是一個(gè)量級的么?所以這使得SAP精心準(zhǔn)備的例子顯得非常的牛。一個(gè)在Oracle或者DB2上需要一天才能完成的報(bào)表,換上HANA之后只需要3秒鐘。對,亮瞎狗眼,只需要3秒鐘。當(dāng)然,對不起,您得升級硬件,買很多很多很多的內(nèi)存,最好還要很多很多很多的core。
再次,HANA推薦在同一個(gè)系統(tǒng)上同時(shí)處理OLTP的業(yè)務(wù)和OLAP的業(yè)務(wù),這完全避免了傳統(tǒng)BI的ETL(extract, transform ,load)的過程,使得分析變得非常的實(shí)時(shí)。數(shù)據(jù)非常的fresh。
再次,HANA幾乎完整的整合了R的功能,并且把SAP業(yè)務(wù)相關(guān)的很多功能直接在HANA內(nèi)部實(shí)現(xiàn)了。這有點(diǎn)反計(jì)算機(jī)軟件構(gòu)架里面的封裝。然而在內(nèi)存數(shù)據(jù)庫的環(huán)境下讓數(shù)據(jù)離業(yè)務(wù)相關(guān)計(jì)算更近無疑是一種效率上極其有效的策略。
最后,現(xiàn)在的HANA是一個(gè)shared nothing的體系架構(gòu)。數(shù)據(jù)被partition,每臺只負(fù)責(zé)自己的部分。這讓HANA同時(shí)也具備了比較靈活的資源配置和高效的資源利用。當(dāng)然其實(shí)這個(gè)體系結(jié)構(gòu)也有弊端,如果查詢的key并不是partition key或者對partition key 有functional dependency的話,那查詢需要并行讀所有的數(shù)據(jù)。未必會(huì)慢但是很耗CPU資源。這個(gè)做法其實(shí)和很多key-value store的做法很像。而傳統(tǒng)數(shù)據(jù)庫一般是shared-everything的體系結(jié)構(gòu)。在大數(shù)據(jù)面前,無疑是一個(gè)更為落伍的處理方式。
然而心黑和膽肥其實(shí)體現(xiàn)在SAP怎么樣去運(yùn)作和商業(yè)化HANA。 HANA2010年的時(shí)候挑了幾個(gè)高富帥企業(yè)做內(nèi)測,然后在2011年前后開始針對大型有錢的主推開。HANA的硬件是需要通過認(rèn)證的,內(nèi)存從64GB起,在10年的時(shí)候這樣的機(jī)器幾萬美元是至少的。而HANA的軟件則賣到了30萬美元起的價(jià)格了.
從2011年到2014年,HANA一貫以來都實(shí)行非常高的價(jià)位,基本上就是只有土豪才能買得起的。市面上對HANA的抱怨基本上都被這蛋疼的價(jià)格所吸引了,然而正是因?yàn)閮r(jià)格高,用戶不多,HANA不但獲得了源源不斷的錢,更是獲得了非常重要的形象問題:高大上。不但如此,這幾年的限制還給了HANA寶貴的時(shí)間去真正提高產(chǎn)品。土豪用產(chǎn)品有一個(gè)特點(diǎn),HANA怎么宣傳怎么用,比較傻白甜,所以很多HANA的缺點(diǎn)暴露的機(jī)會(huì)其實(shí)不多。
HANA的大膽還體現(xiàn)在HANA的宣傳上。比如說面對老對手Oracle,SAP說,你們代表著過去,HANA才是新時(shí)代新硬件新體系下面的東西,我們是未來。這招對土豪們尤其管用。土豪不差錢,中國石油差錢還是民航差錢,要的就是最新最貴最牛13的東西。于是一圈圈的土豪都從Oracle上面轉(zhuǎn)到HANA上,雖然HANA其實(shí)并沒有ready。這些土豪里面,中國的土豪在最初的一段時(shí)間內(nèi)貢獻(xiàn)了大部分的比例,果然是敢為天下先的為SAP添磚加瓦的土豪們。當(dāng)然隨著產(chǎn)品的成熟,日本和歐美的大企業(yè)也越來越多的進(jìn)到HANA的高端客戶里來。
應(yīng)該說,這是這么多年來第一次有人對Oracle的基本盤造成了動(dòng)搖。這之前不管是DB2還是SQL Server,無非跟在后面跟屁蟲一樣的吃點(diǎn)殘羹冷炙,算不得威脅。三板斧干死Oracle, 真的很牛。想來Oracle商業(yè)上這么牛的公司,居然也有瞎眼的時(shí)候。從實(shí)際行動(dòng)上來看,Oracle一系列的發(fā)布從Timesten,Exalytica,Exadata,到Oracle 12c In-Memory Option,簡直是亦步亦趨的證明了自己就是一個(gè)追隨者,而SAP才是內(nèi)存數(shù)據(jù)庫的開拓者。所以土豪們更懶得去理那個(gè)亦步亦趨的Oracle了。Oracle是自己把自己作成了一個(gè)追逐者,其實(shí)在2011年的時(shí)候如果Oracle夠冷靜,還是可以發(fā)現(xiàn)HANA只是個(gè)不成熟的玩具的,就不至于匆忙因?qū)α恕N蚁脒@種商業(yè)上的成功在企業(yè)級市場是非常罕見的。
HANA的另外一個(gè)牛掰的地方就是敢吹,每次都是新功能新特性先做一個(gè)半成品,就開release出去,在客戶文檔里面大肆吹多牛多牛,實(shí)際上bug一堆,然而因?yàn)槲蚁旅嬉v到的一點(diǎn),這并沒有成為它的阻礙。舉個(gè)例子,HANA在2011年的時(shí)候連high availability都還不具備,居然就開吹HANA怎么樣通過一個(gè)cluster的機(jī)器來解決failure的問題。拜托,膽肥成這樣不容易啊。
然而僅僅靠這些還是不夠的,HANA的另外一個(gè)很牛的地方是瘋狂開發(fā)瘋狂release,在SAP推出市場以后,基本上做到了半個(gè)月到一個(gè)月一個(gè)release,每次release老的半成品的bug被小白鼠反饋回來修得差不多了,新版本又增加了一些半成品。4年下來80多個(gè)release。更夸張的是,每個(gè)版本的release的功能相差還是挺大的,半年后和半年前是兩個(gè)樣。我們都是軟件開發(fā)的,只能說這說明2010年賣給土豪的版本,連個(gè)毛胚都算不上啊。30萬美元買個(gè)毛胚大家怎么想?人傻錢多?奇怪的是用戶還很吃這一套。做了小白鼠,架不住人家修的快啊。
HANA的另外一個(gè)牛的地方在于,SAP把這個(gè)作為公司戰(zhàn)略高度的產(chǎn)品來推廣。銷售賣的業(yè)績要看HANA賣了多少。各個(gè)產(chǎn)品組的新feature必須先支持HANA。總之是從宣傳到銷售到市場到研發(fā)一切以支持HANA為最高優(yōu)先級。這種全力以赴的狀態(tài),在一個(gè)業(yè)已成熟的企業(yè)級軟件公司,無疑是一場豪賭。
當(dāng)然SAP知道自己很跛腳。SAP的傳統(tǒng)數(shù)據(jù)庫相關(guān)的積累太過薄弱,所以三板斧使喚完的時(shí)候就沒救了。SAP另外一件偷偷摸摸做的事情是收購一個(gè)數(shù)據(jù)庫廠商。其實(shí)當(dāng)時(shí)市面上最好的選擇大家都知道Sybase。這個(gè)曾經(jīng)的第三大數(shù)據(jù)庫廠商,因?yàn)闆Q策失誤的問題,90年代末賣了一份源代碼給微軟,做NT系統(tǒng)下的數(shù)據(jù)庫,這后來就成了赫赫有名的SQL Server。買了源代碼的人迅速超越成了第三,最近又成了第二。這個(gè)被迫成為第四的廠商越發(fā)難以為繼。而SAP則偷偷的瞄準(zhǔn)了它,給買了。我想這絕對是Oracle失算的地方。
獲得了Sybase的加持以后,SAP HANA的體系立刻變得完整起來。舉個(gè)例子,以前是全部內(nèi)存的。但是總有人沒錢不是土豪,買不起太高端的,怎么辦?HANA后期的完整解決方案里面就有cold data存磁盤的辦法,當(dāng)然用的是Sybase那買的技術(shù)。另外一個(gè)特別重要的是實(shí)時(shí)備份技術(shù),這在任何商用數(shù)據(jù)庫里都很成熟但是HANA是一直裸奔的。買了Sybase,就迅速的集成了Sybase Replication Server。讓SAP偷偷的買成了Sybase,絕對是一盤大棋里關(guān)鍵又險(xiǎn)惡的一步,成功了,一下子就獲得了Sybase仁波切的加持,各種各樣缺少的東西都有現(xiàn)成的,失敗了,遲早HANA的各種缺陷都會(huì)暴露出來。
等Sybase到手,關(guān)鍵技術(shù)integrate起來,2015年的HANA已經(jīng)是一個(gè)各方面非常領(lǐng)先的內(nèi)存數(shù)據(jù)庫解決方案,即便如Oracle也已經(jīng)無法有任何的實(shí)力可以撼動(dòng)了。而且對不起,以前實(shí)施SAP總要搭個(gè)Oracle賣,現(xiàn)在通通的都變成HANA,想想,SAP要賺多少錢,Oracle要損失多少億。這個(gè)時(shí)候HANA終于開始廉價(jià)傾銷,各種選擇都可以了。而樹已大,風(fēng)吹不動(dòng)了。心黑膽肥的SAP不但樹立起內(nèi)存數(shù)據(jù)庫的正統(tǒng),更名正言順的開始傾銷其業(yè)已成熟的產(chǎn)品。夠Oracle好好喝幾壺的了。
自娛自樂的DB研究圈子
往下寫故事就需要一些背景知識了,所以這就開始稍微偏點(diǎn)題。
關(guān)系數(shù)據(jù)庫是一個(gè)近40年的東西。在計(jì)算機(jī)領(lǐng)域,任何一個(gè)東西如果存在了近40年而沒有本質(zhì)上改變什么的話,那就可以認(rèn)為是一個(gè)非常非常古老的東西了。在關(guān)系數(shù)據(jù)庫興起的時(shí)候,最早做這個(gè)東西的很多人,都做出了很多貢獻(xiàn),這當(dāng)然包括了Michael Stonebraker,也包括很多現(xiàn)在很有名的人,比如David Dewitt, 比如Phil Berstein,比如Paul Larson等等。然而不得不說,我剛開始讀PhD的時(shí)候每次開會(huì)SIGMOD VLDB臺上發(fā)言的正是一群老頭子,等到我PhD畢業(yè),又工作了很多年以后,臺上還是那群老頭子。計(jì)算機(jī)發(fā)展是如此的迅速,而這些老頭子們幾十年如一日的在舞臺上表演,那么是這些人一招先步步領(lǐng)先呢,還是這些個(gè)會(huì)議其實(shí)都已經(jīng)老朽不堪了呢?
某種程度上,我必須說,很多很多的創(chuàng)新都在工業(yè)界。今天學(xué)術(shù)界,至少在數(shù)據(jù)庫領(lǐng)域可以狠命推動(dòng)整個(gè)產(chǎn)業(yè)前進(jìn)的能力正在越來越弱。而這個(gè)圈子里面的確是一個(gè)等級森嚴(yán)講究出身門第的地方。每年的博士論文拿最佳獎(jiǎng)項(xiàng)的,通常來說,多少導(dǎo)師都得需要有點(diǎn)點(diǎn)的江湖地位。不然的話,其實(shí)是沒戲的。而會(huì)議上唱主角的,則很多時(shí)候是一群老頭子和老頭子們的徒子徒孫們。所以當(dāng)2015年Michael Stonebraker拿到圖領(lǐng)獎(jiǎng)的時(shí)候,整個(gè)的VLDB都洋溢在一群老頭子歡欣鼓舞和一群群的人給老頭子們祝福的狀態(tài)。而2009年的SIGMOD則有一場關(guān)于關(guān)系代數(shù)30年的講座,臺上的老頭子們憶苦思甜講述當(dāng)年年輕的他們是怎么樣努力的構(gòu)建了今天的這個(gè)數(shù)據(jù)庫的學(xué)術(shù)圈。聽著這些講座,看著這些活動(dòng),確實(shí)會(huì)讓我們這些新進(jìn)來的人有無限的感慨。夕陽無限好啊,老頭子們依然年輕,完全沒有近黃昏的感覺。
中國人進(jìn)這個(gè)圈子比較晚,然而現(xiàn)在也在里面發(fā)展出了自己的圈子。這個(gè)以海外澳洲,新加坡,香港,以及一些北美歐洲,最近又加入了一些中國大陸高校的老師的群體。這個(gè)團(tuán)體在國內(nèi)紅紅火火頗有面子,然而仔細(xì)觀察來看,其實(shí)和美國的主流團(tuán)體的老頭子們,基本上還是各玩各的狀態(tài)。有例外,但不多。中國人傳統(tǒng)強(qiáng)項(xiàng)挖坑一般不在關(guān)系數(shù)據(jù)庫里,比較多的是spatial,top-k,skyline,還有做做privacy。然后就是哪里熱往哪里灌了。我想新加坡和香港一直都是這方面的主力軍了。
我進(jìn)入Database這個(gè)領(lǐng)域開始做PhD的時(shí)候,正值這個(gè)圈子里面的前面一波坑退去,那個(gè)時(shí)候主流的坑一個(gè)是XML,一個(gè)是Streaming,兩個(gè)每年都有很多論文發(fā)表出來。當(dāng)然后來XML被證明只是個(gè)configuration的文件格式比較合適,而Streaming這幾年在大數(shù)據(jù)的實(shí)際應(yīng)用中確實(shí)越來越重要。然而所謂挖坑灌水,那是需要費(fèi)盡心思死命的灌。灌到所有可能性都灌完。
一個(gè)新坑,probabilistic database在這兩個(gè)坑灌無可灌的時(shí)候起來了。祖宗是University of Washington的Dan Suciu。Dan是一個(gè)很和藹的長者,做理論強(qiáng),數(shù)學(xué)家,發(fā)家于XML。這個(gè)大坑正式送他上天了。接下來的是Stanford的Jeniffer Widom,數(shù)據(jù)庫領(lǐng)域兩大派系之一的代表人物插了這腳進(jìn)來。另外一派則是和Michael共舞的Wisconsin派。后者不論是工業(yè)界還是學(xué)術(shù)界在數(shù)據(jù)庫領(lǐng)域都可以和stanford相庭抗理,甚至大部分時(shí)候都更牛一些。
于是乎滿世界的都是probabilistic database,那幾年的幾乎所有的SIGMOD VLDB都在做。我當(dāng)然也不能免俗,迄今為止,我引用數(shù)最高的論文,大概幾百個(gè)引用吧,就是關(guān)于這個(gè)坑的。中國人,包括海外的中國人尤其發(fā)揮了自身的優(yōu)勢,源源不斷的涌現(xiàn)出各種各樣的top-k,各種各樣的probabilistic假設(shè)。
我很佩服學(xué)術(shù)圈的人先赴后繼挖坑灌水的能力。從大牛到小牛到不牛的大家都說這個(gè)東西好,是個(gè)大寶藏。然而必須承認(rèn),不能產(chǎn)生實(shí)際效益的東西無外乎皇帝的新裝,總有一天會(huì)凋零的。就像SAP扛著HANA的旗幟告訴大家說,我SAP才是內(nèi)存數(shù)據(jù)庫的領(lǐng)導(dǎo)者,你們這群做研究的,都不知道在干什么鬼一樣,這場轟轟烈烈的probabilistic database的挖坑灌水運(yùn)動(dòng)中,成就了無數(shù)個(gè)Phd,讓無數(shù)個(gè)教授拿到了Tenure,也讓一些人上了天。但是過去之后終究是然并卵,什么都沒有留下來。
而自己不愿意變化,外面總是會(huì)有人來打臉的。HANA這個(gè)臉打的不算太大。有個(gè)很evil的公司叫Google,一巴掌拍過來,三駕馬車一出,BigData從此走向了歷史舞臺。當(dāng)然現(xiàn)在的數(shù)據(jù)庫的會(huì)議都在不斷的擁抱BigData,可是君不知,這些文章最初發(fā)表的會(huì)議是OSDI,一個(gè)操作系統(tǒng)的頂級會(huì)議。和數(shù)據(jù)庫半毛錢的關(guān)系都沒有。
這讓我畢業(yè)以后越發(fā)的覺得挖坑灌水固然好玩,發(fā)論文固然有成就感,到一定程度以后就沒意義了。無非是自娛自樂的一種方式。當(dāng)然我并不否認(rèn),國外的博士教育還是帶給了我很多的東西,包括我講故事的能力。今天我能在這里閑庭信步的給大家講故事,而且還講得不錯(cuò),多少都得益于那慘無人道的五年里面無數(shù)次寫和修改論文的過程。
有關(guān)打臉的故事我們會(huì)慢慢的講下去,今天先到這里,正好也應(yīng)該去看美國總統(tǒng)的辯論了。
未完待續(xù)。
以上內(nèi)容由飛總授權(quán)轉(zhuǎn)載,版權(quán)所有,侵權(quán)必究,轉(zhuǎn)載請授權(quán)。
飛總的個(gè)人微信公眾號:飛總的IT世界面面觀
飛總,一位旅居西雅圖的華人,祖籍浙江,IT人士。2008年起從事大數(shù)據(jù)相關(guān)的基礎(chǔ)構(gòu)架的研究和開發(fā),素愛讀書,博聞強(qiáng)識,對計(jì)算機(jī)行業(yè)和前沿技術(shù)的發(fā)展有深刻和獨(dú)到的見解。