在全球大數據生態圈中,Hadoop堪稱其中最為核心的技術。
由非營利組織管理的Hadoop平臺,盡管推行開源模式,但企業并不是拿來就可以用,它需要經過進一步的加工和修繕,由此孕育了多家大數據商業開發公司,如Cloudera、MapR、Hortonworks等。這些公司的商業模式就是開發商業化的Hadoop分發版,并對外銷售。
在這些Hadoop分發版開發公司中,Hortonworks剛剛完成IPO,算是最早的一家,目前市值約10億美元。而要論規模和影響力,則莫過于Cloudera。
Cloudera由分別來自Facebook、谷歌、雅虎和甲骨文的四位創始人于2008年成立。一項數據顯示,75%的Hadoop新用戶使用的都是Cloudera的分發版。
12月10日,Cloudera正式宣布在中國開始運營,標志著這家已在全球發展了1300多家客戶的大數據公司,將業務觸角伸向這一潛力市場。Cloudera公司創始人、董事長兼首席戰略官Mike Olson亦專程來到中國為新公司站臺。
“隨著中國交通、電信、金融、醫療等行業領域的飛速發展,越來越多的企業需要快速,甚至是實時的大數據分析。”Mike Olson在接受21世紀經濟報道記者專訪時表示,大數據在中國企業轉型與變革中發揮的作用將愈發顯著,而Hadoop作為大數據應用中的主流技術,也將逐漸成為企業應用的核心。
英特爾軟件與服務事業部中國區總經理、英特爾亞太研發有限公司總經理何京翔,以及Cloudera公司副總裁、肯睿(上海)軟件有限公司總經理凌琦也同時接受了21世紀經濟報道記者專訪。
50億美元估值
《21世紀》:Cloudera的四個創始人當中,各自怎么分工,你負責哪些部分?
Mike Olson:我們四位聯合創始人分別來自于雅虎、谷歌、Facebook和甲骨文。我是來自于甲骨文,在此之前創建了Berkeley DB,后來被甲骨文收購了。2008年與另外三位同事一起創建了Cloudera,到現在已經六年半了。現在我的角色是董事長和首席戰略官。
另外的三位同事,Jeff Hammerbacher來自Facebook,他現在是我們的首席科學家,他在做很多對人類非常重要的一些事情,比如說基因圖譜,利用大數據這樣一個工具進行一些重大疾病的研究。Amr Awadallah是我們的CTO,他來自于當年的雅虎,他是最早在雅虎內部使用Hadoop的人之一。Christophe Bisciglia來自于谷歌,盡管他現在已經離開了Cloudera,但是還是在這個生態圈里面,他在Cloudera基礎上創建了一些工具和應用,利用大數據這個平臺服務客戶。
另外還有一個需要提及的人是Doug Cutting。大家都知道Doug Cutting是Hadoop之父,他在2004年寫了Hadoop,到2009年加入Cloudera,現在任職我們的首席架構師。
《21世紀》:能否介紹下Cloudera的最新發展情況?
Mike Olson:目前我們全球擁有800名員工,已經有超過50億美金的市值,有超過1300家的合作伙伴,他們分布在電信、運營商和金融、制造業等各行各業。
Cloudera的商業模式以軟件銷售為主,同時會提供專業化的服務和認證培訓。這類似于Red Hat。誠然,Hadoop是開源的開放式標準,這避免了客戶被某一家廠商鎖定的風險,但僅僅開源并不夠,開源版本更多的是靠一個社區去推動,而企業級客戶需要更穩定、更安全、便于管理的企業級平臺。這是企業級用戶大多會選擇Hadoop商業分發版的原因。
從技術角度來講,Cloudera 的800名員工有一半以上是開發人員,這也就意味著我們對Hadoop社區和整個技術演進的發展方向有非常大的貢獻和影響。
聯手英特爾
《21世紀》:Cloudera成立六年半后來到中國,準備怎么開展業務?
Mike Olson:我們的中國公司——肯睿(上海)軟件有限公司——已經在9月份注冊完成,現在正式對外宣布開始運營。目前的團隊主要在上海、北京、廣州三個地方。業務模式與在美國的業務一脈相承,主要包括四部分:軟件開發、營銷;合作伙伴支持;解決方案咨詢服務;認證培訓。
團隊方面,我們一方面是本地化,凌琦是Cloudera公司副總裁和肯睿(上海)軟件有限公司總經理,他在英特爾工作了20年。另一方面是與英特爾的合作。英特爾向Cloudera投資了7.4億美金,持有18%的股份,我們在產品和技術和團隊上有廣泛的合作。
凌琦:我來談談中國這邊的情況,第一個方面的工作是把以前英特爾的Hadoop分發版的中國客戶,轉換到Cloudera平臺上來。這些客戶主要是在金融領域,包括銀行、證券、保險等。在此基礎上,我們也發現中國市場對大數據的需求在快速增長,比如說電信業,它積累了大量的數據和客戶行為數據,這些信息會有很大價值可以挖掘。
我們還看到智慧城市。中國的智慧城市建設非常熱,這里面也是靠數據來支持,比如說交通管理,比如說在商業分布,甚至說對于城市安全的管理都有非常好的應用。
另外,大數據在生命科學方面、醫藥研究方面以及流行病趨勢方面,也會有很多應用。
《21世紀》:Cloudera在中國與英特爾將在哪些方面共享資源?
Mike Olson:我們跟英特爾的溝通當中會發現很多大數據潛在的問題,我們可以通過和英特爾或者與英特爾共享的合作伙伴渠道一起提供一個大數據整體解決方案。我們說到的智慧城市、平安城市都是非常典型的大數據應用場景案例。
何京翔:英特爾在上海的大數據開發團隊,與Cloudera在開源上有很多的合作;另一方面,我們在共有客戶和新客戶方面也會合作,來更好滿足客戶需求。
我本身在英特爾軟件及服務事業部工作,這個部門一個主要的任務是使得軟件能夠在英特爾平臺上跑得最好,所以具體落實到大數據這塊,就是怎么樣讓Hadoop、Spark這些新的軟件平臺在英特爾平臺上得到最好的優化,把我們軟硬結合做到最好。
與傳統數據挖掘是互補關系
《21世紀》:有很多力量在推動大數據發展,其中比較典型的包括傳統IT公司面對大數據的轉型,以及新興的創業公司。你怎么看這兩類公司的優劣勢?
Mike Olson:像Oracle、IBM、Teradata這些傳統的數據庫或者數據挖掘廠商,其實他們在自己擅長的部分已經做得非常好、非常成功,有非常成熟的解決方案。隨著時間的發展,我們現在已經看到越來越多的應用場景和新技術加入到Hadoop平臺。正如多年以前谷歌發表了三篇論文,MapReduce、Bigtable、GFS,三篇論文就是Hadoop的原形。Hadoop也是受到這三篇論文的啟發。
我認為這兩種模式更多的是優勢互補。我們現在看到Cloudera做的大數據平臺和傳統數據倉庫EDW數據平臺并不是競爭的關系,因為我們可以給他們提供更多的數據,更多種類的數據,不論是從量、種類還是數據類型都會遠遠超過過去EDW數據能夠處理的范圍。有了這些數據,用戶還是可以用他們熟悉的數據分析和建模以及數據挖掘的工具,比如說Teradata,比如說MicroStrategy這樣的東西去發掘數據的價值。
也就是說,我們這兩個方案完全是互補的關系,我們可以給他提供更多種類的數據,讓他們從中挖掘更多的價值給到用戶。
這里想強調一下我們跟合作伙伴良好的關系,舉幾個例子,今年10月份,我們宣布了很多合作,比如說跟Teradata、微軟、EMC,以及我們跟Oracle做了一體機,這些都是非常好的樣板,會告訴大家我們跟這些傳統的關系型數據庫、數據挖掘公司并不是競爭的關系,而是良好的合作關系。
在Cloudera過去六年半的歷史上,我們已經做到了在大數據領域最大,也是最好的分發版提供商,這也是我們跟合作伙伴持續創新、共同發展、共同成長的一個結果。
大數據平臺作為一個新生的產品或者一個業界的發展動態,畢竟現在還是一個早期的階段,對Cloudera這樣的新興的創業公司來講,在這方面肯定有優勢,船小好掉頭,這也是大家容易理解的。
《21世紀》:美國大數據領域的創業非常活躍,有很多融資、并購的案例。目前中國大數據領域的創業也在增多。你對這樣的創業公司有什么建議?
Mike Olson:一是對這些新興的中國的創業的大數據廠商,要盡量讓自己聚焦在創建一個行業的解決方案或者是一些應用,或者是一些上傳的工具,這樣能夠更好地利用Cloudera非常穩定的、成熟的大數據平臺,提供整體的解決方案給到客戶。
中國有很多非常活躍的初創企業,我們非常希望能夠和合作伙伴一起,通過合作伙伴整個生態圈的打造,能夠更多更好地服務于最終客戶。
隱私問題的技術視角
《21世紀》:你怎么理解大數據隱私的問題,目前全球有哪些比較好的解決方案?
Mike Olson:用戶隱私是一個非常重要的話題,不論是對客戶,還是對我們這樣一個產品提供商。我們在這方面已經做了很多工作。前期我們在數據加密和優化方面,和英特爾一起發布了很多產品。這是一方面。接下來更多的挑戰是,如何把現有我們平臺已經有的功能應用到客戶的應用場景里去解決客戶的真實問題。
凌琦:第一,我們都理解信息安全、隱私非常重要。同時跟國家的政策、法規以及文化、心理習慣有關系,所以從一個技術公司的角度來說,我們更多的定位自己是提供能夠加強信息安全和隱私管理的技術。但是上面所進行的應用開發更多是跟本地的公司在一起做的,而這些公司對本地習慣的了解,文化法規的了解,使他能夠開發這些應用,符合本地用戶的需求。
第二,我們也認識到隱私其實是個人的事情,如果說這個數據能夠直接點到每一個人,把你所有的東西都通過大數據的技術找出來,這是個很可怕的事情,從技術上不是不可能。但是我們有一些技術可以通過隱藏這個人本身的身份,但是把這些數據剝離出來,能夠知道整個趨勢是什么樣的,但是把人本身的身份隱藏起來。