精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

Hadoop開(kāi)源啟示錄

責(zé)任編輯:editor005 |來(lái)源:企業(yè)網(wǎng)D1Net  2016-08-23 14:38:23 本文摘自:數(shù)據(jù)派

2016年8月,清華大學(xué)宣布與Hadoop開(kāi)發(fā)社區(qū)的頂級(jí)貢獻(xiàn)者Cloudera公司聯(lián)合推進(jìn)大數(shù)據(jù)人才教育項(xiàng)目,在大數(shù)據(jù)開(kāi)源社區(qū)方面開(kāi)展合作。在Hadoop生態(tài)領(lǐng)域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當(dāng)前大數(shù)據(jù)領(lǐng)域最強(qiáng)有力的解決方案服務(wù)商之一。帶著對(duì)中國(guó)大數(shù)據(jù)市場(chǎng)的滿滿誠(chéng)意,Cloudera創(chuàng)始人、董事長(zhǎng)兼首席戰(zhàn)略官M(fèi)ike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting來(lái)到清華,為三百余位現(xiàn)場(chǎng)聽(tīng)眾及兩千余名在線直播聽(tīng)眾講述了Hadoop的發(fā)展歷程,并與清華大學(xué)軟件學(xué)院副院長(zhǎng)、黨委書記王建民及現(xiàn)場(chǎng)的同學(xué)們展開(kāi)了深刻而有趣的對(duì)話。

Doug Cutting口述:

Hadoop十年,撬動(dòng)未曾料及的魔法時(shí)代

10年前我開(kāi)創(chuàng)Hadoop時(shí),存儲(chǔ)企業(yè)數(shù)據(jù)和商業(yè)數(shù)據(jù)系統(tǒng)的使用和現(xiàn)在大不相同。對(duì)大多數(shù)機(jī)構(gòu)來(lái)說(shuō),企業(yè)數(shù)據(jù)建立如果不依賴關(guān)系型數(shù)據(jù)庫(kù),就完全沒(méi)可能了解數(shù)據(jù)。但關(guān)系型數(shù)據(jù)庫(kù)使用起來(lái)很昂貴,也不適用于所有形式的數(shù)據(jù)。那時(shí)人們關(guān)注很多數(shù)據(jù)只是聚焦在關(guān)鍵字、任務(wù)、業(yè)務(wù)等(編者注:可數(shù)據(jù)庫(kù)領(lǐng)域的查詢條件)。世事變遷,Hadoop是如何帶來(lái)一些改變的呢?

因興趣創(chuàng)建Lucene,試水開(kāi)源社區(qū)

在大約18年前,當(dāng)時(shí)我在Excite負(fù)責(zé)做搜索引擎。事實(shí)上,我做過(guò)多個(gè)搜索引擎,從就職Xerox開(kāi)始,到蘋果再到Excite。我喜歡做搜索引擎并且一直有一個(gè)想法,用一個(gè)新的方式去寫搜索引擎,Excite對(duì)這個(gè)想法并不感興趣,于是只能自己鉆研。我嘗試用一種新的編程語(yǔ)言,并認(rèn)為它會(huì)成為一種通用計(jì)算機(jī)語(yǔ)言,就是當(dāng)時(shí)并非主流的Java。

1998年我完成了Lucene的第一個(gè)版本。當(dāng)時(shí)并沒(méi)有想好能用它做什么,只是有興趣嘗試并在業(yè)余時(shí)間完成了。兩年后,也就是2000年,我還沒(méi)想好用Lucene能做什么,但我決定不能就這樣冒然地成立一家新公司,因?yàn)槲也磺宄?cái)務(wù)、人事、合同等公司常規(guī)流程。我真心希望人們能用上這個(gè)產(chǎn)品,這也是我開(kāi)發(fā)這個(gè)產(chǎn)品的動(dòng)機(jī),我也希望能讓更多人發(fā)現(xiàn)它的實(shí)用性,并從中發(fā)現(xiàn)價(jià)值。我決定把它貢獻(xiàn)到開(kāi)源社區(qū)。

在把Lucene的代碼貢獻(xiàn)到開(kāi)源社區(qū)的第二年,它被一些小的社區(qū)使用,我也因此被邀請(qǐng)加入Apache軟件基金會(huì)。Apache專注于開(kāi)源,集合了一群軟件界擁有最強(qiáng)大腦的工程師。它追求開(kāi)放自由,讓人們利用軟件變得無(wú)所不能。在市場(chǎng)需求推動(dòng)下,我們合作將軟件出版成商業(yè)產(chǎn)品,但Apache不強(qiáng)調(diào)歸屬于某個(gè)社區(qū),而且所有的社區(qū)都開(kāi)放,歡迎新成員加入。Apache社區(qū)上所有功能和提供的信息都及時(shí)共享并不斷更新。從2001年加入Apache到目前為止,這種模式已經(jīng)得到了令人驚嘆的成果。

其中一點(diǎn),就是隨著越來(lái)越多的開(kāi)發(fā)者,這種開(kāi)放模式讓人們可以隨時(shí)隨地的使用開(kāi)源軟件,也可以向其他推薦。當(dāng)需要向老板匯報(bào)卻又不在辦公室時(shí),可以下載之后在家處理,信息也可以實(shí)時(shí)同步。這使得人們處理程序、改進(jìn)程序、理解程序變得容易,能隨時(shí)和其他開(kāi)發(fā)者溝通。如果從事軟件開(kāi)發(fā),你會(huì)發(fā)現(xiàn)以往只有機(jī)會(huì)和公司的同事討論工作,而做開(kāi)源項(xiàng)目則可以和全世界討論,有很多表現(xiàn)的機(jī)會(huì),甚至可以和自己在業(yè)內(nèi)的“粉絲”去溝通。這種自我展現(xiàn)的方式有很好的激勵(lì)作用,為了更好地在觀眾面前展示自己,人們會(huì)更努力地工作,讓項(xiàng)目日臻完美。

此外,開(kāi)發(fā)者通過(guò)做軟件會(huì)被很多機(jī)構(gòu)了解并認(rèn)可,你的軟件很可能會(huì)富裕一個(gè)行業(yè)全新的生命力,所以每個(gè)方案每次改變都要有普適性。要做到為每一個(gè)人服務(wù),還要堅(jiān)持一段時(shí)間,用最好的方法做正確的事。開(kāi)源并不僅是幫助開(kāi)發(fā)者,它更會(huì)孕育出一批高質(zhì)量的軟件,讓人們會(huì)越來(lái)越有動(dòng)力去把事情做好。

從Lucene進(jìn)入開(kāi)源平臺(tái)感受到的第三點(diǎn),也是最有意思的一點(diǎn):這是一條突飛猛進(jìn)的捷徑。Lucene對(duì)原有的搜索引擎造成了很大的沖擊,因?yàn)長(zhǎng)ucene使用成本很低,且使用效果大大好于通用的商業(yè)產(chǎn)品。經(jīng)過(guò)大量的實(shí)踐與反復(fù)改進(jìn),Lucene已經(jīng)成為世界上最受歡迎的搜索技術(shù)之一。這并非是因?yàn)樗鼊?chuàng)造了一個(gè)軟件技術(shù)的開(kāi)端——也許有這個(gè)因素——但更重要的是它是開(kāi)源技術(shù),能讓每一個(gè)人都能參與進(jìn)來(lái),學(xué)習(xí)并改進(jìn)它,享受這個(gè)過(guò)程。這種開(kāi)源的方法很強(qiáng)大,能讓技術(shù)走近更多人,也促使技術(shù)變得更好更快。

此外,就像Mike Olson說(shuō)的,當(dāng)人們有選擇的時(shí)候,在企業(yè)專用軟件和開(kāi)源軟件之間,人們總是傾向于選擇開(kāi)源軟件。一輪又一輪迭代后,你會(huì)發(fā)現(xiàn)開(kāi)源軟件在任何領(lǐng)域都會(huì)勝出。

Nutch、GFS和MapReduce, Hadoop萌芽在即

我開(kāi)始了另一個(gè)名為Nutch的項(xiàng)目。在Lucene的基礎(chǔ)上將開(kāi)源的思想繼續(xù)深化,我們從網(wǎng)頁(yè)上收集大量數(shù)據(jù),基于這些建立一個(gè)全新的開(kāi)源搜索引擎,就像Google、微軟bing或其他搜索引擎,收集特定的網(wǎng)頁(yè)及鏈接,提取信息,同時(shí)處理數(shù)十億的網(wǎng)頁(yè)請(qǐng)求。一臺(tái)PC無(wú)法存儲(chǔ)如此大量的信息,也無(wú)法在合理時(shí)間內(nèi)響應(yīng),所以我們嘗試用分布式系統(tǒng),Nutch在5臺(tái)電腦上運(yùn)行起來(lái)。我們也把Nutch資料總結(jié)成文本放入開(kāi)源社區(qū)中。

大約2003年到2004年的時(shí)候,Google發(fā)布了一些相關(guān)的研究報(bào)告,介紹了他們基于現(xiàn)有搜索引擎做的改進(jìn),吸引了我的關(guān)注。這些技術(shù)成果對(duì)我的研發(fā)有著十分直接的指導(dǎo)意義。運(yùn)用這些技術(shù),我們可以將原本需要手工操作的大量繁瑣的數(shù)據(jù)分配和空間管理等操作步驟實(shí)現(xiàn)自動(dòng)化。這兩個(gè)平臺(tái)一個(gè)是GFS(Google File System),將不同設(shè)備所產(chǎn)生的海量數(shù)據(jù)統(tǒng)一管理在同一個(gè)存儲(chǔ)空間內(nèi),與所有電腦都自動(dòng)關(guān)聯(lián),其中一個(gè)設(shè)備出現(xiàn)障礙,數(shù)據(jù)不會(huì)丟失,而且程序可以遷移到其他設(shè)備繼續(xù)運(yùn)行,所有數(shù)據(jù)資源可以共享。這種具備自動(dòng)關(guān)聯(lián)能力的數(shù)據(jù)管理是Google實(shí)現(xiàn)的一個(gè)核心突破,這使我們的操作能力可以從五臺(tái)電腦提升到成百數(shù)千臺(tái)。同時(shí),Google發(fā)布的另一個(gè)研究是有關(guān)MapReduce的,內(nèi)容是關(guān)于運(yùn)行在GFS上時(shí),如何用MapReduce進(jìn)行大規(guī)模數(shù)據(jù)的處理。

Mike Cafarella和我開(kāi)始基于這兩項(xiàng)技術(shù),在開(kāi)源平臺(tái)上校準(zhǔn)我們?cè)械某绦騈utch。2005年,我們開(kāi)始有數(shù)據(jù)基于20臺(tái)硬件設(shè)備在Nutch上運(yùn)行,這是當(dāng)時(shí)我們能借調(diào)到設(shè)備的最大數(shù)量。我當(dāng)時(shí)在一個(gè)非營(yíng)利組織工作,Mike還沒(méi)從大學(xué)畢業(yè),20臺(tái)設(shè)備已經(jīng)是我們能籌備到的極限。以這20臺(tái)設(shè)備所支持的開(kāi)發(fā)和測(cè)試情況來(lái)看,我們意識(shí)到這種數(shù)據(jù)分配的程序存在太多的bug,自動(dòng)關(guān)聯(lián)很難實(shí)現(xiàn),測(cè)試往往以失敗告終。當(dāng)你交叉驗(yàn)證時(shí),你會(huì)發(fā)現(xiàn)使用兩臺(tái)機(jī)器所產(chǎn)生的測(cè)試結(jié)果不一樣。

雅虎助力,Hadoop潛能釋放

我意識(shí)到這是一個(gè)很好的機(jī)會(huì),通過(guò)開(kāi)源平臺(tái)對(duì)世界上所有的主流數(shù)據(jù)處理模式做出徹底的革新,而且基于低廉的硬件成本。如果靠單槍匹馬去實(shí)現(xiàn)這個(gè)宏偉的計(jì)劃,它會(huì)耗費(fèi)十年甚至更長(zhǎng)時(shí)間才能最終替代現(xiàn)有的解決方案。我們需要其他幫助。

2005年底,經(jīng)過(guò)一番篩選我把目光聚焦在雅虎。雅虎對(duì)我的研究項(xiàng)目很感興趣,因?yàn)楫?dāng)時(shí)在做搜索引擎的過(guò)程中他們也有類似的困惑,合作研發(fā)也會(huì)同時(shí)幫他們解決問(wèn)題。2006年,我們加入雅虎,把Nutch分布式數(shù)據(jù)管理部分重新命名為Hadoop,名字來(lái)源于我兒子的黃色毛絨玩具——一只小象。為了新項(xiàng)目Hadoop的運(yùn)行,雅虎做了大量投入。從一開(kāi)始的10人工程師團(tuán)隊(duì)迅速增加到20人然后更多;機(jī)器數(shù)量也從一開(kāi)始的100臺(tái),在6個(gè)月后增加到數(shù)千臺(tái)。六個(gè)月內(nèi)我們不斷測(cè)試、開(kāi)發(fā)、運(yùn)行,逐漸有了成效。

從2007到2008年,切實(shí)改進(jìn)了數(shù)據(jù)關(guān)聯(lián)能力的技術(shù),其他人也開(kāi)始使用,這項(xiàng)技術(shù)也開(kāi)始釋放富有魔力的潛能。任何人都能下載這個(gè)開(kāi)源軟件,在并不昂貴的設(shè)備上運(yùn)行非常大量的計(jì)算。Yahoo、Facebook、eBay、LinkedIn、Twitter等公司都開(kāi)始以Hadoop為基礎(chǔ)搭建他們的業(yè)務(wù)。

未料及的行業(yè)滲透 Hadoop創(chuàng)造歷史

曾一度以為Hadoop能做的事情已經(jīng)完成,一切都在按預(yù)期發(fā)生。但我沒(méi)意識(shí)到的是,所有的傳統(tǒng)行業(yè)都在醞釀著變革,硬件設(shè)備已遍布如此廣泛,可用于計(jì)算的硬件已滲透到各行各業(yè)中,比如卡車、拖拉機(jī)、飛機(jī)、汽車等。所有這些傳統(tǒng)行業(yè)都在做數(shù)字化轉(zhuǎn)型,這正在產(chǎn)生更加海量更加有效的數(shù)據(jù)。運(yùn)用好這些數(shù)據(jù)能幫助人們更高效更精準(zhǔn)的管理生活。起初我并沒(méi)有意識(shí)到這一點(diǎn),曾以為只有互聯(lián)網(wǎng)公司、媒體公司才需要Hadoop技術(shù),但Mike Olson告訴我,這項(xiàng)技術(shù)已在更多行業(yè)領(lǐng)域釋放出更大的能量。所以他在2008年創(chuàng)建了Cloudera——第一家專注特定領(lǐng)域的企業(yè),也是迄今為止特定領(lǐng)域規(guī)模最大的企業(yè)。

2009年,為了參與這個(gè)讓人振奮的過(guò)程,見(jiàn)證更多的人利用我?guī)椭鷦?chuàng)建的軟件技術(shù)發(fā)揮更大的潛能,我加入了Cloudera。現(xiàn)在,我們見(jiàn)證預(yù)言變成了現(xiàn)實(shí),比如汽車生產(chǎn)商特斯拉,通過(guò)實(shí)時(shí)收集汽車動(dòng)態(tài)數(shù)據(jù),了解駕駛者的行為喜好,從而改進(jìn)他們的下一代汽車;航空公司在飛機(jī)上安裝了數(shù)百個(gè)傳感器,根據(jù)回傳的數(shù)據(jù),優(yōu)化航線。這真是令人矚目的改變!甚至在農(nóng)業(yè)、重型機(jī)械、鐵路、零售、健康醫(yī)療等所有我們能想到的行業(yè),數(shù)據(jù)都在發(fā)揮強(qiáng)大的影響力。

Hadoop切實(shí)推動(dòng)了這些令人矚目的改變的實(shí)施。在今天,Hadoop還在日益強(qiáng)大,但我覺(jué)得圍繞Hadoop發(fā)生的事情將更加有趣。在這個(gè)長(zhǎng)期的過(guò)程中,它已經(jīng)孵化了更多偉大的技能。從單機(jī)項(xiàng)目開(kāi)始,然后有了分布式的文件系統(tǒng)GFS和信息專家MapReduce,搭建的調(diào)度程序讓人們能夠基于Hadoop分享資源,并開(kāi)發(fā)其他類型的引擎,類似于YARN。越來(lái)越多的軟件技術(shù)基于Hadoop衍生出來(lái),比如在線鍵值存儲(chǔ);比如面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;超越了MapReduce的Spark,在實(shí)時(shí)批處理上表現(xiàn)更卓越;Impala能以SQL語(yǔ)義,快速查詢PB級(jí)大數(shù)據(jù),Lucene擅長(zhǎng)的搜索也被充分整合。每年都有更多的新技術(shù)刷新我們的視野。

試想一下,每一個(gè)系統(tǒng)的進(jìn)化迭代,每一個(gè)開(kāi)源項(xiàng)目的建立,都可能帶動(dòng)一次技術(shù)革新。其中一些非常有用的技術(shù),越來(lái)越多的人會(huì)開(kāi)始使用。這些技術(shù)將會(huì)慢慢變成所有人認(rèn)可的通用標(biāo)準(zhǔn),還有一些不流行地將慢慢被人們遺忘。時(shí)代在急速變化,關(guān)系型數(shù)據(jù)庫(kù)的世界幾乎固化了30年,只有非常細(xì)微的改變。在Hadoop誕生的近10年間內(nèi),技術(shù)界發(fā)生了翻天覆地的變化。我們見(jiàn)到了許多新的模型,它們支持實(shí)時(shí)處理、機(jī)器學(xué)習(xí)的新功能,實(shí)現(xiàn)新事件的新方法……很多現(xiàn)在無(wú)法想象的事都將在隨后幾年發(fā)生。我認(rèn)為這就是Hadoop留給世界的最寶貴的財(cái)富。它平穩(wěn)運(yùn)行10年之后,還將影響到未來(lái)的數(shù)十年。它不設(shè)中心控制的強(qiáng)大軟件系統(tǒng)孵化了各種不同的項(xiàng)目,有的失敗有的成功,但這種由平臺(tái)衍生的復(fù)雜多樣性不可能在一家公司的掌控下實(shí)現(xiàn)。

未來(lái),為我們而來(lái)

今天,來(lái)自世界不同地方的我們通力合作,將決定下一個(gè)劃時(shí)代的平臺(tái)。時(shí)間的推移將證實(shí)我們的設(shè)想。這個(gè)平臺(tái)將更加強(qiáng)大靈活,適用范圍更廣,功能更多。我們能用它來(lái)應(yīng)對(duì)幾乎每一個(gè)問(wèn)題,不僅是關(guān)系型問(wèn)題,還能輕松完成機(jī)器學(xué)習(xí),能搜索、對(duì)大數(shù)據(jù)實(shí)時(shí)批處理,將有更多的工具箱,讓我們?cè)陂_(kāi)源平臺(tái)以更低的成本更好地探索世界。我相信這是一個(gè)光明的未來(lái)。同時(shí),硬件也在進(jìn)步,英特爾發(fā)布了讓人驚喜的新技術(shù),使硬件可以儲(chǔ)存更大量的數(shù)據(jù),閃存與讀取速度更快,成本和以往差不多。當(dāng)可以在內(nèi)存里儲(chǔ)存PB級(jí)的數(shù)據(jù)并且訪問(wèn),甚至通過(guò)網(wǎng)絡(luò)訪問(wèn)時(shí),很多事情也會(huì)因此改變。我們很快將看到一個(gè)全新的時(shí)代,一個(gè)進(jìn)步的框架,一個(gè)被充分提升的有價(jià)值產(chǎn)品。我們將這種理念運(yùn)用于Impala、Kudu等新產(chǎn)品研發(fā)中,但仍有很多事情是我們尚未想到的。

這是一個(gè)令人振奮的時(shí)代,但我希望各位不僅僅是觀望,而是切身參與,加入到開(kāi)源社區(qū)來(lái),甚至是開(kāi)創(chuàng)一個(gè)新的開(kāi)源項(xiàng)目。我也看到越來(lái)越多的項(xiàng)目從中國(guó)出現(xiàn),比如Apache Kylin(麒麟)。我相信在這個(gè)新世界里,改變才是常態(tài),新的技術(shù)每年都會(huì)出現(xiàn)。這些年中國(guó)發(fā)生了巨大的變化,有很多機(jī)會(huì)可以應(yīng)用這些新技術(shù),大數(shù)據(jù)開(kāi)源社區(qū)將會(huì)在中國(guó)落地生根。我會(huì)很期待看到,有多少人采用它,中國(guó)產(chǎn)生貢獻(xiàn),在接下來(lái)的幾年衍生出越來(lái)越多的機(jī)會(huì)。

巔峰對(duì)話實(shí)錄:

Hadoop未來(lái),事實(shí)將碾壓今天所有的質(zhì)疑

人物簡(jiǎn)介

Mike Olson:畢業(yè)于加利福利亞大學(xué),曾作為Sleepycat軟件公司CEO主導(dǎo)開(kāi)發(fā)了全球應(yīng)用廣泛的開(kāi)源數(shù)據(jù)庫(kù)Berkeley DB,后被甲骨文收購(gòu),任甲骨文嵌入式技術(shù)副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國(guó)際領(lǐng)先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺(tái)的服務(wù)商,2014年12月Cloudera進(jìn)入中國(guó)。

Doug Cutting:畢業(yè)于美國(guó)斯坦福大學(xué),Lucene、Nutch等開(kāi)源項(xiàng)目的發(fā)起人,打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop,讓大數(shù)據(jù)推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型有了開(kāi)源的技術(shù)平臺(tái)。他擅于把高深莫測(cè)的搜索技術(shù)形成產(chǎn)品并貢獻(xiàn)于市場(chǎng)及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時(shí)也在Apache軟件基金會(huì)董事會(huì)任職。

王建民:清華大學(xué)軟件學(xué)院副院長(zhǎng)、清華大學(xué)軟件學(xué)院大數(shù)據(jù)中心主任,國(guó)家科技部中青年科技領(lǐng)軍人才,國(guó)家基金委杰出青年基金獲得者,國(guó)家“核高基”科技重大專項(xiàng)總體組成員,國(guó)家863計(jì)劃先進(jìn)制造領(lǐng)域?qū)<摇?guó)家衛(wèi)計(jì)委信息化專家委專家、我國(guó)第一個(gè)大數(shù)據(jù)專項(xiàng)“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負(fù)責(zé)人;工信部“中國(guó)制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長(zhǎng)。

一、 關(guān)于HADOOP與Spark、GPU,及商業(yè)化未來(lái)

1、面對(duì)Spark這類新興技術(shù)的發(fā)展,以及MapReduce市場(chǎng)萎縮的情況,你們?nèi)绾慰创@種市場(chǎng)變化?

邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲(chǔ),此外MapReduce用來(lái)做分布式處理;有分布式地面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲(chǔ)技術(shù)。

Spark只是其中的新技術(shù)之一,并不是好像全世界都只用Spark。當(dāng)然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來(lái)看,Spark的確會(huì)勝出,但基于Hadoop還會(huì)不斷涌現(xiàn)出更多新技術(shù)。

道克:沒(méi)錯(cuò),Spark的確非常好。在實(shí)時(shí)批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問(wèn)查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲(chǔ)能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術(shù),Hadoop將會(huì)孕育更多新技術(shù)出來(lái)。

2、王建民:計(jì)算機(jī)和大數(shù)據(jù)技術(shù)都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對(duì)于大數(shù)據(jù)技術(shù)的未來(lái)會(huì)有什么樣的影響?

邁克:像網(wǎng)絡(luò)、CPU在未來(lái)會(huì)出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無(wú)視硬件的變化。硬件的升級(jí)并不會(huì)妨礙未來(lái)大數(shù)據(jù)技術(shù)的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會(huì)更好的去利用這些新硬件去改變世界,兩者不存在替代關(guān)系。

過(guò)去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來(lái)自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關(guān)系,未來(lái)會(huì)更多的幫助下一代軟硬件技術(shù)的融合與適配。

道克:很多人在問(wèn)我,怎么把GPU和Hadoop結(jié)合,這其實(shí)是一個(gè)錯(cuò)誤的命題。Hadoop實(shí)際上是基于IO Intensive的系統(tǒng),它整個(gè)系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡(luò)IO,所以它需要解決的根本并不是CPU的問(wèn)題。未來(lái)當(dāng)IO不再困擾我們的時(shí)候,也許那時(shí)再來(lái)談怎么用CPU加速的技術(shù)解決更多問(wèn)題更有意義。

像谷歌Tenzing的機(jī)器學(xué)習(xí)系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來(lái)加速。但我相信在這個(gè)領(lǐng)域?qū)?lái)會(huì)有更多的機(jī)會(huì),我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會(huì)適應(yīng)新硬件的變化趨勢(shì)而發(fā)生轉(zhuǎn)變。

3、Hadoop3.0的關(guān)鍵特性

邁克:Hadoop3.0的確會(huì)有一些側(cè)重,排在首位的就是多租戶技術(shù),將來(lái)我們會(huì)在Hadoop 3.0的平臺(tái)上看到更多不同的像MapReduce、Spark這樣的技術(shù),可以同時(shí)在一個(gè)平臺(tái)上被不同的用戶運(yùn)行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點(diǎn)就是支持更多的系統(tǒng)可以更好的運(yùn)行,更好的去實(shí)現(xiàn)多租戶這個(gè)概念。

另外,Hadoop3.0更多的是適配新硬件技術(shù)的改變,比如英特爾新推出的優(yōu)化存儲(chǔ)、CPU的新技術(shù),特別是SSD技術(shù)。硬件價(jià)格的走低,讓我們更有可能去利用這些技術(shù)。Cloudera新啟動(dòng)的一個(gè)Apache開(kāi)源項(xiàng)目叫Apache Kudu,這是一個(gè)新型的存儲(chǔ)系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術(shù)。

道克:現(xiàn)在還有另一個(gè)我們?cè)谧龅捻?xiàng)目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復(fù)制。這種復(fù)制技術(shù),不只能加快系統(tǒng)的速度,還會(huì)提升系統(tǒng)的容量。這個(gè)項(xiàng)目的開(kāi)發(fā)者就在英特爾中國(guó)公司,中國(guó)已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術(shù)。

4、問(wèn)題分段:CDH商業(yè)產(chǎn)品的未來(lái)怎么樣?

邁克:Cloudera一直在保持這個(gè)系統(tǒng)的開(kāi)源,雖然上面有很多收費(fèi)的工具,但是這樣做的目的并不是阻止用戶。因?yàn)楝F(xiàn)在有很多商業(yè)軟件巨頭會(huì)利用我們的開(kāi)源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場(chǎng)機(jī)會(huì),去贏取更多的利潤(rùn)。所以我們一方面會(huì)保持底層數(shù)據(jù)存儲(chǔ)、處理引擎系統(tǒng)的開(kāi)源,讓用戶可以把這個(gè)技術(shù)用得更好、讓系統(tǒng)變得更易用;同時(shí),堅(jiān)持收費(fèi)的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場(chǎng)上和大型商業(yè)軟件公司競(jìng)爭(zhēng)。

開(kāi)源將有利于更多人參與系統(tǒng)的開(kāi)發(fā),讓更多的大學(xué)可以參與學(xué)習(xí),讓更多的用戶可以接受新知識(shí)。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場(chǎng)上越來(lái)越多的成長(zhǎng)機(jī)會(huì)。

道克:開(kāi)源平臺(tái)上,Apache僅僅是把所有技術(shù)囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實(shí)對(duì)很多用戶來(lái)講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對(duì)應(yīng)的系統(tǒng)打包好了,通過(guò)CDH我們會(huì)幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。

如果用戶愿意去使用免費(fèi)開(kāi)源系統(tǒng)這沒(méi)有任何問(wèn)題,但是如果用戶需要我們的幫助,可以去訂購(gòu)Cloudera的商業(yè)版。這就是硅谷現(xiàn)在的開(kāi)源文化,有越來(lái)越多的公司在做開(kāi)源。開(kāi)源的東西是免費(fèi)的,但我們?cè)诓粩嗵峁┰鲋捣?wù)。我們也需要有更多的客戶認(rèn)可這樣的服務(wù)價(jià)值并愿意幫助Cloudera這樣的公司在市場(chǎng)上存活下去,跟我們建立更長(zhǎng)期的合作關(guān)系,支持我們的業(yè)務(wù)。

二、 關(guān)于大數(shù)據(jù)系統(tǒng)的應(yīng)用,選擇與困擾

5、如果我們現(xiàn)在有一個(gè)項(xiàng)目剛開(kāi)始,面對(duì)這么多大數(shù)據(jù)系統(tǒng),應(yīng)該怎么選擇一個(gè)合適的平臺(tái)?

道克:這的確很難,我們可能需要去熟悉所有的系統(tǒng)和工具,需要更多的實(shí)驗(yàn),去測(cè)試這些系統(tǒng)。在滿足工作負(fù)載的前提下,比較在哪個(gè)系統(tǒng)工具上工作得更好。但幸運(yùn)的是,這類測(cè)試的確越來(lái)越容易了,現(xiàn)在有越來(lái)越多的工具可以進(jìn)行輔助。

但是真正在設(shè)計(jì)的過(guò)程中需要去考慮很多技術(shù)細(xì)節(jié),比如系統(tǒng)處理速度和系統(tǒng)吞吐的平衡。這個(gè)過(guò)程更像是一門藝術(shù),而不像一個(gè)技術(shù)。

邁克:你選Cloudera就行了,不用去想更多的(哈哈)。

6、王建民:我們現(xiàn)在碰到的很大問(wèn)題是面對(duì)系統(tǒng)的版本升級(jí),用戶需要不斷去升級(jí)他們建好的系統(tǒng),Cloudera怎么看待這樣的挑戰(zhàn)?

邁克:當(dāng)然,商業(yè)版的更新很簡(jiǎn)單,一鍵安裝新的系統(tǒng)就好了。如果是開(kāi)源的系統(tǒng)就會(huì)很難,因?yàn)殚_(kāi)源你需要去選擇一個(gè)適合的文件包,需要自己去重新搭建,需要自己去測(cè)試,而這些在Cloudera商業(yè)版里都已經(jīng)幫你做好了。

道克:如果不兼容,就只能來(lái)找Cloudera,這樣我們的商業(yè)服務(wù)就能有發(fā)展空間了(哈哈)。

王建民:看來(lái)這樣的機(jī)會(huì)、這樣的服務(wù)對(duì)于Cloudera而言是一個(gè)很有價(jià)值的業(yè)務(wù)。

邁克:我們是一家創(chuàng)新公司,所以首先我們是一群創(chuàng)新者,我們的首要工作是設(shè)立未來(lái)大數(shù)據(jù)系統(tǒng)發(fā)展的方向。第二件事,我們的確做商業(yè)軟件,我們會(huì)把這些開(kāi)源系統(tǒng)打包、測(cè)試,會(huì)在上面做很多工具,我們也會(huì)利用它來(lái)提供服務(wù)。

7、大數(shù)據(jù)服務(wù)的云平臺(tái)未來(lái)應(yīng)該如何選擇?

邁克:在商業(yè)層面上各種主流的云平臺(tái)Cloudera都支持,我們?cè)诒泵篮虯WS、谷歌等都有合作,在中國(guó)將和騰訊、百度等有更多的合作,可以看到云服務(wù)市場(chǎng)增長(zhǎng)非常快。

道克:如何選擇云服務(wù)有很多因素要考慮。第一個(gè)是經(jīng)濟(jì)角度上,到底哪種方式更具性價(jià)比,并不是所有的公有云都比私有云更便宜。第二個(gè)是安全,雖然我們可以用多種加密的方式解決這個(gè)問(wèn)題,讓別人更安心,但是安全永遠(yuǎn)是影響抉擇的重要因素。還有另一個(gè)問(wèn)題,我們需要考慮得非常清楚,通常我們遷移大數(shù)據(jù)系統(tǒng)是非常昂貴的,所以我們?cè)谶x擇一個(gè)云的運(yùn)營(yíng)商之前,首先要意識(shí)到,這個(gè)運(yùn)營(yíng)商給我們提供的技術(shù)是不是我們需要的。一旦需要在這個(gè)平臺(tái)上進(jìn)行轉(zhuǎn)換,是不是很容易操作。我能見(jiàn)到的最大錯(cuò)誤就是選擇了某個(gè)云平臺(tái)之后被吃定,無(wú)法遷移轉(zhuǎn)換。

邁克:我們選擇開(kāi)源有一個(gè)非常大的好處,因?yàn)榈讓拥募夹g(shù)其實(shí)都是一樣的,是完全兼容的。如果我們選擇了不合適的云運(yùn)營(yíng)商,或者不合適的大數(shù)據(jù)商業(yè)軟件合作伙伴,我們可以比較容易完成系統(tǒng)遷移。

道克:還有一個(gè)融合的問(wèn)題。比如企業(yè)內(nèi)部有架構(gòu)存儲(chǔ)一部分?jǐn)?shù)據(jù),同時(shí)在公有云上也存儲(chǔ)一部分?jǐn)?shù)據(jù),如果我們選擇混合云的方式,可能會(huì)讓我們?cè)谔幚頂?shù)據(jù)時(shí)非常困難,因?yàn)檫@兩個(gè)架構(gòu)之間任一方向的數(shù)據(jù)遷移,都非常昂貴。是否需要把數(shù)據(jù)放在不同的地方,這也是我們?cè)谶x擇云計(jì)算架構(gòu)時(shí)必須要非常認(rèn)真考慮的一個(gè)問(wèn)題。

8、如何去發(fā)掘Hadoop系統(tǒng)的應(yīng)用性領(lǐng)域,尤其在中國(guó)?怎樣去發(fā)現(xiàn)中國(guó)真正的大數(shù)據(jù)市場(chǎng)?

邁克:大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)發(fā)展,都在真實(shí)發(fā)生著,這些事情觸發(fā)了我們會(huì)有更多的數(shù)據(jù),需要更多的處理能力,需要有更多的分析應(yīng)用,這樣正是我們希望看到的市場(chǎng)需求。

2006年我代表Oracle來(lái)中國(guó),當(dāng)時(shí)正好是中國(guó)“十一五”開(kāi)端的第一年,中國(guó)政府第一次在“十一五”的五年規(guī)劃中開(kāi)始強(qiáng)調(diào)創(chuàng)新,今年是2016年,是“十三五”的開(kāi)局之年,中國(guó)政府不但強(qiáng)調(diào)創(chuàng)新,還強(qiáng)調(diào)了創(chuàng)業(yè),我認(rèn)為中國(guó)現(xiàn)在有一個(gè)非常好的開(kāi)端。

對(duì)于Cloudera而言,在中國(guó)市場(chǎng)需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場(chǎng)設(shè)計(jì)新車,中國(guó)已經(jīng)出現(xiàn)越來(lái)越多的垂直細(xì)分領(lǐng)域,比如像電信、保險(xiǎn),有越來(lái)越多的中國(guó)公司在使用大數(shù)據(jù),成為很好的行業(yè)范例。中國(guó)大數(shù)據(jù)的應(yīng)用前景非常好,已經(jīng)取得了令人刮目相看的成就。中國(guó)市場(chǎng)的體量非常大,增量也會(huì)很大,不只是大數(shù)據(jù)市場(chǎng),中國(guó)在其它細(xì)分領(lǐng)域一定會(huì)出現(xiàn)更多更好的創(chuàng)新,會(huì)孵化出更多大數(shù)據(jù)的技術(shù)與應(yīng)用。

三、 關(guān)于開(kāi)源及未來(lái)

9、事實(shí)上,人們對(duì)開(kāi)源還有困惑,很多中國(guó)團(tuán)隊(duì)的想要致力于開(kāi)源,你們有什么建議給那些想要參與進(jìn)來(lái)的人?

道克:第一件事是找到一個(gè)恰當(dāng)?shù)念I(lǐng)域,現(xiàn)在的開(kāi)源項(xiàng)目不是那么容易做好,首先要確保你的產(chǎn)品是有用的。

提問(wèn):這個(gè)領(lǐng)域是什么?

道克:這個(gè)很難去做預(yù)測(cè),每個(gè)細(xì)分行業(yè)都有不同的現(xiàn)實(shí)情況,但相信大家是可以找發(fā)掘的。第二點(diǎn),明確領(lǐng)域后,我們要建立對(duì)應(yīng)的大數(shù)據(jù)系統(tǒng);第三點(diǎn),系統(tǒng)做出來(lái)之后我們需要有更多的參與者,需要讓大家意識(shí)到這個(gè)系統(tǒng)的價(jià)值,并愿意投入去改進(jìn)你現(xiàn)在做的系統(tǒng),愿意加入這個(gè)的社區(qū)團(tuán)隊(duì)。這就是我們講到的開(kāi)源文化。

這三步做到之后,你的項(xiàng)目規(guī)模自然而然就會(huì)增長(zhǎng),就會(huì)吸引更多的人參與,而且在這個(gè)過(guò)程中,所有參與項(xiàng)目的人需要非常開(kāi)放,樂(lè)于幫助,更多這樣的人加入才會(huì)促使這件事成功。反之,如果我們做的是非常狹隘的一個(gè)領(lǐng)域,并希望它控制在一個(gè)什么樣的范圍內(nèi),通常這樣的項(xiàng)目就難以成功。

邁克:在成為Cloudera的Leader之前,我曾是一個(gè)開(kāi)發(fā)人員,做伯克利的數(shù)據(jù)庫(kù)。在我的經(jīng)驗(yàn)中,社區(qū)是最重要的。并不是說(shuō)一個(gè)開(kāi)源社區(qū)做出來(lái)就是為了免費(fèi),關(guān)鍵是有更多人參與。現(xiàn)在中國(guó)的團(tuán)隊(duì)不只是參與到既有的項(xiàng)目中,有的已經(jīng)開(kāi)始去創(chuàng)造自己的新項(xiàng)目。比如說(shuō)來(lái)ebay中國(guó)的一群人創(chuàng)造了麒麟這個(gè)項(xiàng)目,這個(gè)項(xiàng)目現(xiàn)在已經(jīng)變成了Apache的一個(gè)典型項(xiàng)目。所以我非常樂(lè)于見(jiàn)到更多來(lái)自中國(guó)的技術(shù)可以貢獻(xiàn)在全球。

王建民:現(xiàn)在中國(guó)有非常好的開(kāi)源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒(méi)有找到正確的門路和方法。清華正在做這方面的努力,清華數(shù)科院和Cloudera的戰(zhàn)略合作,其中非常重要的部分就是如何幫助中國(guó)開(kāi)源社區(qū)的成長(zhǎng),我們也希望通過(guò)這樣的方式,培養(yǎng)更多的中國(guó)本土的Leader,將來(lái)他們可以去創(chuàng)建多樣化的開(kāi)源社區(qū),去領(lǐng)導(dǎo)更多的項(xiàng)目。

道克:需要強(qiáng)調(diào)一下,開(kāi)源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來(lái)自全球的有關(guān)需求的溝通,可能你的團(tuán)隊(duì)在中國(guó),你的需求來(lái)自于英國(guó)或者是美國(guó),語(yǔ)言障礙會(huì)帶來(lái)挑戰(zhàn)。此外,選擇做開(kāi)源,選擇一個(gè)更多人可以用的東西,一定意味著需要有更多付出。

舉一個(gè)例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡(jiǎn)單,但是讓我的孩子做飯一定是個(gè)災(zāi)難。如果讓我選擇,教我的孩子如何做飯,雖然培養(yǎng)的過(guò)程需要花很多的精力,但最終當(dāng)孩子學(xué)會(huì)做飯之后,就能一勞永逸。

開(kāi)源社區(qū)也是這樣,開(kāi)始階段需要投入比我們現(xiàn)有項(xiàng)目更多的努力,但是一旦我們很好的建立一個(gè)社區(qū)和社區(qū)文化,這個(gè)項(xiàng)目就會(huì)有一種自我生長(zhǎng)、自我繁殖的能力。

10、中國(guó)另一個(gè)現(xiàn)狀就是天賦的缺失,你們有什么建議?

道克:這個(gè)的確很難,因?yàn)楝F(xiàn)在大數(shù)據(jù)技術(shù)的變化演進(jìn)非常快,如果你希望成為一個(gè)大數(shù)據(jù)人才,就必須有非常強(qiáng)的學(xué)習(xí)新技術(shù)的能力。技術(shù)變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學(xué)習(xí),以及可以有第三方提供的培訓(xùn)來(lái)幫助大家。Cloudera提供了一些課程出來(lái),這個(gè)課程對(duì)大學(xué)是免費(fèi)的。

王建民:為了解決大數(shù)據(jù)人才的問(wèn)題,中國(guó)已經(jīng)有很多大學(xué)開(kāi)設(shè)了大數(shù)據(jù)教育的課程,清華數(shù)科院就有相關(guān)的碩士計(jì)劃,第一屆已經(jīng)有150名以上的學(xué)生,來(lái)自清華不同院系的師資支持這個(gè)課程,但是這個(gè)課程到底應(yīng)該怎么去上呢?

參與授課的學(xué)生基本上可以分成三類,第一類是有很強(qiáng)的IT背景,可以做很多數(shù)據(jù)工程的事情;第二類來(lái)自社會(huì)信息學(xué)的領(lǐng)域,在他的工作中有很大部分就是在處理數(shù)據(jù)。第三類人是來(lái)自傳統(tǒng)行業(yè),比如像機(jī)械工程這樣的領(lǐng)域,他們以前沒(méi)有足夠的IT知識(shí)和處理數(shù)據(jù)的技能。

我們?cè)谌ツ甑氖谡n過(guò)程中也在不斷的調(diào)整課程,我們認(rèn)為更好的解決方法,是理論和實(shí)踐結(jié)合,讓大家在學(xué)習(xí)理論課程的同時(shí)有更多的實(shí)踐機(jī)會(huì),能夠更好的去解決技能問(wèn)題。Cloudera提供的這些免費(fèi)課程將會(huì)被引進(jìn)到清華大數(shù)據(jù)碩士教育的計(jì)劃中。

11、大數(shù)據(jù)技術(shù)在中國(guó)未來(lái)會(huì)怎樣發(fā)展?

王建民:第一點(diǎn),大數(shù)據(jù)在中國(guó)的進(jìn)步會(huì)非常好,數(shù)據(jù)來(lái)源會(huì)非常多,中國(guó)有越來(lái)越多的人、越來(lái)越多的機(jī)器、越來(lái)越多的在線交易,都在產(chǎn)生大量的數(shù)據(jù)。但是在這個(gè)過(guò)程中我們要改變現(xiàn)在的文化,讓決策聽(tīng)從數(shù)據(jù)驅(qū)動(dòng)。第二點(diǎn),不要把大數(shù)據(jù)神化,認(rèn)為大數(shù)據(jù)可以做更多的事情,要有耐心把大數(shù)據(jù)和我們的業(yè)務(wù)更好的結(jié)合起來(lái)。第三點(diǎn),我們需要更多的注意安全和隱私,我們會(huì)有越來(lái)越多的數(shù)據(jù),數(shù)據(jù)安全實(shí)際上是這個(gè)發(fā)展的前提。第四點(diǎn),要更多發(fā)展中國(guó)自己的技術(shù)。

邁克:中國(guó)大數(shù)據(jù)有非常好的未來(lái),清華這邊也在做很多和大數(shù)據(jù)相關(guān)的事情,大數(shù)據(jù)在全球的發(fā)展已經(jīng)非常成功,在中國(guó)經(jīng)濟(jì)方面、社會(huì)方面都會(huì)涌現(xiàn)非常多的機(jī)會(huì)。

道克:是的,中國(guó)一定會(huì)有很多的機(jī)會(huì),而且中國(guó)的技術(shù)也已經(jīng)很先進(jìn)了,更重要的是現(xiàn)在開(kāi)源社區(qū)給了我們更多的機(jī)會(huì)去參與學(xué)習(xí)。

12、大數(shù)據(jù)技術(shù)的未來(lái)又是什么樣的?

道克:這個(gè)非常難預(yù)測(cè),現(xiàn)在不太可能會(huì)知道,如果要知道我就去做了。我認(rèn)為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。

邁克:在中國(guó),小米正在使用Kudu,而Spark社區(qū)現(xiàn)在也變得越來(lái)越熱,這個(gè)情況在五年前我們都是見(jiàn)不到的。所以現(xiàn)在開(kāi)源社區(qū)給我們一個(gè)非常好的環(huán)境和生態(tài)系統(tǒng),像Hadoop這樣,可以幫助大家更好的去發(fā)展更多新的技術(shù)。

王建民:我們能夠看到的是,大數(shù)據(jù)系統(tǒng)對(duì)于中國(guó)的很多用戶來(lái)講,非常難使用,已有的開(kāi)源技術(shù)并不能被很好的利用起來(lái)。在我們實(shí)驗(yàn)室現(xiàn)在就有這樣一個(gè)項(xiàng)目,可以幫助大家更簡(jiǎn)化的使用今天Hadoop的系統(tǒng),是一種用機(jī)器學(xué)習(xí)的方法更多去完成自動(dòng)化的參數(shù)、自動(dòng)化的控制,我們正在做更多的努力。

邁克:這個(gè)方向很好,機(jī)器學(xué)習(xí)一定是未來(lái)的趨勢(shì),我們應(yīng)該思考怎么在更多方面結(jié)合這項(xiàng)技術(shù)。

關(guān)鍵字:開(kāi)源數(shù)據(jù)庫(kù)Hadoop

本文摘自:數(shù)據(jù)派

x Hadoop開(kāi)源啟示錄 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

Hadoop開(kāi)源啟示錄

責(zé)任編輯:editor005 |來(lái)源:企業(yè)網(wǎng)D1Net  2016-08-23 14:38:23 本文摘自:數(shù)據(jù)派

2016年8月,清華大學(xué)宣布與Hadoop開(kāi)發(fā)社區(qū)的頂級(jí)貢獻(xiàn)者Cloudera公司聯(lián)合推進(jìn)大數(shù)據(jù)人才教育項(xiàng)目,在大數(shù)據(jù)開(kāi)源社區(qū)方面開(kāi)展合作。在Hadoop生態(tài)領(lǐng)域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當(dāng)前大數(shù)據(jù)領(lǐng)域最強(qiáng)有力的解決方案服務(wù)商之一。帶著對(duì)中國(guó)大數(shù)據(jù)市場(chǎng)的滿滿誠(chéng)意,Cloudera創(chuàng)始人、董事長(zhǎng)兼首席戰(zhàn)略官M(fèi)ike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting來(lái)到清華,為三百余位現(xiàn)場(chǎng)聽(tīng)眾及兩千余名在線直播聽(tīng)眾講述了Hadoop的發(fā)展歷程,并與清華大學(xué)軟件學(xué)院副院長(zhǎng)、黨委書記王建民及現(xiàn)場(chǎng)的同學(xué)們展開(kāi)了深刻而有趣的對(duì)話。

Doug Cutting口述:

Hadoop十年,撬動(dòng)未曾料及的魔法時(shí)代

10年前我開(kāi)創(chuàng)Hadoop時(shí),存儲(chǔ)企業(yè)數(shù)據(jù)和商業(yè)數(shù)據(jù)系統(tǒng)的使用和現(xiàn)在大不相同。對(duì)大多數(shù)機(jī)構(gòu)來(lái)說(shuō),企業(yè)數(shù)據(jù)建立如果不依賴關(guān)系型數(shù)據(jù)庫(kù),就完全沒(méi)可能了解數(shù)據(jù)。但關(guān)系型數(shù)據(jù)庫(kù)使用起來(lái)很昂貴,也不適用于所有形式的數(shù)據(jù)。那時(shí)人們關(guān)注很多數(shù)據(jù)只是聚焦在關(guān)鍵字、任務(wù)、業(yè)務(wù)等(編者注:可數(shù)據(jù)庫(kù)領(lǐng)域的查詢條件)。世事變遷,Hadoop是如何帶來(lái)一些改變的呢?

因興趣創(chuàng)建Lucene,試水開(kāi)源社區(qū)

在大約18年前,當(dāng)時(shí)我在Excite負(fù)責(zé)做搜索引擎。事實(shí)上,我做過(guò)多個(gè)搜索引擎,從就職Xerox開(kāi)始,到蘋果再到Excite。我喜歡做搜索引擎并且一直有一個(gè)想法,用一個(gè)新的方式去寫搜索引擎,Excite對(duì)這個(gè)想法并不感興趣,于是只能自己鉆研。我嘗試用一種新的編程語(yǔ)言,并認(rèn)為它會(huì)成為一種通用計(jì)算機(jī)語(yǔ)言,就是當(dāng)時(shí)并非主流的Java。

1998年我完成了Lucene的第一個(gè)版本。當(dāng)時(shí)并沒(méi)有想好能用它做什么,只是有興趣嘗試并在業(yè)余時(shí)間完成了。兩年后,也就是2000年,我還沒(méi)想好用Lucene能做什么,但我決定不能就這樣冒然地成立一家新公司,因?yàn)槲也磺宄?cái)務(wù)、人事、合同等公司常規(guī)流程。我真心希望人們能用上這個(gè)產(chǎn)品,這也是我開(kāi)發(fā)這個(gè)產(chǎn)品的動(dòng)機(jī),我也希望能讓更多人發(fā)現(xiàn)它的實(shí)用性,并從中發(fā)現(xiàn)價(jià)值。我決定把它貢獻(xiàn)到開(kāi)源社區(qū)。

在把Lucene的代碼貢獻(xiàn)到開(kāi)源社區(qū)的第二年,它被一些小的社區(qū)使用,我也因此被邀請(qǐng)加入Apache軟件基金會(huì)。Apache專注于開(kāi)源,集合了一群軟件界擁有最強(qiáng)大腦的工程師。它追求開(kāi)放自由,讓人們利用軟件變得無(wú)所不能。在市場(chǎng)需求推動(dòng)下,我們合作將軟件出版成商業(yè)產(chǎn)品,但Apache不強(qiáng)調(diào)歸屬于某個(gè)社區(qū),而且所有的社區(qū)都開(kāi)放,歡迎新成員加入。Apache社區(qū)上所有功能和提供的信息都及時(shí)共享并不斷更新。從2001年加入Apache到目前為止,這種模式已經(jīng)得到了令人驚嘆的成果。

其中一點(diǎn),就是隨著越來(lái)越多的開(kāi)發(fā)者,這種開(kāi)放模式讓人們可以隨時(shí)隨地的使用開(kāi)源軟件,也可以向其他推薦。當(dāng)需要向老板匯報(bào)卻又不在辦公室時(shí),可以下載之后在家處理,信息也可以實(shí)時(shí)同步。這使得人們處理程序、改進(jìn)程序、理解程序變得容易,能隨時(shí)和其他開(kāi)發(fā)者溝通。如果從事軟件開(kāi)發(fā),你會(huì)發(fā)現(xiàn)以往只有機(jī)會(huì)和公司的同事討論工作,而做開(kāi)源項(xiàng)目則可以和全世界討論,有很多表現(xiàn)的機(jī)會(huì),甚至可以和自己在業(yè)內(nèi)的“粉絲”去溝通。這種自我展現(xiàn)的方式有很好的激勵(lì)作用,為了更好地在觀眾面前展示自己,人們會(huì)更努力地工作,讓項(xiàng)目日臻完美。

此外,開(kāi)發(fā)者通過(guò)做軟件會(huì)被很多機(jī)構(gòu)了解并認(rèn)可,你的軟件很可能會(huì)富裕一個(gè)行業(yè)全新的生命力,所以每個(gè)方案每次改變都要有普適性。要做到為每一個(gè)人服務(wù),還要堅(jiān)持一段時(shí)間,用最好的方法做正確的事。開(kāi)源并不僅是幫助開(kāi)發(fā)者,它更會(huì)孕育出一批高質(zhì)量的軟件,讓人們會(huì)越來(lái)越有動(dòng)力去把事情做好。

從Lucene進(jìn)入開(kāi)源平臺(tái)感受到的第三點(diǎn),也是最有意思的一點(diǎn):這是一條突飛猛進(jìn)的捷徑。Lucene對(duì)原有的搜索引擎造成了很大的沖擊,因?yàn)長(zhǎng)ucene使用成本很低,且使用效果大大好于通用的商業(yè)產(chǎn)品。經(jīng)過(guò)大量的實(shí)踐與反復(fù)改進(jìn),Lucene已經(jīng)成為世界上最受歡迎的搜索技術(shù)之一。這并非是因?yàn)樗鼊?chuàng)造了一個(gè)軟件技術(shù)的開(kāi)端——也許有這個(gè)因素——但更重要的是它是開(kāi)源技術(shù),能讓每一個(gè)人都能參與進(jìn)來(lái),學(xué)習(xí)并改進(jìn)它,享受這個(gè)過(guò)程。這種開(kāi)源的方法很強(qiáng)大,能讓技術(shù)走近更多人,也促使技術(shù)變得更好更快。

此外,就像Mike Olson說(shuō)的,當(dāng)人們有選擇的時(shí)候,在企業(yè)專用軟件和開(kāi)源軟件之間,人們總是傾向于選擇開(kāi)源軟件。一輪又一輪迭代后,你會(huì)發(fā)現(xiàn)開(kāi)源軟件在任何領(lǐng)域都會(huì)勝出。

Nutch、GFS和MapReduce, Hadoop萌芽在即

我開(kāi)始了另一個(gè)名為Nutch的項(xiàng)目。在Lucene的基礎(chǔ)上將開(kāi)源的思想繼續(xù)深化,我們從網(wǎng)頁(yè)上收集大量數(shù)據(jù),基于這些建立一個(gè)全新的開(kāi)源搜索引擎,就像Google、微軟bing或其他搜索引擎,收集特定的網(wǎng)頁(yè)及鏈接,提取信息,同時(shí)處理數(shù)十億的網(wǎng)頁(yè)請(qǐng)求。一臺(tái)PC無(wú)法存儲(chǔ)如此大量的信息,也無(wú)法在合理時(shí)間內(nèi)響應(yīng),所以我們嘗試用分布式系統(tǒng),Nutch在5臺(tái)電腦上運(yùn)行起來(lái)。我們也把Nutch資料總結(jié)成文本放入開(kāi)源社區(qū)中。

大約2003年到2004年的時(shí)候,Google發(fā)布了一些相關(guān)的研究報(bào)告,介紹了他們基于現(xiàn)有搜索引擎做的改進(jìn),吸引了我的關(guān)注。這些技術(shù)成果對(duì)我的研發(fā)有著十分直接的指導(dǎo)意義。運(yùn)用這些技術(shù),我們可以將原本需要手工操作的大量繁瑣的數(shù)據(jù)分配和空間管理等操作步驟實(shí)現(xiàn)自動(dòng)化。這兩個(gè)平臺(tái)一個(gè)是GFS(Google File System),將不同設(shè)備所產(chǎn)生的海量數(shù)據(jù)統(tǒng)一管理在同一個(gè)存儲(chǔ)空間內(nèi),與所有電腦都自動(dòng)關(guān)聯(lián),其中一個(gè)設(shè)備出現(xiàn)障礙,數(shù)據(jù)不會(huì)丟失,而且程序可以遷移到其他設(shè)備繼續(xù)運(yùn)行,所有數(shù)據(jù)資源可以共享。這種具備自動(dòng)關(guān)聯(lián)能力的數(shù)據(jù)管理是Google實(shí)現(xiàn)的一個(gè)核心突破,這使我們的操作能力可以從五臺(tái)電腦提升到成百數(shù)千臺(tái)。同時(shí),Google發(fā)布的另一個(gè)研究是有關(guān)MapReduce的,內(nèi)容是關(guān)于運(yùn)行在GFS上時(shí),如何用MapReduce進(jìn)行大規(guī)模數(shù)據(jù)的處理。

Mike Cafarella和我開(kāi)始基于這兩項(xiàng)技術(shù),在開(kāi)源平臺(tái)上校準(zhǔn)我們?cè)械某绦騈utch。2005年,我們開(kāi)始有數(shù)據(jù)基于20臺(tái)硬件設(shè)備在Nutch上運(yùn)行,這是當(dāng)時(shí)我們能借調(diào)到設(shè)備的最大數(shù)量。我當(dāng)時(shí)在一個(gè)非營(yíng)利組織工作,Mike還沒(méi)從大學(xué)畢業(yè),20臺(tái)設(shè)備已經(jīng)是我們能籌備到的極限。以這20臺(tái)設(shè)備所支持的開(kāi)發(fā)和測(cè)試情況來(lái)看,我們意識(shí)到這種數(shù)據(jù)分配的程序存在太多的bug,自動(dòng)關(guān)聯(lián)很難實(shí)現(xiàn),測(cè)試往往以失敗告終。當(dāng)你交叉驗(yàn)證時(shí),你會(huì)發(fā)現(xiàn)使用兩臺(tái)機(jī)器所產(chǎn)生的測(cè)試結(jié)果不一樣。

雅虎助力,Hadoop潛能釋放

我意識(shí)到這是一個(gè)很好的機(jī)會(huì),通過(guò)開(kāi)源平臺(tái)對(duì)世界上所有的主流數(shù)據(jù)處理模式做出徹底的革新,而且基于低廉的硬件成本。如果靠單槍匹馬去實(shí)現(xiàn)這個(gè)宏偉的計(jì)劃,它會(huì)耗費(fèi)十年甚至更長(zhǎng)時(shí)間才能最終替代現(xiàn)有的解決方案。我們需要其他幫助。

2005年底,經(jīng)過(guò)一番篩選我把目光聚焦在雅虎。雅虎對(duì)我的研究項(xiàng)目很感興趣,因?yàn)楫?dāng)時(shí)在做搜索引擎的過(guò)程中他們也有類似的困惑,合作研發(fā)也會(huì)同時(shí)幫他們解決問(wèn)題。2006年,我們加入雅虎,把Nutch分布式數(shù)據(jù)管理部分重新命名為Hadoop,名字來(lái)源于我兒子的黃色毛絨玩具——一只小象。為了新項(xiàng)目Hadoop的運(yùn)行,雅虎做了大量投入。從一開(kāi)始的10人工程師團(tuán)隊(duì)迅速增加到20人然后更多;機(jī)器數(shù)量也從一開(kāi)始的100臺(tái),在6個(gè)月后增加到數(shù)千臺(tái)。六個(gè)月內(nèi)我們不斷測(cè)試、開(kāi)發(fā)、運(yùn)行,逐漸有了成效。

從2007到2008年,切實(shí)改進(jìn)了數(shù)據(jù)關(guān)聯(lián)能力的技術(shù),其他人也開(kāi)始使用,這項(xiàng)技術(shù)也開(kāi)始釋放富有魔力的潛能。任何人都能下載這個(gè)開(kāi)源軟件,在并不昂貴的設(shè)備上運(yùn)行非常大量的計(jì)算。Yahoo、Facebook、eBay、LinkedIn、Twitter等公司都開(kāi)始以Hadoop為基礎(chǔ)搭建他們的業(yè)務(wù)。

未料及的行業(yè)滲透 Hadoop創(chuàng)造歷史

曾一度以為Hadoop能做的事情已經(jīng)完成,一切都在按預(yù)期發(fā)生。但我沒(méi)意識(shí)到的是,所有的傳統(tǒng)行業(yè)都在醞釀著變革,硬件設(shè)備已遍布如此廣泛,可用于計(jì)算的硬件已滲透到各行各業(yè)中,比如卡車、拖拉機(jī)、飛機(jī)、汽車等。所有這些傳統(tǒng)行業(yè)都在做數(shù)字化轉(zhuǎn)型,這正在產(chǎn)生更加海量更加有效的數(shù)據(jù)。運(yùn)用好這些數(shù)據(jù)能幫助人們更高效更精準(zhǔn)的管理生活。起初我并沒(méi)有意識(shí)到這一點(diǎn),曾以為只有互聯(lián)網(wǎng)公司、媒體公司才需要Hadoop技術(shù),但Mike Olson告訴我,這項(xiàng)技術(shù)已在更多行業(yè)領(lǐng)域釋放出更大的能量。所以他在2008年創(chuàng)建了Cloudera——第一家專注特定領(lǐng)域的企業(yè),也是迄今為止特定領(lǐng)域規(guī)模最大的企業(yè)。

2009年,為了參與這個(gè)讓人振奮的過(guò)程,見(jiàn)證更多的人利用我?guī)椭鷦?chuàng)建的軟件技術(shù)發(fā)揮更大的潛能,我加入了Cloudera。現(xiàn)在,我們見(jiàn)證預(yù)言變成了現(xiàn)實(shí),比如汽車生產(chǎn)商特斯拉,通過(guò)實(shí)時(shí)收集汽車動(dòng)態(tài)數(shù)據(jù),了解駕駛者的行為喜好,從而改進(jìn)他們的下一代汽車;航空公司在飛機(jī)上安裝了數(shù)百個(gè)傳感器,根據(jù)回傳的數(shù)據(jù),優(yōu)化航線。這真是令人矚目的改變!甚至在農(nóng)業(yè)、重型機(jī)械、鐵路、零售、健康醫(yī)療等所有我們能想到的行業(yè),數(shù)據(jù)都在發(fā)揮強(qiáng)大的影響力。

Hadoop切實(shí)推動(dòng)了這些令人矚目的改變的實(shí)施。在今天,Hadoop還在日益強(qiáng)大,但我覺(jué)得圍繞Hadoop發(fā)生的事情將更加有趣。在這個(gè)長(zhǎng)期的過(guò)程中,它已經(jīng)孵化了更多偉大的技能。從單機(jī)項(xiàng)目開(kāi)始,然后有了分布式的文件系統(tǒng)GFS和信息專家MapReduce,搭建的調(diào)度程序讓人們能夠基于Hadoop分享資源,并開(kāi)發(fā)其他類型的引擎,類似于YARN。越來(lái)越多的軟件技術(shù)基于Hadoop衍生出來(lái),比如在線鍵值存儲(chǔ);比如面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;超越了MapReduce的Spark,在實(shí)時(shí)批處理上表現(xiàn)更卓越;Impala能以SQL語(yǔ)義,快速查詢PB級(jí)大數(shù)據(jù),Lucene擅長(zhǎng)的搜索也被充分整合。每年都有更多的新技術(shù)刷新我們的視野。

試想一下,每一個(gè)系統(tǒng)的進(jìn)化迭代,每一個(gè)開(kāi)源項(xiàng)目的建立,都可能帶動(dòng)一次技術(shù)革新。其中一些非常有用的技術(shù),越來(lái)越多的人會(huì)開(kāi)始使用。這些技術(shù)將會(huì)慢慢變成所有人認(rèn)可的通用標(biāo)準(zhǔn),還有一些不流行地將慢慢被人們遺忘。時(shí)代在急速變化,關(guān)系型數(shù)據(jù)庫(kù)的世界幾乎固化了30年,只有非常細(xì)微的改變。在Hadoop誕生的近10年間內(nèi),技術(shù)界發(fā)生了翻天覆地的變化。我們見(jiàn)到了許多新的模型,它們支持實(shí)時(shí)處理、機(jī)器學(xué)習(xí)的新功能,實(shí)現(xiàn)新事件的新方法……很多現(xiàn)在無(wú)法想象的事都將在隨后幾年發(fā)生。我認(rèn)為這就是Hadoop留給世界的最寶貴的財(cái)富。它平穩(wěn)運(yùn)行10年之后,還將影響到未來(lái)的數(shù)十年。它不設(shè)中心控制的強(qiáng)大軟件系統(tǒng)孵化了各種不同的項(xiàng)目,有的失敗有的成功,但這種由平臺(tái)衍生的復(fù)雜多樣性不可能在一家公司的掌控下實(shí)現(xiàn)。

未來(lái),為我們而來(lái)

今天,來(lái)自世界不同地方的我們通力合作,將決定下一個(gè)劃時(shí)代的平臺(tái)。時(shí)間的推移將證實(shí)我們的設(shè)想。這個(gè)平臺(tái)將更加強(qiáng)大靈活,適用范圍更廣,功能更多。我們能用它來(lái)應(yīng)對(duì)幾乎每一個(gè)問(wèn)題,不僅是關(guān)系型問(wèn)題,還能輕松完成機(jī)器學(xué)習(xí),能搜索、對(duì)大數(shù)據(jù)實(shí)時(shí)批處理,將有更多的工具箱,讓我們?cè)陂_(kāi)源平臺(tái)以更低的成本更好地探索世界。我相信這是一個(gè)光明的未來(lái)。同時(shí),硬件也在進(jìn)步,英特爾發(fā)布了讓人驚喜的新技術(shù),使硬件可以儲(chǔ)存更大量的數(shù)據(jù),閃存與讀取速度更快,成本和以往差不多。當(dāng)可以在內(nèi)存里儲(chǔ)存PB級(jí)的數(shù)據(jù)并且訪問(wèn),甚至通過(guò)網(wǎng)絡(luò)訪問(wèn)時(shí),很多事情也會(huì)因此改變。我們很快將看到一個(gè)全新的時(shí)代,一個(gè)進(jìn)步的框架,一個(gè)被充分提升的有價(jià)值產(chǎn)品。我們將這種理念運(yùn)用于Impala、Kudu等新產(chǎn)品研發(fā)中,但仍有很多事情是我們尚未想到的。

這是一個(gè)令人振奮的時(shí)代,但我希望各位不僅僅是觀望,而是切身參與,加入到開(kāi)源社區(qū)來(lái),甚至是開(kāi)創(chuàng)一個(gè)新的開(kāi)源項(xiàng)目。我也看到越來(lái)越多的項(xiàng)目從中國(guó)出現(xiàn),比如Apache Kylin(麒麟)。我相信在這個(gè)新世界里,改變才是常態(tài),新的技術(shù)每年都會(huì)出現(xiàn)。這些年中國(guó)發(fā)生了巨大的變化,有很多機(jī)會(huì)可以應(yīng)用這些新技術(shù),大數(shù)據(jù)開(kāi)源社區(qū)將會(huì)在中國(guó)落地生根。我會(huì)很期待看到,有多少人采用它,中國(guó)產(chǎn)生貢獻(xiàn),在接下來(lái)的幾年衍生出越來(lái)越多的機(jī)會(huì)。

巔峰對(duì)話實(shí)錄:

Hadoop未來(lái),事實(shí)將碾壓今天所有的質(zhì)疑

人物簡(jiǎn)介

Mike Olson:畢業(yè)于加利福利亞大學(xué),曾作為Sleepycat軟件公司CEO主導(dǎo)開(kāi)發(fā)了全球應(yīng)用廣泛的開(kāi)源數(shù)據(jù)庫(kù)Berkeley DB,后被甲骨文收購(gòu),任甲骨文嵌入式技術(shù)副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國(guó)際領(lǐng)先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺(tái)的服務(wù)商,2014年12月Cloudera進(jìn)入中國(guó)。

Doug Cutting:畢業(yè)于美國(guó)斯坦福大學(xué),Lucene、Nutch等開(kāi)源項(xiàng)目的發(fā)起人,打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop,讓大數(shù)據(jù)推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型有了開(kāi)源的技術(shù)平臺(tái)。他擅于把高深莫測(cè)的搜索技術(shù)形成產(chǎn)品并貢獻(xiàn)于市場(chǎng)及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時(shí)也在Apache軟件基金會(huì)董事會(huì)任職。

王建民:清華大學(xué)軟件學(xué)院副院長(zhǎng)、清華大學(xué)軟件學(xué)院大數(shù)據(jù)中心主任,國(guó)家科技部中青年科技領(lǐng)軍人才,國(guó)家基金委杰出青年基金獲得者,國(guó)家“核高基”科技重大專項(xiàng)總體組成員,國(guó)家863計(jì)劃先進(jìn)制造領(lǐng)域?qū)<摇?guó)家衛(wèi)計(jì)委信息化專家委專家、我國(guó)第一個(gè)大數(shù)據(jù)專項(xiàng)“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負(fù)責(zé)人;工信部“中國(guó)制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長(zhǎng)。

一、 關(guān)于HADOOP與Spark、GPU,及商業(yè)化未來(lái)

1、面對(duì)Spark這類新興技術(shù)的發(fā)展,以及MapReduce市場(chǎng)萎縮的情況,你們?nèi)绾慰创@種市場(chǎng)變化?

邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲(chǔ),此外MapReduce用來(lái)做分布式處理;有分布式地面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲(chǔ)技術(shù)。

Spark只是其中的新技術(shù)之一,并不是好像全世界都只用Spark。當(dāng)然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來(lái)看,Spark的確會(huì)勝出,但基于Hadoop還會(huì)不斷涌現(xiàn)出更多新技術(shù)。

道克:沒(méi)錯(cuò),Spark的確非常好。在實(shí)時(shí)批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問(wèn)查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲(chǔ)能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術(shù),Hadoop將會(huì)孕育更多新技術(shù)出來(lái)。

2、王建民:計(jì)算機(jī)和大數(shù)據(jù)技術(shù)都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對(duì)于大數(shù)據(jù)技術(shù)的未來(lái)會(huì)有什么樣的影響?

邁克:像網(wǎng)絡(luò)、CPU在未來(lái)會(huì)出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無(wú)視硬件的變化。硬件的升級(jí)并不會(huì)妨礙未來(lái)大數(shù)據(jù)技術(shù)的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會(huì)更好的去利用這些新硬件去改變世界,兩者不存在替代關(guān)系。

過(guò)去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來(lái)自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關(guān)系,未來(lái)會(huì)更多的幫助下一代軟硬件技術(shù)的融合與適配。

道克:很多人在問(wèn)我,怎么把GPU和Hadoop結(jié)合,這其實(shí)是一個(gè)錯(cuò)誤的命題。Hadoop實(shí)際上是基于IO Intensive的系統(tǒng),它整個(gè)系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡(luò)IO,所以它需要解決的根本并不是CPU的問(wèn)題。未來(lái)當(dāng)IO不再困擾我們的時(shí)候,也許那時(shí)再來(lái)談怎么用CPU加速的技術(shù)解決更多問(wèn)題更有意義。

像谷歌Tenzing的機(jī)器學(xué)習(xí)系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來(lái)加速。但我相信在這個(gè)領(lǐng)域?qū)?lái)會(huì)有更多的機(jī)會(huì),我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會(huì)適應(yīng)新硬件的變化趨勢(shì)而發(fā)生轉(zhuǎn)變。

3、Hadoop3.0的關(guān)鍵特性

邁克:Hadoop3.0的確會(huì)有一些側(cè)重,排在首位的就是多租戶技術(shù),將來(lái)我們會(huì)在Hadoop 3.0的平臺(tái)上看到更多不同的像MapReduce、Spark這樣的技術(shù),可以同時(shí)在一個(gè)平臺(tái)上被不同的用戶運(yùn)行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點(diǎn)就是支持更多的系統(tǒng)可以更好的運(yùn)行,更好的去實(shí)現(xiàn)多租戶這個(gè)概念。

另外,Hadoop3.0更多的是適配新硬件技術(shù)的改變,比如英特爾新推出的優(yōu)化存儲(chǔ)、CPU的新技術(shù),特別是SSD技術(shù)。硬件價(jià)格的走低,讓我們更有可能去利用這些技術(shù)。Cloudera新啟動(dòng)的一個(gè)Apache開(kāi)源項(xiàng)目叫Apache Kudu,這是一個(gè)新型的存儲(chǔ)系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術(shù)。

道克:現(xiàn)在還有另一個(gè)我們?cè)谧龅捻?xiàng)目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復(fù)制。這種復(fù)制技術(shù),不只能加快系統(tǒng)的速度,還會(huì)提升系統(tǒng)的容量。這個(gè)項(xiàng)目的開(kāi)發(fā)者就在英特爾中國(guó)公司,中國(guó)已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術(shù)。

4、問(wèn)題分段:CDH商業(yè)產(chǎn)品的未來(lái)怎么樣?

邁克:Cloudera一直在保持這個(gè)系統(tǒng)的開(kāi)源,雖然上面有很多收費(fèi)的工具,但是這樣做的目的并不是阻止用戶。因?yàn)楝F(xiàn)在有很多商業(yè)軟件巨頭會(huì)利用我們的開(kāi)源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場(chǎng)機(jī)會(huì),去贏取更多的利潤(rùn)。所以我們一方面會(huì)保持底層數(shù)據(jù)存儲(chǔ)、處理引擎系統(tǒng)的開(kāi)源,讓用戶可以把這個(gè)技術(shù)用得更好、讓系統(tǒng)變得更易用;同時(shí),堅(jiān)持收費(fèi)的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場(chǎng)上和大型商業(yè)軟件公司競(jìng)爭(zhēng)。

開(kāi)源將有利于更多人參與系統(tǒng)的開(kāi)發(fā),讓更多的大學(xué)可以參與學(xué)習(xí),讓更多的用戶可以接受新知識(shí)。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場(chǎng)上越來(lái)越多的成長(zhǎng)機(jī)會(huì)。

道克:開(kāi)源平臺(tái)上,Apache僅僅是把所有技術(shù)囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實(shí)對(duì)很多用戶來(lái)講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對(duì)應(yīng)的系統(tǒng)打包好了,通過(guò)CDH我們會(huì)幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。

如果用戶愿意去使用免費(fèi)開(kāi)源系統(tǒng)這沒(méi)有任何問(wèn)題,但是如果用戶需要我們的幫助,可以去訂購(gòu)Cloudera的商業(yè)版。這就是硅谷現(xiàn)在的開(kāi)源文化,有越來(lái)越多的公司在做開(kāi)源。開(kāi)源的東西是免費(fèi)的,但我們?cè)诓粩嗵峁┰鲋捣?wù)。我們也需要有更多的客戶認(rèn)可這樣的服務(wù)價(jià)值并愿意幫助Cloudera這樣的公司在市場(chǎng)上存活下去,跟我們建立更長(zhǎng)期的合作關(guān)系,支持我們的業(yè)務(wù)。

二、 關(guān)于大數(shù)據(jù)系統(tǒng)的應(yīng)用,選擇與困擾

5、如果我們現(xiàn)在有一個(gè)項(xiàng)目剛開(kāi)始,面對(duì)這么多大數(shù)據(jù)系統(tǒng),應(yīng)該怎么選擇一個(gè)合適的平臺(tái)?

道克:這的確很難,我們可能需要去熟悉所有的系統(tǒng)和工具,需要更多的實(shí)驗(yàn),去測(cè)試這些系統(tǒng)。在滿足工作負(fù)載的前提下,比較在哪個(gè)系統(tǒng)工具上工作得更好。但幸運(yùn)的是,這類測(cè)試的確越來(lái)越容易了,現(xiàn)在有越來(lái)越多的工具可以進(jìn)行輔助。

但是真正在設(shè)計(jì)的過(guò)程中需要去考慮很多技術(shù)細(xì)節(jié),比如系統(tǒng)處理速度和系統(tǒng)吞吐的平衡。這個(gè)過(guò)程更像是一門藝術(shù),而不像一個(gè)技術(shù)。

邁克:你選Cloudera就行了,不用去想更多的(哈哈)。

6、王建民:我們現(xiàn)在碰到的很大問(wèn)題是面對(duì)系統(tǒng)的版本升級(jí),用戶需要不斷去升級(jí)他們建好的系統(tǒng),Cloudera怎么看待這樣的挑戰(zhàn)?

邁克:當(dāng)然,商業(yè)版的更新很簡(jiǎn)單,一鍵安裝新的系統(tǒng)就好了。如果是開(kāi)源的系統(tǒng)就會(huì)很難,因?yàn)殚_(kāi)源你需要去選擇一個(gè)適合的文件包,需要自己去重新搭建,需要自己去測(cè)試,而這些在Cloudera商業(yè)版里都已經(jīng)幫你做好了。

道克:如果不兼容,就只能來(lái)找Cloudera,這樣我們的商業(yè)服務(wù)就能有發(fā)展空間了(哈哈)。

王建民:看來(lái)這樣的機(jī)會(huì)、這樣的服務(wù)對(duì)于Cloudera而言是一個(gè)很有價(jià)值的業(yè)務(wù)。

邁克:我們是一家創(chuàng)新公司,所以首先我們是一群創(chuàng)新者,我們的首要工作是設(shè)立未來(lái)大數(shù)據(jù)系統(tǒng)發(fā)展的方向。第二件事,我們的確做商業(yè)軟件,我們會(huì)把這些開(kāi)源系統(tǒng)打包、測(cè)試,會(huì)在上面做很多工具,我們也會(huì)利用它來(lái)提供服務(wù)。

7、大數(shù)據(jù)服務(wù)的云平臺(tái)未來(lái)應(yīng)該如何選擇?

邁克:在商業(yè)層面上各種主流的云平臺(tái)Cloudera都支持,我們?cè)诒泵篮虯WS、谷歌等都有合作,在中國(guó)將和騰訊、百度等有更多的合作,可以看到云服務(wù)市場(chǎng)增長(zhǎng)非常快。

道克:如何選擇云服務(wù)有很多因素要考慮。第一個(gè)是經(jīng)濟(jì)角度上,到底哪種方式更具性價(jià)比,并不是所有的公有云都比私有云更便宜。第二個(gè)是安全,雖然我們可以用多種加密的方式解決這個(gè)問(wèn)題,讓別人更安心,但是安全永遠(yuǎn)是影響抉擇的重要因素。還有另一個(gè)問(wèn)題,我們需要考慮得非常清楚,通常我們遷移大數(shù)據(jù)系統(tǒng)是非常昂貴的,所以我們?cè)谶x擇一個(gè)云的運(yùn)營(yíng)商之前,首先要意識(shí)到,這個(gè)運(yùn)營(yíng)商給我們提供的技術(shù)是不是我們需要的。一旦需要在這個(gè)平臺(tái)上進(jìn)行轉(zhuǎn)換,是不是很容易操作。我能見(jiàn)到的最大錯(cuò)誤就是選擇了某個(gè)云平臺(tái)之后被吃定,無(wú)法遷移轉(zhuǎn)換。

邁克:我們選擇開(kāi)源有一個(gè)非常大的好處,因?yàn)榈讓拥募夹g(shù)其實(shí)都是一樣的,是完全兼容的。如果我們選擇了不合適的云運(yùn)營(yíng)商,或者不合適的大數(shù)據(jù)商業(yè)軟件合作伙伴,我們可以比較容易完成系統(tǒng)遷移。

道克:還有一個(gè)融合的問(wèn)題。比如企業(yè)內(nèi)部有架構(gòu)存儲(chǔ)一部分?jǐn)?shù)據(jù),同時(shí)在公有云上也存儲(chǔ)一部分?jǐn)?shù)據(jù),如果我們選擇混合云的方式,可能會(huì)讓我們?cè)谔幚頂?shù)據(jù)時(shí)非常困難,因?yàn)檫@兩個(gè)架構(gòu)之間任一方向的數(shù)據(jù)遷移,都非常昂貴。是否需要把數(shù)據(jù)放在不同的地方,這也是我們?cè)谶x擇云計(jì)算架構(gòu)時(shí)必須要非常認(rèn)真考慮的一個(gè)問(wèn)題。

8、如何去發(fā)掘Hadoop系統(tǒng)的應(yīng)用性領(lǐng)域,尤其在中國(guó)?怎樣去發(fā)現(xiàn)中國(guó)真正的大數(shù)據(jù)市場(chǎng)?

邁克:大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)發(fā)展,都在真實(shí)發(fā)生著,這些事情觸發(fā)了我們會(huì)有更多的數(shù)據(jù),需要更多的處理能力,需要有更多的分析應(yīng)用,這樣正是我們希望看到的市場(chǎng)需求。

2006年我代表Oracle來(lái)中國(guó),當(dāng)時(shí)正好是中國(guó)“十一五”開(kāi)端的第一年,中國(guó)政府第一次在“十一五”的五年規(guī)劃中開(kāi)始強(qiáng)調(diào)創(chuàng)新,今年是2016年,是“十三五”的開(kāi)局之年,中國(guó)政府不但強(qiáng)調(diào)創(chuàng)新,還強(qiáng)調(diào)了創(chuàng)業(yè),我認(rèn)為中國(guó)現(xiàn)在有一個(gè)非常好的開(kāi)端。

對(duì)于Cloudera而言,在中國(guó)市場(chǎng)需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場(chǎng)設(shè)計(jì)新車,中國(guó)已經(jīng)出現(xiàn)越來(lái)越多的垂直細(xì)分領(lǐng)域,比如像電信、保險(xiǎn),有越來(lái)越多的中國(guó)公司在使用大數(shù)據(jù),成為很好的行業(yè)范例。中國(guó)大數(shù)據(jù)的應(yīng)用前景非常好,已經(jīng)取得了令人刮目相看的成就。中國(guó)市場(chǎng)的體量非常大,增量也會(huì)很大,不只是大數(shù)據(jù)市場(chǎng),中國(guó)在其它細(xì)分領(lǐng)域一定會(huì)出現(xiàn)更多更好的創(chuàng)新,會(huì)孵化出更多大數(shù)據(jù)的技術(shù)與應(yīng)用。

三、 關(guān)于開(kāi)源及未來(lái)

9、事實(shí)上,人們對(duì)開(kāi)源還有困惑,很多中國(guó)團(tuán)隊(duì)的想要致力于開(kāi)源,你們有什么建議給那些想要參與進(jìn)來(lái)的人?

道克:第一件事是找到一個(gè)恰當(dāng)?shù)念I(lǐng)域,現(xiàn)在的開(kāi)源項(xiàng)目不是那么容易做好,首先要確保你的產(chǎn)品是有用的。

提問(wèn):這個(gè)領(lǐng)域是什么?

道克:這個(gè)很難去做預(yù)測(cè),每個(gè)細(xì)分行業(yè)都有不同的現(xiàn)實(shí)情況,但相信大家是可以找發(fā)掘的。第二點(diǎn),明確領(lǐng)域后,我們要建立對(duì)應(yīng)的大數(shù)據(jù)系統(tǒng);第三點(diǎn),系統(tǒng)做出來(lái)之后我們需要有更多的參與者,需要讓大家意識(shí)到這個(gè)系統(tǒng)的價(jià)值,并愿意投入去改進(jìn)你現(xiàn)在做的系統(tǒng),愿意加入這個(gè)的社區(qū)團(tuán)隊(duì)。這就是我們講到的開(kāi)源文化。

這三步做到之后,你的項(xiàng)目規(guī)模自然而然就會(huì)增長(zhǎng),就會(huì)吸引更多的人參與,而且在這個(gè)過(guò)程中,所有參與項(xiàng)目的人需要非常開(kāi)放,樂(lè)于幫助,更多這樣的人加入才會(huì)促使這件事成功。反之,如果我們做的是非常狹隘的一個(gè)領(lǐng)域,并希望它控制在一個(gè)什么樣的范圍內(nèi),通常這樣的項(xiàng)目就難以成功。

邁克:在成為Cloudera的Leader之前,我曾是一個(gè)開(kāi)發(fā)人員,做伯克利的數(shù)據(jù)庫(kù)。在我的經(jīng)驗(yàn)中,社區(qū)是最重要的。并不是說(shuō)一個(gè)開(kāi)源社區(qū)做出來(lái)就是為了免費(fèi),關(guān)鍵是有更多人參與。現(xiàn)在中國(guó)的團(tuán)隊(duì)不只是參與到既有的項(xiàng)目中,有的已經(jīng)開(kāi)始去創(chuàng)造自己的新項(xiàng)目。比如說(shuō)來(lái)ebay中國(guó)的一群人創(chuàng)造了麒麟這個(gè)項(xiàng)目,這個(gè)項(xiàng)目現(xiàn)在已經(jīng)變成了Apache的一個(gè)典型項(xiàng)目。所以我非常樂(lè)于見(jiàn)到更多來(lái)自中國(guó)的技術(shù)可以貢獻(xiàn)在全球。

王建民:現(xiàn)在中國(guó)有非常好的開(kāi)源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒(méi)有找到正確的門路和方法。清華正在做這方面的努力,清華數(shù)科院和Cloudera的戰(zhàn)略合作,其中非常重要的部分就是如何幫助中國(guó)開(kāi)源社區(qū)的成長(zhǎng),我們也希望通過(guò)這樣的方式,培養(yǎng)更多的中國(guó)本土的Leader,將來(lái)他們可以去創(chuàng)建多樣化的開(kāi)源社區(qū),去領(lǐng)導(dǎo)更多的項(xiàng)目。

道克:需要強(qiáng)調(diào)一下,開(kāi)源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來(lái)自全球的有關(guān)需求的溝通,可能你的團(tuán)隊(duì)在中國(guó),你的需求來(lái)自于英國(guó)或者是美國(guó),語(yǔ)言障礙會(huì)帶來(lái)挑戰(zhàn)。此外,選擇做開(kāi)源,選擇一個(gè)更多人可以用的東西,一定意味著需要有更多付出。

舉一個(gè)例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡(jiǎn)單,但是讓我的孩子做飯一定是個(gè)災(zāi)難。如果讓我選擇,教我的孩子如何做飯,雖然培養(yǎng)的過(guò)程需要花很多的精力,但最終當(dāng)孩子學(xué)會(huì)做飯之后,就能一勞永逸。

開(kāi)源社區(qū)也是這樣,開(kāi)始階段需要投入比我們現(xiàn)有項(xiàng)目更多的努力,但是一旦我們很好的建立一個(gè)社區(qū)和社區(qū)文化,這個(gè)項(xiàng)目就會(huì)有一種自我生長(zhǎng)、自我繁殖的能力。

10、中國(guó)另一個(gè)現(xiàn)狀就是天賦的缺失,你們有什么建議?

道克:這個(gè)的確很難,因?yàn)楝F(xiàn)在大數(shù)據(jù)技術(shù)的變化演進(jìn)非常快,如果你希望成為一個(gè)大數(shù)據(jù)人才,就必須有非常強(qiáng)的學(xué)習(xí)新技術(shù)的能力。技術(shù)變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學(xué)習(xí),以及可以有第三方提供的培訓(xùn)來(lái)幫助大家。Cloudera提供了一些課程出來(lái),這個(gè)課程對(duì)大學(xué)是免費(fèi)的。

王建民:為了解決大數(shù)據(jù)人才的問(wèn)題,中國(guó)已經(jīng)有很多大學(xué)開(kāi)設(shè)了大數(shù)據(jù)教育的課程,清華數(shù)科院就有相關(guān)的碩士計(jì)劃,第一屆已經(jīng)有150名以上的學(xué)生,來(lái)自清華不同院系的師資支持這個(gè)課程,但是這個(gè)課程到底應(yīng)該怎么去上呢?

參與授課的學(xué)生基本上可以分成三類,第一類是有很強(qiáng)的IT背景,可以做很多數(shù)據(jù)工程的事情;第二類來(lái)自社會(huì)信息學(xué)的領(lǐng)域,在他的工作中有很大部分就是在處理數(shù)據(jù)。第三類人是來(lái)自傳統(tǒng)行業(yè),比如像機(jī)械工程這樣的領(lǐng)域,他們以前沒(méi)有足夠的IT知識(shí)和處理數(shù)據(jù)的技能。

我們?cè)谌ツ甑氖谡n過(guò)程中也在不斷的調(diào)整課程,我們認(rèn)為更好的解決方法,是理論和實(shí)踐結(jié)合,讓大家在學(xué)習(xí)理論課程的同時(shí)有更多的實(shí)踐機(jī)會(huì),能夠更好的去解決技能問(wèn)題。Cloudera提供的這些免費(fèi)課程將會(huì)被引進(jìn)到清華大數(shù)據(jù)碩士教育的計(jì)劃中。

11、大數(shù)據(jù)技術(shù)在中國(guó)未來(lái)會(huì)怎樣發(fā)展?

王建民:第一點(diǎn),大數(shù)據(jù)在中國(guó)的進(jìn)步會(huì)非常好,數(shù)據(jù)來(lái)源會(huì)非常多,中國(guó)有越來(lái)越多的人、越來(lái)越多的機(jī)器、越來(lái)越多的在線交易,都在產(chǎn)生大量的數(shù)據(jù)。但是在這個(gè)過(guò)程中我們要改變現(xiàn)在的文化,讓決策聽(tīng)從數(shù)據(jù)驅(qū)動(dòng)。第二點(diǎn),不要把大數(shù)據(jù)神化,認(rèn)為大數(shù)據(jù)可以做更多的事情,要有耐心把大數(shù)據(jù)和我們的業(yè)務(wù)更好的結(jié)合起來(lái)。第三點(diǎn),我們需要更多的注意安全和隱私,我們會(huì)有越來(lái)越多的數(shù)據(jù),數(shù)據(jù)安全實(shí)際上是這個(gè)發(fā)展的前提。第四點(diǎn),要更多發(fā)展中國(guó)自己的技術(shù)。

邁克:中國(guó)大數(shù)據(jù)有非常好的未來(lái),清華這邊也在做很多和大數(shù)據(jù)相關(guān)的事情,大數(shù)據(jù)在全球的發(fā)展已經(jīng)非常成功,在中國(guó)經(jīng)濟(jì)方面、社會(huì)方面都會(huì)涌現(xiàn)非常多的機(jī)會(huì)。

道克:是的,中國(guó)一定會(huì)有很多的機(jī)會(huì),而且中國(guó)的技術(shù)也已經(jīng)很先進(jìn)了,更重要的是現(xiàn)在開(kāi)源社區(qū)給了我們更多的機(jī)會(huì)去參與學(xué)習(xí)。

12、大數(shù)據(jù)技術(shù)的未來(lái)又是什么樣的?

道克:這個(gè)非常難預(yù)測(cè),現(xiàn)在不太可能會(huì)知道,如果要知道我就去做了。我認(rèn)為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。

邁克:在中國(guó),小米正在使用Kudu,而Spark社區(qū)現(xiàn)在也變得越來(lái)越熱,這個(gè)情況在五年前我們都是見(jiàn)不到的。所以現(xiàn)在開(kāi)源社區(qū)給我們一個(gè)非常好的環(huán)境和生態(tài)系統(tǒng),像Hadoop這樣,可以幫助大家更好的去發(fā)展更多新的技術(shù)。

王建民:我們能夠看到的是,大數(shù)據(jù)系統(tǒng)對(duì)于中國(guó)的很多用戶來(lái)講,非常難使用,已有的開(kāi)源技術(shù)并不能被很好的利用起來(lái)。在我們實(shí)驗(yàn)室現(xiàn)在就有這樣一個(gè)項(xiàng)目,可以幫助大家更簡(jiǎn)化的使用今天Hadoop的系統(tǒng),是一種用機(jī)器學(xué)習(xí)的方法更多去完成自動(dòng)化的參數(shù)、自動(dòng)化的控制,我們正在做更多的努力。

邁克:這個(gè)方向很好,機(jī)器學(xué)習(xí)一定是未來(lái)的趨勢(shì),我們應(yīng)該思考怎么在更多方面結(jié)合這項(xiàng)技術(shù)。

關(guān)鍵字:開(kāi)源數(shù)據(jù)庫(kù)Hadoop

本文摘自:數(shù)據(jù)派

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 元江| 屏山县| 永定县| 白银市| 西和县| 夏河县| 明星| 涡阳县| 和平县| 新野县| 铜陵市| 鞍山市| 和平县| 包头市| 漯河市| 江孜县| 阿拉善左旗| 东安县| 兰坪| 广德县| 凤台县| 五华县| 汨罗市| 封开县| 那坡县| 苍山县| 高淳县| 绍兴市| 武安市| 环江| 喜德县| 龙井市| 库车县| 临邑县| 科技| 鄂州市| 类乌齐县| 松滋市| 綦江县| 米脂县| 米林县|