精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

武永衛(wèi):數(shù)據(jù)社交核心問題就是大數(shù)據(jù)

責(zé)任編輯:qzhao

2012-03-07 15:08:24

摘自:企業(yè)網(wǎng)

數(shù)據(jù)社交核心問題就是數(shù)據(jù)量比較大,如果只是消息的話,就是建議大家用新浪,我們以大數(shù)據(jù)量為核心。

清華大學(xué)教授武永衛(wèi):各位好,首先就是抱歉,今天早上到遲了。我抱歉的措施是什么?就是講的快一點(diǎn)。今天關(guān)注的問題是云存儲(chǔ),因?yàn)榇蠹乙宦牭阶隹蒲?的,你們做的東西都是研究著玩的,我今天講的內(nèi)容,在清華大學(xué)校園里面,有兩萬的用戶,僅僅是清華大學(xué)的學(xué)生和老師來用,對(duì)其他人不給用,因?yàn)槲覀儾幌裥?浪這么大的全球用戶,我們盤子比較小。說到兩萬這個(gè)數(shù)字,我特別自豪,看到他們的用戶才十七萬。我們的數(shù)據(jù)量已經(jīng)的100T了,他們才幾十T,所以我很自 豪。我講的是云存儲(chǔ),首先說一下自己的認(rèn)識(shí)。首先我們說的云計(jì)算,包括今天新浪做的很多事情,因?yàn)樗麄兪腔ヂ?lián)網(wǎng)的大公司,有很多的用戶,他們核心,包括今 天做的APP,特點(diǎn)就是對(duì)數(shù)據(jù)量大量的交互沒有,就是給大家提供小信息的交互,或者小信息的獲取,網(wǎng)站、微博,都是這一類,或者打一些小游戲。打游戲,在 云里的支持肯定有問題。所以這是一類應(yīng)用。


我今天關(guān)注的一類應(yīng)用,就是希望把這類應(yīng)用推到各個(gè)單位內(nèi)部,以一個(gè)單位,以前有一個(gè)概念叫私有云,我個(gè)人認(rèn)為就是指一個(gè)企業(yè)或者一個(gè)組織,或者一個(gè)校 園,以這樣的單位組織為我們的需求點(diǎn),而不是對(duì)全體開發(fā)。兩者有什么區(qū)別?在校園里面、單位里面具有非常優(yōu)良的網(wǎng)絡(luò)條件,千兆以太網(wǎng)到桌面,任何一個(gè)單位 的千兆以太網(wǎng)80%都用不起來,我們就是幫助他們用起來,提供更好的產(chǎn)品。

 

清華大學(xué)教授武永衛(wèi):各位好,首先就是抱歉,今天早上到遲了。我抱歉的措施是什么?就是講的快一點(diǎn)。今天關(guān)注的問題是云存儲(chǔ),因?yàn)榇蠹乙宦牭阶隹蒲械模銈冏龅臇|西都是研究著玩的,我今天講的內(nèi)容,在清華大學(xué)校園里面,有兩萬的用戶,僅僅是清華大學(xué)的學(xué)生和老師來用,對(duì)其他人不給用,因?yàn)槲覀儾幌裥吕诉@么大的全球用戶,我們盤子比較小。說到兩萬這個(gè)數(shù)字,我特別自豪,看到他們的用戶才十七萬。我們的數(shù)據(jù)量已經(jīng)的100T了,他們才幾十T,所以我很自豪。我講的是云存儲(chǔ),首先說一下自己的認(rèn)識(shí)。首先我們說的云計(jì)算,包括今天新浪做的很多事情,因?yàn)樗麄兪腔ヂ?lián)網(wǎng)的大公司,有很多的用戶,他們核心,包括今天做的APP,特點(diǎn)就是對(duì)數(shù)據(jù)量大量的交互沒有,就是給大家提供小信息的交互,或者小信息的獲取,網(wǎng)站、微博,都是這一類,或者打一些小游戲。打游戲,在云里的支持肯定有問題。所以這是一類應(yīng)用。
我今天關(guān)注的一類應(yīng)用,就是希望把這類應(yīng)用推到各個(gè)單位內(nèi)部,以一個(gè)單位,以前有一個(gè)概念叫私有云,我個(gè)人認(rèn)為就是指一個(gè)企業(yè)或者一個(gè)組織,或者一個(gè)校園,以這樣的單位組織為我們的需求點(diǎn),而不是對(duì)全體開發(fā)。兩者有什么區(qū)別?在校園里面、單位里面具有非常優(yōu)良的網(wǎng)絡(luò)條件,千兆以太網(wǎng)到桌面,任何一個(gè)單位的千兆以太網(wǎng)80%都用不起來,我們就是幫助他們用起來,提供更好的產(chǎn)品。
我們一直認(rèn)為云計(jì)算是一個(gè)模式,根本沒有什么新的技術(shù),倒是有一些新的問題。我剛剛問的問題,解決起來很難,里面有一些新問題倒有可能,絕對(duì)沒有太多的新技術(shù),大家不要太膜拜。
第二,存儲(chǔ)是云計(jì)算的左腿,沒有存儲(chǔ),云計(jì)算就沒有辦法玩,沒有云計(jì)算,云存儲(chǔ)可以繼續(xù)玩。我90年代開始用ICQ,那個(gè)時(shí)候QQ沒有到國(guó)內(nèi)。后來騰訊就是把ICQ漢化,在中國(guó)。這個(gè)東西在中國(guó)時(shí)髦起來了,在美國(guó)就是時(shí)髦不起來。當(dāng)時(shí)用這個(gè)感覺就是找不認(rèn)識(shí)的人,認(rèn)識(shí)的目的就是干一些自己任何時(shí)候在老師同學(xué)面前不敢做的事情,說一些自己可以撒野的話,然后覺得這個(gè)對(duì)象不錯(cuò),就是見見面,就是這個(gè)事兒。就是認(rèn)識(shí)以前不認(rèn)識(shí)的人。現(xiàn)在很多的QQ群、Facebook等,我們已經(jīng)認(rèn)識(shí)很多的人,由于時(shí)間地點(diǎn),慢慢遺忘了,那就提供一個(gè)渠道,讓這些人都聚起來,沒有事情,就是在QQ群里面跟以前的朋友聯(lián)系一下。
所謂的數(shù)據(jù)社交是什么?我們希望認(rèn)識(shí)的是一些志同道合的人。我們?cè)谇迦A的一個(gè)感覺,這種需求為什么這么強(qiáng)烈?有的同學(xué)就對(duì)Mac的開發(fā)程序感興趣,他們希望互相交流,代碼貢獻(xiàn)出來。對(duì)Mac沒有開發(fā)的程序,暴露出來有什么用?無非就是一個(gè)垃圾。但是對(duì)有興趣的人,這就是一個(gè)寶貝。所以具有真實(shí)的社會(huì)關(guān)系或者具有共同的特征。還有一類,真實(shí)的社會(huì)關(guān)系,在座的各位如果有了小孩,每個(gè)人都有家庭,Share一下旅游的照片,拿回來,現(xiàn)在一張照片5到10兆,幾百兆的照片,怎么給父母看?只能抱著一個(gè)電腦,插上U盤來進(jìn)行觀看。如果父母在外地的話,這件事情就麻煩了,幾百G的東西沒有很快進(jìn)行共享。我們說的就是數(shù)據(jù)創(chuàng)造,創(chuàng)造出數(shù)據(jù),然后把數(shù)據(jù)分享給別人,跟別人共同分享為核心,這就是數(shù)據(jù)社交。我剛剛說了清華的Mac水果籃子,還有一個(gè)清華的跳水隊(duì),用我們的社區(qū)概念干什么?就是在我們社區(qū)放500G的東西,我們偷偷的看了一下,我也沒有看到他們的數(shù)據(jù),也偷偷看了一下,為什么放這么多數(shù)據(jù),跳水動(dòng)作的照片,還有視頻內(nèi)容,到跳水館,拿一個(gè)Pad一播,就給他們看一下,糾正跳水的問題。一拍一上傳,隊(duì)員在宿舍里面各自又可以看這些照片了,他們就是做這個(gè)事情。
我就說明一個(gè)問題,數(shù)據(jù)社交核心問題就是數(shù)據(jù)量比較大,如果只是消息的話,就是建議大家用新浪,我們以大數(shù)據(jù)量為核心。
在座的都是大學(xué)畢業(yè)生,社區(qū)有600個(gè),100多個(gè)都是班級(jí),比如說G53,就是2005年入學(xué)的第三個(gè)班級(jí),全是班級(jí)出游的照片和DV,這些東西現(xiàn)在還搬不走,畢業(yè)了,希望我天天開著,已經(jīng)700多G了,想搬還搬不走,對(duì)企業(yè)運(yùn)營(yíng)來說就非常重要了,離不開你的時(shí)候,就是你賺錢的開始。
現(xiàn)在開始說存儲(chǔ),以前我們獲得了FTP 迅雷、電驢等,就是很快的將想要的內(nèi)容下載下來,清華大學(xué)按流量收費(fèi)的時(shí)候,這些事情同學(xué)們不敢做了,下載一個(gè)電影幾百塊錢就沒有了,問題就來了,對(duì)于單位來說,我的市場(chǎng)就來了。
Dropbox,在全球做得最好,中國(guó)做的網(wǎng)盤都是朝他們學(xué)習(xí),一個(gè)模子。不管學(xué)成什么樣,都是一樣的,本質(zhì)上來說,還是一個(gè)備份。也就是說對(duì)用戶感覺來說,像使用本地文件一樣使用這個(gè)東西。對(duì)于快盤的開發(fā)者,系統(tǒng)開發(fā)的角度來說,他們同時(shí)都是像FTP一樣,沒有太多的東西。也就是說不是經(jīng)過網(wǎng)絡(luò)讀寫文件,而是把文件在本地做了Cache,再放到后端,F(xiàn)TP把數(shù)據(jù)傳過去,舊的覆蓋掉,就是做同步的問題。所有數(shù)據(jù)在本地需要做Cache,在網(wǎng)上有實(shí)際,本地必須有實(shí)際,除非不換電腦,個(gè)人數(shù)據(jù)超過100G的話,按照國(guó)家目前的三網(wǎng)融合,我不知道需要下載多長(zhǎng)時(shí)間,我使用過快盤的速度,也使用Dropbox,就不知道怎么辦了。說別人不好,但是別人也有非常優(yōu)秀的地方,只是不愿意說。先說他們的缺點(diǎn),把他們的缺點(diǎn)解決掉,說成我的優(yōu)勢(shì)。寫論文也是這樣,做搜索也是這樣。
我們做了云存儲(chǔ),第一,有云的特征,通過網(wǎng)絡(luò)能夠很容易獲得。什么叫容易呢?隨時(shí)隨地隨方式,手機(jī)、Mac、筆記本、臺(tái)式機(jī)、集群,任何時(shí)候在任何操作系統(tǒng)下,很快獲取想要的內(nèi)容。什么叫獲得,HTTP叫獲得,不需要一定要先下載下來,可以做Cache一部分,沒有的話,就直接讀寫。90年代使用的NFS一樣,這樣的情況下,IO效率肯定降低,要求比較高的話,就對(duì)Cache進(jìn)行修改,IO不高可以放在網(wǎng)上。大家現(xiàn)在整天分享的東西都是照片、DV,這些東西需要修改嗎?不需要,僅僅需要看。這樣的東西不需要做Cache,通過網(wǎng)絡(luò)足夠可以看了。看照片花三五秒,把照片五兆的東西傳到桌面上,就覺得沒有什么區(qū)別了,就跟在本地感覺一樣了,這樣就很好。
第三點(diǎn),永不丟失,數(shù)據(jù)資產(chǎn)成為一輩子的資產(chǎn),美國(guó)存一個(gè)密碼和用戶名的密碼存下來遺傳的時(shí)候,就是收費(fèi),每年12美金,這樣就可以賺錢了,把密碼和用戶名繼承下來,傳給后代,就是要收費(fèi)。數(shù)據(jù)資產(chǎn)一定要遺傳,跟房產(chǎn)一樣,一輩子的資產(chǎn)要遺傳下來,放在我們這里非常安全,不會(huì)丟失。可審查,意味著我們可以看。我們最終解決的是技術(shù)問題,讓系統(tǒng)管理員看不到。
為了做這個(gè)事情,我們有三個(gè)階段,第一,創(chuàng)造一個(gè)模式出來,云計(jì)算成功的地方就是有新的模式。我們做了類似于分布式的FTP的東西,用我們的東西還是要上傳下載,我們提出一個(gè)概念叫社區(qū),社區(qū)叫做任何一小撮人放在一起就是一個(gè)社區(qū),一個(gè)班級(jí)、一個(gè)組織、一個(gè)協(xié)會(huì)叫一個(gè)社區(qū),把內(nèi)容共享出來。所以就是很容易創(chuàng)建和使用的社區(qū)。
我們就是為了驗(yàn)證這件事情,在校園里面建了這么一個(gè)東西,這個(gè)東西怕大家聽不懂,簡(jiǎn)單說一下使用方式。三種用戶,第一,對(duì)個(gè)人,就是跟網(wǎng)盤一樣,網(wǎng)上有空間,可以放數(shù)據(jù),可以拿數(shù)據(jù)。第二,就是社區(qū),加入100個(gè)社區(qū),相當(dāng)于C盤下面多了100個(gè)目錄,不同的文件有不同的內(nèi)容,就是跟別人分享的。其實(shí)每一個(gè)人都有很多的社交的圈子,唯一最終的交集就是你自己,其他都沒有交集。這樣的社區(qū)圈子里,就是很多不同的目錄。
還有一個(gè)就是公共和傳統(tǒng)的FTP沒有很大的區(qū)別。
其他技術(shù)上的內(nèi)容,我相信,現(xiàn)在的技術(shù)很成熟,大家用心學(xué),計(jì)算機(jī)不復(fù)雜,沒有想不到的,只有做不到的。構(gòu)架也不說了。
我說一下界面,最終大家使用的感受很重要,右上角就是界面,是客戶端,使用習(xí)慣是一模一樣,跟本地的資源管理器沒有任何的整合,我們自己開發(fā)的。第二,可以把本地的C盤、D盤,中間公共的,下面一登錄,就會(huì)把個(gè)人的空間和社區(qū)都列出來了,有自己的文件,還有下面下載的速度、質(zhì)量、進(jìn)度的感受。這個(gè)東西為什么在學(xué)校里使用很快,99%的客戶不搞計(jì)算機(jī)的,使用習(xí)慣就是保留,資源管理器怎么用,他們就一直使用下來了。
最重要的是速度要快,清華大學(xué)做下來,平均五兆/秒,看3D也看不了實(shí)時(shí)的,還需要下載,我們做到5mb/s.有一個(gè)故事,我們老師有一個(gè)小孩,促進(jìn)了社會(huì)和諧,為什么促進(jìn)?老教授有一個(gè)小孩,在二環(huán)以內(nèi)工作,離清華很遠(yuǎn),平時(shí)社交活動(dòng)很多,懶得回家,這位老教授,就是我們組的,跟他的小孩講,我們組做了一個(gè)東西,里面有電影,可以看一下,這個(gè)小孩說,這個(gè)消息好,每天回來,先下載5個(gè)電影,吃完飯就可以看了,就是在我們的社區(qū)里。從那以后,每周周末就回來了,促進(jìn)了家庭和諧。為什么我這里快?就是清華大學(xué)校園網(wǎng)5mb/s,很快就能拿到資源。其他的快速共享等,還有數(shù)據(jù)社交,這個(gè)詞只有我現(xiàn)在在鼓吹,希望大家理解。移動(dòng)硬盤、硬盤擴(kuò)容等,我們已經(jīng)到了200G的數(shù)據(jù),都是學(xué)生自己放上去的。這是一些其他的地方用我們的東西,這是去年的PPT,我們數(shù)據(jù)量是100T,每天有1.3T的數(shù)據(jù)流入流出,新浪的數(shù)據(jù)量沒有我們高,我們?cè)谛@網(wǎng)里,很快,又是視頻,量很大,1.3T從系統(tǒng)進(jìn)來或者出去,其他方面就不想說了。
當(dāng)然還有其他的單位,他們也用,都是免費(fèi)在用,以后就不會(huì)免費(fèi)了。現(xiàn)在里面有一個(gè)核心的問題,就是那么多的數(shù)據(jù)資源哪里來的,我要告訴大家一開始的時(shí)候,里面放了3T的視頻數(shù)據(jù),都是我們組學(xué)生自己的,他們自己的硬盤,放在里面,就不用占硬盤了,就把視頻數(shù)據(jù)放進(jìn)去了,學(xué)生都愿意看。結(jié)果清華里面有一個(gè)電影協(xié)會(huì),說維護(hù)里面的電影,維護(hù)什么?就是最后誰上傳片子,是西歐還是東亞的,還是幽默的,就是分分類,整理之后給大家。結(jié)果同學(xué)們非常愿意互相分享,為什么?如果你的同學(xué)說,你看那個(gè)片子多么好,肯定想看,怎么給他呢?難道拿一個(gè)U盤考嗎?還挺麻煩。所以數(shù)據(jù)全是同學(xué)們自己奉獻(xiàn)的,這就叫共享,他們貢獻(xiàn)出來,自己獲得共享之后的好處。這就是我的數(shù)據(jù)產(chǎn)生的途徑。
典型的社區(qū),每個(gè)社區(qū)多少人,2008年,2010年的數(shù)據(jù)都有了。現(xiàn)在說新的內(nèi)容,現(xiàn)在中國(guó)類似于網(wǎng)盤的東西,查了一下,去年6、7月份的時(shí)候,是有17個(gè),現(xiàn)在估計(jì)已經(jīng)有170個(gè)了,因?yàn)殚T檻太低,都會(huì)做。我們說說這個(gè)東西,我們加了一個(gè)定語,Meepo,就是新型,第一,實(shí)現(xiàn)文件數(shù)據(jù)的存儲(chǔ)和共享,將網(wǎng)絡(luò)資源與本地?zé)o縫集成。所看到的社區(qū)資源、公共資源,100T的數(shù)據(jù),在本地和本地硬盤完全整合,使用模式就在資源管理器里,客戶端都沒有了。有人說,快盤也這樣,Dropbox也是這樣,他們只能是個(gè)人數(shù)據(jù),或者小組共享的一部分?jǐn)?shù)據(jù),數(shù)據(jù)量非常有限,必須所有的東西做Cache,100T的數(shù)據(jù)做Cache,PC機(jī)做不了,我們通過網(wǎng)絡(luò)的文件系統(tǒng),網(wǎng)絡(luò)文件直接讀寫,這就是本質(zhì)上的區(qū)別。
理念方面,個(gè)人空間、社區(qū)空間、公共空間一脈相承,沒有太多的區(qū)別。還有一個(gè)金,金山快盤就出來了,放一個(gè)M,就是M盤,金盤和M盤的區(qū)別,就是前面剛剛已經(jīng)說到的,大家可以看到內(nèi)部都是一樣,跟C盤、D盤都一樣,都是資源管理器的使用模式。現(xiàn)在要回答大家一個(gè)問題,你說的天花亂墜,在清華大學(xué)校園里玩,有什么用呢?在座的各位有清華的嗎?沒有,所以對(duì)在座的各位都沒有意義。我現(xiàn)在要說的是,如果我們?nèi)珖?guó)有7000所大學(xué),有用了我們這個(gè)系統(tǒng),再把這個(gè)系統(tǒng)連接起來,我現(xiàn)在已經(jīng)連接起來了,開始給各個(gè)大學(xué)布,連接起來之后,上研究生,換了一個(gè)大學(xué),通過后端自動(dòng)的遷移,像谷歌的mail一樣。這是第一件事情,就可以允許在全國(guó)跑來跑去。
第二,把千所大學(xué)連接起來,每一所大學(xué),所有的教育,就是在學(xué)生時(shí)代都沒有問題了,我們大多數(shù)的學(xué)生要走出校園,走出校園的時(shí)候,我們就在在座各位所擅長(zhǎng)的IDC機(jī)房里布,就是最終的系統(tǒng),希望的是一個(gè)廣泛分布,也就是說大規(guī)模的分布。不像我們現(xiàn)在谷歌,甚至國(guó)內(nèi)的互聯(lián)網(wǎng)公司,也就是在我們中國(guó)布一個(gè)數(shù)據(jù)中心,谷歌已經(jīng)不錯(cuò)了。我們國(guó)內(nèi)最多布的點(diǎn)就是20幾個(gè)點(diǎn),已經(jīng)是很大的了,包括存圖片等,我了解的就是20多個(gè)點(diǎn),我的希望就是廣泛分布,使用效率就馬上上來了。我們的出發(fā)點(diǎn)跟在座的互聯(lián)網(wǎng)公司是不一樣。這樣的代價(jià)非常大,起步非常艱難,誰布這些點(diǎn),技術(shù)誰來維護(hù),我們?cè)诖髮W(xué)里好辦一點(diǎn),走上社會(huì)還沒有想,首先希望在大學(xué)里面做。
說一下安全,新浪的專家說的非常對(duì),安全一定要和系統(tǒng)結(jié)合起來,系統(tǒng)的特點(diǎn)決定安全怎么做。我們做數(shù)據(jù)的,拿DFS來說,前面的東西沒有用DFS,DFS為互聯(lián)網(wǎng)公司打造的,不是為實(shí)時(shí)讀取打造的,有學(xué)生問我,能不能用DFS來做某某東西,谷歌做GFS,一開始就是支持搜索,而不是做其他業(yè)務(wù)服務(wù)的。DFS有了,我們要做安全,我想這個(gè)上面說了很多,傳統(tǒng)的都能做。比如說控制放在交換機(jī)上,進(jìn)入數(shù)據(jù)中心之前就訪問,讓你不進(jìn)門,現(xiàn)在中國(guó)人好客,都是先進(jìn)來再說,這不行,先把門關(guān)著,不合格就不行。進(jìn)來之后,要訪問的數(shù)據(jù)在哪個(gè)機(jī)器上,只去那個(gè)機(jī)器,不要瞎跑,亂跑亂撞,就是給黑客最大的作案空間。第三,就是做防彈衣。我們現(xiàn)在做監(jiān)視器,數(shù)據(jù)最終都要監(jiān)視什么時(shí)候流動(dòng),被誰看。清華100T數(shù)據(jù),都被學(xué)校的宣傳部門專門找到我,需要審查,我說為什么?安全部門已經(jīng)發(fā)現(xiàn)你們這個(gè)里面的數(shù)據(jù)量特別大,我們樓里的千兆,就是FIT輸入95%的流量都是我這個(gè)系統(tǒng)出去的,以為是什么?就讓他們查,看了一遍走了。這個(gè)東西就是通過后期的觀察。說實(shí)話,用戶將隱私的照片放在上面,能Check這個(gè)事情確實(shí)不太合理。
我們后面會(huì)說,技術(shù)上不能解決這件事情的時(shí)候,只能說都誰看過,系統(tǒng)管理員看過,也需要記載下來,一看,這個(gè)家伙太不地道了,看人家的數(shù)據(jù)干嗎?這就是監(jiān)視器。還有一個(gè)防火防災(zāi),文件分成不同的片,放在不同的服務(wù)器上,一本書撕碎,怎么合起來,慢慢合吧。再說防彈衣,穿防彈衣之前,先介紹一下業(yè)界做數(shù)據(jù)怎么做?所謂的加密,也就是說用戶把數(shù)據(jù)在這個(gè)地方存,根據(jù)用戶名密碼,然后加密,之后存在硬盤上,這樣不靠譜。為什么?加密過程,很多數(shù)據(jù)要進(jìn)內(nèi)存,把內(nèi)存跟蹤下來,公司所有的帳號(hào)密碼都可以看到,因?yàn)檫\(yùn)行過程沒有保護(hù)出來,內(nèi)存里面還是露著的。網(wǎng)絡(luò)上通過很多的方式,但是到了機(jī)器,讓他們加密,是不靠譜的。我們來說,我們做這件事情,只為了防止系統(tǒng)管理員看不到,別人看不到都是訪問控制,可以做得很復(fù)雜,也可以做得很簡(jiǎn)單。訪問控制沒有太多新花樣,科研領(lǐng)域來說,沒有太多新花樣,誰都可以做到別人看不見,立法律法規(guī),公司的規(guī)章制度可以限制,本質(zhì)上來說,不能防止有些人作案。希望這個(gè)人沒有作案的能力,殺人沒有刀就是殺不了,就是不要給他刀的意思。進(jìn)程保護(hù)就是這個(gè)意思。所謂的進(jìn)程保護(hù),我們?cè)诓僮飨到y(tǒng)下裝一個(gè)類似虛擬機(jī),VMM,是輕量級(jí)的東西,把所有的東西都管理起來,這樣操作系統(tǒng)運(yùn)行在這個(gè)虛擬機(jī)上,操作系統(tǒng)上運(yùn)行各種各樣的進(jìn)程,我們左邊兩個(gè)安全應(yīng)用的進(jìn)程需要保護(hù)的時(shí)候,所要訪問任何硬件的時(shí)候,首先必須注冊(cè),需要保護(hù)。對(duì)所有硬件的訪問,我必須去審查,也就是說有TCB去審查,只要讓你訪問,內(nèi)存操作系統(tǒng)管理員肯定能看的,所有數(shù)據(jù)往內(nèi)存、硬盤、Cache里面放的時(shí)候,因?yàn)楸葯?quán)限管理員好,都可以進(jìn)行處理,加密的方式有很多種,可以加密處理。處理完之后,要做計(jì)算,在計(jì)算的時(shí)候,在CPU進(jìn)行運(yùn)算,再進(jìn)內(nèi)存、硬盤、Cache的時(shí)候,還加密。這樣的話,系統(tǒng)管理員是可以看到硬盤,也可以看到內(nèi)存和Cache,看到的全是不認(rèn)識(shí)的東西。或者是原來80寫成8,這就是我們做的。現(xiàn)在這個(gè)東西沒有到商業(yè)化的程度,也不是說不可用。現(xiàn)在已經(jīng)在我們的校園網(wǎng)里面沒有做這個(gè)事情,在我們的實(shí)驗(yàn)室已經(jīng)做了。
大家可以看到南橋、北橋,IOMMU MMU 的原理,我都不講了。其他的東西比較簡(jiǎn)單,也不多講了。用了進(jìn)程加密保護(hù)起來之后損耗的性能。可以簡(jiǎn)單的看到,如果用SSSL,通過一個(gè)客戶端直接到系統(tǒng)里,我只說服務(wù)器端,CPU利用率多了15.39%,再加上我們的保護(hù)方式,也就是說進(jìn)程加密之后,多了19.45%,也就是說只消耗了多余的4.4%過一點(diǎn)的CPU.多核時(shí)代了,CPU閑得沒事兒干了,CPU利用率還可以忍受。加上SSSL,在服務(wù)器端,在校園網(wǎng)里每秒達(dá)到370兆B,用我們這個(gè)之后,也是少了0.02兆,也可以忍受。加起來,下面一張表說明了,Cline端的情況,不是很大的問題,用戶都是分散的,沒有關(guān)系。服務(wù)器端性能可以容忍。
下面這一張圖是說明對(duì)一萬個(gè)100K文件同時(shí)操作來看,也差不多,損失也不是很大,結(jié)果類似。就是得到這樣的結(jié)論。
下面一個(gè)故事,就是當(dāng)我們把一個(gè)數(shù)據(jù)平臺(tái)做好的時(shí)候,上面的應(yīng)用可以很多,打游戲也罷,我非常吃驚的一點(diǎn),去年不知道康熙來了,去年才知道,這個(gè)節(jié)目看的人很多,有的人天天把康熙來了放上去,就在安卓手機(jī)上開發(fā)這樣的應(yīng)用,在校園網(wǎng)通過WiFi,3G也可以看,就可以看里面的頻道。這個(gè)東西每天有300個(gè)人看,就是300次的觀看,在校園網(wǎng)。這是最高的,挺好玩的,就看了一下,當(dāng)你有了數(shù)據(jù),有了對(duì)外開發(fā)的接口,網(wǎng)絡(luò)的系統(tǒng)暴露出來,開發(fā)出來的App可以有很多。照相機(jī)做一個(gè)插件,照的照片可以上傳上來,應(yīng)用做到成千上萬,Appstore很多,這些不是我們做的,鼓勵(lì)大家慢慢去做。以后還可以做聊天,謝謝大家!
主持人:感謝武教授的演講,目前中國(guó)的網(wǎng)盤也有100多了,大學(xué)有很多的優(yōu)點(diǎn),目前普通的是沒有辦法具備的,比如說在線點(diǎn)播,我也挺驚訝的,實(shí)現(xiàn)跟本地PC無線的結(jié)合,通過網(wǎng)盤在線的點(diǎn)播,不需要下載到本地,再看資料,也可以直接打開,這是網(wǎng)盤當(dāng)中很好的創(chuàng)新和體驗(yàn)。接下來有一個(gè)提問的環(huán)節(jié),有三個(gè)名額。
提問:您好,剛才我聽您說,就是做存儲(chǔ)的時(shí)候,大部分的數(shù)據(jù),目前認(rèn)為應(yīng)該是少修改,都是讀取的操作。我關(guān)注最近的火車票訂票難的問題,網(wǎng)站經(jīng)常登錄上去的時(shí)候,會(huì)出現(xiàn)擁塞,可能是用戶過多的問題。還有一個(gè)問題,是不是跟大的數(shù)據(jù)量修改也有關(guān)系。因?yàn)橛喥保粡埰辈荒軆蓚€(gè)人訂,對(duì)于登錄量又大,數(shù)據(jù)量又大,同時(shí)兼顧修改的時(shí)候,存儲(chǔ)應(yīng)該怎么做?
清華大學(xué)教授武永衛(wèi):與時(shí)俱進(jìn),我這兩天看了,也不知道硬盤怎么這么衰,我認(rèn)識(shí)鐵路信息中心的人,怎么做成那樣,他說就幾臺(tái)服務(wù)器,數(shù)據(jù)分布不開,分布就存在一致的問題,訂票的票要檢查,這是他們最大的問題,跟我們的問題還不太一樣,我們客戶端都是分布的,大家在不同的渠道到一個(gè)地方,訪問數(shù)據(jù)中心的地方,數(shù)據(jù)中心的地方是瓶頸,數(shù)據(jù)中心的地方解決這個(gè)瓶頸的時(shí)候,只有兩個(gè)辦法。第一,多放數(shù)據(jù)服務(wù)器,為什么說廣泛分布,多放數(shù)據(jù)服務(wù)器,每一個(gè)服務(wù)器對(duì)外都是千兆帶寬。第二,每一個(gè)服務(wù)器都有光纖的出口很好,清華都是光纖,其他學(xué)校做不到,也沒有辦法。廣泛分布之后,帶來的問題也非常簡(jiǎn)單,一致性、維護(hù)拷貝等所有都要搞定。我們的核心價(jià)值就是體現(xiàn)在中間的那一張圖,這么廣泛分布以后,怎么管理好,怎么讓大家不經(jīng)過中間這一塊,登錄之后直接獲取服務(wù)器的數(shù)據(jù),進(jìn)行修改和讀取,技術(shù)的改變,在中間都要記錄下來,沒有中間這一塊,用戶正在讀取數(shù)據(jù),中間機(jī)器宕了,也沒有問題。或者就是修改和讀取的數(shù)據(jù)沒有記錄下來,希望通過客戶端里面加一些內(nèi)容,比如說做了哪些的修改,做了修改注冊(cè)以后,收尾的時(shí)候,告訴服務(wù)器,修改哪些數(shù)據(jù),然后再做原數(shù)據(jù)的搜索。原數(shù)據(jù)的管理,是做我們這個(gè)廣泛分布系統(tǒng)的核心,也是最難的地方。問題太多了,我們大概有700多個(gè)問題。
提問:挺好,我想問一下,您最后提到的數(shù)據(jù)處理保護(hù)進(jìn)程,在您這個(gè)系統(tǒng)里用了嗎?
清華大學(xué)教授武永衛(wèi):實(shí)驗(yàn)室的階段,沒有在清華校園里面布。這里有一個(gè)故事,催發(fā)我們做這個(gè)事情,就是一個(gè)女同事,就是清華的計(jì)算機(jī)老師,有一天突然有一個(gè)事兒找我,我在你那兒,把所有數(shù)據(jù)都放保護(hù)進(jìn)程里了,說你能不能看見,我說你想聽真話還是假話,當(dāng)然想聽真話,我說能看見,她就走了,過了一會(huì)兒打電話,所有的數(shù)據(jù)都移出來,往哪兒存,這個(gè)問題問我沒有用。現(xiàn)在這是作為我們的研究,這件事情還沒有成熟到所有的東西部署上去沒有問題。真正別人用的時(shí)候,7×24小時(shí),在校園里面不是產(chǎn)品,斷一個(gè)小時(shí),Email可能就會(huì)登爆,就是問題太多,就是拼命發(fā)問題,我們現(xiàn)在還沒有部署,但是我希望,能在2012或者2013年的時(shí)候,在校園環(huán)境里面部署試用,還有三個(gè)小問題沒有徹底解決好。

我們一直認(rèn)為云計(jì)算是一個(gè)模式,根本沒有什么新的技術(shù),倒是有一些新的問題。我剛剛問的問題,解決起來很難,里面有一些新問題倒有可能,絕對(duì)沒有太多的新技術(shù),大家不要太膜拜。

第二,存儲(chǔ)是云計(jì)算的左腿,沒有存儲(chǔ),云計(jì)算就沒有辦法玩,沒有云計(jì)算,云存儲(chǔ)可以繼續(xù)玩。我90年代開始用ICQ,那個(gè)時(shí)候QQ沒有到國(guó)內(nèi)。后來騰訊就是把ICQ漢化,在中國(guó)。這個(gè)東西在中國(guó)時(shí)髦起來了,在美國(guó)就是時(shí)髦不起來。當(dāng)時(shí)用這個(gè)感覺就是找不認(rèn)識(shí)的人,認(rèn)識(shí)的目的就是干一些自己任何時(shí)候在老師同學(xué)面前不敢做的事情,說一些自己可以撒野的話,然后覺得這個(gè)對(duì)象不錯(cuò),就是見見面,就是這個(gè)事兒。就是認(rèn)識(shí)以前不認(rèn)識(shí)的人。現(xiàn)在很多的QQ群、Facebook等,我們已經(jīng)認(rèn)識(shí)很多的人,由于時(shí)間地點(diǎn),慢慢遺忘了,那就提供一個(gè)渠道,讓這些人都聚起來,沒有事情,就是在QQ群里面跟以前的朋友聯(lián)系一下。

所謂的數(shù)據(jù)社交是什么?我們希望認(rèn)識(shí)的是一些志同道合的人。我們?cè)谇迦A的一個(gè)感覺,這種需求為什么這么強(qiáng)烈?有的同學(xué)就對(duì)Mac的開發(fā)程序感興趣,他們希望互相交流,代碼貢獻(xiàn)出來。對(duì)Mac沒有開發(fā)的程序,暴露出來有什么用?無非就是一個(gè)垃圾。但是對(duì)有興趣的人,這就是一個(gè)寶貝。所以具有真實(shí)的社會(huì)關(guān)系或者具有共同的特征。還有一類,真實(shí)的社會(huì)關(guān)系,在座的各位如果有了小孩,每個(gè)人都有家庭,Share一下旅游的照片,拿回來,現(xiàn)在一張照片5到10兆,幾百兆的照片,怎么給父母看?只能抱著一個(gè)電腦,插上U盤來進(jìn)行觀看。如果父母在外地的話,這件事情就麻煩了,幾百G的東西沒有很快進(jìn)行共享。我們說的就是數(shù)據(jù)創(chuàng)造,創(chuàng)造出數(shù)據(jù),然后把數(shù)據(jù)分享給別人,跟別人共同分享為核心,這就是數(shù)據(jù)社交。我剛剛說了清華的Mac水果籃子,還有一個(gè)清華的跳水隊(duì),用我們的社區(qū)概念干什么?就是在我們社區(qū)放500G的東西,我們偷偷的看了一下,我也沒有看到他們的數(shù)據(jù),也偷偷看了一下,為什么放這么多數(shù)據(jù),跳水動(dòng)作的照片,還有視頻內(nèi)容,到跳水館,拿一個(gè)Pad一播,就給他們看一下,糾正跳水的問題。一拍一上傳,隊(duì)員在宿舍里面各自又可以看這些照片了,他們就是做這個(gè)事情。

我就說明一個(gè)問題,數(shù)據(jù)社交核心問題就是數(shù)據(jù)量比較大,如果只是消息的話,就是建議大家用新浪,我們以大數(shù)據(jù)量為核心。

在座的都是大學(xué)畢業(yè)生,社區(qū)有600個(gè),100多個(gè)都是班級(jí),比如說G53,就是2005年入學(xué)的第三個(gè)班級(jí),全是班級(jí)出游的照片和DV,這些東西現(xiàn)在還搬不走,畢業(yè)了,希望我天天開著,已經(jīng)700多G了,想搬還搬不走,對(duì)企業(yè)運(yùn)營(yíng)來說就非常重要了,離不開你的時(shí)候,就是你賺錢的開始。

現(xiàn)在開始說存儲(chǔ),以前我們獲得了FTP 迅雷、電驢等,就是很快的將想要的內(nèi)容下載下來,清華大學(xué)按流量收費(fèi)的時(shí)候,這些事情同學(xué)們不敢做了,下載一個(gè)電影幾百塊錢就沒有了,問題就來了,對(duì)于單位來說,我的市場(chǎng)就來了。

Dropbox,在全球做得最好,中國(guó)做的網(wǎng)盤都是朝他們學(xué)習(xí),一個(gè)模子。不管學(xué)成什么樣,都是一樣的,本質(zhì)上來說,還是一個(gè)備份。也就是說對(duì)用戶感覺來說,像使用本地文件一樣使用這個(gè)東西。對(duì)于快盤的開發(fā)者,系統(tǒng)開發(fā)的角度來說,他們同時(shí)都是像FTP一樣,沒有太多的東西。也就是說不是經(jīng)過網(wǎng)絡(luò)讀寫文件,而是把文件在本地做了Cache,再放到后端,F(xiàn)TP把數(shù)據(jù)傳過去,舊的覆蓋掉,就是做同步的問題。所有數(shù)據(jù)在本地需要做Cache,在網(wǎng)上有實(shí)際,本地必須有實(shí)際,除非不換電腦,個(gè)人數(shù)據(jù)超過100G的話,按照國(guó)家目前的三網(wǎng)融合,我不知道需要下載多長(zhǎng)時(shí)間,我使用過快盤的速度,也使用Dropbox,就不知道怎么辦了。說別人不好,但是別人也有非常優(yōu)秀的地方,只是不愿意說。先說他們的缺點(diǎn),把他們的缺點(diǎn)解決掉,說成我的優(yōu)勢(shì)。寫論文也是這樣,做搜索也是這樣。

我們做了云存儲(chǔ),第一,有云的特征,通過網(wǎng)絡(luò)能夠很容易獲得。什么叫容易呢?隨時(shí)隨地隨方式,手機(jī)、Mac、筆記本、臺(tái)式機(jī)、集群,任何時(shí)候在任何操作系統(tǒng)下,很快獲取想要的內(nèi)容。什么叫獲得,HTTP叫獲得,不需要一定要先下載下來,可以做Cache一部分,沒有的話,就直接讀寫。90年代使用的NFS一樣,這樣的情況下,IO效率肯定降低,要求比較高的話,就對(duì)Cache進(jìn)行修改,IO不高可以放在網(wǎng)上。大家現(xiàn)在整天分享的東西都是照片、DV,這些東西需要修改嗎?不需要,僅僅需要看。這樣的東西不需要做Cache,通過網(wǎng)絡(luò)足夠可以看了。看照片花三五秒,把照片五兆的東西傳到桌面上,就覺得沒有什么區(qū)別了,就跟在本地感覺一樣了,這樣就很好。

第三點(diǎn),永不丟失,數(shù)據(jù)資產(chǎn)成為一輩子的資產(chǎn),美國(guó)存一個(gè)密碼和用戶名的密碼存下來遺傳的時(shí)候,就是收費(fèi),每年12美金,這樣就可以賺錢了,把密碼和用戶名繼承下來,傳給后代,就是要收費(fèi)。數(shù)據(jù)資產(chǎn)一定要遺傳,跟房產(chǎn)一樣,一輩子的資產(chǎn)要遺傳下來,放在我們這里非常安全,不會(huì)丟失。可審查,意味著我們可以看。我們最終解決的是技術(shù)問題,讓系統(tǒng)管理員看不到。

為了做這個(gè)事情,我們有三個(gè)階段,第一,創(chuàng)造一個(gè)模式出來,云計(jì)算成功的地方就是有新的模式。我們做了類似于分布式的FTP的東西,用我們的東西還是要上傳下載,我們提出一個(gè)概念叫社區(qū),社區(qū)叫做任何一小撮人放在一起就是一個(gè)社區(qū),一個(gè)班級(jí)、一個(gè)組織、一個(gè)協(xié)會(huì)叫一個(gè)社區(qū),把內(nèi)容共享出來。所以就是很容易創(chuàng)建和使用的社區(qū)。

我們就是為了驗(yàn)證這件事情,在校園里面建了這么一個(gè)東西,這個(gè)東西怕大家聽不懂,簡(jiǎn)單說一下使用方式。三種用戶,第一,對(duì)個(gè)人,就是跟網(wǎng)盤一樣,網(wǎng)上有空間,可以放數(shù)據(jù),可以拿數(shù)據(jù)。第二,就是社區(qū),加入100個(gè)社區(qū),相當(dāng)于C盤下面多了100個(gè)目錄,不同的文件有不同的內(nèi)容,就是跟別人分享的。其實(shí)每一個(gè)人都有很多的社交的圈子,唯一最終的交集就是你自己,其他都沒有交集。這樣的社區(qū)圈子里,就是很多不同的目錄。
還有一個(gè)就是公共和傳統(tǒng)的FTP沒有很大的區(qū)別。

其他技術(shù)上的內(nèi)容,我相信,現(xiàn)在的技術(shù)很成熟,大家用心學(xué),計(jì)算機(jī)不復(fù)雜,沒有想不到的,只有做不到的。構(gòu)架也不說了。

我說一下界面,最終大家使用的感受很重要,右上角就是界面,是客戶端,使用習(xí)慣是一模一樣,跟本地的資源管理器沒有任何的整合,我們自己開發(fā)的。第二,可以把本地的C盤、D盤,中間公共的,下面一登錄,就會(huì)把個(gè)人的空間和社區(qū)都列出來了,有自己的文件,還有下面下載的速度、質(zhì)量、進(jìn)度的感受。這個(gè)東西為什么在學(xué)校里使用很快,99%的客戶不搞計(jì)算機(jī)的,使用習(xí)慣就是保留,資源管理器怎么用,他們就一直使用下來了。

最重要的是速度要快,清華大學(xué)做下來,平均五兆/秒,看3D也看不了實(shí)時(shí)的,還需要下載,我們做到5mb/s.有一個(gè)故事,我們老師有一個(gè)小孩,促進(jìn)了社會(huì)和諧,為什么促進(jìn)?老教授有一個(gè)小孩,在二環(huán)以內(nèi)工作,離清華很遠(yuǎn),平時(shí)社交活動(dòng)很多,懶得回家,這位老教授,就是我們組的,跟他的小孩講,我們組做了一個(gè)東西,里面有電影,可以看一下,這個(gè)小孩說,這個(gè)消息好,每天回來,先下載5個(gè)電影,吃完飯就可以看了,就是在我們的社區(qū)里。從那以后,每周周末就回來了,促進(jìn)了家庭和諧。為什么我這里快?就是清華大學(xué)校園網(wǎng)5mb/s,很快就能拿到資源。其他的快速共享等,還有數(shù)據(jù)社交,這個(gè)詞只有我現(xiàn)在在鼓吹,希望大家理解。移動(dòng)硬盤、硬盤擴(kuò)容等,我們已經(jīng)到了200G的數(shù)據(jù),都是學(xué)生自己放上去的。這是一些其他的地方用我們的東西,這是去年的PPT,我們數(shù)據(jù)量是100T,每天有1.3T的數(shù)據(jù)流入流出,新浪的數(shù)據(jù)量沒有我們高,我們?cè)谛@網(wǎng)里,很快,又是視頻,量很大,1.3T從系統(tǒng)進(jìn)來或者出去,其他方面就不想說了。

當(dāng)然還有其他的單位,他們也用,都是免費(fèi)在用,以后就不會(huì)免費(fèi)了。現(xiàn)在里面有一個(gè)核心的問題,就是那么多的數(shù)據(jù)資源哪里來的,我要告訴大家一開始的時(shí)候,里面放了3T的視頻數(shù)據(jù),都是我們組學(xué)生自己的,他們自己的硬盤,放在里面,就不用占硬盤了,就把視頻數(shù)據(jù)放進(jìn)去了,學(xué)生都愿意看。結(jié)果清華里面有一個(gè)電影協(xié)會(huì),說維護(hù)里面的電影,維護(hù)什么?就是最后誰上傳片子,是西歐還是東亞的,還是幽默的,就是分分類,整理之后給大家。結(jié)果同學(xué)們非常愿意互相分享,為什么?如果你的同學(xué)說,你看那個(gè)片子多么好,肯定想看,怎么給他呢?難道拿一個(gè)U盤考嗎?還挺麻煩。所以數(shù)據(jù)全是同學(xué)們自己奉獻(xiàn)的,這就叫共享,他們貢獻(xiàn)出來,自己獲得共享之后的好處。這就是我的數(shù)據(jù)產(chǎn)生的途徑。

典型的社區(qū),每個(gè)社區(qū)多少人,2008年,2010年的數(shù)據(jù)都有了。現(xiàn)在說新的內(nèi)容,現(xiàn)在中國(guó)類似于網(wǎng)盤的東西,查了一下,去年6、7月份的時(shí)候,是有17個(gè),現(xiàn)在估計(jì)已經(jīng)有170個(gè)了,因?yàn)殚T檻太低,都會(huì)做。我們說說這個(gè)東西,我們加了一個(gè)定語,Meepo,就是新型,第一,實(shí)現(xiàn)文件數(shù)據(jù)的存儲(chǔ)和共享,將網(wǎng)絡(luò)資源與本地?zé)o縫集成。所看到的社區(qū)資源、公共資源,100T的數(shù)據(jù),在本地和本地硬盤完全整合,使用模式就在資源管理器里,客戶端都沒有了。有人說,快盤也這樣,Dropbox也是這樣,他們只能是個(gè)人數(shù)據(jù),或者小組共享的一部分?jǐn)?shù)據(jù),數(shù)據(jù)量非常有限,必須所有的東西做Cache,100T的數(shù)據(jù)做Cache,PC機(jī)做不了,我們通過網(wǎng)絡(luò)的文件系統(tǒng),網(wǎng)絡(luò)文件直接讀寫,這就是本質(zhì)上的區(qū)別。

理念方面,個(gè)人空間、社區(qū)空間、公共空間一脈相承,沒有太多的區(qū)別。還有一個(gè)金,金山快盤就出來了,放一個(gè)M,就是M盤,金盤和M盤的區(qū)別,就是前面剛剛已經(jīng)說到的,大家可以看到內(nèi)部都是一樣,跟C盤、D盤都一樣,都是資源管理器的使用模式。現(xiàn)在要回答大家一個(gè)問題,你說的天花亂墜,在清華大學(xué)校園里玩,有什么用呢?在座的各位有清華的嗎?沒有,所以對(duì)在座的各位都沒有意義。我現(xiàn)在要說的是,如果我們?nèi)珖?guó)有7000所大學(xué),有用了我們這個(gè)系統(tǒng),再把這個(gè)系統(tǒng)連接起來,我現(xiàn)在已經(jīng)連接起來了,開始給各個(gè)大學(xué)布,連接起來之后,上研究生,換了一個(gè)大學(xué),通過后端自動(dòng)的遷移,像谷歌的mail一樣。這是第一件事情,就可以允許在全國(guó)跑來跑去。

第二,把千所大學(xué)連接起來,每一所大學(xué),所有的教育,就是在學(xué)生時(shí)代都沒有問題了,我們大多數(shù)的學(xué)生要走出校園,走出校園的時(shí)候,我們就在在座各位所擅長(zhǎng)的IDC機(jī)房里布,就是最終的系統(tǒng),希望的是一個(gè)廣泛分布,也就是說大規(guī)模的分布。不像我們現(xiàn)在谷歌,甚至國(guó)內(nèi)的互聯(lián)網(wǎng)公司,也就是在我們中國(guó)布一個(gè)數(shù)據(jù)中心,谷歌已經(jīng)不錯(cuò)了。我們國(guó)內(nèi)最多布的點(diǎn)就是20幾個(gè)點(diǎn),已經(jīng)是很大的了,包括存圖片等,我了解的就是20多個(gè)點(diǎn),我的希望就是廣泛分布,使用效率就馬上上來了。我們的出發(fā)點(diǎn)跟在座的互聯(lián)網(wǎng)公司是不一樣。這樣的代價(jià)非常大,起步非常艱難,誰布這些點(diǎn),技術(shù)誰來維護(hù),我們?cè)诖髮W(xué)里好辦一點(diǎn),走上社會(huì)還沒有想,首先希望在大學(xué)里面做。

說一下安全,新浪的專家說的非常對(duì),安全一定要和系統(tǒng)結(jié)合起來,系統(tǒng)的特點(diǎn)決定安全怎么做。我們做數(shù)據(jù)的,拿DFS來說,前面的東西沒有用DFS,DFS為互聯(lián)網(wǎng)公司打造的,不是為實(shí)時(shí)讀取打造的,有學(xué)生問我,能不能用DFS來做某某東西,谷歌做GFS,一開始就是支持搜索,而不是做其他業(yè)務(wù)服務(wù)的。DFS有了,我們要做安全,我想這個(gè)上面說了很多,傳統(tǒng)的都能做。比如說控制放在交換機(jī)上,進(jìn)入數(shù)據(jù)中心之前就訪問,讓你不進(jìn)門,現(xiàn)在中國(guó)人好客,都是先進(jìn)來再說,這不行,先把門關(guān)著,不合格就不行。進(jìn)來之后,要訪問的數(shù)據(jù)在哪個(gè)機(jī)器上,只去那個(gè)機(jī)器,不要瞎跑,亂跑亂撞,就是給黑客最大的作案空間。第三,就是做防彈衣。我們現(xiàn)在做監(jiān)視器,數(shù)據(jù)最終都要監(jiān)視什么時(shí)候流動(dòng),被誰看。清華100T數(shù)據(jù),都被學(xué)校的宣傳部門專門找到我,需要審查,我說為什么?安全部門已經(jīng)發(fā)現(xiàn)你們這個(gè)里面的數(shù)據(jù)量特別大,我們樓里的千兆,就是FIT輸入95%的流量都是我這個(gè)系統(tǒng)出去的,以為是什么?就讓他們查,看了一遍走了。這個(gè)東西就是通過后期的觀察。說實(shí)話,用戶將隱私的照片放在上面,能Check這個(gè)事情確實(shí)不太合理。

我們后面會(huì)說,技術(shù)上不能解決這件事情的時(shí)候,只能說都誰看過,系統(tǒng)管理員看過,也需要記載下來,一看,這個(gè)家伙太不地道了,看人家的數(shù)據(jù)干嗎?這就是監(jiān)視器。還有一個(gè)防火防災(zāi),文件分成不同的片,放在不同的服務(wù)器上,一本書撕碎,怎么合起來,慢慢合吧。再說防彈衣,穿防彈衣之前,先介紹一下業(yè)界做數(shù)據(jù)怎么做?所謂的加密,也就是說用戶把數(shù)據(jù)在這個(gè)地方存,根據(jù)用戶名密碼,然后加密,之后存在硬盤上,這樣不靠譜。為什么?加密過程,很多數(shù)據(jù)要進(jìn)內(nèi)存,把內(nèi)存跟蹤下來,公司所有的帳號(hào)密碼都可以看到,因?yàn)檫\(yùn)行過程沒有保護(hù)出來,內(nèi)存里面還是露著的。網(wǎng)絡(luò)上通過很多的方式,但是到了機(jī)器,讓他們加密,是不靠譜的。我們來說,我們做這件事情,只為了防止系統(tǒng)管理員看不到,別人看不到都是訪問控制,可以做得很復(fù)雜,也可以做得很簡(jiǎn)單。訪問控制沒有太多新花樣,科研領(lǐng)域來說,沒有太多新花樣,誰都可以做到別人看不見,立法律法規(guī),公司的規(guī)章制度可以限制,本質(zhì)上來說,不能防止有些人作案。希望這個(gè)人沒有作案的能力,殺人沒有刀就是殺不了,就是不要給他刀的意思。進(jìn)程保護(hù)就是這個(gè)意思。所謂的進(jìn)程保護(hù),我們?cè)诓僮飨到y(tǒng)下裝一個(gè)類似虛擬機(jī),VMM,是輕量級(jí)的東西,把所有的東西都管理起來,這樣操作系統(tǒng)運(yùn)行在這個(gè)虛擬機(jī)上,操作系統(tǒng)上運(yùn)行各種各樣的進(jìn)程,我們左邊兩個(gè)安全應(yīng)用的進(jìn)程需要保護(hù)的時(shí)候,所要訪問任何硬件的時(shí)候,首先必須注冊(cè),需要保護(hù)。對(duì)所有硬件的訪問,我必須去審查,也就是說有TCB去審查,只要讓你訪問,內(nèi)存操作系統(tǒng)管理員肯定能看的,所有數(shù)據(jù)往內(nèi)存、硬盤、Cache里面放的時(shí)候,因?yàn)楸葯?quán)限管理員好,都可以進(jìn)行處理,加密的方式有很多種,可以加密處理。處理完之后,要做計(jì)算,在計(jì)算的時(shí)候,在CPU進(jìn)行運(yùn)算,再進(jìn)內(nèi)存、硬盤、Cache的時(shí)候,還加密。這樣的話,系統(tǒng)管理員是可以看到硬盤,也可以看到內(nèi)存和Cache,看到的全是不認(rèn)識(shí)的東西。或者是原來80寫成8,這就是我們做的。現(xiàn)在這個(gè)東西沒有到商業(yè)化的程度,也不是說不可用。現(xiàn)在已經(jīng)在我們的校園網(wǎng)里面沒有做這個(gè)事情,在我們的實(shí)驗(yàn)室已經(jīng)做了。

大家可以看到南橋、北橋,IOMMU MMU 的原理,我都不講了。其他的東西比較簡(jiǎn)單,也不多講了。用了進(jìn)程加密保護(hù)起來之后損耗的性能。可以簡(jiǎn)單的看到,如果用SSSL,通過一個(gè)客戶端直接到系統(tǒng)里,我只說服務(wù)器端,CPU利用率多了15.39%,再加上我們的保護(hù)方式,也就是說進(jìn)程加密之后,多了19.45%,也就是說只消耗了多余的4.4%過一點(diǎn)的CPU.多核時(shí)代了,CPU閑得沒事兒干了,CPU利用率還可以忍受。加上SSSL,在服務(wù)器端,在校園網(wǎng)里每秒達(dá)到370兆B,用我們這個(gè)之后,也是少了0.02兆,也可以忍受。加起來,下面一張表說明了,Cline端的情況,不是很大的問題,用戶都是分散的,沒有關(guān)系。服務(wù)器端性能可以容忍。
下面這一張圖是說明對(duì)一萬個(gè)100K文件同時(shí)操作來看,也差不多,損失也不是很大,結(jié)果類似。就是得到這樣的結(jié)論。

下面一個(gè)故事,就是當(dāng)我們把一個(gè)數(shù)據(jù)平臺(tái)做好的時(shí)候,上面的應(yīng)用可以很多,打游戲也罷,我非常吃驚的一點(diǎn),去年不知道康熙來了,去年才知道,這個(gè)節(jié)目看的人很多,有的人天天把康熙來了放上去,就在安卓手機(jī)上開發(fā)這樣的應(yīng)用,在校園網(wǎng)通過WiFi,3G也可以看,就可以看里面的頻道。這個(gè)東西每天有300個(gè)人看,就是300次的觀看,在校園網(wǎng)。這是最高的,挺好玩的,就看了一下,當(dāng)你有了數(shù)據(jù),有了對(duì)外開發(fā)的接口,網(wǎng)絡(luò)的系統(tǒng)暴露出來,開發(fā)出來的App可以有很多。照相機(jī)做一個(gè)插件,照的照片可以上傳上來,應(yīng)用做到成千上萬,Appstore很多,這些不是我們做的,鼓勵(lì)大家慢慢去做。以后還可以做聊天,謝謝大家!

主持人:感謝武教授的演講,目前中國(guó)的網(wǎng)盤也有100多了,大學(xué)有很多的優(yōu)點(diǎn),目前普通的是沒有辦法具備的,比如說在線點(diǎn)播,我也挺驚訝的,實(shí)現(xiàn)跟本地PC無線的結(jié)合,通過網(wǎng)盤在線的點(diǎn)播,不需要下載到本地,再看資料,也可以直接打開,這是網(wǎng)盤當(dāng)中很好的創(chuàng)新和體驗(yàn)。接下來有一個(gè)提問的環(huán)節(jié),有三個(gè)名額。

提問:您好,剛才我聽您說,就是做存儲(chǔ)的時(shí)候,大部分的數(shù)據(jù),目前認(rèn)為應(yīng)該是少修改,都是讀取的操作。我關(guān)注最近的火車票訂票難的問題,網(wǎng)站經(jīng)常登錄上去的時(shí)候,會(huì)出現(xiàn)擁塞,可能是用戶過多的問題。還有一個(gè)問題,是不是跟大的數(shù)據(jù)量修改也有關(guān)系。因?yàn)橛喥保粡埰辈荒軆蓚€(gè)人訂,對(duì)于登錄量又大,數(shù)據(jù)量又大,同時(shí)兼顧修改的時(shí)候,存儲(chǔ)應(yīng)該怎么做?

清華大學(xué)教授武永衛(wèi):與時(shí)俱進(jìn),我這兩天看了,也不知道硬盤怎么這么衰,我認(rèn)識(shí)鐵路信息中心的人,怎么做成那樣,他說就幾臺(tái)服務(wù)器,數(shù)據(jù)分布不開,分布就存在一致的問題,訂票的票要檢查,這是他們最大的問題,跟我們的問題還不太一樣,我們客戶端都是分布的,大家在不同的渠道到一個(gè)地方,訪問數(shù)據(jù)中心的地方,數(shù)據(jù)中心的地方是瓶頸,數(shù)據(jù)中心的地方解決這個(gè)瓶頸的時(shí)候,只有兩個(gè)辦法。第一,多放數(shù)據(jù)服務(wù)器,為什么說廣泛分布,多放數(shù)據(jù)服務(wù)器,每一個(gè)服務(wù)器對(duì)外都是千兆帶寬。第二,每一個(gè)服務(wù)器都有光纖的出口很好,清華都是光纖,其他學(xué)校做不到,也沒有辦法。廣泛分布之后,帶來的問題也非常簡(jiǎn)單,一致性、維護(hù)拷貝等所有都要搞定。我們的核心價(jià)值就是體現(xiàn)在中間的那一張圖,這么廣泛分布以后,怎么管理好,怎么讓大家不經(jīng)過中間這一塊,登錄之后直接獲取服務(wù)器的數(shù)據(jù),進(jìn)行修改和讀取,技術(shù)的改變,在中間都要記錄下來,沒有中間這一塊,用戶正在讀取數(shù)據(jù),中間機(jī)器宕了,也沒有問題。或者就是修改和讀取的數(shù)據(jù)沒有記錄下來,希望通過客戶端里面加一些內(nèi)容,比如說做了哪些的修改,做了修改注冊(cè)以后,收尾的時(shí)候,告訴服務(wù)器,修改哪些數(shù)據(jù),然后再做原數(shù)據(jù)的搜索。原數(shù)據(jù)的管理,是做我們這個(gè)廣泛分布系統(tǒng)的核心,也是最難的地方。問題太多了,我們大概有700多個(gè)問題。

提問:挺好,我想問一下,您最后提到的數(shù)據(jù)處理保護(hù)進(jìn)程,在您這個(gè)系統(tǒng)里用了嗎?

清華大學(xué)教授武永衛(wèi):實(shí)驗(yàn)室的階段,沒有在清華校園里面布。這里有一個(gè)故事,催發(fā)我們做這個(gè)事情,就是一個(gè)女同事,就是清華的計(jì)算機(jī)老師,有一天突然有一個(gè)事兒找我,我在你那兒,把所有數(shù)據(jù)都放保護(hù)進(jìn)程里了,說你能不能看見,我說你想聽真話還是假話,當(dāng)然想聽真話,我說能看見,她就走了,過了一會(huì)兒打電話,所有的數(shù)據(jù)都移出來,往哪兒存,這個(gè)問題問我沒有用。現(xiàn)在這是作為我們的研究,這件事情還沒有成熟到所有的東西部署上去沒有問題。真正別人用的時(shí)候,7×24小時(shí),在校園里面不是產(chǎn)品,斷一個(gè)小時(shí),Email可能就會(huì)登爆,就是問題太多,就是拼命發(fā)問題,我們現(xiàn)在還沒有部署,但是我希望,能在2012或者2013年的時(shí)候,在校園環(huán)境里面部署試用,還有三個(gè)小問題沒有徹底解決好。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 丹江口市| 明水县| 周口市| 濉溪县| 菏泽市| 怀柔区| 海原县| 乐都县| 白银市| 西畴县| 兰考县| 北宁市| 沙湾县| 呼图壁县| 龙里县| 界首市| 海南省| 敦化市| 昂仁县| 突泉县| 仙桃市| 筠连县| 班戈县| 准格尔旗| 安岳县| 纳雍县| 甘谷县| 富源县| 玛沁县| 武定县| 松潘县| 旌德县| 棋牌| 剑川县| 隆回县| 巴南区| 油尖旺区| 平度市| 义马市| 昌都县| 昌都县|