對一些人來說,本文列舉的云計算故障可能僅僅表明了云服務(wù)提供商在哪些方面需要加強或改進(jìn),以便更好地服務(wù)于客戶。對另一些人來說,這幾個例子可能更事關(guān)個人,因為你的數(shù)據(jù)或應(yīng)用程序說不定實實在在地受到了影響。
我們大多數(shù)人想必已聽說過至少一起引人注目的云計算故障,有些人甚至受到某起云故障事件的直接影響。雖說云技術(shù)和安全機制在不斷成熟,但是它們跟內(nèi)部基礎(chǔ)設(shè)施一樣仍飽受同樣幾種問題的影響。不過主要的區(qū)別在于,云故障影響的用戶數(shù)量要比內(nèi)部問題多得多,因而一旦出現(xiàn)了問題,就會更加備受矚目。
困擾云服務(wù)提供商的故障往往可以分為下面三大類:
1.服務(wù)提供商方面所犯的“新手常犯的錯誤”。如果提供商一開始或發(fā)展的步伐是其數(shù)據(jù)中心人員無法妥善管理的,就會出現(xiàn)這種情況。每家公司以難以置信的速度迅猛發(fā)展時,云計算巨頭(包括亞馬遜網(wǎng)絡(luò)服務(wù)和谷歌計算)常常在早期就飽受停運事件的困擾。連比其他廠商晚進(jìn)入云市場的微軟也很早遇到了停運問題,而且常常遇到。
2.黑客最終暴露的安全漏洞。由于相比專用的數(shù)據(jù)中心,云的規(guī)模很龐大,它們也就成了極容易吸引黑客的重大目標(biāo)。云公司在屢次泄露客戶數(shù)據(jù)的一系列錯誤中汲取了這個教訓(xùn)。安全泄密事件是云計算客戶最擔(dān)心的一大問題;許多企業(yè)組織小心翼翼,不敢將保護(hù)數(shù)據(jù)的重任交給第三方服務(wù)提供商。
3.云里面的糟糕流程。安全審計不夠到位,備份程序差強人意,管理員對服務(wù)器擁有不太適當(dāng)?shù)脑L問權(quán),諸如此類的流程都是程序上的問題,它們原本可以規(guī)避。遺憾的是,這些非技術(shù)性問題通常被人忽視,等到注意時已為時太晚。
對一些人來說,本文列舉的云計算故障可能僅僅表明了云服務(wù)提供商在哪些方面需要加強或改進(jìn),以便更好地服務(wù)于客戶。對另一些人來說,這幾個例子可能更事關(guān)個人,因為你的數(shù)據(jù)或應(yīng)用程序產(chǎn)不定實實在在地受到了影響。不管怎樣,我們樂意聽到你覺得哪些云故障是最引人注目,原因何在。歡迎留言交流。
AWS停運事件殃及Netflix
Netflix是最早使用亞馬遜AWS云服務(wù)的大公司之一。從許多方面來看,Netflix/AWS這對關(guān)系再理想不過了:一方面,Netflix的媒體流服務(wù)其發(fā)展速度實在太快了,該公司內(nèi)部的IT資源滿足不了要求;另一方面,零售業(yè)巨擘亞馬遜站在云計算潮流的最前沿,早就準(zhǔn)備憑借新的創(chuàng)業(yè)公司(AWS)引起轟動。遺憾的是,發(fā)生在圣誕節(jié)前夕的Netflix停運事件受到了廣泛抨擊,而且影響了眾多人,以至于這一起事件就恐怕讓整個企業(yè)云潮流后退了好幾步。
Dropbox任由大門敞開著
Dropbox允許任何人都可以訪問客戶數(shù)據(jù),只要輸入某個客戶的電子郵件地址。根本不需要什么密碼。這個嚴(yán)重的安全錯誤是由代碼更新中的一個軟件錯誤引起的,并不是僅僅持續(xù)了幾分鐘,而是持續(xù)了將近四個小時,之后才有所發(fā)覺,并堵住了漏洞。
CloudFlare導(dǎo)致785000個網(wǎng)站癱瘓
一些云服務(wù)提供商提供軟件即服務(wù)(SaaS)工具,這類工具旨在為客戶的網(wǎng)上業(yè)務(wù)確保安全,并改善網(wǎng)站的正常運行時間。有時候就是這樣,理應(yīng)有助于改善正常運行時間的SaaS云恰恰起到了適得其反的效果。CloudFlare的所有邊緣路由器同時更新后,就出現(xiàn)了這種情況,同時更新邊緣路由器導(dǎo)致它們都崩潰。結(jié)果,大約785000個客戶網(wǎng)站大概有一個小時沒法正常使用。
蘋果的iCloud遭遇名人照片泄露
云數(shù)據(jù)泄密事件影響普通人、或者甚至影響公司時,這樣的新聞很少引起主流媒體的注意。但是這種數(shù)據(jù)泄密事件影響名人時,一時間就成了路人皆知的新聞。名人照片因蘋果的iCloud平臺里面的一個漏洞而被盜時,在媒體上傳得沸沸揚揚。有時候,只有深陷轟動一時的重大事件,服務(wù)提供商才會引起注意,解決錯誤。
Office 365搞垮企業(yè)電子郵件
有兩類與IT有關(guān)的事件可能會讓公司完全陷入停頓。一類事件就是互聯(lián)網(wǎng)完全停運,另一類事件就是公司電子郵件停運。自微軟首次發(fā)布Office 365云平臺這項服務(wù)以來,好幾次導(dǎo)致了公司電子郵件系統(tǒng)停運。情況實在糟透了,以至于一個流傳甚廣的笑話是,這項服務(wù)應(yīng)該叫Office 360才對,因為它在一年當(dāng)中有五天是沒法使用的。
微軟沒有汲取亞馬遜和谷歌的前車之鑒
在亞馬遜推出其云服務(wù)整整過去四年后,微軟才挾Azure進(jìn)入了市場??紤]到微軟有大把的時間來思考,并且汲取市場開拓者亞馬遜和谷歌犯下的錯誤,你會想谷歌多少總會汲取前車之鑒,避免云服務(wù)停運事件。遺憾的是,微軟似乎想從自己犯下的錯誤中汲取教訓(xùn),很早就遭遇一些重大的、原本可以避免的停運事件。
一名管理員就足以搞垮云
如果你想到大規(guī)模服務(wù)提供商,那么Joyent無疑是最大的服務(wù)提供商之一。正由于如此,你可能會想:在諸如此類的大型數(shù)據(jù)中心,政策、程序和訪問控制應(yīng)該固若金湯、穩(wěn)若磐石。然而再一次,我們都是人,是人都會犯錯。2014年持續(xù)了大概一個小時的停運事件的根源很快就傳了開來。據(jù)稱,Joyent的一名系統(tǒng)管理員難逃干系,他同時重啟了數(shù)據(jù)中心中的每一個服務(wù)器實例。真是要命!
LastPass的密碼落到黑客手里
哦,說來也真是具有諷刺意味。全球各地的企業(yè)管理員使用LastPass來管理和保護(hù)其基礎(chǔ)設(shè)施上的密碼,LastPass公司專業(yè)提供基于云的單次登錄和密碼管理工具。6月份,LastPass首席執(zhí)行官Joe Siegrist在一篇博文中承認(rèn),一起網(wǎng)絡(luò)攻擊事件導(dǎo)致有人盜走了客戶的電子郵件地址和密碼提醒內(nèi)容。雖然密碼經(jīng)過了加密,也沒有任何證據(jù)表明客戶數(shù)據(jù)遭到泄密,不過LastPass還是要求所有客戶在下一次登錄時更改主密碼。
雖說云技術(shù)和安全機制在不斷成熟,但是它們跟內(nèi)部基礎(chǔ)設(shè)施一樣仍飽受同樣幾種問題的影響。不過主要的區(qū)別在于,云故障影響的用戶數(shù)量要比內(nèi)部問題多得多,因而一旦出現(xiàn)了問題,就會更加備受矚目。
Healthcare.gov:應(yīng)該怪罪云嗎?
可能過去幾年最廣為報道的一起技術(shù)故障就是美國Healthcare.gov網(wǎng)站的推出。一開始,這個網(wǎng)站就存在大量的技術(shù)故障和重大的安全漏洞。雖然不能將遇到的所有問題統(tǒng)統(tǒng)怪罪云,但是韋里遜的Terremark云發(fā)生的停運事件無疑一開始就是個影響因素。
結(jié)束語
與所有的技術(shù)進(jìn)步一樣,IT架構(gòu)方面的重大變化一路上會遇到障礙。雖然本文介紹的許多停運事件原本可以避免,但是它們其實在意料之中。隨著時間的流逝,自動化和安全方面的進(jìn)步將有助于減少這幾種類型的引人注目的云故障。為了我們自身的安全,但愿如此。
原文標(biāo)題:9 Spectacular Cloud Computing Fails