摘要:像亞馬遜這樣的超大型數(shù)據(jù)中心運營商,在市場上已經(jīng)找不到適合他們自身用的數(shù)據(jù)中心,或者他們認為自己建設(shè)數(shù)據(jù)中心會比使用市場上的更為便宜的時候,他們會考慮自己建設(shè)數(shù)據(jù)中心。建設(shè)期間會將一項技術(shù)內(nèi)置在工程建設(shè)中,避免工程承包商描述為在電氣開關(guān)設(shè)備供應(yīng)商在對其產(chǎn)品設(shè)計中錯誤的定義優(yōu)先級而準備。
像亞馬遜這樣的超大型數(shù)據(jù)中心運營商,在市場上已經(jīng)找不到適合他們自身用的數(shù)據(jù)中心,或者他們認為自己建設(shè)數(shù)據(jù)中心會比使用市場上的更為便宜的時候,他們會考慮自己建設(shè)數(shù)據(jù)中心。建設(shè)期間會將一項技術(shù)內(nèi)置在工程建設(shè)中,避免工程承包商描述為在電氣開關(guān)設(shè)備供應(yīng)商在對其產(chǎn)品設(shè)計中錯誤的定義優(yōu)先級而準備。
正是這個問題導(dǎo)致去年夏天達美航空數(shù)據(jù)中心宕機,最終支付航空公司1.5億美元的損失,還有2013年在超級碗期間的臭名昭著的停電事件。 亞馬遜網(wǎng)絡(luò)服務(wù)副總裁兼工程師約翰·漢密爾頓(John Hamilton)在其職業(yè)生涯中,同樣遇到過這類問題。
他在個人博客的中寫道:“這種大規(guī)模數(shù)據(jù)中心運營中,我自己經(jīng)歷過過兩次。” 當這些失敗發(fā)生的時候,那時候,他并不清楚這種是由于這種原因?qū)е鹿收习l(fā)生,這是發(fā)生在在他加入亞馬遜之前,在微軟工作期間發(fā)生的。
漢密爾頓并沒有在他的博客文章中引用達美航空,但去年夏天只有一家主要的航空公司數(shù)據(jù)中心中斷,隨后航空公司后公布了賠償達到九位數(shù)。
亞馬遜處于這種考慮的設(shè)計避免這種停電的技術(shù)是固件,它決定了當數(shù)據(jù)中心電源中斷時電氣開關(guān)應(yīng)該做什么。漢密爾頓說,典型的供應(yīng)商固件優(yōu)先考慮防止損壞費用昂貴的備用發(fā)電機,從而避免完全的數(shù)據(jù)中心中斷。 亞馬遜(也許大多數(shù)其他大型數(shù)據(jù)中心運營商)都傾向于冒著失去100萬美元設(shè)備的風險,而不會去冒大面積停電宕機風險。
當公共設(shè)施停電(大多數(shù)時候都是這種情況)發(fā)生時,開關(guān)柜等待幾秒鐘,以防公用事業(yè)電力回來(也是最常見的情況),如果沒有,開關(guān)柜將會啟動發(fā)電機,而數(shù)據(jù)中心開始運行UPS系統(tǒng)存儲的能量。 一旦發(fā)電機穩(wěn)定下來,開關(guān)設(shè)備就成為IT系統(tǒng)的主要來源。
去年的達美航空數(shù)據(jù)中心停電歸因于開關(guān)柜“鎖定”在亞特蘭大航空公司的發(fā)電機。 這是大多數(shù)開關(guān)柜在數(shù)據(jù)中心輸入電力供電中感測到主要電壓異常時設(shè)計的。 發(fā)電機短路通常會導(dǎo)致發(fā)電機炸飛,因此開關(guān)柜通常將發(fā)電機開關(guān)處于鎖定狀態(tài),避免發(fā)生這類事故。
在大多數(shù)情況下,這個錯誤發(fā)生數(shù)據(jù)中心外部,因此這這類事故除了造成數(shù)據(jù)中心業(yè)務(wù)中斷之外,沒有其他英雄,Hamilton寫道。 (他目睹的兩件事是由于汽車撞倒了傳輸電纜導(dǎo)致公共電源中斷所造成的)。在極少數(shù)情況下,數(shù)據(jù)中心內(nèi)部短路,斷路器斷開,服務(wù)器切換到二次電源,或(如果配電系統(tǒng)中的故障較高或斷路器未能打開),發(fā)電機未鎖定時可能會損壞發(fā)電機。
“我寧愿投入低于100萬美元的風險,而不是保證負荷將下降。 他說:如果只有一個客戶可能會虧損1億美元,那么儲存發(fā)電機就不會像是正確的優(yōu)先事項。“
當亞馬遜工程師要求他們的開關(guān)柜供應(yīng)商從其固件中消除鎖定狀況真?zhèn)€固件時,是他們應(yīng)了解到取消后帶來的潛在的設(shè)備故障 – 但供應(yīng)商卻拒絕取消,亞馬遜只能自行生產(chǎn)固件。
漢密爾頓寫道:“我很幸運能夠在一個大規(guī)模的運營商公司工作,因為定制的緣故,我們早在幾年前就解決這種特定的故障模式。