昨天,也就是2016年11月24日,江西豐城電廠三期工程,有超過70人將生命永遠留在了那里。
當你有緣看見此文時,無論你在做什么,請默哀7s鐘。
這并不是形式主義,也不是為了已經逝去的他們,而是為了已經漸趨麻木,失去底線的我們自己。
福哥經常容易犯迷惑,但是爺爺逝世那天的情景我還是記得很清楚,因為全程大多時候是跪著的,因為跪著疼痛,才記憶深刻。三十之后,我才明白,“禮”并不是為了別人,而是為了我們自己。為了加深記憶,為了對抗麻木,為了總結經驗,為了更好的生活下去。
數據中心事故回憶錄2015
2015年1月9日,由于一名焊工的吹管不小心引燃了旁邊的建筑材料,原準備作為亞馬遜網站未來數據中心的一幢大樓發生了火災。
這場大火很快變成了維吉尼亞州阿什本一處地方的三級大火。幾英里開外的地方也能見到滾滾濃煙。亞馬遜發言人稱:這場大火造成約10萬美元的損害,不過補充說“沒有影響亞馬遜運營的風險”,因為該數據中心還沒有投入使用。
2015年1月27日,2點起,便有網友發現,無法登陸Facebook,頁面顯示"對不起,出故障了,目前正在搶修,會盡快修復"。同時,黑客組織Lizard Squad發推特,聲稱對此次宕機事件負責。
Facebook發言人稱:"此次故障與第三方攻擊無關,發生故障的原因是我們對系統設置做了一點改動。"但相關數據顯示,Facebook美國總部當天曾遭受大規模DDos攻擊。
2015年1月25日21時30分,由中國教育電視臺直播的福利彩票“雙色球”15011期開獎突然取消。隨后中彩網通知稱由于數據通訊傳輸故障導致,待故障排除后再在公證員的監督下進行開獎。推遲開獎兩小時后,中彩網在網上公布了中獎號碼,并附有一則中獎人介紹。
2015年3月11日,包括App Store、iTunes Store、Mac App Store以及iBooks Store在內的一系列蘋果在線商店服務,遭遇大面積服務中斷。據統計事故恢復時間長達11個小時。
蘋果公司針對該事件公開向用戶道歉,并表示,宕機原因是蘋果公司內部DNS錯誤。但此次故障,使蘋果在股市上下跌1.82%,市值蒸發了130億美元。
2015年5月10日陌陌因網絡故障無法正常使用,第二天網頁也宣布骨干網絡受到攻擊。
2015年5月11日,因骨干網絡遭受攻擊,導致網易旗下部分服務(大部分產品如網易新聞客戶端,網易云音樂及眾多游戲,如夢幻西游等均出現登陸故障,導致無法連接與刷新。)暫時無法正常使用。
2015年5月26日,位于美國亞利桑那州平頂山的蘋果工廠發生火災,起火點位于該公司數據處理中心屋頂的光伏組件。0.5h后火災撲滅。一個方陣的電池組件報廢,短期內可能較難恢復工作。
2015年5月27日,全國各地微博網友反映支付寶無法登錄,無法支付,支付寶提示交易查詢失敗。2.5h后基本恢復。
2015年5月28日,攜程官方網站及APP暫時無法正常使用,將近11.5h后才基本恢復。
在攜程出現故障后,攜程在首頁上方提示,消費者可以前往藝龍旅行網進行消費。不久之后,藝龍旅行網首頁也無法訪問。28日18時許,藝龍官方微博回應道,"因遭受網絡攻擊,藝龍網首頁出現部分用戶無法訪問的情況,目前已恢復正常"。
2015年6月3日上午2:30(北京時間),位于北卡萊羅納州 Maiden 的蘋果數據中心發生了氯氣泄露事件,導致至少5人受傷。
2015年6月5日 今日頭條網首頁和APP都無法訪問,直接提示500錯誤。故障原因:不明 影響時長:30分鐘左右。
2015年6月6日下午,因廣東1區(GD1)所在IDC遭遇雷暴天氣引發電力故障,QingCloud廣東1區全部硬件設備意外關機重啟,造成QingCloud官網及控制臺短時無法訪問、部署于GD1的用戶業務暫時不可用。設備重啟后2小時31分GD1業務恢復,系統數據和用戶的業務數據未出現任何丟失。
在2015年6月21日,阿里云香港節點出現權限宕機,業務中斷超過12小時!甚至出現部分用戶數據損毀!
當晚,阿里云發布公告稱,此次故障因香港運營商IDC電力問題所致。據稱其二號數據中心于21日上午9點40分因電力故障導致部分客戶服務終端,經搶修,下午2點恢復部分客戶服務,晚上9點50分完全恢復電力供應,客戶服務全部恢復正常。
2015年6月29日下午5點30分(莫斯科時間)左右,俄羅斯韃靼斯坦共和國阿爾法銀行自動取款機、銀行網點均停止服務。
6月30日晨,該行自動取款機、網上銀行和銀行網點都已正常恢復運行,阿爾法銀行稱,其技術故障已經解除,但并沒給出準確的故障時間。
有消息稱,此次俄羅斯阿爾法銀行的業務停止是由于技術故障導致。但也有網友表示對這種解釋不信服,認為這是讓運維人員做替罪羊。
2015年7月3日晚8點,《盜墓筆記》在愛奇藝全集上線,由于必須是"愛奇藝VIP會員"才能觀看全集,這掀起了"充值付費潮"。然而,瞬間涌入的流量,讓愛奇藝服務器宕機了!最多時有超過70%的VIP會員無法觀看《盜墓》。
2015年7月8日11時32分至15時10分,紐交所因故障暫停交易。據稱,作為世界最大交易所之一,紐交所暫停交易超過3小時,可謂前所未有。
隨后,紐交所在推特上表示:此次故障由于交易所內部技術問題導致,已排除外部網絡攻擊的可能。紐交所主席法利表示,此次故障可能與軟件升級有關。
2015年8月12日23:30左右,位于天津濱海新區塘沽開發區的天津東疆保稅港區瑞海國際物流有限公司所屬危險品倉庫發生爆炸。附近所有數據中心建筑均受到部分影響,絕大部分數據中心出于人員安全和其他安全要求,轉移負載中斷本地運行。
。。。
。。。
。。。
某機房工人獨自在現場帶電施工,手拿線纜穿過帶電配電柜,因不小心手掌觸碰到配電柜母排上,造成手心被電擊穿。
某機房在21米高的平臺鋪設電纜時,由于未做好安全防護措施,一名工人被電纜從該平臺上甩出,墜落至11米處被一根鐵管緩沖后落地,造成4級傷殘。
某機房因地板光滑且未檢查梯腳是否完好,造成梯子滑倒,工人嚴重摔傷。
某機房工人在施工現場清理衛生時,不小心將客戶在線使用設備的配電柜開關碰掉閘,造成設備停機2分鐘,損失約幾十萬。
某機房在豎井里進行墻壁開孔,用水鉆時,未考慮原配電柜與橋架之間已經連通,水順勢流入配電柜母排,造成短路,導致整個大樓全部停電。
某機房在配電柜送電前期,未對電纜做絕緣遙測,當配電柜送電時,因電纜護套已被配電柜體劃破,造成短路爆炸。
。。。
。。。
。。。
某機房聘用非專業保潔,清洗外墻,造成消防應急按鈕被水槍啟動,噴光幾十萬滅火劑。
某機房消防預演,導致服務器損壞,核心業務受損10h。
某機房ups升級,導致機房整體宕機,核心業務受損7h。
某機房運維不力,造成機房浸水。
某機房運維不力,造成動力系統斷電。
某機房驗收不力,造成動力系統故障。
。。。
。。。
。。。
安全與事故
數據中心的事故帶來的最大損失往往并不是那幾十上百甚至上千萬美元的直接經濟損失,對于眾多知名品牌與上市公司來說,其對于品牌和股價等隱形價值的不利影響將會是最令人頭疼的。
根據之前介紹的海恩法則,在事故發生前,新一代專業運維人員能從各類故障隱患、端倪和故障中提前發現事故隱患和主動整改并制定應急措施,降低事故可能性,保障系統安全運行。
當然這只是最后兜底,一個良好的數據中心運營團隊,應該從一開始(需求、立項、選址、規劃)直至全程就始終如一的關注和重視安全施工與安全生產相關的設計、建設與運維。
網絡安全、基礎設施安全;設計、建設、運營;供電、供水、通訊;基礎設施運維、維保、供應商管理;等等任何一個環節,任何一個專業,任何一個部門,任何一個時間的安全建設、安全生成、安全運行沒有做到位,就可能帶來重大的數據中心安全事故,給人生、財產、名譽帶來極大的損失。
主編寄語
我們能夠尊重設計單位、施工單位、監理單位、建設與運營單位有著各自的利益核心;
我們也能夠理解采購部門、項目建設管理部門、項目設計管理部門、項目運營管理部門各自不同的績效考核;
但請所有人不要為了一點點利益,隨意踐踏人之為人的底線。
在體制和制度沒有形成大團隊一致的目標時,人生安全應成為所有能稱之為人之人的真正的底線。
無論你是一個手握重權還是手無縛雞之力的人,請不要習慣性的說“No” or “Yes”。
如果做不到,
請不要遺忘為什么要默哀7s鐘。
請從下面這首音樂中獲取一點反抗的力量吧。
人生注定會遇到很多種不平(違反善之初心,違反技術原則,違反規章制度,違法亂紀,違反做人的底線),如果往前一千年,你愿意路見不平一聲吼,毅然拔刀相助么?