編者按:2月28日消息,有網友反饋百度搜索移動端手機瀏覽器及手機百度APP出現宕機,用戶無法使用搜索功能,頁面提示“很抱歉,您要訪問的頁面不存在!”無獨有偶,北京時間 3 月 1 日凌晨,亞馬遜 AWS S3 服務突然出現故障,波及一大批流行網站和服務——包括 Airbnb、 Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru 和 Zendesk 等。為什么科技在人們的手里會越來越“失控”?
2010年5月6日下午2:42至2:47,道瓊斯工業指數暴跌600點,當天已經下跌了300點了。市場縮水9%,上萬億美元蒸發。在最低點的時候,CNBC評論員伊林 博納(Erin Burnet)報道說寶潔公司股份已經下跌24%至每股47美元。坐在她旁邊的市場專家吉姆 克萊默(Jim Cramer)立馬說:“這肯定不是真實的價格,趕緊去買寶潔公司股票吧。”就在他解釋為什么購買寶潔公司股票是明智之舉的時候,市場已經止跌回彈,上升了300點。顯然很多人,包括自動買入賣出的計算機,也認為是什么出了問題,重新買入股票。克萊默一分鐘后又說:“肯定是機器出了問題,系統出現大故障了。”
我們可能永遠無法知道到底發生了什么問題。目前有一些理論解釋造成“閃電崩潰”的原因,但是沒有一個普遍認可的解釋。最好的猜測就是一宗大型的交易因為計算機交易的不正常情況而放大了影響。
復雜意味著越來越不可預測和不可控制
對智能系統的行為做出預測對于人類操作者來說越來越困難,因為智能系統以及它所運行的環境日益復雜。要讓操作人員了解復雜的計算機在想什么,以及預測計算機的行為以協調人機團隊的行動,實際上是增加了操作人員的責任。設計出具有高度適應性,獨立于人控制的計算機和機械零件是工程師的長遠目標。但是,這個目標是否能完全實現仍是個問題,因此也不清楚人類是否會被大型復雜系統運行排除在外。同時,當意外情況出現時,仍需要人類幫助機器做出響應。
復雜系統本質上說是不可預測的,一旦碰到意外情況容易出現各種問題。即使是設計精妙的復雜系統也會出現未曾預料到的問題。概率很低的事件一般為人所忽視,且沒有做過計劃,但是這種事件的確會發生。
從更廣泛的角度出發,世界經濟體也是一個復雜的適應性系統,其行為受到多種因素的影響,比如天氣、政治事件、單個市場及公司的表現、單個行為者包括計算機的決策等。換句話說,系統之內包含另一個系統,另一個系統內還有一個系統。反饋回路會影響每一個系統及組成部分的行為。
系統理論學者認為偶然的、不可預測的不穩定活動對于復雜系統而言是正常的。換句話說,“閃電崩潰”發生時,機器并沒有壞,只是做了應該做的事,正如“全球鷹”無人機的軟件只是按照編程程序要求做事。
現在想象一下一臺計算機模擬硬幣投擲 ,每毫秒進行一次(千分之一秒)。對于計算機而言,得到連續10次反面朝上的概率與人類是一樣的,但是人每投擲一次硬幣需要5秒鐘。所以說,這個簡單的事實就是計算機投擲硬幣的速度要比人快得多,這意味著計算機每過幾秒鐘就可能得到連續10次反面朝上。 人類則需要一個半小時才能實現。交易速度加快即能加快異常值的出現。
計算機的行動與輸入信息的耦合加劇了復雜性,如信息輸入的數量,以及軟件如何根據這些輸入信息做出交易的決定。增加系統的復雜性會影響所有可能事件的分布,從而出現更多的異常值。簡單地說,由于復雜性增加,分布曲線會拉很長或是尾部增厚,計算機行動越不可預測,它們造成的影響也復雜。
當系統的各個元素緊密耦合或是復雜系統之間產生重要的影響,一些小的不可預料的事件會在整個大系統中產生反響并帶來影響深遠的后果。全球金融服務公司雷曼兄弟(建于1850年)與其他主要的金融機構有千絲萬縷的聯系,2008年該公司破產之時,威脅到全球整體金融系統。幸運的是,全球金融大系統十分強健,它吸納了這些損失并在沒有雷曼的情況下進行了結構調整。這種強健部分原因是在預料到雷曼兄弟破產的有限幾天里,其他的金融機構做了大量的準備工作。如果沒有那段時間,眾多公司同時倒閉將造成國際銀行系統崩潰。
從所有的可能性分析,“閃電崩潰”是由于某一系統的低概率事件引起的,又因其他系統的低概率響應變得復雜化。剛開始的不正常交易引發了鏈式反應,因此造成了劇烈的且短時間的影響。
可以肯定的是,這并非一個很精確的診斷。我們沒有辦法證明這個理論,或是這個問題的其他解釋是對還是不對。但是,計算機交易導致的低概率事件的預防和管理問題的確值得注意以防止未來出現類似的危機。
計算機模擬是提前確定復雜系統可能遇到的各種情況的最好辦法。好的模擬將影響系統行為的信息輸入和影響建立模型。通過運行成千上萬的不同場景,工程師或商業分析人員能夠了解不同的情況導致較低或較高發生可能性的情況。好的模型能為提前規劃提供信息并得出應在復雜系統中加入哪些安全機制。他們能幫助減少某些災難發生的可能性,當然并非所有的災難都能防止發生。
復雜系統科技失控的四個原因
復雜系統釀成災難主要有四個原因(或四個原因的綜合體),如果我們無法避免這幾個原因同時發生,預防其中某一個原因也不容易。
管理人員或實際操作人員的無能或錯誤操作是第一個原因。切爾諾貝利核電站事故發生之前及過程中出現了一連串的錯誤決策。管理層和操作人員都沒有受過良好的訓練,為防止電站停堆采取了不當的補救措施。切爾諾貝利核事故發生只是遲早的問題。
一些追逐利潤的管理層不愿意采取昂貴的安全系統,也是系統出現故障,導致危害發生的其中一個原因。2010年4月至7月,位于墨西哥灣的“深水地平線”離岸油井爆炸,導致11名工人死亡,490萬桶原油泄露。如果英國石油公司和越洋公司(負主要責任的企業)的高管不急于完工,并不在安全措施方面大打折扣,這場事故本可以避免或者說后果不會如此嚴重。
設計缺陷或薄弱環節是復雜系統發生故障的第二個原因。反應堆設計缺陷是切爾諾貝利核泄漏事故發生的原因之一,程序錯誤或故障十分常見。通常情況下,用戶并不會注意到軟件的薄弱環節,除非各種事件同時發生。比如,像Windows操作系統的新版本有幾百萬條代碼行,在對外開放使用的時候,就有成千個已知的故障,還有些故障直到終端用戶報告才為人所知。
消除復雜系統的故障是一個持續不斷的過程,因為每次故障維修都會遺留新的薄弱環節。正如第二章中提到的騎士貿易公司不到一個小時就在華爾街損失了4.4億美元,主要原因是用了一個尚未成熟的新軟件。關鍵軟件在投入使用之前一定要進行嚴格的測試。很多情況下,軟件沒有得到充分測試,并且再嚴密的檢測也會遺漏一些薄弱環節。
此外,每一個薄弱環節都可能遭到不當利用,比如黑客制造計算機病毒,或是出于非法目的侵入系統。在網絡犯罪和網絡情報等蓬勃興起的領域,帶有非法目的的黑客已發展成一門高端藝術。我們對于阻擋破壞性病毒和阻止利用計算機薄弱點從事犯罪活動的各種反計算機病毒程序、防火墻、密碼等都已非常熟悉。但不幸的是,這些安全措施增加了復雜性,導致諸多不便,更重要的是,增加了復雜系統的不可預測性。
第三,對社會技術系統的關鍵特征缺乏關注往往導致災難發生。1984年12月2日,印度博帕爾聯合碳化物公司農藥廠異氰酸甲酯毒氣泄漏導致3700人死亡,事故發生前該化工廠已經發生了很多小事故。但沒有發出警示提醒周邊居民,當天晚上泄漏發生后,風速緩慢以及毒氣擴散的方向都是造成嚴重事故的原因。上述因素如有任何變化都會減少死亡的人數,當然悲劇還是發生了,并造成那么多人死亡。
博帕爾事件發生后30年里,再沒有發生如此嚴重的化工廠事故。耶魯大學退休的社會學家查爾斯 佩羅(Charles Perrow)認為:“這并非因為我們采取了更多的安全措施;實際上,自博帕爾事件后,嚴重的化學事故發生概率是上升的,但是我們已沒有如此規模的大廠和環境條件可供釀成一起災難性事故。”
佩羅認為1979年賓夕法尼亞州三里島核事故就是常態化事故的典型范例。該事故是因為三個方面同時出現問題造成的。反應堆設計者為每一種部件失靈制定了后備措施,但是他們并沒有或許是無法解決多方面問題同時出現的情況。要為此類緊急情況做出預案,需要設計人員分析各個方面都出現問題時可能造成的影響。考慮到復雜的核反應堆中零部件如此之多,各種組合情況浩如繁沙。也許設計者可以對關鍵部件同時失靈的情況進行認真研究,但是這需要花費大量的時間和金錢。
工程師不會把全部精力都放在考量各種可能性的存在。1996年暢銷書作家麥肯姆 格拉德維爾(Malcolm Gladwell)發表了一篇分析三里島核事故以及1986年挑戰者號航天飛機爆炸的文章。挑戰者號上的所有機組人員和乘客都殉難了,包括首次受邀參與飛行的來自新罕布什爾的教師克里斯塔 麥考利夫(Christa McAuliffe)。
挑戰者號失事原因最終追溯到一個環形密封套墊——O形環,因為一向陽光普照的佛羅里達有一段時間寒冷天氣增多,導致O形環脆化。格拉德維爾得出結論,一般的理解是這些事故是因為各色人等沒有很好地履職才導致這些不正常的事故發生,像三里島核電站事故,有些處理程序抓住了多種因素產生的故障問題,但還是會忽視某些可能性。格拉德維爾寫道:“我們所構建的世界發生高科技災難的潛在可能性已經深植于日常生活之中。”
考慮到重大事故并非經常發生,管理不善、糟糕設計以及一般性的事故都可以看成是低概率事件。問題在于,認為此類事件不太可能發生正是問題所在,這也是復雜系統出現故障的第四個原因。
通常,一些不幸事故發生的可能性被低估了,因此沒有提前采取預防措施。這些事件被稱為“黑天鵝”,因為人們看到黑天鵝通常會感到驚訝。黎巴嫩裔美國人納西姆 塔勒布(Nsaasim Taleb)是一位統計學家和暢銷書作家,他支持黑天鵝理論, 強調為什么人們對低概率事故發生的不可避免性視而不見,以及為什么這種事件一旦發生會產生大范圍的影響。
塔來指出對于很多情況,鐘形曲線( bell curve)并不能充分反映可能性分布概率。有些情況下,異常值發生的概率更高,標準的鐘形曲線無法表現這一點。異常值發生的高概率性可以在分布曲線的末端加上一個“厚尾”或“長尾”進行視覺化表現。
更糟糕的是,在許多真實情況下,我們并不清楚實際可能性究竟是怎樣的,而是不合理地消除了異常值,直至真的發生了異常事故。個人以及機構的行為比我們所理解的要危險得多。一家投資公司的戰略可能多年來十分有效,但是突然某一天股票狂跌,這一戰略導致公司倒閉。從多年來公司持續盈利的角度來看,該公司的戰略看起來是成功的,但是從公司最終不可避免倒閉的角度看,該戰略是失敗的。
復雜技術系統,特別是計算機系統的行為大多被看成是低概率事件。就像賭場里的老虎機,所有標志排成一條線才能中頭獎,但是這種情況并不常發生。低概率的事件并非完全無法預測,但是什么時候、在哪發生很難預測。此外,我們對于計算機系統可能的行動方案以及采取某些行動的可能性了解甚少。這是因為我們往計算機的計算程序中添加了數不清的信息節,而這些計算程序決定計算機采取何種行動。在某一既定時刻,輸入的信息是具有獨特性的。我們再看看第二章中所提及的閃電崩潰,也許能夠更清楚地理解這個問題了。
以上文字摘選自溫德爾·瓦拉赫《科技失控》
編者按:2月28日消息,有網友反饋百度搜索移動端手機瀏覽器及手機百度APP出現宕機,用戶無法使用搜索功能,頁面提示“很抱歉,您要訪問的頁面不存在!”無獨有偶,北京時間 3 月 1 日凌晨,亞馬遜 AWS S3 服務突然出現故障,波及一大批流行網站和服務——包括 Airbnb、 Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru 和 Zendesk 等。為什么科技在人們的手里會越來越“失控”?
2010年5月6日下午2:42至2:47,道瓊斯工業指數暴跌600點,當天已經下跌了300點了。市場縮水9%,上萬億美元蒸發。在最低點的時候,CNBC評論員伊林 博納(Erin Burnet)報道說寶潔公司股份已經下跌24%至每股47美元。坐在她旁邊的市場專家吉姆 克萊默(Jim Cramer)立馬說:“這肯定不是真實的價格,趕緊去買寶潔公司股票吧。”就在他解釋為什么購買寶潔公司股票是明智之舉的時候,市場已經止跌回彈,上升了300點。顯然很多人,包括自動買入賣出的計算機,也認為是什么出了問題,重新買入股票。克萊默一分鐘后又說:“肯定是機器出了問題,系統出現大故障了。”
我們可能永遠無法知道到底發生了什么問題。目前有一些理論解釋造成“閃電崩潰”的原因,但是沒有一個普遍認可的解釋。最好的猜測就是一宗大型的交易因為計算機交易的不正常情況而放大了影響。
復雜意味著越來越不可預測和不可控制
對智能系統的行為做出預測對于人類操作者來說越來越困難,因為智能系統以及它所運行的環境日益復雜。要讓操作人員了解復雜的計算機在想什么,以及預測計算機的行為以協調人機團隊的行動,實際上是增加了操作人員的責任。設計出具有高度適應性,獨立于人控制的計算機和機械零件是工程師的長遠目標。但是,這個目標是否能完全實現仍是個問題,因此也不清楚人類是否會被大型復雜系統運行排除在外。同時,當意外情況出現時,仍需要人類幫助機器做出響應。
復雜系統本質上說是不可預測的,一旦碰到意外情況容易出現各種問題。即使是設計精妙的復雜系統也會出現未曾預料到的問題。概率很低的事件一般為人所忽視,且沒有做過計劃,但是這種事件的確會發生。
從更廣泛的角度出發,世界經濟體也是一個復雜的適應性系統,其行為受到多種因素的影響,比如天氣、政治事件、單個市場及公司的表現、單個行為者包括計算機的決策等。換句話說,系統之內包含另一個系統,另一個系統內還有一個系統。反饋回路會影響每一個系統及組成部分的行為。
系統理論學者認為偶然的、不可預測的不穩定活動對于復雜系統而言是正常的。換句話說,“閃電崩潰”發生時,機器并沒有壞,只是做了應該做的事,正如“全球鷹”無人機的軟件只是按照編程程序要求做事。
現在想象一下一臺計算機模擬硬幣投擲 ,每毫秒進行一次(千分之一秒)。對于計算機而言,得到連續10次反面朝上的概率與人類是一樣的,但是人每投擲一次硬幣需要5秒鐘。所以說,這個簡單的事實就是計算機投擲硬幣的速度要比人快得多,這意味著計算機每過幾秒鐘就可能得到連續10次反面朝上。 人類則需要一個半小時才能實現。交易速度加快即能加快異常值的出現。
計算機的行動與輸入信息的耦合加劇了復雜性,如信息輸入的數量,以及軟件如何根據這些輸入信息做出交易的決定。增加系統的復雜性會影響所有可能事件的分布,從而出現更多的異常值。簡單地說,由于復雜性增加,分布曲線會拉很長或是尾部增厚,計算機行動越不可預測,它們造成的影響也復雜。
當系統的各個元素緊密耦合或是復雜系統之間產生重要的影響,一些小的不可預料的事件會在整個大系統中產生反響并帶來影響深遠的后果。全球金融服務公司雷曼兄弟(建于1850年)與其他主要的金融機構有千絲萬縷的聯系,2008年該公司破產之時,威脅到全球整體金融系統。幸運的是,全球金融大系統十分強健,它吸納了這些損失并在沒有雷曼的情況下進行了結構調整。這種強健部分原因是在預料到雷曼兄弟破產的有限幾天里,其他的金融機構做了大量的準備工作。如果沒有那段時間,眾多公司同時倒閉將造成國際銀行系統崩潰。
從所有的可能性分析,“閃電崩潰”是由于某一系統的低概率事件引起的,又因其他系統的低概率響應變得復雜化。剛開始的不正常交易引發了鏈式反應,因此造成了劇烈的且短時間的影響。
可以肯定的是,這并非一個很精確的診斷。我們沒有辦法證明這個理論,或是這個問題的其他解釋是對還是不對。但是,計算機交易導致的低概率事件的預防和管理問題的確值得注意以防止未來出現類似的危機。
計算機模擬是提前確定復雜系統可能遇到的各種情況的最好辦法。好的模擬將影響系統行為的信息輸入和影響建立模型。通過運行成千上萬的不同場景,工程師或商業分析人員能夠了解不同的情況導致較低或較高發生可能性的情況。好的模型能為提前規劃提供信息并得出應在復雜系統中加入哪些安全機制。他們能幫助減少某些災難發生的可能性,當然并非所有的災難都能防止發生。
復雜系統科技失控的四個原因
復雜系統釀成災難主要有四個原因(或四個原因的綜合體),如果我們無法避免這幾個原因同時發生,預防其中某一個原因也不容易。
管理人員或實際操作人員的無能或錯誤操作是第一個原因。切爾諾貝利核電站事故發生之前及過程中出現了一連串的錯誤決策。管理層和操作人員都沒有受過良好的訓練,為防止電站停堆采取了不當的補救措施。切爾諾貝利核事故發生只是遲早的問題。
一些追逐利潤的管理層不愿意采取昂貴的安全系統,也是系統出現故障,導致危害發生的其中一個原因。2010年4月至7月,位于墨西哥灣的“深水地平線”離岸油井爆炸,導致11名工人死亡,490萬桶原油泄露。如果英國石油公司和越洋公司(負主要責任的企業)的高管不急于完工,并不在安全措施方面大打折扣,這場事故本可以避免或者說后果不會如此嚴重。
設計缺陷或薄弱環節是復雜系統發生故障的第二個原因。反應堆設計缺陷是切爾諾貝利核泄漏事故發生的原因之一,程序錯誤或故障十分常見。通常情況下,用戶并不會注意到軟件的薄弱環節,除非各種事件同時發生。比如,像Windows操作系統的新版本有幾百萬條代碼行,在對外開放使用的時候,就有成千個已知的故障,還有些故障直到終端用戶報告才為人所知。
消除復雜系統的故障是一個持續不斷的過程,因為每次故障維修都會遺留新的薄弱環節。正如第二章中提到的騎士貿易公司不到一個小時就在華爾街損失了4.4億美元,主要原因是用了一個尚未成熟的新軟件。關鍵軟件在投入使用之前一定要進行嚴格的測試。很多情況下,軟件沒有得到充分測試,并且再嚴密的檢測也會遺漏一些薄弱環節。
此外,每一個薄弱環節都可能遭到不當利用,比如黑客制造計算機病毒,或是出于非法目的侵入系統。在網絡犯罪和網絡情報等蓬勃興起的領域,帶有非法目的的黑客已發展成一門高端藝術。我們對于阻擋破壞性病毒和阻止利用計算機薄弱點從事犯罪活動的各種反計算機病毒程序、防火墻、密碼等都已非常熟悉。但不幸的是,這些安全措施增加了復雜性,導致諸多不便,更重要的是,增加了復雜系統的不可預測性。
第三,對社會技術系統的關鍵特征缺乏關注往往導致災難發生。1984年12月2日,印度博帕爾聯合碳化物公司農藥廠異氰酸甲酯毒氣泄漏導致3700人死亡,事故發生前該化工廠已經發生了很多小事故。但沒有發出警示提醒周邊居民,當天晚上泄漏發生后,風速緩慢以及毒氣擴散的方向都是造成嚴重事故的原因。上述因素如有任何變化都會減少死亡的人數,當然悲劇還是發生了,并造成那么多人死亡。
博帕爾事件發生后30年里,再沒有發生如此嚴重的化工廠事故。耶魯大學退休的社會學家查爾斯 佩羅(Charles Perrow)認為:“這并非因為我們采取了更多的安全措施;實際上,自博帕爾事件后,嚴重的化學事故發生概率是上升的,但是我們已沒有如此規模的大廠和環境條件可供釀成一起災難性事故。”
佩羅認為1979年賓夕法尼亞州三里島核事故就是常態化事故的典型范例。該事故是因為三個方面同時出現問題造成的。反應堆設計者為每一種部件失靈制定了后備措施,但是他們并沒有或許是無法解決多方面問題同時出現的情況。要為此類緊急情況做出預案,需要設計人員分析各個方面都出現問題時可能造成的影響。考慮到復雜的核反應堆中零部件如此之多,各種組合情況浩如繁沙。也許設計者可以對關鍵部件同時失靈的情況進行認真研究,但是這需要花費大量的時間和金錢。
工程師不會把全部精力都放在考量各種可能性的存在。1996年暢銷書作家麥肯姆 格拉德維爾(Malcolm Gladwell)發表了一篇分析三里島核事故以及1986年挑戰者號航天飛機爆炸的文章。挑戰者號上的所有機組人員和乘客都殉難了,包括首次受邀參與飛行的來自新罕布什爾的教師克里斯塔 麥考利夫(Christa McAuliffe)。
挑戰者號失事原因最終追溯到一個環形密封套墊——O形環,因為一向陽光普照的佛羅里達有一段時間寒冷天氣增多,導致O形環脆化。格拉德維爾得出結論,一般的理解是這些事故是因為各色人等沒有很好地履職才導致這些不正常的事故發生,像三里島核電站事故,有些處理程序抓住了多種因素產生的故障問題,但還是會忽視某些可能性。格拉德維爾寫道:“我們所構建的世界發生高科技災難的潛在可能性已經深植于日常生活之中。”
考慮到重大事故并非經常發生,管理不善、糟糕設計以及一般性的事故都可以看成是低概率事件。問題在于,認為此類事件不太可能發生正是問題所在,這也是復雜系統出現故障的第四個原因。
通常,一些不幸事故發生的可能性被低估了,因此沒有提前采取預防措施。這些事件被稱為“黑天鵝”,因為人們看到黑天鵝通常會感到驚訝。黎巴嫩裔美國人納西姆 塔勒布(Nsaasim Taleb)是一位統計學家和暢銷書作家,他支持黑天鵝理論, 強調為什么人們對低概率事故發生的不可避免性視而不見,以及為什么這種事件一旦發生會產生大范圍的影響。
塔來指出對于很多情況,鐘形曲線( bell curve)并不能充分反映可能性分布概率。有些情況下,異常值發生的概率更高,標準的鐘形曲線無法表現這一點。異常值發生的高概率性可以在分布曲線的末端加上一個“厚尾”或“長尾”進行視覺化表現。
更糟糕的是,在許多真實情況下,我們并不清楚實際可能性究竟是怎樣的,而是不合理地消除了異常值,直至真的發生了異常事故。個人以及機構的行為比我們所理解的要危險得多。一家投資公司的戰略可能多年來十分有效,但是突然某一天股票狂跌,這一戰略導致公司倒閉。從多年來公司持續盈利的角度來看,該公司的戰略看起來是成功的,但是從公司最終不可避免倒閉的角度看,該戰略是失敗的。
復雜技術系統,特別是計算機系統的行為大多被看成是低概率事件。就像賭場里的老虎機,所有標志排成一條線才能中頭獎,但是這種情況并不常發生。低概率的事件并非完全無法預測,但是什么時候、在哪發生很難預測。此外,我們對于計算機系統可能的行動方案以及采取某些行動的可能性了解甚少。這是因為我們往計算機的計算程序中添加了數不清的信息節,而這些計算程序決定計算機采取何種行動。在某一既定時刻,輸入的信息是具有獨特性的。我們再看看第二章中所提及的閃電崩潰,也許能夠更清楚地理解這個問題了。