精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:數據中心行業動態 → 正文

數據中心MTBF和AFR如何計算與應用?

責任編輯:editor007 |來源:企業網D1Net  2016-09-06 21:42:08 本文摘自:51CTO

避免關鍵數據中心出現故障始終是頭等重要的任務。如果短時間的停機可能會對業務的市場價值產生負面影響,那么,支持這個網絡環境的物理基礎設施就一定要可靠。

如何才能確信自己實施的解決方案是可靠的?MTBF(MTBF,MeanTimeBetweenFailure,即平均無故障時間)是比較可靠性最常用的方式。不過,如果沒有透徹地了解MTBF,可能就無法實現業務可靠性目標。如果故障定義不明確或者假設不現實或被曲解,MTBF就毫無意義。

本文說明應如何使用MTBF以及將MTBF用作規格和選擇依據時的限制。本文還提供一個核對表,作為確保公平有效地進行跨系統比較的指導性原則。

一、MTBF的比較性分析的現實方式

預測MTBF有多種可用方法,似乎不可能找到使用同一方法的兩個系統。不過,還是有一種方法可以適用于大多數組織的各種不同過程。

現場數據評估方法使用實際的現場故障數據,因此能夠提供比模擬情況更準確的故障率評估。對于小批量生產的產品或新產品,此數據可能找不到;不過,對那些已在現場獲得廣泛應用的產品,應該始終采用此數據。因此,對于跨系統比較,從現場數據評估開始比較是最合理也是最現實的。請注意,此方法與其他許多方法一樣,都是基于第78號白皮書中討論的穩定故障率假設。

本白皮書介紹完成此方法的步驟,列舉并說明各個步驟中可能影響結果的可變因素。如果要進行比較的系統間的關鍵假設或可變因素發生變化,那么評估這些變化對MTBF估計結果的可能影響就非常重要。圖1說明現場數據評估過程的時間線。隨后的過程步驟將說明時間線中的每個元素。

圖1 現場數據評估過程的時間線

第1步:定義并估計抽樣總體的大小

確定年故障率(AFR)并最終確定產品的MTBF的過程中,第一步是確定要分析的特定產品抽樣總體。是基于特定產品型號還是整個產品系列進行計算?此抽樣總體中產品的生產時間跨度應該多大(以天或月計)?生產日期何時開始何時結束?為抽樣總體選擇的產品應該在設計方面非常相似,并具有足夠多的數量以保證所采集數據的統計有效性,這非常重要。

第2步:確定采集數據的樣本時間范圍

過程的第二步是確定從抽樣總體中采集故障數據的樣本時間范圍。通常在產品的用戶給供應商報告故障時采集數據。抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的適合時間間隔,因產品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那么最早只能在抽樣總體中最晚產品生產日期的四個月后開始進行抽樣。對于需要通過批發商、經銷商和零售商這些環節的產品,四個月被視為是考慮上述可變因素的合理時間范圍。

下面說明兩個重要的可變因素:(1)抽樣總體中產品的最晚生產日期和樣本期間開始日期之間要有足夠的時間間隔;(2)數據采集窗口要足夠大,以確保結果的可信度。

如果抽樣總體中產品的最晚生產日期和樣本期間開始日期之間沒有足夠的時間間隔,那么在抽樣總體中的產品得到完全部署之前可能就已經開始進行抽樣了。這種情況可能會造成兩種結果。第一,由于尚未部署的產品不可能出現故障,所以有低估故障率的傾向。第二種結果就是樣本期間很可能包括大量的安裝故障或設置故障。因為新產品的故障率可能會顯示為一個標準的“浴缸”型,所以包括大量安裝故障可能會導致高估故障率。盡管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。

在抽樣時間方面,另一個需要考慮的重要問題是窗口的持續時間。需要多少天才能充分采集故障數據?采樣時間窗口必須選得足夠寬,以便可以從樣本中移除統計“干擾”。獲得合理準確度所需的持續時間取決于抽樣總體的大小。例如,大批量產品可能需要一個月時間,小批量產品可能需要幾個月時間。

第3步:定義故障

必須準確定義故障,確保評估過程的一致性后,才能開始統計故障。

現在假設在“故障”產品返回工廠時,是由每個技術人員單獨定義故障。某位技術人員可能只統計那些出現重大故障的產品,而另一位技術人員可能統計所有出現了故障(包括重大故障)的產品。這兩種極端的做法使得準確評估特定產品故障率的可能性幾乎為零,當然更不能準確評估對該產品的過程控制所產生的影響。因此,在診斷任意產品之前,供應商必須對故障有一個明確的定義。在計算特定事件的MTBF時,供應商可能有多種不同的故障定義。例如,UPS供應商會試圖評估導致關鍵負載停用的故障的MTBF以及負載能夠繼續運轉的不很嚴重的故障的MTBF。

第4步:接收、診斷和修理產品

樣本期間結束時間和AFR計算時間之間必須有足夠的時間間隔,以允許一定的時間來接收、診斷和修理報告為有故障的產品。診斷結果確定故障類型,而修理將會驗證診斷結果。體積較小的產品通常會發回供應商處,這會導致出現接收延遲或需要一定的產品遞送時間。產品到達供應商處后,必須對其進行診斷和修理,這會導致另一個稱為診斷延遲的延遲。大型產品通常在客戶處進行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算AFR前診斷和修理產品。

如果是大批量產品,很可能在診斷延遲結束時仍然有需要修理的產品。在這些情況下,有時會做出未修理產品和以前修理過的產品出現故障的機率相等這樣的假設。取決于待評估產品的生產量和產品類型,接收延遲和診斷延遲可以在樣本期間結束時間后加上幾個星期,您可以在此時間點計算AFR。

第5步:計算年故障率

計算年故障率是用來說明某個特定產品在一個日歷年度內的預期故障數。計算此數值的第一步是“按年計算”故障數據。將樣本期間中的故障數乘以每年的樣本期間數,可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數除以抽樣總體期間安裝的產品數,可以得出此值。下面是公式1:

此公式有如下兩個假設:(1)產品一年365天、每天24小時連續運轉(2)抽樣總體中的所有產品都在同一時間開始運轉。因此盡管此公式可以用于任意產品,但更適用于連續運轉的產品。如果已知要安裝的產品是間斷運轉的,那么使用公式2計算AFR更準確。備用的應急發電機系統就是這種類型產品的一個示例。

使用此公式,AFR僅考慮產品實際運轉的時間。實際上,公式1和公式2是不同假設條件下的同一公式。下面的假想示例說明當分析一個非連續運轉產品時二者的差別有多大:

本抽樣總體有10,000輛汽車。在2個月(樣本期間)內,要采集此抽樣總體的故障數據。平均而言,一輛汽車每年運轉400個小時。在這2個月內,有10輛汽車出現故障。

使用公式1:

故障率為10個故障x(每年52個星期/樣本期間為8個星期)/抽樣總體中有10,000臺裝置=0.0065或0.65%。

使用公式2:假設這些產品同時*開始運轉,抽樣總體的運轉時間為每年10,000x400小時=每年累計4百萬小時或,000,000/8760小時=累計457年。故障率為10個故障x(每年52個星期/樣本期間為8個星期)/累計457年=0.14或14%

【請注意,此假設是為了簡化這個示例。現實情況是產品在整個期間內都有銷售,因此實際運轉時間將比上面的數字小,導致AFR值變大。】

如果上面的示例是以連續運轉產品為例,那么兩個AFR值將相等。即使取消所有產品同時開始運轉這個假設,AFR值仍然非常接近。因此,了解產品是連續運轉還是非連續運轉對于進行正確地分析至關重要。

第6步:將AFR轉換為MTBF

將AFR轉換為MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩定這一假設下,將AFR轉換為MTBF才有效。下面是此公式:

MTBF=一年內的小時數/AFR=8760/AFR 公式3

使用AFR評估過程對MTBF計算結果抽樣

下面的假想示例有助于說明整個過程。

第1步:確定抽樣總體全部為“X”牌15kVAUPS系統,是在2003年的第36周到第47周(9月1日至11月21日)生產的,生產窗口時長共12周。抽樣總體共2000臺裝置。

第2步:確定采樣窗口從2004年2月2日開始,至2004年7月16日結束。選擇這一采樣窗口時,考慮了在產品庫存和分銷過程中會有10周的延遲。

第3步:將故障定義為由任何原因(包括人為錯誤)引起的關鍵負載停用。

第4步:在樣本期間,總共報告了二十起故障。其中,九起故障被劃分為關鍵負載停用故障,其他故障為非關鍵故障。因此,根據第3步中確定的故障定義,下面計算中使用的故障數為九。已經在計算AFR之前接收、診斷和修理了出現故障的產品。

第5步:AFR計算如下:

AFR=(9個故障*每年52個星期/樣本期間為24周)/抽樣總體中有2000臺裝置=0.00975=0.975%

第6步:MTBF計算如下:

MTRF=8760/AFR=8760/0.00975=898,462小時

二、影響AFR的可變因素

大多數情況下,用戶是從供應商處獲取MTBF值,不帶有任何用于證實這些數值的相關數據。如上所述,當查看多個系統的MTBF值(或AFR值)時,了解分析所用的隱含假設和可變因素(特別是定義故障的方式)非常重要。比較時若忽視了這一點,比較結果出現偏差的可能性就會變大,可能會出現500%或更高的偏差。最終可能導致不必要的業務支出甚至意外停機。

一般來說,必須有明確的可變因素定義、假設定義以及故障定義,才可以比較兩個或更多系統間的MTBF值。即使兩個MTBF值看起來很相似,仍然有比較結果出現偏差的可能。因此,必須弄清MTBF結果后面隱含的內容,并仔細研究和領會這些數值所包含的含義。

下面將介紹每個可變因素,并說明他們可能對結果產生的影響。附錄中提供一個核對表,可以用于比較兩個或多個系統間的可變因素。完成比較后,必須再檢查一下核對表,以確定系統間有哪些不同的可變因素。通過逐一嚴格分析這些不同的可變因素及其對MTBF的影響,可以確定比較是否公正并可以作為產品規格或購買決策的關鍵標準。

產品功能、應用和邊界

在比較兩個或更多MTBF值之前,驗證被比較的兩個產品是否同類非常重要。被比較的產品必須在功能、性能及應用方面相似。如果被比較的產品是UPS,則產品功能就是為連接的負載提供備用電源。此產品的用途可能是用來支持數據中心環境中的關鍵IT負載。如果沒有相似的應用,就不可能進行公正的MTBF比較。例如,對工業用途和IT用途的UPS進行比較是不切合實際的。

更重要的是,MTBF比較中所用系統的邊界必須等同。如果各個系統的定義方式不同,那么不可避免地會出現比較偏差。我們以使用外部電池的UPS系統為例。某些供應商可能選擇不包括由這些電池導致的故障,因為他們位于系統“外部”,不是系統的一部分。其他供應商可能選擇包括電池故障,因為這些電池是系統運轉的必要組件。圖2說明此示例。其他可能導致不一致邊界的組件包括輸入和輸出電路斷路器、旁路系統、保險絲和控制系統。用戶應該向供應商咨詢MTBF計算中應包括哪些組件或子系統,不應認為所有供應商定義系統的方式都相同。

圖2 比較UPS系統的“邊界”

穩定故障率假設

要使計算AFR和MTBF的現場數據評估方法有效,必須假設被分析產品具有穩定的故障率。很重要的一點就是要判明此假設對于被比較產品的類型是否合理。對于電子系統或組件,這個假設通常可以成立。該產品是否屬于這一類?如果不屬于,計算出來的值可能不會是預期故障的代表性值,進行公正比較的可能性就很小。

抽樣總體大小

在明確產品及其應用非常相似后,很重要的一項工作就是審查現場數據采集過程。在這里,定義抽樣總體大小(生產的產品數量)是第一個關鍵的可變因素。如果抽樣總體中定義的產品數量太少,那么得出的MTBF估計值就很可能沒用。因此,比較MTBF值時,確保每個值都是基于足夠大的抽樣總體大小,這是非常重要的。

盡管被比較產品的生產率可能不同,但需要著重考慮的是抽樣總體中的產品數量。如果某個產品的生產率較低,那么此產品的生產時間范圍應該比較大,以便能夠達到一個合適的產品數量。例如,供應商“A”在一個月內生產1000臺產品,而供應商“B”在一個月內生產50臺“同類”產品。對于供應商“B”,抽樣總體中應包括若干個月生產的產品,以確保結果的統計有效性;對于供應商“A”,一個月內生產的產品就夠了。

抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的時間間隔如果抽樣總體范圍的結束時間和樣本采集期的開始時間之間沒有足夠的時間間隔,那么AFR和MTBF值可能是不準確的。被比較的每個系統的供應商必須為其抽樣總體提供足夠時間,以便在開始采集故障數據之前系統可以完成庫存及分銷過程。

例如,如果某個特定產品通常在庫房中存放一個月后,進入分銷過程(歷時一個月),那么評估故障前設定的最短時間應該是兩個月。總“等待”時間因產品類型而異。由于要進行比較的產品類型應該相似,所以總體期間和樣本期間之間的時間應該相似。如果某個供應商明顯沒有足夠的等待時間或根本沒有等待時間,那么他們的系統AFR可能會低于實際值,在比較這些值時要特別注意。

樣本數據采集期

正如在此過程第2步中所指出的那樣,選擇合適的樣本數據采集期非常重要。如果被比較的系統具有相同長度的采樣窗口,并且具有相似的生產量和/或銷售量,就可以進行公平比較。不過,情況并不總是這樣。如果各個系統的數據采集期時間不同,那么單獨地評估每個系統,確定其是否能夠反映準確的故障率就很重要。

產品數量越少,窗口應該越長。例如,如果某個供應商每個月的產品產量為10臺,用一個月時間來采集故障數據,時間就不充分。因為產品數量少,所以用這個月內報告的故障(如果有)來推斷前幾個月的故障率,可信度很低。

故障定義

如果兩個可比較產品間的故障定義不同,那么進行故障分析就象比較蘋果和橙子一樣毫無意義。因此,要進行有效的MTBF比較,一項基本任務就是準確分析每個被比較產品的故障組成。因此,對于MTBF計算,供應商應該將哪些故障統計在內?

將用戶誤用導致的故障統計在內是否有用?設計者可能忽視了許多人為因素,這將導致用戶很容易誤用產品。

在電源保護行業中,UPS故障的最常見“定義”是“負載停用”故障。這表示向負載供電超出了可接受范圍,導致了負載停止運轉。不過,將由供應商維修技術人員導致的負載停用統計在內是否有用?產品設計本身是否會提高風險程序出現故障的可能性?

如果計算機上的LED(發光二級管)出現故障,是否屬于故障(雖然它沒有影響計算機的運行)?

如果耗材(例如電池)的使用期比預期的時間要短,是否屬于故障?

運輸造成的損壞是否屬于故障?這可能表明包裝的設計不當。是否將重復出現的故障統計在內?也就是說,對于同一用戶使用的同一系統內診斷結果相同的故障,是重復計數還是僅計數一次?

安裝過程導致的故障是否統計在內?此故障可能是供應商技術人員引起的。如果用戶沒有購買推薦的維護合同或監視系統,是否將故障統計在內?如果地震導致建筑物損害,使得系統出現故障,是否將故障統計在內或將其視為“天災”?

是否將系統外某些組件的故障統計在內?對于UPS系統,系統外組件可能是電池或旁路開關。如果出現連鎖故障,導致后續系統停機,是將每個系統的故障都統計在內還是僅統計第一個系統的故障?

如果某個系統進行了“自定義”設置,是否將該系統的故障從抽樣總體中排除?

工業中用來計算MTBF的實際故障定義可能會有一些衍生情況。上面列出的只是一小部分。因為將許多異常情況統計為故障,所以MTBF值所反映的系統性能比實際使用情況更可靠。要為合作伙伴和用戶提供AFR和MTBF值,比較MTBF值時需要一個明確的故障定義。

有三個直觀定義:

類型0 該產品有一個妨礙其運轉的缺陷或故障。

類型I 產品整體失效,無法實現其所應實現的功能。

類型II個別組件失效,無法實現其應實現的功能,但不是產品整體失效,無法實現該產品應實現的功能。

除了了解每個供應商選擇的定義,還必須明確是否包括人為故障。在MTBF計算要包括人為失誤的情況下,比較MTBF值可能更困難。這是因為有多種可能導致故障的人為失誤,使得供應商需要篩選出與人為失誤相關的故障。如果所有供應商都沒有篩選出相同類型的故障,那么系統比較結果就很值得懷疑。

要說明這一點,我們仍然以上面的“X”牌產品為例。表1比較當存在不同的故障定義時的MTBF值。

系統“A”是“X”牌產品,其故障被定義為嚴重(類型I)故障,包括所有人為失誤和耗材故障類型。系統“B”是同一“X”牌產品。其故障同樣為僅有類型I故障,但不包括人為失誤導致的故障、連鎖故障以及耗材故障。根據MTBF公式的性質,在樣本期間即使一個故障差額也可能對MTBF結果產生很大影響。在此示例中,有5個系統故障差額(系統A有9個,系統B有4個),MTBF按125%變化。故障定義很容易且常常被誤解,就象此示例中所示,可以看出有效比較和無效比較的差別。

數據中心如何執行有效?MTBF計算與應用全教程

為了減少這種不一致性,APC為您建議了一種最佳方案,用于定義MTBF值所包括的內容。此最佳方案是基于向用戶展示所有合理故障這一目標而建立的。這些故障應該代表供應商控制的所有故障情況。例如,如果故障是由供應商的維修技術人員引起的,MTBF應該反映這個情況,因為此故障屬于供應商的責任。另一方面,如果用戶選擇雇傭第三方維修人員,是維修人員引發了故障,MTBF不應該反映此情況,因為它已經超出了供應商的控制范圍。附錄中的對照表指明哪些定義是此最佳方案的組成部分。

只要有可能,此故障最佳方案定義應該用于比較供應商間的產品。如果供應商只能夠提供此定義的子集,那么從其他被比較的供應商獲取同一子集是很必要的。再次說明,此一致性對于公平比較是非常必要的。不過,盡管這可以促成“公平”比較,但并不能很好地反映現實。供應商包括的故障子集越小,MTBF值與實際情況距離越遠。

樣本期間結束日期和AFR計算日期之間的時間間隔

如果某個供應商可以接收、診斷和修理樣本期間內報告的所有產品故障,則可以立即計算AFR。事實上,對于在客戶處進行診斷和修理的少量產品,這是可行的。但是,如果是運回制造商處的大量產品,就不能這樣。對于相似產品類型的MTBF比較,樣本期間結束日期和AFR計算日期之間的延遲應該相似。例如,假設供應商“A”在樣本期間結束的一個月后計算AFR,供應商“B”在樣本期間結束的四個月后計算AFR。如果被比較的產品是大批量產品,供應商“A”報告一個令人滿意的AFR的可能性更大。這是因為某些“故障”產品(尚未接收、診斷和修理)不計入AFR計算之內。

在某種條件下,系統之間的時間范圍差異未必會導致無效比較(其他所有情況都等同)。這個條件就是,當所有供應商都假設未修理的產品與以前修理過的產品的故障率相同并且已經接收、診斷和修理了大部分返回產品。

制訂的數據采集和分析過程

要評估MTBF比較的可信度,很重要的一點就是要了解每個供應商已制定好的數據采集和分析過程。一個明確定義的已文檔化的過程對于實施穩定的質量控制系統至關重要。有助于確保整個分析步驟的一致性和準確性。以下三個示例說明需要特別注意的過程問題。當上述問題或其他問題很明顯時,應該嚴格地檢查這些問題對MTBF估計結果(及最終比較結果)的影響。

供應商無法準確跟蹤全球范圍數據,因為全球不同地區使用的故障及修理數據的跟蹤系統或存儲系統不盡相同。數據缺失或不正確可能會導致評估全球產品的AFR時出現錯誤。

對于已歸類的返回產品,供應商沒有明確定義的過程。如果因無條件退貨返回的未使用和未開箱產品被分類為因故障返修,將導致AFR變大。

供應商的跟蹤系統大部分都是手動的。過程中涉及的人為因素越多,數據出錯并最終導致AFR計算出錯的可能性就越大。通常,過程的自動化程度越高,結果就越準確。比如,自動掃描序列號,而不是手動向系統中鍵入號碼,這就是一種自動化。

計算中使用的AFR公式

取決于產品的不同,各個供應商使用的AFR公式(公式1或2)可能會使得MTBF比較無用。比較連續運轉的產品(一旦啟用)可以使用兩個公式之一,但比較間斷運轉的設備僅可以使用公式2,否則該比較無效。

表2說明在何種情況下進行的比較有效。

表2–AFR公式比較表

 

產品運轉方式 使用的AFR公式1  使用的AFR公式2

連續運轉產品比較,
即UPS“A”與“B”(二者都作為關鍵負載的備用電源)

有效比較 有效比較

間斷運轉產品比較,
即膝上型計算機“A”與膝上型計算機“B” 

無效比較 有效比較

 

一年內的小時數

只有在穩定故障率的假設下,將AFR轉換為MTBF才有效。在這種情況下,可以使用公式3,不過請確認要比較的所有系統使用的小時數(一年內)相同,這一點很重要。例如,某些供應商每年使用8,000小時,而有些供應商則使用8,760小時。

三、除MTBF外的決策標準

盡管MTBF可以作為產品規格之一,并作為選擇產品(當方法、可變因素和假設對于所有要比較的系統都相同時)的有力依據,但它決不是唯一的標準。當評估多個供應商的產品時,還有許多應該考慮的其他標準。例如,供應商的整體質量控制過程的穩健程度如何?生產產量如何,處于何種環境下?是否通過ISO9000認證?滿足這些標準就會提供一個優化質量和可靠性的標準化過程。每個產品滿足用戶需要的程度如何?這可能需要考慮諸如產品靈活性或模塊性、快速故障恢復能力(MTTR)和產品的總擁有成本(TCO)。其他比較方式可能著眼于客戶推薦產品或產品評估。

最終,可以考慮對兩個或多個系統使用公正的第三方評估,以確保可以選擇到最適合的產品規格并制定出最佳的購買決策。

結論

比較多個產品時,MTBF通常是關鍵的決策依據。不過,比較這些值時,需要注意以下事項。首先,預測MTBF值的方法必須相同。另外,在采集和分析現場數據過程中將用到許多可變因素和假設,其中的每一項都可能對結果產生重要影響。如果可變因素和假設不一致,那么就不可能進行公平的MTBF比較。實際情況是這些可變因素和假設通常都是不一樣的。附錄中的對照表可以幫助您確定屬于哪種情況。另外,使用MTBF在線計算器可以確定關鍵可變因素對MTBF值的影響。

關鍵字:MTBF數據缺失

本文摘自:51CTO

x 數據中心MTBF和AFR如何計算與應用? 掃一掃
分享本文到朋友圈
當前位置:數據中心行業動態 → 正文

數據中心MTBF和AFR如何計算與應用?

責任編輯:editor007 |來源:企業網D1Net  2016-09-06 21:42:08 本文摘自:51CTO

避免關鍵數據中心出現故障始終是頭等重要的任務。如果短時間的停機可能會對業務的市場價值產生負面影響,那么,支持這個網絡環境的物理基礎設施就一定要可靠。

如何才能確信自己實施的解決方案是可靠的?MTBF(MTBF,MeanTimeBetweenFailure,即平均無故障時間)是比較可靠性最常用的方式。不過,如果沒有透徹地了解MTBF,可能就無法實現業務可靠性目標。如果故障定義不明確或者假設不現實或被曲解,MTBF就毫無意義。

本文說明應如何使用MTBF以及將MTBF用作規格和選擇依據時的限制。本文還提供一個核對表,作為確保公平有效地進行跨系統比較的指導性原則。

一、MTBF的比較性分析的現實方式

預測MTBF有多種可用方法,似乎不可能找到使用同一方法的兩個系統。不過,還是有一種方法可以適用于大多數組織的各種不同過程。

現場數據評估方法使用實際的現場故障數據,因此能夠提供比模擬情況更準確的故障率評估。對于小批量生產的產品或新產品,此數據可能找不到;不過,對那些已在現場獲得廣泛應用的產品,應該始終采用此數據。因此,對于跨系統比較,從現場數據評估開始比較是最合理也是最現實的。請注意,此方法與其他許多方法一樣,都是基于第78號白皮書中討論的穩定故障率假設。

本白皮書介紹完成此方法的步驟,列舉并說明各個步驟中可能影響結果的可變因素。如果要進行比較的系統間的關鍵假設或可變因素發生變化,那么評估這些變化對MTBF估計結果的可能影響就非常重要。圖1說明現場數據評估過程的時間線。隨后的過程步驟將說明時間線中的每個元素。

圖1 現場數據評估過程的時間線

第1步:定義并估計抽樣總體的大小

確定年故障率(AFR)并最終確定產品的MTBF的過程中,第一步是確定要分析的特定產品抽樣總體。是基于特定產品型號還是整個產品系列進行計算?此抽樣總體中產品的生產時間跨度應該多大(以天或月計)?生產日期何時開始何時結束?為抽樣總體選擇的產品應該在設計方面非常相似,并具有足夠多的數量以保證所采集數據的統計有效性,這非常重要。

第2步:確定采集數據的樣本時間范圍

過程的第二步是確定從抽樣總體中采集故障數據的樣本時間范圍。通常在產品的用戶給供應商報告故障時采集數據。抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的適合時間間隔,因產品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那么最早只能在抽樣總體中最晚產品生產日期的四個月后開始進行抽樣。對于需要通過批發商、經銷商和零售商這些環節的產品,四個月被視為是考慮上述可變因素的合理時間范圍。

下面說明兩個重要的可變因素:(1)抽樣總體中產品的最晚生產日期和樣本期間開始日期之間要有足夠的時間間隔;(2)數據采集窗口要足夠大,以確保結果的可信度。

如果抽樣總體中產品的最晚生產日期和樣本期間開始日期之間沒有足夠的時間間隔,那么在抽樣總體中的產品得到完全部署之前可能就已經開始進行抽樣了。這種情況可能會造成兩種結果。第一,由于尚未部署的產品不可能出現故障,所以有低估故障率的傾向。第二種結果就是樣本期間很可能包括大量的安裝故障或設置故障。因為新產品的故障率可能會顯示為一個標準的“浴缸”型,所以包括大量安裝故障可能會導致高估故障率。盡管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。

在抽樣時間方面,另一個需要考慮的重要問題是窗口的持續時間。需要多少天才能充分采集故障數據?采樣時間窗口必須選得足夠寬,以便可以從樣本中移除統計“干擾”。獲得合理準確度所需的持續時間取決于抽樣總體的大小。例如,大批量產品可能需要一個月時間,小批量產品可能需要幾個月時間。

第3步:定義故障

必須準確定義故障,確保評估過程的一致性后,才能開始統計故障。

現在假設在“故障”產品返回工廠時,是由每個技術人員單獨定義故障。某位技術人員可能只統計那些出現重大故障的產品,而另一位技術人員可能統計所有出現了故障(包括重大故障)的產品。這兩種極端的做法使得準確評估特定產品故障率的可能性幾乎為零,當然更不能準確評估對該產品的過程控制所產生的影響。因此,在診斷任意產品之前,供應商必須對故障有一個明確的定義。在計算特定事件的MTBF時,供應商可能有多種不同的故障定義。例如,UPS供應商會試圖評估導致關鍵負載停用的故障的MTBF以及負載能夠繼續運轉的不很嚴重的故障的MTBF。

第4步:接收、診斷和修理產品

樣本期間結束時間和AFR計算時間之間必須有足夠的時間間隔,以允許一定的時間來接收、診斷和修理報告為有故障的產品。診斷結果確定故障類型,而修理將會驗證診斷結果。體積較小的產品通常會發回供應商處,這會導致出現接收延遲或需要一定的產品遞送時間。產品到達供應商處后,必須對其進行診斷和修理,這會導致另一個稱為診斷延遲的延遲。大型產品通常在客戶處進行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算AFR前診斷和修理產品。

如果是大批量產品,很可能在診斷延遲結束時仍然有需要修理的產品。在這些情況下,有時會做出未修理產品和以前修理過的產品出現故障的機率相等這樣的假設。取決于待評估產品的生產量和產品類型,接收延遲和診斷延遲可以在樣本期間結束時間后加上幾個星期,您可以在此時間點計算AFR。

第5步:計算年故障率

計算年故障率是用來說明某個特定產品在一個日歷年度內的預期故障數。計算此數值的第一步是“按年計算”故障數據。將樣本期間中的故障數乘以每年的樣本期間數,可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數除以抽樣總體期間安裝的產品數,可以得出此值。下面是公式1:

此公式有如下兩個假設:(1)產品一年365天、每天24小時連續運轉(2)抽樣總體中的所有產品都在同一時間開始運轉。因此盡管此公式可以用于任意產品,但更適用于連續運轉的產品。如果已知要安裝的產品是間斷運轉的,那么使用公式2計算AFR更準確。備用的應急發電機系統就是這種類型產品的一個示例。

使用此公式,AFR僅考慮產品實際運轉的時間。實際上,公式1和公式2是不同假設條件下的同一公式。下面的假想示例說明當分析一個非連續運轉產品時二者的差別有多大:

本抽樣總體有10,000輛汽車。在2個月(樣本期間)內,要采集此抽樣總體的故障數據。平均而言,一輛汽車每年運轉400個小時。在這2個月內,有10輛汽車出現故障。

使用公式1:

故障率為10個故障x(每年52個星期/樣本期間為8個星期)/抽樣總體中有10,000臺裝置=0.0065或0.65%。

使用公式2:假設這些產品同時*開始運轉,抽樣總體的運轉時間為每年10,000x400小時=每年累計4百萬小時或,000,000/8760小時=累計457年。故障率為10個故障x(每年52個星期/樣本期間為8個星期)/累計457年=0.14或14%

【請注意,此假設是為了簡化這個示例。現實情況是產品在整個期間內都有銷售,因此實際運轉時間將比上面的數字小,導致AFR值變大。】

如果上面的示例是以連續運轉產品為例,那么兩個AFR值將相等。即使取消所有產品同時開始運轉這個假設,AFR值仍然非常接近。因此,了解產品是連續運轉還是非連續運轉對于進行正確地分析至關重要。

第6步:將AFR轉換為MTBF

將AFR轉換為MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩定這一假設下,將AFR轉換為MTBF才有效。下面是此公式:

MTBF=一年內的小時數/AFR=8760/AFR 公式3

使用AFR評估過程對MTBF計算結果抽樣

下面的假想示例有助于說明整個過程。

第1步:確定抽樣總體全部為“X”牌15kVAUPS系統,是在2003年的第36周到第47周(9月1日至11月21日)生產的,生產窗口時長共12周。抽樣總體共2000臺裝置。

第2步:確定采樣窗口從2004年2月2日開始,至2004年7月16日結束。選擇這一采樣窗口時,考慮了在產品庫存和分銷過程中會有10周的延遲。

第3步:將故障定義為由任何原因(包括人為錯誤)引起的關鍵負載停用。

第4步:在樣本期間,總共報告了二十起故障。其中,九起故障被劃分為關鍵負載停用故障,其他故障為非關鍵故障。因此,根據第3步中確定的故障定義,下面計算中使用的故障數為九。已經在計算AFR之前接收、診斷和修理了出現故障的產品。

第5步:AFR計算如下:

AFR=(9個故障*每年52個星期/樣本期間為24周)/抽樣總體中有2000臺裝置=0.00975=0.975%

第6步:MTBF計算如下:

MTRF=8760/AFR=8760/0.00975=898,462小時

二、影響AFR的可變因素

大多數情況下,用戶是從供應商處獲取MTBF值,不帶有任何用于證實這些數值的相關數據。如上所述,當查看多個系統的MTBF值(或AFR值)時,了解分析所用的隱含假設和可變因素(特別是定義故障的方式)非常重要。比較時若忽視了這一點,比較結果出現偏差的可能性就會變大,可能會出現500%或更高的偏差。最終可能導致不必要的業務支出甚至意外停機。

一般來說,必須有明確的可變因素定義、假設定義以及故障定義,才可以比較兩個或更多系統間的MTBF值。即使兩個MTBF值看起來很相似,仍然有比較結果出現偏差的可能。因此,必須弄清MTBF結果后面隱含的內容,并仔細研究和領會這些數值所包含的含義。

下面將介紹每個可變因素,并說明他們可能對結果產生的影響。附錄中提供一個核對表,可以用于比較兩個或多個系統間的可變因素。完成比較后,必須再檢查一下核對表,以確定系統間有哪些不同的可變因素。通過逐一嚴格分析這些不同的可變因素及其對MTBF的影響,可以確定比較是否公正并可以作為產品規格或購買決策的關鍵標準。

產品功能、應用和邊界

在比較兩個或更多MTBF值之前,驗證被比較的兩個產品是否同類非常重要。被比較的產品必須在功能、性能及應用方面相似。如果被比較的產品是UPS,則產品功能就是為連接的負載提供備用電源。此產品的用途可能是用來支持數據中心環境中的關鍵IT負載。如果沒有相似的應用,就不可能進行公正的MTBF比較。例如,對工業用途和IT用途的UPS進行比較是不切合實際的。

更重要的是,MTBF比較中所用系統的邊界必須等同。如果各個系統的定義方式不同,那么不可避免地會出現比較偏差。我們以使用外部電池的UPS系統為例。某些供應商可能選擇不包括由這些電池導致的故障,因為他們位于系統“外部”,不是系統的一部分。其他供應商可能選擇包括電池故障,因為這些電池是系統運轉的必要組件。圖2說明此示例。其他可能導致不一致邊界的組件包括輸入和輸出電路斷路器、旁路系統、保險絲和控制系統。用戶應該向供應商咨詢MTBF計算中應包括哪些組件或子系統,不應認為所有供應商定義系統的方式都相同。

圖2 比較UPS系統的“邊界”

穩定故障率假設

要使計算AFR和MTBF的現場數據評估方法有效,必須假設被分析產品具有穩定的故障率。很重要的一點就是要判明此假設對于被比較產品的類型是否合理。對于電子系統或組件,這個假設通常可以成立。該產品是否屬于這一類?如果不屬于,計算出來的值可能不會是預期故障的代表性值,進行公正比較的可能性就很小。

抽樣總體大小

在明確產品及其應用非常相似后,很重要的一項工作就是審查現場數據采集過程。在這里,定義抽樣總體大小(生產的產品數量)是第一個關鍵的可變因素。如果抽樣總體中定義的產品數量太少,那么得出的MTBF估計值就很可能沒用。因此,比較MTBF值時,確保每個值都是基于足夠大的抽樣總體大小,這是非常重要的。

盡管被比較產品的生產率可能不同,但需要著重考慮的是抽樣總體中的產品數量。如果某個產品的生產率較低,那么此產品的生產時間范圍應該比較大,以便能夠達到一個合適的產品數量。例如,供應商“A”在一個月內生產1000臺產品,而供應商“B”在一個月內生產50臺“同類”產品。對于供應商“B”,抽樣總體中應包括若干個月生產的產品,以確保結果的統計有效性;對于供應商“A”,一個月內生產的產品就夠了。

抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的時間間隔如果抽樣總體范圍的結束時間和樣本采集期的開始時間之間沒有足夠的時間間隔,那么AFR和MTBF值可能是不準確的。被比較的每個系統的供應商必須為其抽樣總體提供足夠時間,以便在開始采集故障數據之前系統可以完成庫存及分銷過程。

例如,如果某個特定產品通常在庫房中存放一個月后,進入分銷過程(歷時一個月),那么評估故障前設定的最短時間應該是兩個月。總“等待”時間因產品類型而異。由于要進行比較的產品類型應該相似,所以總體期間和樣本期間之間的時間應該相似。如果某個供應商明顯沒有足夠的等待時間或根本沒有等待時間,那么他們的系統AFR可能會低于實際值,在比較這些值時要特別注意。

樣本數據采集期

正如在此過程第2步中所指出的那樣,選擇合適的樣本數據采集期非常重要。如果被比較的系統具有相同長度的采樣窗口,并且具有相似的生產量和/或銷售量,就可以進行公平比較。不過,情況并不總是這樣。如果各個系統的數據采集期時間不同,那么單獨地評估每個系統,確定其是否能夠反映準確的故障率就很重要。

產品數量越少,窗口應該越長。例如,如果某個供應商每個月的產品產量為10臺,用一個月時間來采集故障數據,時間就不充分。因為產品數量少,所以用這個月內報告的故障(如果有)來推斷前幾個月的故障率,可信度很低。

故障定義

如果兩個可比較產品間的故障定義不同,那么進行故障分析就象比較蘋果和橙子一樣毫無意義。因此,要進行有效的MTBF比較,一項基本任務就是準確分析每個被比較產品的故障組成。因此,對于MTBF計算,供應商應該將哪些故障統計在內?

將用戶誤用導致的故障統計在內是否有用?設計者可能忽視了許多人為因素,這將導致用戶很容易誤用產品。

在電源保護行業中,UPS故障的最常見“定義”是“負載停用”故障。這表示向負載供電超出了可接受范圍,導致了負載停止運轉。不過,將由供應商維修技術人員導致的負載停用統計在內是否有用?產品設計本身是否會提高風險程序出現故障的可能性?

如果計算機上的LED(發光二級管)出現故障,是否屬于故障(雖然它沒有影響計算機的運行)?

如果耗材(例如電池)的使用期比預期的時間要短,是否屬于故障?

運輸造成的損壞是否屬于故障?這可能表明包裝的設計不當。是否將重復出現的故障統計在內?也就是說,對于同一用戶使用的同一系統內診斷結果相同的故障,是重復計數還是僅計數一次?

安裝過程導致的故障是否統計在內?此故障可能是供應商技術人員引起的。如果用戶沒有購買推薦的維護合同或監視系統,是否將故障統計在內?如果地震導致建筑物損害,使得系統出現故障,是否將故障統計在內或將其視為“天災”?

是否將系統外某些組件的故障統計在內?對于UPS系統,系統外組件可能是電池或旁路開關。如果出現連鎖故障,導致后續系統停機,是將每個系統的故障都統計在內還是僅統計第一個系統的故障?

如果某個系統進行了“自定義”設置,是否將該系統的故障從抽樣總體中排除?

工業中用來計算MTBF的實際故障定義可能會有一些衍生情況。上面列出的只是一小部分。因為將許多異常情況統計為故障,所以MTBF值所反映的系統性能比實際使用情況更可靠。要為合作伙伴和用戶提供AFR和MTBF值,比較MTBF值時需要一個明確的故障定義。

有三個直觀定義:

類型0 該產品有一個妨礙其運轉的缺陷或故障。

類型I 產品整體失效,無法實現其所應實現的功能。

類型II個別組件失效,無法實現其應實現的功能,但不是產品整體失效,無法實現該產品應實現的功能。

除了了解每個供應商選擇的定義,還必須明確是否包括人為故障。在MTBF計算要包括人為失誤的情況下,比較MTBF值可能更困難。這是因為有多種可能導致故障的人為失誤,使得供應商需要篩選出與人為失誤相關的故障。如果所有供應商都沒有篩選出相同類型的故障,那么系統比較結果就很值得懷疑。

要說明這一點,我們仍然以上面的“X”牌產品為例。表1比較當存在不同的故障定義時的MTBF值。

系統“A”是“X”牌產品,其故障被定義為嚴重(類型I)故障,包括所有人為失誤和耗材故障類型。系統“B”是同一“X”牌產品。其故障同樣為僅有類型I故障,但不包括人為失誤導致的故障、連鎖故障以及耗材故障。根據MTBF公式的性質,在樣本期間即使一個故障差額也可能對MTBF結果產生很大影響。在此示例中,有5個系統故障差額(系統A有9個,系統B有4個),MTBF按125%變化。故障定義很容易且常常被誤解,就象此示例中所示,可以看出有效比較和無效比較的差別。

數據中心如何執行有效?MTBF計算與應用全教程

為了減少這種不一致性,APC為您建議了一種最佳方案,用于定義MTBF值所包括的內容。此最佳方案是基于向用戶展示所有合理故障這一目標而建立的。這些故障應該代表供應商控制的所有故障情況。例如,如果故障是由供應商的維修技術人員引起的,MTBF應該反映這個情況,因為此故障屬于供應商的責任。另一方面,如果用戶選擇雇傭第三方維修人員,是維修人員引發了故障,MTBF不應該反映此情況,因為它已經超出了供應商的控制范圍。附錄中的對照表指明哪些定義是此最佳方案的組成部分。

只要有可能,此故障最佳方案定義應該用于比較供應商間的產品。如果供應商只能夠提供此定義的子集,那么從其他被比較的供應商獲取同一子集是很必要的。再次說明,此一致性對于公平比較是非常必要的。不過,盡管這可以促成“公平”比較,但并不能很好地反映現實。供應商包括的故障子集越小,MTBF值與實際情況距離越遠。

樣本期間結束日期和AFR計算日期之間的時間間隔

如果某個供應商可以接收、診斷和修理樣本期間內報告的所有產品故障,則可以立即計算AFR。事實上,對于在客戶處進行診斷和修理的少量產品,這是可行的。但是,如果是運回制造商處的大量產品,就不能這樣。對于相似產品類型的MTBF比較,樣本期間結束日期和AFR計算日期之間的延遲應該相似。例如,假設供應商“A”在樣本期間結束的一個月后計算AFR,供應商“B”在樣本期間結束的四個月后計算AFR。如果被比較的產品是大批量產品,供應商“A”報告一個令人滿意的AFR的可能性更大。這是因為某些“故障”產品(尚未接收、診斷和修理)不計入AFR計算之內。

在某種條件下,系統之間的時間范圍差異未必會導致無效比較(其他所有情況都等同)。這個條件就是,當所有供應商都假設未修理的產品與以前修理過的產品的故障率相同并且已經接收、診斷和修理了大部分返回產品。

制訂的數據采集和分析過程

要評估MTBF比較的可信度,很重要的一點就是要了解每個供應商已制定好的數據采集和分析過程。一個明確定義的已文檔化的過程對于實施穩定的質量控制系統至關重要。有助于確保整個分析步驟的一致性和準確性。以下三個示例說明需要特別注意的過程問題。當上述問題或其他問題很明顯時,應該嚴格地檢查這些問題對MTBF估計結果(及最終比較結果)的影響。

供應商無法準確跟蹤全球范圍數據,因為全球不同地區使用的故障及修理數據的跟蹤系統或存儲系統不盡相同。數據缺失或不正確可能會導致評估全球產品的AFR時出現錯誤。

對于已歸類的返回產品,供應商沒有明確定義的過程。如果因無條件退貨返回的未使用和未開箱產品被分類為因故障返修,將導致AFR變大。

供應商的跟蹤系統大部分都是手動的。過程中涉及的人為因素越多,數據出錯并最終導致AFR計算出錯的可能性就越大。通常,過程的自動化程度越高,結果就越準確。比如,自動掃描序列號,而不是手動向系統中鍵入號碼,這就是一種自動化。

計算中使用的AFR公式

取決于產品的不同,各個供應商使用的AFR公式(公式1或2)可能會使得MTBF比較無用。比較連續運轉的產品(一旦啟用)可以使用兩個公式之一,但比較間斷運轉的設備僅可以使用公式2,否則該比較無效。

表2說明在何種情況下進行的比較有效。

表2–AFR公式比較表

 

產品運轉方式 使用的AFR公式1  使用的AFR公式2

連續運轉產品比較,
即UPS“A”與“B”(二者都作為關鍵負載的備用電源)

有效比較 有效比較

間斷運轉產品比較,
即膝上型計算機“A”與膝上型計算機“B” 

無效比較 有效比較

 

一年內的小時數

只有在穩定故障率的假設下,將AFR轉換為MTBF才有效。在這種情況下,可以使用公式3,不過請確認要比較的所有系統使用的小時數(一年內)相同,這一點很重要。例如,某些供應商每年使用8,000小時,而有些供應商則使用8,760小時。

三、除MTBF外的決策標準

盡管MTBF可以作為產品規格之一,并作為選擇產品(當方法、可變因素和假設對于所有要比較的系統都相同時)的有力依據,但它決不是唯一的標準。當評估多個供應商的產品時,還有許多應該考慮的其他標準。例如,供應商的整體質量控制過程的穩健程度如何?生產產量如何,處于何種環境下?是否通過ISO9000認證?滿足這些標準就會提供一個優化質量和可靠性的標準化過程。每個產品滿足用戶需要的程度如何?這可能需要考慮諸如產品靈活性或模塊性、快速故障恢復能力(MTTR)和產品的總擁有成本(TCO)。其他比較方式可能著眼于客戶推薦產品或產品評估。

最終,可以考慮對兩個或多個系統使用公正的第三方評估,以確保可以選擇到最適合的產品規格并制定出最佳的購買決策。

結論

比較多個產品時,MTBF通常是關鍵的決策依據。不過,比較這些值時,需要注意以下事項。首先,預測MTBF值的方法必須相同。另外,在采集和分析現場數據過程中將用到許多可變因素和假設,其中的每一項都可能對結果產生重要影響。如果可變因素和假設不一致,那么就不可能進行公平的MTBF比較。實際情況是這些可變因素和假設通常都是不一樣的。附錄中的對照表可以幫助您確定屬于哪種情況。另外,使用MTBF在線計算器可以確定關鍵可變因素對MTBF值的影響。

關鍵字:MTBF數據缺失

本文摘自:51CTO

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 虎林市| 兰考县| 昆山市| 安阳县| 拉孜县| 临潭县| 监利县| 衡水市| 盐亭县| 屏东县| 美姑县| 搜索| 天柱县| 石屏县| 黄龙县| 阜城县| 曲水县| 黑河市| 大渡口区| 凤翔县| 永平县| 乐平市| 元江| 诸暨市| 南投市| 兴国县| 平安县| 报价| 驻马店市| 宜州市| 南部县| 和硕县| 大渡口区| 铜梁县| 兴国县| 油尖旺区| 雷山县| 安新县| 蕉岭县| 平遥县| 闽侯县|