1、mSwitch對VoIP語音質量的監控現狀
在當前mSwitch系統中,對整個軟交換架構中的VoIP的語音質量的監控,沒有采取任何的監控手段和措施,僅僅做的就是在釋放每個同VoIP相關的呼叫后,要求媒體網關(MG)或者綜合接入設備(IAD)上報本次呼叫中如下統計信息:終結點呼叫連接的時長統計(nt/dur)、終結點呼叫連接發送的字節數統計(nt/os)、終結點呼叫連接接受的字節數統計(nt/or)、終結點呼叫連接發送的數據包統計(rtp/ps)、終結點呼叫連接中接受的數據包統計(rtp/pr)、終結點呼叫連接中的所丟失的數據包的統計(rtp/pl)、終結點呼叫連接中的抖動統計(rtp/jit)以及終結點呼叫連接中時延的統計(rtp/delay)。但是這些統計信息上報到CS-P之后,沒有作任何的分析和處理,也沒有保存。
因此,當前的整個軟交換的VoIP的語音質量對我們來說就是一個未知數;雖然在部署NGN網絡時,可以通過一些第三方公司的專業VoIP工具對整個軟交換的VoIP的語音質量進行評測,但是無法彌補mSwitch系統在對VoIP語音質量控制方面的缺陷,那就是當mSwitch系統監測到整個系統的VoIP語音質量在明顯下降,并且下降到某個程度時,有必要采取適當地控制措施來盡力改善VoIP的通話語音質量。
下面就VoIP的語音質量的測量方法和實施進行介紹。
2、語音質量的度量標準——MOS
在介紹語音質量的測量方法之前,首先將對語音質量的度量標準MOS進行簡要介紹;VoIP呼叫質量會受噪聲、畸變、信號幅度過高或過低、回聲、通話間隙和許多其他問題的影響。在測量呼叫質量時,需要研究三類基本的服務質量:
(1)收聽質量——指用戶對呼叫過程中所聽到的聲音質量的評價。
(2)會話質量——指用戶在整個通話過程中基于收聽質量和會話能力而對呼叫作出的評價,包括回音和延遲等可能影響通話的相關問題。
(3)傳輸質量——指用于承載話音信號的網絡連接的質量。傳輸質量測量是與細節呼叫質量測量相對的一種網絡服務質量測量。
呼叫質量測量的目的是通過主觀或客觀的測量方法,即通過人為的測量項目或基于計算機的測量工具,對一種或多種以上的呼叫質量類別給出一個可信的估計。
主觀測量是一種久經考驗的話音質量測量方法,但這種方法成本太高,費時也太長。有一種更廣為人知的主觀類測量方法,叫做絕對種類定級(Absolute Category Rating,ACR)測量。
在ACR測量中,收聽者按照從1~5的5級損傷指標對一系列音頻文件進行分級(見表1)。
在取得了每個收聽者給出的得分之后,計算所有音頻文件的一般或平均意見得分(Mean Opinion Score, MOS)。為了使ACR測量得到可信的測量結果,接受測量的人數至少應在16個以上,而且測量應該在一個安靜的環境下,在可控的條件下完成。這種測量方法定義在ITU-T P.800當中,該MOS值就是語音質量的度量尺寸,顯然是MOS越大,語音質量越好。
3、語音質量測量方法的發展
上述IUT-T P.800中所定義的方法得到的MOS值是一種主觀的測量方法,并且該方法成本太高,費時太長;因此,在后來的研究和探索中,先后出現了如下幾種客觀測量方法:
PSQM /PSQM+:Perceptual Speed Quality Measure,感知通話質量測量[2],定義在ITU-T P.861當中;
PESQ:Perceptual Evaluation of Speed Quality,感知評估通話質量測量[3],定義在ITU-T P.862當中;
PAMS:Perceptual Analysis Measurement System,感知分析測量,英國電信定義;
E-Model:本文將重點介紹的測量方法,該方法定義在ITU-T G.107當中。
PSQM和PAMS測量方法都需要發送一個語音參考信號通過電話網絡,在網絡的另一端采用數字信號處理的方式比較樣本信號和接收到的信號,進而估算出網絡的語音質量。PESQ結合了PSQM和PAMS的優勢,并針對MOS和MOS-LQ(Listening Quality)計算方法做了修改。最開始這些方法被用于測量編碼算法和在實驗室分析設備問題,如分析電話機的語音質量;并且都是基于PSTN網絡,因此并不適合應用到VoIP網絡系統的語音測量。這些方法主要缺點體現在:
不是基于IP網絡的方法,不能反應IP網絡的衰減問題,如網絡傳輸中的Delay和Jitter和Packet Loss等問題;
不能說明End-to-End的網絡延遲,而其他過多的延遲因素影響到了MOS值;
只能輸出在任何時間內的某一方向的語音質量,不是真實通話中的雙向結果;
無法模擬多個或成百上千個重復同步的通話。
而在ITU-T G.107中定義的E-Model方法則很好地克服了上述問題,因此非常適合VoIP語音質量的測量。E-Model模型是歐洲電信標準協會(ETSI)開發的,本來用作電信網絡的傳輸規劃工具,但該模型也在VoIP服務質量測量中廣泛使用,在下面的章節中將對該模型進行詳細的介紹。
此外,有必要指出,平均主觀值MOS是廣泛認同的語音質量標準。因此,無論采用何種方法,所有測量方法所得到的結果都必須對應到最終的平均主觀值MOS。
4、VoIP語音質量測量方法——E-Model
E-Model是基于如下通話連接模型進行測量的(見圖1),其最終的測量結果就是得到R值(R Factor),被稱為全面的網絡傳輸等級要素,也就是說,確定包含話音通道的“由口至耳”特性的“R”因素。R因素的取值范圍為0~120,窄帶電話上R因素通常取50~94,而寬帶電話上R取值在50~110。R因素的值可以轉換為會話和收聽質量MOS得分(MOSCQ and MOSLQ)的估計值。R值的計算從沒有網絡和設備的損傷影響開始,此時語音質量是最好的,R=R0。R0是無網絡延時和設備損傷因素的基本信號與收發噪聲以及電流、背景噪聲之比,即基本信噪比。但是因為網絡和設備損傷因素的存在,減少了通過網絡的語音質量,R值的基本計算公式如下:R=R0-Is-Id-Ie-eff+A。
其中,Is:與語音信號傳輸同步的損傷;Id:語音信號傳輸延時后的損傷;Ie-eff:由設備引入的損傷,例如編碼器損傷;A:優勢因素,致力于考慮呼叫者的期望因素,在大部分情況下,一般設置為0,但是對于移動用戶,因為移動的便利而能容忍低質量的語音質量,所以該值可以大于0。在G.107中,就基本公式中的各個值的計算(A除外)都提供了復雜的計算公式,并且涉及到20個參數值,具體的計算公式這里就不一一介紹了,具體可以參考ITU-T G.107。
[NextPage]
通過對涉及參數和通話連接模型的對照,可以發現大部分參數都是對通話設備(話機)和通話環境的要求,如參數Ds、Dr是對發話端和收話端的話機噪音值的評估因子;SLR,RLR,STMR,LSTR是對發話端和收話端聲音響度相關的評估;TELR,WEPL是對通話中的回聲相關進行評估的因子;Nc是對通話中的電路噪音進行評估的因子;Nfor是對收話端的噪音背景的評估;Ps和Pr是對發話端和收話端的空間噪音的考慮因素;而這些因素對于評估測量VoIP的語音質量是沒有太大的意義,因為這些因素同IP連接和傳輸沒有直接的聯系,并且這些參數在每次的VoIP通話當中也無法直接獲取,而同VoIP相關的幾個參數(T,Tr,Ta,qdu,Ie,Bpl,Ppl)是同如下幾個因素有著直接的聯系,下面就這幾個因素進行介紹。
(1)Codec:通話中采用的編解碼方式,這是以硬件或者軟件的方式采樣模擬語音,決定了語音數據包的傳輸速率。在ITU的標準中,G.711u/G.711a是一種高質量的無壓縮的編解碼方式,但是占用相當大的帶寬;而其他的低速率的編解碼方式,如G.726/G.729等系統,占用的帶寬比較小,但是使用了容易損失的壓縮算法,削弱了語音的傳輸質量;而在實際的應用中,低速率的Codec能夠在相同的帶寬下接入更多的呼叫連接,但是又導致了更大的網絡延遲(對參數T,Ta,qdu存在著間接的影響),并且對網絡丟包更加敏感。Codec的選擇對E-Model中的R值有著明顯的影響,直接反應是對在Ie參數上,在ITU-T的標準中,有G.113的Appendix I就Codec和Ie的關系作了推薦,可以作為計算R值的參考。
(2)網絡延遲:網絡延遲將引起語音會話過程的空白,帶來語音的變形和會話的中斷。E-Model關注的是End-to-End的網絡延遲。在實際應用中,一般是如下幾個方面而導致了網絡延遲:傳播延時:取決于傳播的介質和距離;傳輸延時:傳輸過程中在網絡設備上所用時間;打包解包延時:用采用的Codec進行數模轉換的時間,不同的Codec所導致的延時是不一樣的,但是對于同一種Codec,其延時基本是固定的;抖動緩沖延時:在作用在接受端,為保持住一個或多個接收的數據包,克服網絡抖動的影響。網絡延遲將直接反應在參數T,Tr,Ta上面。
(3)網絡抖動:網絡抖動就是網絡延時的變化,當網絡抖動值大于50ms時,MOS值將急劇下降;但是在ITU-T G.107中,是這樣說的:“抖動對語音傳輸質量的影響還在作進一步的研究,目前沒有包含在E-Model的算法中”。但是通過在接收端增加抖動緩沖的量,則可以有效地降低抖動的影響,但是卻增加了網絡延時。[Page]
(4)網絡丟包:網絡丟包是影響語音質量和MOS值的關鍵因素,存在兩種類型的丟包:隨機丟包(Random Loss):這是隨機產生的丟包,如果量小,對語音質量影響小;連續丟包(Burst Loss):這是指連續一個以上的數據包的丟失,這對語音質量的影響是明顯的。因此對丟包作有效的監測是非常有必要的,并且在ITU-T的標準中,其G.113的Appendix I中就Codec的選擇所導致的Bpl作了映射,可以作為計算R值的參考。當某種Codec采用適當的丟包補償技術也能夠降低丟包對VoIP語音質量的影響,并優化了語音質量。
最終通過E-Model得到的R值,通過ITU-T G.107中的Appendix B的計算公式,可以得到如下的一種關系表(見圖2)。其中:GoB(Good or Bad),PoW(Poor or Worse)。
如果平均主觀值MOS為4或更高,被認為是比較好的語音質量,而若平均主觀值MOS低于3.6,則大部分接聽者不能滿意這個語音質量了。因此,當軟交換系統系統監測到VoIP的通話語音質量的R值處于70以下的時候,則需要采取一些適當的措施來改善