1.網(wǎng)絡性能測試
1.1 網(wǎng)絡性能測試介紹
隨著NGN網(wǎng)絡技術(shù)的日益成熟,全球電信運營商都在某種利益(成本低廉和新業(yè)務應用)的驅(qū)動下大量部署NGN網(wǎng)絡,每年以30%左右的速度遞增。由于目前的NGN網(wǎng)絡是一個以軟交換為核心并由PSTN網(wǎng)絡和VoIP網(wǎng)絡融合在一起的復雜網(wǎng)絡,多種接口、多種協(xié)議、多種媒體并存,存在PSTN與VoIP設備的兼容性、VoIP網(wǎng)絡內(nèi)部不同設備提供商的設備兼容性、網(wǎng)絡設計性能與實際部署性能的差異性、語音(也許還有視頻)質(zhì)量的差異性等挑戰(zhàn)都不同程度地擺在了運營商面前。如果處理不好,很可能造成網(wǎng)絡部署失敗,運營商不僅要蒙受經(jīng)濟損失,還要承受更大的社會壓力。那么,運營商就會不約而同的把目光聚焦到網(wǎng)絡測試技術(shù)本身,我們認為網(wǎng)絡性能測試是很重要的一環(huán)。
NGN網(wǎng)絡性能測試要兼顧PSTN與VoIP網(wǎng)絡的融合,既要考慮滿負荷條件下的語音質(zhì)量測試,也要考慮軟交換的純信令的壓力測試,還要考慮媒體網(wǎng)關(guān)對媒體流的處理能力測試。對應于電信運營商來說,比較全面的NGN網(wǎng)絡測試,不但要考慮本地的端到端測試,還要考慮異地(跨地域)的性能測試;從測試技術(shù)來講,一般包括同步呼叫測試、異步呼叫測試、長保持呼叫測試、語音質(zhì)量測試,以及語音間斷/語音滑動測試、回聲測試、其他性能測試等。
NGN網(wǎng)絡性能測試構(gòu)架中,一般采用一個或兩個測試點,即被仿真的主叫方和被叫方在一臺或兩臺儀表上,兩個測試點可以在同一地點,也可以在不同地點進行跨地域測試。被仿真的主叫方和被叫方可以是軟交換、媒體網(wǎng)關(guān)、模擬用戶、VoIP用戶、PSTN網(wǎng)絡等各種網(wǎng)絡節(jié)點;可以采用SIP,SIP-T,H.323,MGCP,H.248,Sigtran等VoIP協(xié)議,也可以采用隨路,SS7,PRI,V5,模擬線等PSTN信令;可以使用G.711/G.723/G.726/G.729等語音編碼方式,也支持H.261/H.263/H.264等視頻編碼方式;主叫方和被叫方可以分別在PSTN和VoIP兩個網(wǎng)絡中,這對于測試網(wǎng)絡的融合性能很有幫助。一般使用一個操作平臺,設定測試腳本,手動或自動輸出報告。報告一般包括呼叫完成情況(完成率/呼損/CPS/BHCA等)、網(wǎng)絡損傷情況(延遲/抖動/丟包/錯序等)、語音質(zhì)量情況(MOS/PSQM/PESQ等)、網(wǎng)絡回聲情況、呼叫錯誤及原因等。從圖1可以看出,NGN網(wǎng)絡性能測試構(gòu)架包括操作控制臺、測試點(測試工具)、被測PSTN和VoIP網(wǎng)絡等。

圖1 NGN網(wǎng)絡性能測試架構(gòu)
1.2 幾種常見的性能測試方法
。1)主觀收聽質(zhì)量測量
主觀測量是一種久經(jīng)考驗的話音質(zhì)量測量方法,但這種方法成本太高,費時也太長。有一種更廣為人知的主觀類測量方法,叫做絕對種類定級(Absolute Category Rating,ACR)測量。
在ACR測量中,收聽者按照從1~5的5級損傷指標對一系列音頻文件進行分級:5(非常好),4(好),3(可以),2(較差),1(差)。
在取得了每個收聽者給出的得分之后,計算所有音頻文件的一般或平均意見得分(Mean Opinion Score, MOS)。為了使ACR測量得到可信的測量結(jié)果,接受測量的人數(shù)至少應在16個以上,而且測量應該在一個安靜的環(huán)境下,在可控的條件下完成。
通常,ACR測量的得分隨收聽者的增加而趨向穩(wěn)定。為了降低測量得分的可變性并幫助衡量測量結(jié)果,測量中通常會包括一些參考文件,這些文件中包含了“為業(yè)界接受的”MOS得分。
。2)會話質(zhì)量測量
在會話測量中,通常會將一群收聽者放在交互式通信的環(huán)境下,并要求他們通過一個電話或VoIP系統(tǒng)完成一項任務。測量人員在系統(tǒng)中加入延遲和回聲等效應,然后調(diào)查測量主體對連接質(zhì)量看法如何。
延遲效應對會話質(zhì)量的影響隨任務不同而有很大差異。對于非交互式的任務而言,幾百毫秒的單向延遲都是可以忍受的;而對交互性較強的任務,哪怕是很短的延遲都可能造成會話困難。
延遲對不同任務影響不同的這種情況就造成在會話呼叫質(zhì)量的解釋上出現(xiàn)問題。例如,兩個相同的VoIP系統(tǒng)連接都會產(chǎn)生300ms的單向延遲,但一個系統(tǒng)用于高交互性的商業(yè)談判,而另一個系統(tǒng)則用于朋友間的非正式聊天。那么前一個系統(tǒng)中的用戶可能會覺得呼叫質(zhì)量很差,而后一個系統(tǒng)中的用戶則可能根本注意不到這一延遲。
很顯然,這種會話質(zhì)量測量也屬于主觀評價的范疇。下面看看客觀評價。
。3)基于樣本的客觀測量
ITU開發(fā)了P.861(PSQM)和更新的P.862(PESQ),力圖用成本更低的客觀測量法來做為主觀收聽質(zhì)量測量的補充。采用這些測量技術(shù),可以通過比較送入系統(tǒng)中的一個原始參考文件與輸出的受損文件之間的差異,得到由傳輸系統(tǒng)或CODEC引入的失真。這些技術(shù)的初衷雖然是為了CODEC的實驗室測量,但在VoIP網(wǎng)絡測量中也得到了廣泛使用。
P.861(PSQM)和P.862(PESQ)算法將參考信號和受損信號都分成較短的交迭樣本塊,計算每一塊的傅立葉變換系數(shù),并比較他們的系數(shù)。P.862算法最后給出一個PESQ得分,該得分與MOS的范圍相近,但它并不是MOS的準確映射。新的PESQ-LQ得分更接近收聽質(zhì)量MOS。這些算法都同時要求訪問源文件和輸出文件才能測量后者相對于前者的失真。
。4)話音質(zhì)量的測試方法
大部分語音測試設備(例如Spirent的Abacus)都是采用基于ITU P.861與P.862規(guī)范標準,對網(wǎng)絡或者設備進行客觀評價。這里我們用Spirent的Abacus5000來舉例說明話音質(zhì)量的評價方法。Abacus5000是基于呼叫的測試系統(tǒng),它可以在模擬用戶產(chǎn)生呼叫的同時生成真實的媒體流。針對音頻,可提供3-tone,Resilient測試;針對話音,能夠發(fā)送標準的男聲、女聲、混音等.wave格式文件。標準的測試文件從發(fā)送端經(jīng)過被測網(wǎng)絡傳輸后到接收端,測試系統(tǒng)通過話音質(zhì)量評估手段,比較原始語音文件和接收到的語音文件間的異同來對被測系統(tǒng)進行評估,得到PSQM(P.861)或者PESQ(P.862)。系統(tǒng)還可以提供客觀測試方法到主觀測試結(jié)果的相關(guān)性對應,即PSQM/PESQ到MOS的轉(zhuǎn)換。圖2所示的為Abacus5000的語音質(zhì)量測試方法。
。1)對于運營商的傳統(tǒng)PSTN網(wǎng)絡維護,被動式監(jiān)測系統(tǒng)占優(yōu)勢。
(2)對于VoIP網(wǎng)絡或PSTN+VoIP混合網(wǎng)絡維護,我們要看具體情況。在網(wǎng)絡部署初期,主動式測試系統(tǒng)占優(yōu)勢,它不但能夠及時報告網(wǎng)絡損傷和用戶感知的語音質(zhì)量,還能在用戶投訴后及時再現(xiàn)問題,并可以對用戶終端進行排查,找到問題所在;在網(wǎng)絡逐步走向成熟后,話音質(zhì)量問題逐步減少,被動式監(jiān)測系統(tǒng)會發(fā)揮更大的作用,因為這時候網(wǎng)絡協(xié)議交互方面的維護顯得更加突出。
(3)運營商采用主動式系統(tǒng)和被動式系統(tǒng)維護NGN網(wǎng)絡,如果運用合理,能夠起到相輔相成的作用。