售前電話
135-3656-7657
售前電話 : 135-3656-7657
業(yè)界各方為了提高VoIP語(yǔ)音質(zhì)量各顯其能,語(yǔ)音質(zhì)量的評(píng)測(cè)方案層出不窮,但都以主觀評(píng)測(cè)為主流。我們?cè)趯?duì)有信VoIP網(wǎng)絡(luò)電話做評(píng)測(cè)時(shí),會(huì)從抗時(shí)延、抗丟包、噪聲抑制以及音量大小等多種維度去考慮,本文主要介紹了客觀評(píng)測(cè)語(yǔ)音質(zhì)量的一些方法和案例。
2 測(cè)試環(huán)境搭建
2.1 測(cè)試設(shè)備
測(cè)試設(shè)備:PC +測(cè)試手機(jī)2部+音頻線2條+耳機(jī)麥克風(fēng)二合一轉(zhuǎn)接線。
在 PC 上播放音頻,聲音從 PC 的揚(yáng)聲器通過(guò)音頻線和轉(zhuǎn)接線傳入到主叫A的麥克里,然后主叫A中的通話軟件采集聲音并經(jīng)過(guò)網(wǎng)絡(luò)傳到被叫B,之后聲音從被叫B通過(guò)音頻線連接PC的麥克風(fēng)傳入到PC上,在PC上進(jìn)行音頻錄制操作。這里需要注意的是,由于主叫和被叫都有麥克風(fēng)權(quán)限,為了保證測(cè)試過(guò)程中數(shù)據(jù)的準(zhǔn)確性,不受外界聲音的影響,連接電腦mic端的被叫B一定要保持靜音,主叫A一定要插出耳機(jī)模式。
2.2 網(wǎng)絡(luò)環(huán)境模擬
VoIP決定了對(duì)網(wǎng)絡(luò)的強(qiáng)依賴性,因此需要評(píng)定在不同網(wǎng)絡(luò)狀態(tài)下的語(yǔ)音質(zhì)量的各項(xiàng)指標(biāo)。這里推薦使用網(wǎng)絡(luò)模擬軟件 Network Emulator Toolkit 模擬網(wǎng)絡(luò)丟包、抖動(dòng)等網(wǎng)絡(luò)異常情況。在電腦上安裝網(wǎng)絡(luò)模擬軟件,然后將電腦網(wǎng)絡(luò)作為 WiFi 熱點(diǎn)(可以使用 360 隨身 wifi 等工具實(shí)現(xiàn)),測(cè)試機(jī)連接熱點(diǎn) wifi,通過(guò)設(shè)置不同的參數(shù)實(shí)現(xiàn)丟包和網(wǎng)絡(luò)抖動(dòng)等網(wǎng)絡(luò)異常的情況。
網(wǎng)絡(luò)丟包設(shè)置方法:可以通過(guò)設(shè)置 Periodic Loss (周期性丟包)參數(shù)實(shí)現(xiàn)(如設(shè)置參數(shù)為 10,表示每 10 個(gè)包丟一個(gè)包,即丟包率為 10%),也可以設(shè)置Random Loss(隨機(jī)丟包)參數(shù)實(shí)現(xiàn)(Random Loss 中的數(shù)值若填寫0.05,則表示隨機(jī)丟包率為5%),一般隨機(jī)丟包更貼近真實(shí)的網(wǎng)絡(luò)情況。
網(wǎng)絡(luò)抖動(dòng)設(shè)置方法:可以通過(guò)設(shè)置變化的延時(shí) Linear 參數(shù)來(lái)實(shí)現(xiàn),Linear 設(shè)置項(xiàng)表示在設(shè)置時(shí)間內(nèi) period,延時(shí)會(huì)從設(shè)置的最小值 Min 逐漸變化到設(shè)置的最大值 Max (如設(shè)置 min 為 0,max 為 100,表示抖動(dòng)幅度為 100ms),也可以設(shè)置Normal Distributed 的參數(shù)來(lái)模擬。
2.3 音頻文件以及分析工具的選擇
分析音頻的軟件有很多,本文采用Cool Edit Pro,方便易用。將音頻文件在Cool Edit Pro中打開,可以看到音頻是否滿足測(cè)試條件,例如,在音質(zhì)測(cè)試時(shí),要保證波形適中,振幅分布均勻。
由于 PESQ 算法的特殊性,對(duì)聲音源文件的選擇有一定的要求。
1. 源聲音文件的長(zhǎng)度在6s~8s之間,過(guò)長(zhǎng)或過(guò)短都會(huì)影響計(jì)算結(jié)果。
2. 靜音區(qū)和非靜音區(qū)的比例要適中,盡量保正[非靜音:靜音=6:4 ]或 [非靜音:靜音=5:5 ]或[非靜音:靜音=4:6 ]。使用 PESQ 計(jì)算 MOS 分時(shí),要用純凈的不帶噪聲的文件。
3. 使用 Cool Edit Pro 錄音時(shí),應(yīng)保證輸出的波形適中,可通過(guò)調(diào)節(jié)音頻播放音量和 PC 錄音音量來(lái)控制。
3 測(cè)試指標(biāo)以及測(cè)試方法
3.1 音質(zhì)(QV)
音質(zhì)(Quality of Voice)是指經(jīng)傳輸、處理后 音頻信號(hào)的保真度,是對(duì)音量音高、音調(diào)、音色等一些列影響因素的綜合評(píng)價(jià)。本文所用的音質(zhì)的測(cè)試方法,是利用python的音頻插件pyAudio來(lái)輸入源文件以及錄制輸出音頻,通過(guò)國(guó)際通用的PESQ(Perceptual evaluation of speech quality)算法來(lái)對(duì)比兩個(gè)輸入和輸出的音頻,最終計(jì)算出MOS(Mean Opinion Score)值。以上整個(gè)過(guò)程都是通過(guò)腳本完成,避免了人工參與引入的誤差。如1.1中的示意圖連接好設(shè)備后,兩臺(tái)手機(jī)通過(guò)AppA進(jìn)行通話,通話過(guò)程中執(zhí)行腳本,腳本中一些變量的值,例如執(zhí)行次數(shù)、采樣率、Delay時(shí)長(zhǎng)等都可以根據(jù)測(cè)試對(duì)象的實(shí)際情況進(jìn)行靈活調(diào)整,以盡量找到測(cè)試對(duì)象的天花板。
3.2 語(yǔ)音時(shí)延(DV)
語(yǔ)音時(shí)延(Delay of Voice),兩個(gè)移動(dòng)終端進(jìn)行通話過(guò)程中,主觀感受的時(shí)延是指輸出音頻的時(shí)間減去輸入音頻的時(shí)間,即被叫聽(tīng)到聲音的時(shí)間減去主叫發(fā)出聲音的時(shí)間。DV過(guò)大,比較容易出現(xiàn)響應(yīng)遲緩、或者雙講的情況,非常影響通話體驗(yàn)。本文中對(duì)DV的測(cè)試方法是,如 1.1 中的示意圖連接好設(shè)備后,兩臺(tái)手機(jī)通過(guò)AppA進(jìn)行通話,通過(guò)腳本來(lái)計(jì)算音頻輸入的時(shí)間和錄制音頻的輸出時(shí)間,這個(gè)過(guò)程相比主觀測(cè)試,排除了人耳的差異性帶來(lái)的誤差,使得測(cè)試結(jié)果更精準(zhǔn)。通過(guò)腳本跑出的時(shí)延數(shù)據(jù),取 50~100組延時(shí)數(shù)據(jù)算平均值即可。
3.3 噪聲抑制(NS)
大多數(shù)情況下,VoIP通信系統(tǒng)的輸入端不可能接受到純凈的原始語(yǔ)音,只能接受到被背景噪聲干擾后的含噪語(yǔ)音。背景噪聲極大地干擾了語(yǔ)音通信的質(zhì)量,降低了語(yǔ)音的清晰度和可懂性。噪聲抑制(Noise Suppression)的主要目的在于從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音。但是,過(guò)度的NS可能會(huì)產(chǎn)生降低語(yǔ)音音量等級(jí)、處理后的語(yǔ)音中的噪聲不均勻,導(dǎo)致體驗(yàn)差等的負(fù)面效應(yīng)。
如果是分析同一個(gè)app不同版本的降噪效果,可以使用語(yǔ)音音量和噪聲音量的Average RMS Power差值進(jìn)行比對(duì),單位是dB,一般為正數(shù)(語(yǔ)音音量大于噪聲音量),差值越大,NS效果越好。但是,如果要分析不同app的NS效果,PESQ 差距大時(shí),則認(rèn)為 PESQ 低的 NS 對(duì)音質(zhì)的損傷高,NS 效果差(但有噪聲的文件計(jì)算出來(lái)的PESQ的值并不準(zhǔn)確,因此不建議使用該方法),我們要同時(shí)考慮到NS的負(fù)面影響。因此,當(dāng)PESQ 差距較小時(shí), 我們定義
d1= RMS(產(chǎn)品 1 的非噪聲)-RMS(產(chǎn)品 2 的非噪聲)
d2= RMS(產(chǎn)品 1 的噪聲)-RMS(產(chǎn)品 2 的噪聲)
如果:
d1 > d2,則產(chǎn)品1的NS優(yōu)于產(chǎn)品2;
d1 = d2,則產(chǎn)品1、2的NS效果基本一致;
d1 < d2,,則產(chǎn)品1的NS差于產(chǎn)品2。
3.4 音量大小(VV)
音量大?。╒olume of Voice)即音頻的強(qiáng)度和幅度。不同的群體對(duì)音量大小的適應(yīng)度存在一定的差異性。因此衡量音量的大小要從不同的維度來(lái)考量。本文中音量大小的評(píng)定是在不同播放音量條件下,播放同一個(gè)源聲音文件,同時(shí)錄制輸出的音頻,分析不同文件的Average RMS Power,單位是dB,為負(fù)數(shù),絕對(duì)值越大,音量越小。其中,不同的播放音量大小的定義為:
小音量——30%;
正常音量——50%;
大音量——70%。
4 測(cè)試結(jié)果
4.1 抗丟包性能
以5%為步長(zhǎng),從無(wú)丟包率逐級(jí)遞增到30%的隨機(jī)丟包率,分別評(píng)測(cè)AppA和AppB在不同丟包率條件下的語(yǔ)音時(shí)延和MOS分。測(cè)試結(jié)果如下:
從上圖可以看出,隨著丟包率的遞增,AppA和AppB的MOS分均沒(méi)有明顯的變化趨勢(shì),整體的MOS分,AppA高于AppB。隨著丟包率的遞增,AppA和AppB的語(yǔ)音時(shí)延均表現(xiàn)出先增加后下降的趨勢(shì)(由于測(cè)試時(shí)網(wǎng)絡(luò)狀態(tài)不同,導(dǎo)致數(shù)據(jù)結(jié)果有一定的差異性),整體的語(yǔ)音時(shí)延,AppA的大于AppB。
4.2 抗時(shí)延性能
以50ms為步長(zhǎng),從0ms的網(wǎng)絡(luò)時(shí)延逐級(jí)遞增至400ms,分別評(píng)測(cè)AppA和AppB在不同網(wǎng)絡(luò)時(shí)延條件下的語(yǔ)音時(shí)延和MOS分。測(cè)試結(jié)果如下:
從上圖可以看出,隨著網(wǎng)絡(luò)時(shí)延的增加,AppA的MOS分整體處于輕微的下降趨勢(shì),下降幅度不明顯,AppB整體趨勢(shì)較平穩(wěn),MOS分變化不大。在語(yǔ)音時(shí)延方面,隨著網(wǎng)絡(luò)時(shí)延的增加,AppA的語(yǔ)音時(shí)延整體處于增加趨勢(shì),且增加幅度較大,無(wú)網(wǎng)絡(luò)時(shí)延時(shí)的語(yǔ)音時(shí)延為400.92ms,當(dāng)網(wǎng)絡(luò)時(shí)延400ms時(shí)的語(yǔ)音時(shí)延為489.44ms;AppB的語(yǔ)音時(shí)延隨著網(wǎng)絡(luò)時(shí)延的增加變化不大。整體看,不同網(wǎng)絡(luò)時(shí)延下,AppA的語(yǔ)音時(shí)延高于AppB。
4.3 通話過(guò)程中語(yǔ)音時(shí)延的變化情況分析
通過(guò)分析不同網(wǎng)絡(luò)時(shí)延下的語(yǔ)音時(shí)延數(shù)據(jù)流,觀察不同的網(wǎng)絡(luò)時(shí)延條件下,從通話開始到通話結(jié)束整個(gè)過(guò)程中,不同app的語(yǔ)音時(shí)延變化情況。
注:上圖中橫坐標(biāo)軸表示的是通話20分鐘左右的語(yǔ)音時(shí)延數(shù)據(jù),每通通話取100組數(shù)據(jù)來(lái)分析。粗略估計(jì)第10組數(shù)據(jù)大概在通話5-10分鐘左右。
從上圖可以看出,網(wǎng)絡(luò)時(shí)延較大的條件下,AppA在通話開始的幾分鐘,語(yǔ)音時(shí)延一直處于較高的狀態(tài),大概通話10分鐘左右,語(yǔ)音時(shí)延數(shù)據(jù)逐漸趨于平穩(wěn),并可維持平穩(wěn)狀態(tài)一直到通話結(jié)束,因此可以推測(cè),AppA在通話開始時(shí)質(zhì)量不是很穩(wěn)定,但是隨著通話時(shí)長(zhǎng)的增加,會(huì)逐步進(jìn)入一個(gè)較好的通話質(zhì)量狀態(tài)。
從AppB的數(shù)據(jù)上來(lái)看,無(wú)論網(wǎng)絡(luò)時(shí)延增加到多少,AppB的語(yǔ)音時(shí)延從通話開始就一直處于一個(gè)平穩(wěn)狀態(tài),但是在通話過(guò)程中,會(huì)有偶爾的語(yǔ)音時(shí)延波動(dòng),可以推測(cè),AppB的整體通話質(zhì)量較平穩(wěn),但中間偶爾會(huì)有質(zhì)量不佳的情況。
4.4 噪聲抑制
使用語(yǔ)音音量和噪聲音量的Average RMS Power差值進(jìn)行比對(duì),單位是dB,一般為正數(shù)(語(yǔ)音音量大于噪聲音量),差值越大,NS效果越好。
在競(jìng)品分析時(shí),可用不同競(jìng)品之間的非噪音差減去噪音差,若差值大于0,則可以認(rèn)為噪聲抑制效果較好。
注:我們定義播放音量的級(jí)別分別為:小音量=30%,正常音量=50%,大音量=70%。
從上表可以看出,無(wú)論是小音量、正常音量還是大音量的條件下,AppA的非噪聲減去噪聲的值均大于AppB。音量越大,差值越大。用AppA的音量減去AppB的音量得到音量差,用AppA的噪聲減去AppB的噪聲得到噪音差,最后用音量差-噪音差,得出的值,見(jiàn)上表。在小音量、正常音量和大音量的條件下,所有的差值均大于0,可以認(rèn)為AppA的噪聲抑制效果較好。
從上圖看出,同一個(gè)源聲音文件(噪聲RMS均值為-32.54dB,非噪聲RMS均值為-23.87dB)通過(guò)AppA輸出的音頻,小音量時(shí),噪聲能量減少1.21dB,非噪聲基本保持不變,正常音量時(shí),噪聲能量減少2.18 dB,非噪聲減少3.37 dB;大音量時(shí),噪聲減少3.97 dB,非噪聲減少6.1 dB??梢钥闯觯瑢?duì)于AppA,播放音量越大,噪聲抑制過(guò)程所減弱的音量越多。
通過(guò)AppB輸出的音頻,小音量時(shí),噪聲能量減少7.2dB,非噪聲減少5.87 dB,正常音量時(shí),噪聲能量減少9.54 dB,非噪聲減少8.23 dB,大音量時(shí),噪聲能量減少9.21 dB,非噪聲能量減少7.69 dB。可以看出,對(duì)于AppB,不同音量下輸出的噪聲和非噪聲能量減少相當(dāng),無(wú)明顯差別。
4.5 音量
輸出的聲音文件的音量大小如下表所示:
從上圖可以看出,不同的播放音量下,AppB的輸出音量均大于AppA。其中,小音量時(shí),AppB比AppA大4.1dB,正常音量時(shí),差別不大,大播放音量時(shí),AppB比AppA大2.0dB。
從變化趨勢(shì)上可以看出,AppA的播放音量越大,輸出的音量也越大,AppB在小音量和正常音量時(shí),輸出的音量無(wú)明顯差別,但是在大音量時(shí),輸出的音量相應(yīng)增加2.19dB。
5 小結(jié)
影響語(yǔ)音質(zhì)量的因素是多維度的,主要包括時(shí)延、丟包、抖動(dòng),這也預(yù)示著VoIP對(duì)網(wǎng)絡(luò)的強(qiáng)依賴性。語(yǔ)音質(zhì)量的好壞是影響用戶體驗(yàn)的直接因素,因此對(duì)VoIP語(yǔ)音質(zhì)量進(jìn)行客觀有效的分析和測(cè)量是十分重要的。本文介紹了利用腳本和工具分析時(shí)延、音質(zhì)、音量、降噪等不同指標(biāo)的客觀評(píng)測(cè)方法,并且把具體的案例結(jié)果呈現(xiàn)出來(lái)以供探討。