售前電話
135-3656-7657
售前電話 : 135-3656-7657
釋放雙眼,帶上耳機,聽聽看~!
00:00
00:00
語音壓縮
數(shù)字語音總是源自具有64kbit/s速率的PCM語音流,這將引起一些問題。解決它最簡單的方法是對PCM語音流進行某種形式的壓縮。盡管通常用“語音壓縮”表示這一處理,但是它并不是指壓縮語音本身,而是指壓縮64kbit/s的PCM語音流。今天可將語音壓縮到13khit/s,甚至于8kbit/s??梢酝ㄟ^以下兩種方法實現(xiàn)語音壓縮:第一種,開發(fā)新的芯片組將模擬語音直接轉(zhuǎn)化成上述速率。第二種方法,把64kbit/s的PCM語音流作為第二階段語音數(shù)字化的輸入處理對象,這次數(shù)字化的輸出就是較低速率的語音了。第二種方法不要求全新的模數(shù)轉(zhuǎn)化芯片,僅僅是增加一些對64kbit/s速率的PCM語音流進行壓縮的芯片。
注意,語音壓縮本身不能自動產(chǎn)生突發(fā)式語音。8kbit/s的語音仍然是固定比特速率的。要想把語音變?yōu)橥话l(fā)式的,就必須將談話中不說話的部分去除。
無話部分抑制
無話部分抑制是指將談話中不說話的部分去除。引起沒有語音的主要原因是談話中,總有·方處于玲聽狀態(tài),也有小部分無語音是由句與句、短語與短語之間的停頓引起的。總之,在一個雙向的64kbit/s速率的PCM語音流交談中,有60%并沒有實際語音。
抑制無話部分面對的最大問題是:說話的人在一段沉默之后,如何識別他將于何時再開始說話。為什么這會成為一個困難呢?這是因為談話方總有些背景噪聲的影響,根據(jù)無話部分抑制的概念,周圍的背景噪聲不應(yīng)被分組化,也不應(yīng)被發(fā)送,系統(tǒng)應(yīng)該只對真正的語音進行處理,所以必需把背景噪聲和真正的語音區(qū)分開來。其中的技巧在于可靠地識別出說話人的音量級別遠遠高于背景噪聲的,從而判斷出他又開始說話了。比背景噪聲高的聲音也可能是噪聲的突然爆發(fā)(比如敲擊聲)。這就是“語音激活識別”(簡稱VAD)問題。
如果語音激活識別的級別設(shè)置得太低,那么玲聽的一方會突然聽到敲擊聲、車鳴聲等等外界與談話無關(guān)的聲音。如果語音激活識別的級別設(shè)置得太高了,那么談話人再次開始的談話將被剪輯掉一部分,剛開始的聲音因為較低而不被分組化和發(fā)送。因為語音分組化的處理是實時的,所以當(dāng)設(shè)置級別過高的VAD進程意識到交談的人已經(jīng)開始說話時,已經(jīng)來不及獲取最初的語音了。
當(dāng)對VoIP分組進行了語音壓縮和對抑制無話部分進行處理之后,就可以使它與其他分組一起在64kbit/s的鏈路上傳輸了。但這樣做,我們將很難將鏈路上的VoIP分組傳輸和文件傳輸、電子郵件傳輸區(qū)別開來。