- 相關推薦
基于H.323協議的音頻混合方案設計的論文
摘 要:本文根據H.323協議,分析了多點處理單元(MCU)的組成,包括多點控制器(MC)和多點處理器(MP)。并在詳細的分析了音頻多點處理器后,提出了只對滿足條件的m個信道的音頻進行音頻混合的方案,有效的刻服了現在比較流行的平均調整權重算法的音頻混合方案所產生的缺陷和不足,大大提高了系統對音頻混合的效果。
關鍵詞:H.323協議;音頻混合;設計
近年來,由于網絡技術的快速發展為IP網絡實現多媒體通信提供了基礎條件,IPTV、視頻會議、多媒體遠程教育等寬帶網絡應用成為熱點。而視頻會議在實用化方面取得了迅速的發展,功能也己由原先單純的電視會議功能發展成遠程教學系統、遠程監控系統、遠程醫療系統等多方面的綜合業務。
1、多點控制單元(MCU)
H.323協議在邏輯上可以分為四個組成實體:終端(Terminal)、網關(Gateway)、網守(Gatekeeper)、多點控制單元(MCU)。
多點控制單元用于支持三個以上端點設備的會議。在H.323系統中,一個多點控制單元由一個多點控制器(MC)和幾個多點處理器(MP)組成,但也可以不包含MP。多點控制器處理終端間的H.245控制信息,從而決定它對視頻和音頻通常的處理能力。在必要情況下,多點控制器還可以判斷哪些視頻流和音頻流需要多播,以控制會議系統使用的資源。
視頻會議中,在集體討論和自由發言的情況下,可能會有多個與會者同時發言。為了使每個與會者能同時聽到其他所有發言者的聲音,采用了音頻混合技術。音頻混合單元從各個終端取得音頻信號,經過混合編碼后再發送到各終端。該技術的引入使得各終端在接收多個發言人的音頻信號時,在帶寬占用和信號處理方面,與接收單一發言人的音頻信號相比,不會增加任何額外負擔。
為了實現音頻信號混合功能,系統必須具備語音信號編解碼和音頻碼流轉換功能。H.323要求所有終端必須支持G.711語音標準,而對G.722,G.728,G.723.1和G.729標準則是可選擇的。對于能夠提供高速帶寬環境的網絡,為了保證語音的高質量,可以采用速率較高的編碼方式,如G.711, G.722;對于遠程接入系統,由于帶寬昂貴,則可以采用碼率較低的編碼方式,如G.723.1。相應地,MCU必須支持以上各種語音編碼標準。
音頻混合單元要求輸入的各路語音信息屬于同一種編碼,但實際應用中由于各個終端選用的編碼器可能不同,因而發往MCU的音頻碼流也可能不同。為了解決這個矛盾,必須在混音之前先進行碼流轉換,將不同的碼流轉換成同一種編碼,再送入音頻混合處理單元。
2、音頻混合方案設計
在實際應用中,如果與會人數只有兩人,則只要保證通信是全雙工的,就可以正常地進行會議,而無須進行混音。如果與會人數超過3人,則需要采用混音或者轉發機制。
轉發機制有兩種策略:其一,將其他端點的數據都轉發給一個端點;其二,按照約定的某種規則選出一路進行轉發,也就是常見的“話筒傳遞”模式。這兩種模式雖然可以滿足一定層面的需求,但都存在明顯的缺陷。前者會增加網絡的傳輸負擔和端點的處理負擔,后者在多人會議的討論中有明顯的反應慢效果差的缺陷。如果與會者希望能夠進行比較頻繁的切換發言或者討論,則會出現明顯的斷續和切換失效等情況。
而實時混音則能很好地解決這些問題。實際應用中,一般的混音方案都會采用時域疊加作為基本的處理手段。但是根據前面的分析可知,由于數字音頻信號存在量化上限和下限的問題,則因疊加運算肯定會造成結果溢出。通常的處理手段是進行溢出檢測,然后再進行飽和運算,即超過上限的結果被置為上限值,超過下限的值置為下限值。這種運算本身破壞了語音信號原有的時域特征,從而引入了噪聲。這就是在某些系統中會出現爆破聲和語音不連續現象的原因。同時,隨著參與混音的人數增加,出現溢出的頻率也不斷上升,所以這類方法存在一個上限,而且這個上限值很低,實驗證明,一般在4個終端參與混音時其結果就有很多噪音和斷續,無法分辨語流了。
3、音頻混合方案的改進設計
直接將各路音頻流算術相加得到音頻混合信號,其優點是簡單且易于實現。經測試,在輸入語音流少于4路時,能清晰地分辨各路語音信號。但系統仍存在問題。
在前述方法的基礎上稍作改進可得到另一類混音設計方法,即將各路音頻碼流解碼后,先對解碼語音信號作一定程度的衰減,再進行算術相加。一般是在各路語音上乘以一個衰減因子1/n,其中n為進入混音器的語音流數目。這種方法能絕對保證相加后的語音信號不會溢出,而且對原算法的修改極少,極易實現。但是它存在的關鍵問題是,當進入混音器的語音流數較多時,各路語音信號的衰減程度都比較大,混音的結果是所有信號都比較弱,無法突出重點,嚴重時可能所有聲音都聽不清楚。
實現這一改進策略時,仍然是在每個語音通道上綁定一個解碼器,負責該路語音的解碼,但無需再綁定編碼器。系統中最多同時存在m+l個編碼器,其中m個分配給m路被選中的語音通道,另一個分配給音頻混合信號S,對S編碼后的碼流發送到所有未被選中的終端和廣播終端。由于解碼器的運算復雜度遠小于編碼器,因此系統的計算負荷大大降低。改進后的混音器只選取音量最大的m路進行混音,其余信號被衰減,合理選擇m的值,不僅使會議發言重點得以突出,與會者能獲得最重要的發言信息,而且一般情況下都不會發生溢出情況。這一改進措施同時解決了前述兩種方法所存在的問題和缺陷。
某個編碼器在由一個語音通道轉而分配給另一個語音通道時,必須先進行初始化(G.711a/u除外)。必須注意,要盡量減少編碼器和語音通道之間對應關系的改變。
4、結束
本文在研究了H.323協議的基礎上,研究了MCU的音頻混合模型,并詳細闡述了音頻混合方案,為了過濾混合時的嘈音和增加臨場感,提出了音頻混合方案的改進方案。
【基于H.323協議的音頻混合方案設計的論文】相關文章:
利用光纜解決音頻信號傳輸問題的論文04-25
論文課題研究方案設計06-04
基于問題導引的探究式教學研究論文08-03
基于遺忘理論的英語移動學習模型探究的論文05-20
基于單片機監控系統的研究畢業論文06-14
高校混合式教學法探討論文04-21
口腔醫學教育基于問題的學習教學模式論文05-07
基于藝術展覽的公共文化服務體系建設論文04-19