- 相關推薦
基于16位單片機的語音電子門鎖系統
摘要:介紹采用聲紋識別技術、在凌陽SPCE061A單片機上實現的一種語音電子門鎖身份認證系統。實驗結果表明,系統性能穩定,識別效果好,可以推廣使用。
關鍵詞:聲紋識別 基于周期 線性預測 模式匹配 DTW
生物識別技術是利用人體生物特征進行身份認證的一種技術,是目前公認的最為方便與安全的識別技術。由于每個人的生物特征具有與其他人不同的唯一和在一定時期內不變的穩定性,不易偽造和假冒,所以利用牲識別和技術進行身份認證,安全、準確、可靠。
在生物識別領域中,聲紋識別,也稱為說話人識別,以其獨特的方便性、經濟性和準確性等優勢受到世人矚目,并且益成為人們日常生活和工作中重要且普遍的安全認證方式。聲紋識別是一種根據說話人語音波形中反映說話人生理和行為特征的語音參數,自動識別說明人身份的技術。
聲紋識技術可分為兩類,即說話人辨認和說話人確認。前者用以判斷某段語音是若干人中的哪一個所說的,是多選一的問題;而后者用以確認某段語音是若干人中的哪一個所說的,是多選一的問題;而后者用以確認某段語音是否是指定的某個人所說的,是一對一判別的問題。從另一方面,聲紋識別又有與文本有關和與文本無關兩種,根據特定的任務和應用,應用范圍不同。與文本有關的聲紋識別系統要求用戶按照規定的內容發音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規定的內容發音,因此可以達到較好的識別效果;而與文本無關的識別系統則不規定說話人的發音內容,模型建立相對困難,但用戶使用方便,應用范圍較寬。
本文介紹的語音電子門鎖是一種在凌陽16位單片機SPCE061A上實現的與文本有關的說話人確認系統。該系統主要由說話人識別模塊、門鎖控制電機以及門鎖等部分組成。在訓練時,說話人的聲音通過麥克風進入說話人語音信號采集前端電路,由語音信號處理電路對采集的語音信號進行特征化和語音處理,提取說話人的個性特征參數并進行存儲,形成說話人特征參數數據庫。在識別時,將待識別語音與說話人特征參數數據庫進行匹配,通過輸出電路控制門鎖電機,最終實現對門鎖的控制。
1 算法原理
說話人識別算法原理框圖如圖1所示。
1.1 預處理
(1)去噪
對麥克風輸入的模擬語音信號進行量化和采樣,獲得數字化的語音信號;再將含噪的語音信號通過去噪處理,得到干凈的語音信號后并通過預加重技術濾除低頻干擾,尤其是50Hz或60Hz的工頻干擾,提升語音信號的高頻部分,而且它還可以起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的作用。
。2)端點檢測
本系統采用語音信號的短時能量和短時過零率進行端點檢測。語音信號的采樣頻率為8kHz,每幀數據為20ms,共計160個采樣點。每隔20ms計算一次短時能量和短時過零率。通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、LPCC等特征參數非常有用的濁音信號。
1.2 特征提取
在語音信號預處理后,接著是特征參數的提取。特征提取的任務就是提取語音信號中表征人的基本特征。
1.2.1 特征參數的選取
特征必須能夠有效地區分不同的說話人,且對同一說話人的變化保持相對穩定,同時要求特征參數計算簡便,最好有高效快速算法,以保證識別的實時性。
說話人特征大體可歸為下述幾類:
。1)基于發聲器官如聲門、聲道和鼻腔的生理結構而提取的參數。如譜包絡、基音、共振峰等。其中基音能夠很好地刻畫說話人的聲帶特征,在很大程度上反映了人的個性特征。
。2)基于聲道特征模型,通過線性預測分析得到的參數。包括線性預測系數(LPC)以及由線性預測導出的各種參數,如線性預測倒譜系數(LPCC)、部分相關系數、反射系數、對數面積比、LSP線譜對、線性預測殘差等。根據前人的工作成果和實際測試比較,LPCC參數不但能較好地反饋聲道的共振峰特性,具有較好地識別效果,而且可以用比較簡單的運算和較快的速度求得。
。3)基于人耳的聽覺機理,反映聽覺特性,模擬人耳對聲音頻率感知的特征參數。如美國爾倒譜系數(MFCC)等。MFCC參數與基于線性預測的倒譜分析相比,突出的優點是不依賴全極點語音產生模型的假定,在與廣西無關的說話人識別系統中MFCC參數能夠比LPCC參數更好地提高系統的識別性能。
此外,人們還通過對不同特征參數量的組合來提高實際系統的性能。當各組合參量間相關性不大時,會有較好的效果,因為它們分別反映了語音信號的不同特征。
在計算機平臺的仿真實驗中,通過各種參數的實際比較,采用MFCC參數比采用LPCC參數有更好的識別效果。但在SPCE061A平臺上做實時處理時,與LPCC系統相比,MFCC系數計算有兩個缺點:一是計算時間長;二是精度難以保證。由于MFCC系統的計算需要FFT變換和對數操作,影響了計算的動態范圍;要保證系統識別的實時性,就只有犧牲參數精度。而LPCC參數的計算有遞推公式,速度和精度都可以保證,識別效果也滿足實際需要。
本系統采用了基音周期和線性預測倒譜系數(LPCC)共同作為說話人識別的特征參數。
1.2.2 LPCC參數的提取
基于線性預測分析的倒譜參數LPCC可以通過簡單的遞推公式由線性預測系數求得。遞推公式如下:
其中p為LPC模型的階數,也是模型的極點個數。
(1)LPC模型階數p的確定
為使模型假定更好地符合語音產生模型,應該使LPC模型的階數p與共振峰個數相吻合,其次是考慮聲門脈沖形狀和口唇輻射影響的補償。通常一對極點對應一個共振峰,10kHz采樣的語音信號通常有5個共振峰,取p=10,對于8kHz采樣的語音信號可取p=8。此外為了彌補鼻音中存在的零點以及其他因素引起的偏差,通常在上述階數的基礎上再增加兩個極點,即分別是p=12和p10。實驗表明,選擇LPC分析階數p=12,對絕大多數語音信號的聲道模型可以足夠近似地逼近。P值選得過大雖然可以略微改善逼近效果,但也帶來一些負作用,一方面是加大了計算量,另一方面有可能增添一些不必要的細節。
。2)線性預測系數的求取
自相關解法主要有杜賓(Durbin)算法、格型(Lattice)算法和舒爾(Schur)算法等幾種遞推算法。其中在杜賓算法是目前最常用的算法,而且在求取LPC系數時計算量也量小,本系統采用該遞推算法。
1.2.3 基音參數的提取
基音估計的方法很多,主要有基于短時自相關函數和基于短時平均幅度差函數(AMDF)等基音估計方法。
。1)基于短時自相關函數的基音估計
短時自相關函數在基音周期的整數倍位置存在較大的峰值,只要找出第一最大峰值的位置就可以估計出基音周期。
。2)基于短時平均幅度差函數(AMDF)的基音估計
基于短時平均幅度差函數(AMDF)在基音周期的整數倍位置存在較大的谷值,找到第一最大谷值的位置就可以估計出基音周期。這種方法的缺點是當語音信號的幅度快速變化時,AMFD函數的谷值深度會減小,從而影響基音估計的精度。
實際上第一最大峰(谷)值點的位置有時并不能與基音周期吻合,第一最大峰(谷)值點的位置與短時窗的長度有關且會受到共振峰的干擾。一般窗長至少應大于兩個基音周期,才可能獲得較好的估計效果。語音中最長基音周期值約為20ms,本系統在估計基音周期時窗長選擇40ms。為了減小共振峰的影響,首先對語音進行頻率范圍為Hz的帶通濾波。因為最高基音頻率為450Hz,所以將上限頻率設為900Hz可以保留語音的一、二次諧波,下降頻率為60Hz是為了濾除50Hz的電源干擾。
以上兩種方法都是對語音信號本身求相應的函數。本系統采用的基音估計方法是:首先對帶通濾波后的短時語音信號進行線性預測,求取預測殘差;再對殘差信號求自相關函數,找出第一最大峰值點的位置,即得到該段語音的基音估計值。實驗表明,通過殘差求取的基音軌跡比直接通過語音求取的基音軌跡效果更好,如圖2所示。圖2中橫坐標為語音幀數,縱坐標為8000/f,其中f為基音頻率。
下一頁
【基于16位單片機的語音電子門鎖系統】相關文章:
鐵電存儲器在新型語音電子門鎖系統中的應用03-19
基于ISD語音芯片的報警系統03-07
基于激光天線語音通信系統的研制03-18
基于DSP的語音處理系統的設計11-22
基于凌陽單片機的語音信號實時采集03-18
基于MSP53C392的語音合成系統03-18
基于單片機的實時傳真信息監測系統03-18
基于單片機的液位測量系統設計03-07