資源描述:
《基于隱馬爾可夫模型的語音識別技術(shù)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchofSpeechRecognitiontechnologyBasedonHA心僵ByShuangyanJin一一fSupervisor:Prof.HaoliangLiRadioPhysicsSchoolofInformationEngineeringMay2013原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對本文的研究作出重要貢獻(xiàn)的個(gè)
2、人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者:靳強(qiáng)乒日期:>13年-J月/J日學(xué)位論文使用授權(quán)聲明本人在導(dǎo)師指導(dǎo)下完成的論文及相關(guān)的職務(wù)作品,知識產(chǎn)權(quán)歸屬鄭州大學(xué)。根據(jù)鄭州大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留或向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱;本人授權(quán)鄭州大學(xué)可以將本學(xué)位論文的全部或部分編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或者其他復(fù)制手段保存論文和匯編本學(xué)位論文。本人離校后發(fā)表、使用學(xué)位論文或與該學(xué)位論文直接相關(guān)的學(xué)術(shù)論文或成果時(shí),第一署名單位仍然為鄭州大學(xué)。保密論文在解密后應(yīng)遵守此規(guī)定。學(xué)位論文作者:斬l屯笏
3、日期:聊年r月壓日摘要摘要語音識別技術(shù)是機(jī)器學(xué)習(xí)的重要內(nèi)容之一,涉及信息處理、人工智能和模式識別等多個(gè)學(xué)科內(nèi)容,已經(jīng)在社會生活中得到廣泛的應(yīng)用。語音識別是讓機(jī)器聽懂人的語言,理解人的意圖,并對其做出相應(yīng)的反應(yīng),實(shí)現(xiàn)人與機(jī)器的交互通信。本文基于隱馬爾可夫模型(HiddenMarkovModel),建立了一套語音識別仿真系統(tǒng)。本文首先分析語音信號的預(yù)處理過程,提出采用雙門限法,即將短時(shí)能量和短時(shí)過零率相結(jié)合,對語音信號進(jìn)行端點(diǎn)檢測。相對于單一方法的端點(diǎn)檢測方法能得到更精確的語音段,為語音信號的后續(xù)處理奠定了基礎(chǔ)。接著詳細(xì)闡述了兩種特征參數(shù)提取方法,包括線性預(yù)測倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)
4、(MFCC),并分析了MFCC的一階差分系數(shù),得出結(jié)合一階差分后的倒譜參數(shù),可將語音識別率提高4%左右。最后,本文著重研究了基于HMM的語音識別算法,在Mmlab平臺上實(shí)現(xiàn)了一個(gè)較為完整的語音識別仿真過程,包含語音庫的建立、預(yù)處理、特征參數(shù)提取、訓(xùn)練(即參數(shù)選擇)、識別等過程。本論文建立了一個(gè)由10個(gè)人的錄音組成的語音數(shù)據(jù)庫,由漢語數(shù)字0~9、“鄭”、“州”、“大”、“學(xué)”共14個(gè)樣本組成,總共700個(gè)發(fā)音,為論文提供仿真實(shí)驗(yàn)數(shù)據(jù)。對HMM在實(shí)際中的應(yīng)用做了優(yōu)化處理,包括初始模型選取、Viterbi算法的對數(shù)處理以及參數(shù)重估問題。通過分析實(shí)驗(yàn)結(jié)果,得出CHMM狀態(tài)數(shù)為4,訓(xùn)練次數(shù)為20次,特
5、征參數(shù)選取48維LPCC和MFCC的混合參數(shù),可使語音識別系統(tǒng)對于漢語孤立詞的識別率達(dá)到90%。在試驗(yàn)過程中本文還分析了由于漢語發(fā)音的復(fù)雜性和特殊性而引起的有些樣本元素的誤識問題,并提出了待解決方案。關(guān)鍵詞:隱馬爾可夫模型;端點(diǎn)檢測;語音特征參數(shù)提取;語音識別AbstractSpeechrecognitiontechnologyisanimportantpartofmachinelearning,whichinvolvesmultipledisciplinescontentoftheinformationprocessing,artificialintelligenceandpattemre
6、cognitionandSOon.Ithasbeenwidelyusedinthesociallife.Speechrecognitionallowsmachinestounderstandhumanlanguageandtheintentofthepersonandreactaccordingly,ultimatelyrealizestheinteractivecommunicationbetweenmanandmachine.ThispapersetsupaspeechrecognitionsimulationsystembasedonHiddenMarkovModels.Thispap
7、erfirstanalyzestheprocessofspeechsignalpretreatment,proposesdual-thresholdmethod,whichisthecombinationofshort-timeenergyandshort-timezero—crossingrate,tomakespeechsignalendpointdetection.Comparedtothesingle