資源描述:
《基于隱馬爾可夫模型的語(yǔ)音識(shí)別技術(shù)在載人航天器上的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、第30卷第4期航天器環(huán)境工程2013年8月SPACECRAFTENVIRONMENTENGINEERING44l基于隱馬爾可夫模型的語(yǔ)音識(shí)別技術(shù)在載人航天器上的應(yīng)用李皖玲,梁吳迪,張?zhí)煜?中國(guó)空間技術(shù)研究院載人航天總體部,北京100094)摘要:利用嵌入式平臺(tái)構(gòu)建了基于隱馬爾可夫模型(HiddenMarkovModel,HMM)技術(shù)的載人航天器語(yǔ)音識(shí)別系統(tǒng),并針對(duì)載人航天器特殊的噪聲背景和聲學(xué)訓(xùn)練,對(duì)傳統(tǒng)語(yǔ)音端點(diǎn)檢測(cè)算法進(jìn)行了改進(jìn)。通過試驗(yàn)在嵌入式運(yùn)行環(huán)境下實(shí)現(xiàn)了指令發(fā)送、文字輸入等功能,證實(shí)該系統(tǒng)
2、適應(yīng)航天員的口音和發(fā)音習(xí)慣,可對(duì)連貫自然發(fā)音方式的命令進(jìn)行識(shí)別,能夠滿足航天員及任務(wù)使用需求。關(guān)鍵詞:載人航天器;語(yǔ)音識(shí)別;隱馬爾可夫模型;硬件設(shè)計(jì);軟件設(shè)計(jì)中圖分類號(hào):TP912.34文獻(xiàn)標(biāo)志碼:A文章編號(hào):DoI:10.3969/j.issn.1673—1379.2叭3.04.020O引言語(yǔ)音識(shí)別即利用計(jì)算機(jī)解讀人的語(yǔ)音,并轉(zhuǎn)換為相應(yīng)的文本信息及指令,用于信息輸入及系統(tǒng)控制,是當(dāng)前人機(jī)交互研究領(lǐng)域的熱點(diǎn)之一¨J。目前,載人航天器控制的輸入方式仍然以手動(dòng)操作為主,但隨著有人參與任務(wù)的復(fù)雜性增加,座
3、艙操作面積與手動(dòng)操作需求之間的矛盾日益突出,若想完成更為復(fù)雜的任務(wù),僅用手動(dòng)方式難以實(shí)現(xiàn)。近幾年,隨著語(yǔ)音識(shí)別技術(shù)在各個(gè)領(lǐng)域的應(yīng)用推廣,語(yǔ)音輸入技術(shù)在飛行器控制上的應(yīng)用研究正逐漸受到重視【3珥J。美國(guó)空軍研究實(shí)驗(yàn)室(AirForceRese躺hLabo舳ry)針對(duì)無人機(jī)的控制,分別以手動(dòng)輸入與語(yǔ)音輸入模式進(jìn)行了大量的控制指令輸入實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)顯示語(yǔ)音輸入具有明顯的優(yōu)勢(shì)【2j:執(zhí)行效率高,任務(wù)完成時(shí)間可縮短近40%;錯(cuò)誤率低,執(zhí)行錯(cuò)誤率可降低1/3;交互效果好,更符合人類交流習(xí)慣。語(yǔ)音識(shí)別根據(jù)所處理語(yǔ)
4、音對(duì)象的不同,可分別歸類為:特定人或非特定人;小、中、大詞匯量;孤立詞語(yǔ)音識(shí)別或連續(xù)語(yǔ)音識(shí)別。本文研究針對(duì)載人航天器控制輸入(固定模式航天員操作口令),其語(yǔ)音識(shí)別系統(tǒng)是特定人、特定小詞匯量的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。l隱馬爾可夫模型(HMM)隱馬爾可夫模型(HiddenMarkovModel,HMM)是一種統(tǒng)計(jì)模型,其語(yǔ)法已被語(yǔ)音識(shí)別領(lǐng)域廣泛采用,是當(dāng)前最有效的語(yǔ)音識(shí)別方法[41。HMM是對(duì)信號(hào)的時(shí)間序列建立統(tǒng)計(jì)模型,并將其作為數(shù)學(xué)上的雙重隨機(jī)過程,原理如圖1所示,分為Markov鏈(兀,彳)和隨機(jī)過程(B
5、)兩部分。Markov鏈的輸出為狀態(tài)序列S;隨機(jī)過程產(chǎn)生的輸出為觀察值序列∥5。6]。圖1隱馬爾可夫模型原理Fig.1PrincipleofHiddenMarkoVModel記一個(gè)HMM為兄=(兀,4,B),(1)其中:兀為起始狀態(tài)概率,用于描述觀察值序列D在戶1時(shí)刻所處狀態(tài)。記f時(shí)刻的概率為吼,即兀={兀,),7c,=P(g。=S),f=1,2,?,Ⅳ,(2)且滿足y兀i:1。(3)收稿日期:2013.02.05;修回日期;2013-07-22基金項(xiàng)目:中國(guó)空間技術(shù)研究院載人航天總體部自主研發(fā)課題
6、作者簡(jiǎn)介:李皖玲(1981一),女,碩士學(xué)位,主要從事載人飛船儀表與照明分系統(tǒng)設(shè)計(jì)工作。Email:liwanlin966@gmail.com。442航天器環(huán)境工程第30卷彳為狀態(tài)轉(zhuǎn)移概率。即%=P(g,=■k。=I),(4)且滿足Ⅳ∑吩=1。(5),=1曰為觀察值序列D的任一觀察值在空間分布的概率,分為離散型和連續(xù)型兩類。離散HMM情況下,曰={屯(后),/=1,2,?,Ⅳ;尼=1,2,?,M},(6)其中M為編碼符號(hào)集中符號(hào)的總數(shù),且滿足∑0(尼)=1。(7)七=1連續(xù)HMM情況下,曰={%(D
7、),/=1,2,?,Ⅳ),(8)其中D為觀察值矢量空間的任一矢量,且滿足L.0(D)dD=1,(9)其中9表示第,狀態(tài)的觀察概率空間。人的言語(yǔ)過程即雙重隨機(jī)過程,語(yǔ)音信號(hào)是可觀測(cè)的時(shí)變序列,是根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))產(chǎn)生的音素的數(shù)據(jù)流,因此語(yǔ)言過程可用HMM模型進(jìn)行描述。2基于HMM技術(shù)的語(yǔ)音識(shí)別算法基于HMM技術(shù)的語(yǔ)音識(shí)別算法可以描述為:在給定輸入語(yǔ)音觀測(cè)序列的條件下,在聲學(xué)模型和語(yǔ)言模型的指導(dǎo)下,尋找一條最佳的解碼路徑,使得該路徑下的詞序列產(chǎn)生輸入語(yǔ)音觀察值序列的概率最大‘81。
8、典型的語(yǔ)音識(shí)別算法包含有特征提取(頻譜分析)、模式匹配和模型庫(kù)等3個(gè)基本單元,系統(tǒng)結(jié)構(gòu)如圖2所示[9‘10]。圖2語(yǔ)音識(shí)別算法系統(tǒng)結(jié)構(gòu)Fig.2Blockdiagramofspeechrecognitionalgorithm預(yù)處理單元對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行處理,執(zhí)行A/D轉(zhuǎn)換,并濾除信號(hào)中的背景噪聲及不重要的信息;同時(shí)進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)、預(yù)加重、噪聲抵消,以彌補(bǔ)語(yǔ)音信號(hào)高頻部分大約每10倍頻程衰減20dB的損失特性。頻譜分析單元對(duì)預(yù)處理后的數(shù)字信號(hào)進(jìn)行分析處理,提取