在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)
《在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)》由會(huì)員分享,可在線閱讀,更多相關(guān)《在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)(3頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì) 摘要:英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的開展方向是在線、連續(xù)性的人機(jī)交互,為此,設(shè)計(jì)在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng),并基于梅爾頻率倒譜系數(shù)設(shè)計(jì)語(yǔ)音識(shí)別函數(shù)。系統(tǒng)的參考數(shù)據(jù)庫(kù)選取NOSE算法計(jì)算語(yǔ)音評(píng)價(jià)分?jǐn)?shù)并查錯(cuò),利用專家知識(shí)庫(kù)糾正用戶英語(yǔ)語(yǔ)音。系統(tǒng)由語(yǔ)音訓(xùn)練模塊和在線連續(xù)交互式識(shí)別模塊組成,前者為系統(tǒng)數(shù)據(jù)庫(kù)提供英語(yǔ)語(yǔ)音的語(yǔ)料、音標(biāo)資源,后者實(shí)施系統(tǒng)數(shù)據(jù)庫(kù)的評(píng)價(jià)、糾正工作。實(shí)驗(yàn)結(jié)果證明設(shè)計(jì)的系統(tǒng)語(yǔ)音識(shí)別率高且識(shí)別時(shí)間短,有效性強(qiáng)。關(guān)鍵詞:在線;連續(xù)交互式;語(yǔ)音;智能識(shí)別?34文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1004?373X〔2021〕15?0137?04Abstra
2、ct:ThedevelopmentdirectionofEnglishphoneticsintelligentrecognitionsystemtowardstheon?lineandcontinuoushuman?computerinteraction,thereforeanon??linecontinuousinteractivemodule.TheformerprovidesthecorpusandphoneticresourcesofEnglishphoneticsforthesystemdatabase.Thelatterperformstheevaluationandcorrect
3、ionforthesystemdatabase.Theexperimentalresultsshowthatthesystemhashighspeechrecognitionrate,shortrecognitiontime,andhigheffectiveness.Keywords:onlinesystem;continuousinteraction;voice;intelligentrecognitionsystem0引言英語(yǔ)是國(guó)際語(yǔ)言,隨著各國(guó)間經(jīng)濟(jì)、人文、科技等信息交流的不斷加深,英語(yǔ)語(yǔ)音智能識(shí)別漸漸成為信息技術(shù)領(lǐng)域的重點(diǎn)研究對(duì)象,其目標(biāo)是使用機(jī)器達(dá)成設(shè)備與人類之間的語(yǔ)音交互,令設(shè)備更
4、加智能化,增加娛樂能力,為不方便進(jìn)行鍵盤、鼠標(biāo)錄入的人群提供便利。英語(yǔ)語(yǔ)音智能識(shí)別的目標(biāo)符合現(xiàn)代化開展腳步,英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)層出不窮,第一款識(shí)別系統(tǒng)名為Audry系統(tǒng),各項(xiàng)性能比較完善,現(xiàn)已得到極大開展。最近新出的Audry系統(tǒng)利用數(shù)據(jù)庫(kù)計(jì)算手段從英語(yǔ)根底語(yǔ)法開始對(duì)語(yǔ)音的元音和獨(dú)立詞進(jìn)行識(shí)別,識(shí)別率高,但識(shí)別時(shí)間長(zhǎng),只適合進(jìn)行短小語(yǔ)句識(shí)別。1963年,由前蘇聯(lián)設(shè)計(jì)的端點(diǎn)檢測(cè)系統(tǒng)使用動(dòng)態(tài)編程實(shí)現(xiàn)英語(yǔ)語(yǔ)音識(shí)別,系統(tǒng)的實(shí)時(shí)性不好,對(duì)在線、連續(xù)性的英語(yǔ)語(yǔ)音識(shí)別力不強(qiáng)。此后,著名的貝爾實(shí)驗(yàn)室【1】改變了語(yǔ)音識(shí)別研究方向,設(shè)計(jì)出一個(gè)語(yǔ)音打印機(jī),將英語(yǔ)語(yǔ)音翻譯在設(shè)備顯示屏上,再進(jìn)行人機(jī)交互,在智能
5、中被普遍應(yīng)用,其功能少但識(shí)別精準(zhǔn)。從1980年開始,HMM〔HiddenMarkovModel,隱馬爾可夫模型〕【2】系統(tǒng)進(jìn)入到人們的生活中,其結(jié)合了Audry系統(tǒng)的計(jì)算手段以及語(yǔ)音打印機(jī)的人機(jī)交互能力并進(jìn)行改善,從細(xì)節(jié)語(yǔ)音識(shí)別轉(zhuǎn)換成整體語(yǔ)音識(shí)別,增進(jìn)了在線、連續(xù)性英語(yǔ)語(yǔ)音信號(hào)的平穩(wěn)性,是語(yǔ)音智能識(shí)別歷史中的重要里程碑。顯然,英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的開展方向是在線、連續(xù)性的人機(jī)交互,對(duì)識(shí)別效率要求高,如果能夠在最短的時(shí)間糾正語(yǔ)音錯(cuò)誤,也可以極大提高系統(tǒng)識(shí)別率,這是在英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)中的研究熱點(diǎn)。1在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)主要由語(yǔ)音訓(xùn)練模塊和
6、在線連續(xù)交互式識(shí)別識(shí)別系統(tǒng)工作流程如圖1所示。系統(tǒng)擁有兩個(gè)數(shù)據(jù)庫(kù),分別是參考數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)。參考數(shù)據(jù)庫(kù)的作用是對(duì)用戶英語(yǔ)語(yǔ)音進(jìn)行評(píng)價(jià),由英語(yǔ)標(biāo)準(zhǔn)發(fā)音特征進(jìn)行訓(xùn)練。參考數(shù)據(jù)庫(kù)使用的語(yǔ)音評(píng)價(jià)算法是NOSE算法【3】,是一種非母語(yǔ)語(yǔ)音的口語(yǔ)評(píng)價(jià)技術(shù)。專家數(shù)據(jù)庫(kù)的作用是糾正用戶英語(yǔ)語(yǔ)音,它在常見的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤的根底上構(gòu)建。系統(tǒng)從用戶英語(yǔ)語(yǔ)音中提取特征,用訓(xùn)練成功的參考數(shù)據(jù)庫(kù)解碼英語(yǔ)語(yǔ)音,使用NOSE算法計(jì)算語(yǔ)音評(píng)價(jià)分?jǐn)?shù),將分?jǐn)?shù)變更成能夠展現(xiàn)出用戶英語(yǔ)語(yǔ)音口語(yǔ)質(zhì)量的評(píng)價(jià)工程,之后對(duì)語(yǔ)音進(jìn)行查錯(cuò),最后利用專家知識(shí)庫(kù)糾正用戶英語(yǔ)語(yǔ)音。由于在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)一般用于 和平板電腦,硬
7、件配備不多【4】,因此系統(tǒng)的工作流程必須完美實(shí)現(xiàn),并在NOSE算法的計(jì)算過程中選取盡可能多的備選語(yǔ)音,制定英語(yǔ)音標(biāo)順序,進(jìn)而減少運(yùn)算量,節(jié)約語(yǔ)音識(shí)別時(shí)間。1.2系統(tǒng)模塊資源設(shè)計(jì)1.2.1語(yǔ)音訓(xùn)練模塊語(yǔ)音訓(xùn)練模塊為參考數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)提供資源,資源包括英語(yǔ)語(yǔ)音的語(yǔ)料和音標(biāo),在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的功能在很大程度上受限于數(shù)據(jù)庫(kù)資源,尤其是語(yǔ)料資源【5】。好的語(yǔ)料資源可增進(jìn)識(shí)別結(jié)果的有效性,系統(tǒng)要求語(yǔ)音訓(xùn)練模塊的語(yǔ)料資源具有廣泛性、代表性和一致性三種特點(diǎn)【6】。廣泛性要求語(yǔ)料結(jié)構(gòu)類型兼容性強(qiáng),涵蓋大多數(shù)的英語(yǔ)口語(yǔ)發(fā)音規(guī)那么。代表性要求語(yǔ)料資源中含有性別、年紀(jì)、語(yǔ)速和方言等資源。一致性要
8、求語(yǔ)料標(biāo)記點(diǎn)具體且詳細(xì),能夠與用戶英語(yǔ)語(yǔ)音對(duì)應(yīng)一致。組織我國(guó)多所不同地域的外國(guó)語(yǔ)大學(xué)教授錄制語(yǔ)料資源,男女人數(shù)各50人,每人錄制40分鐘英語(yǔ)語(yǔ)音,共計(jì)2300句,包含1600個(gè)英語(yǔ)單詞。錄制結(jié)束后對(duì)語(yǔ)音中的單詞等級(jí)進(jìn)行標(biāo)記,組成語(yǔ)料資源,表1為錄制過程中的英語(yǔ)語(yǔ)音采集標(biāo)準(zhǔn)識(shí)別模塊在線連續(xù)交互式識(shí)別模塊實(shí)施系統(tǒng)數(shù)據(jù)庫(kù)的評(píng)價(jià)、糾正工作,模塊將進(jìn)行大量運(yùn)算,需要處理芯片支持運(yùn)算。DSP芯片【7】〔DigitalSignalProcessing,信號(hào)處理芯片〕適合處理數(shù)字信號(hào),其體積小、價(jià)格廉價(jià),適合安裝在 和平板電腦上使用。DSP芯片還具有強(qiáng)大的在線交互能力,處理速度快。在線連續(xù)交互式識(shí)別模塊選
9、擇的DSP芯片是OMAP5912ZZG[8],該芯片內(nèi)部配置了開發(fā)工具,多媒體數(shù)據(jù)庫(kù)、DSP操作系統(tǒng)、鏈橋技術(shù)均能夠免費(fèi)使用,圖2是OMAP5912ZZG芯片結(jié)構(gòu)。圖2中,OMAP5912ZZG芯片存儲(chǔ)處理器規(guī)格是250KB的隨存隨取存儲(chǔ)器,作用是對(duì)英語(yǔ)語(yǔ)音數(shù)據(jù)和液晶顯示屏的顯示數(shù)據(jù)進(jìn)行緩沖。內(nèi)存卡用于進(jìn)行系統(tǒng)內(nèi)存擴(kuò)展,交互式矢量圖對(duì)音頻進(jìn)行幀緩沖。英語(yǔ)語(yǔ)音在線連續(xù)交互的實(shí)現(xiàn)由存儲(chǔ)處理器完成,它支持多種處理模式。OMAP5912ZZG芯片能夠?qū)τ⒄Z(yǔ)語(yǔ)音識(shí)別任務(wù)進(jìn)行內(nèi)存分配,并經(jīng)由以太網(wǎng)接口移植出語(yǔ)音識(shí)別函數(shù)。在線連續(xù)交互式識(shí)別模塊進(jìn)行語(yǔ)音識(shí)別時(shí),OMAP5912ZZG芯片的地位是協(xié)同處理器,主
10、處理器是用戶 或平板電腦上的微處理器。2語(yǔ)音識(shí)別函數(shù)設(shè)計(jì)語(yǔ)音識(shí)別函數(shù)是在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的根底識(shí)別函數(shù),識(shí)別流程如圖3所示。語(yǔ)音識(shí)別函數(shù)的本質(zhì)是一種梅爾頻率倒譜系數(shù),在語(yǔ)音識(shí)別中具有能量特征,與音頻之間的關(guān)系是非線性的,符合人類聽覺神經(jīng)的信號(hào)收發(fā)特點(diǎn),識(shí)別率高[9]。語(yǔ)音特征處理分為濾波、樣本采集、格式變更、信號(hào)增大和語(yǔ)音分幀。單元匹配指加窗操作,加窗的作用是平滑語(yǔ)音相鄰幀之間的信號(hào)。設(shè)是窗函數(shù),是幀信號(hào),為幀序列,那么可表示加窗后的語(yǔ)音幀信號(hào)。窗函數(shù)有三種形態(tài),分別是矩形〔Rectangular〕、漢明〔Hanming〕和漢寧〔Hanning〕,表示如下:式中為幀數(shù)量。在
11、線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)按照用戶英語(yǔ)語(yǔ)音特點(diǎn)自動(dòng)選擇窗函數(shù)形態(tài)。詞性解碼與語(yǔ)法解析即為經(jīng)歷傅里葉變換的過程,可獲取到語(yǔ)音信號(hào)的頻率譜線,設(shè)是變換后的幀序列,有:設(shè)語(yǔ)音特征處理后的語(yǔ)音能量為經(jīng)余弦變換后得到語(yǔ)義解析結(jié)果:式〔4〕和式〔5〕給出的解析結(jié)果中存在一局部無用數(shù)據(jù),有用數(shù)據(jù)主要存在于的區(qū)間內(nèi),式〔6〕是刪除無用數(shù)據(jù)后的歸一化識(shí)別識(shí)別系統(tǒng)的有效性進(jìn)行分析,本次實(shí)驗(yàn)從標(biāo)準(zhǔn)的模式識(shí)別數(shù)據(jù)庫(kù)中提取語(yǔ)音訓(xùn)練集。訓(xùn)練集為“ContinuousonlineinteractiveEnglishspeechintelligentrecognitionsystemisverygood〞,共11個(gè)英文單詞。實(shí)驗(yàn)的語(yǔ)音采樣頻率為20kHz;語(yǔ)音信號(hào)窗選擇24維漢明窗,長(zhǎng)度是18ms,分幀243點(diǎn),幀移75點(diǎn);語(yǔ)音特征參數(shù)的矢量量化為48碼,量化后生成一個(gè)4270階的矩陣;11個(gè)單詞經(jīng)訓(xùn)練后都能輸出一個(gè)語(yǔ)音模型。圖4為實(shí)驗(yàn)環(huán)境圖,為了防止安裝于 或平板電腦上的英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)受到 硬件性能的限制無法發(fā)揮全部功能,統(tǒng)一在計(jì)算機(jī)上模擬高端 硬件性能進(jìn)行實(shí)驗(yàn)。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 領(lǐng)導(dǎo)班子2024年度民主生活會(huì)對(duì)照檢查材料范文(三篇)
- 金融工作主題黨課講稿范文(匯編)
- 鍋爐必備學(xué)習(xí)材料
- 鍋爐設(shè)備的檢修
- 主題黨課講稿:走中國(guó)特色金融發(fā)展之路加快建設(shè)金融強(qiáng)國(guó)(范文)
- 鍋爐基礎(chǔ)知識(shí):?jiǎn)t注意事項(xiàng)技術(shù)問答題
- 領(lǐng)導(dǎo)班子2024年度民主生活會(huì)“四個(gè)帶頭”對(duì)照檢查材料范文(三篇)
- 正常運(yùn)行時(shí)影響鍋爐汽溫的因素和調(diào)整方法
- 3.鍋爐檢修模擬考試復(fù)習(xí)題含答案
- 司爐作業(yè)人員模擬考試試卷含答案-2
- 3.鍋爐閥門模擬考試復(fù)習(xí)題含答案
- 某公司鍋爐安全檢查表
- 3.工業(yè)鍋爐司爐模擬考試題庫(kù)試卷含答案
- 4.司爐工考試題含答案解析
- 發(fā)電廠鍋爐的運(yùn)行監(jiān)視和調(diào)整