在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計

上傳人:眾眾****奪寶 文檔編號:26525218 上傳時間:2021-08-11 格式:DOCX 頁數(shù):3 大?。?4.08KB
收藏 版權(quán)申訴 舉報 下載
在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計_第1頁
第1頁 / 共3頁
在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計_第2頁
第2頁 / 共3頁
在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計_第3頁
第3頁 / 共3頁

最后一頁預(yù)覽完了!喜歡就下載吧,查找使用更方便

22 積分

下載資源

資源描述:

《在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計》由會員分享,可在線閱讀,更多相關(guān)《在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計 摘要:英語語音智能識別系統(tǒng)的開展方向是在線、連續(xù)性的人機交互,為此,設(shè)計在線連續(xù)交互式英語語音智能識別系統(tǒng),并基于梅爾頻率倒譜系數(shù)設(shè)計語音識別函數(shù)。系統(tǒng)的參考數(shù)據(jù)庫選取NOSE算法計算語音評價分數(shù)并查錯,利用專家知識庫糾正用戶英語語音。系統(tǒng)由語音訓(xùn)練模塊和在線連續(xù)交互式識別模塊組成,前者為系統(tǒng)數(shù)據(jù)庫提供英語語音的語料、音標資源,后者實施系統(tǒng)數(shù)據(jù)庫的評價、糾正工作。實驗結(jié)果證明設(shè)計的系統(tǒng)語音識別率高且識別時間短,有效性強。關(guān)鍵詞:在線;連續(xù)交互式;語音;智能識別?34文獻標識碼:A文章編號:1004?373X〔2021〕15?0137?04Abstra

2、ct:ThedevelopmentdirectionofEnglishphoneticsintelligentrecognitionsystemtowardstheon?lineandcontinuoushuman?computerinteraction,thereforeanon??linecontinuousinteractivemodule.TheformerprovidesthecorpusandphoneticresourcesofEnglishphoneticsforthesystemdatabase.Thelatterperformstheevaluationandcorrect

3、ionforthesystemdatabase.Theexperimentalresultsshowthatthesystemhashighspeechrecognitionrate,shortrecognitiontime,andhigheffectiveness.Keywords:onlinesystem;continuousinteraction;voice;intelligentrecognitionsystem0引言英語是國際語言,隨著各國間經(jīng)濟、人文、科技等信息交流的不斷加深,英語語音智能識別漸漸成為信息技術(shù)領(lǐng)域的重點研究對象,其目標是使用機器達成設(shè)備與人類之間的語音交互,令設(shè)備更

4、加智能化,增加娛樂能力,為不方便進行鍵盤、鼠標錄入的人群提供便利。英語語音智能識別的目標符合現(xiàn)代化開展腳步,英語語音智能識別系統(tǒng)層出不窮,第一款識別系統(tǒng)名為Audry系統(tǒng),各項性能比較完善,現(xiàn)已得到極大開展。最近新出的Audry系統(tǒng)利用數(shù)據(jù)庫計算手段從英語根底語法開始對語音的元音和獨立詞進行識別,識別率高,但識別時間長,只適合進行短小語句識別。1963年,由前蘇聯(lián)設(shè)計的端點檢測系統(tǒng)使用動態(tài)編程實現(xiàn)英語語音識別,系統(tǒng)的實時性不好,對在線、連續(xù)性的英語語音識別力不強。此后,著名的貝爾實驗室【1】改變了語音識別研究方向,設(shè)計出一個語音打印機,將英語語音翻譯在設(shè)備顯示屏上,再進行人機交互,在智能

5、中被普遍應(yīng)用,其功能少但識別精準。從1980年開始,HMM〔HiddenMarkovModel,隱馬爾可夫模型〕【2】系統(tǒng)進入到人們的生活中,其結(jié)合了Audry系統(tǒng)的計算手段以及語音打印機的人機交互能力并進行改善,從細節(jié)語音識別轉(zhuǎn)換成整體語音識別,增進了在線、連續(xù)性英語語音信號的平穩(wěn)性,是語音智能識別歷史中的重要里程碑。顯然,英語語音智能識別系統(tǒng)的開展方向是在線、連續(xù)性的人機交互,對識別效率要求高,如果能夠在最短的時間糾正語音錯誤,也可以極大提高系統(tǒng)識別率,這是在英語語音智能識別系統(tǒng)設(shè)計中的研究熱點。1在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計在線連續(xù)交互式英語語音智能識別系統(tǒng)主要由語音訓(xùn)練模塊和

6、在線連續(xù)交互式識別識別系統(tǒng)工作流程如圖1所示。系統(tǒng)擁有兩個數(shù)據(jù)庫,分別是參考數(shù)據(jù)庫和專家數(shù)據(jù)庫。參考數(shù)據(jù)庫的作用是對用戶英語語音進行評價,由英語標準發(fā)音特征進行訓(xùn)練。參考數(shù)據(jù)庫使用的語音評價算法是NOSE算法【3】,是一種非母語語音的口語評價技術(shù)。專家數(shù)據(jù)庫的作用是糾正用戶英語語音,它在常見的英語口語發(fā)音錯誤的根底上構(gòu)建。系統(tǒng)從用戶英語語音中提取特征,用訓(xùn)練成功的參考數(shù)據(jù)庫解碼英語語音,使用NOSE算法計算語音評價分數(shù),將分數(shù)變更成能夠展現(xiàn)出用戶英語語音口語質(zhì)量的評價工程,之后對語音進行查錯,最后利用專家知識庫糾正用戶英語語音。由于在線連續(xù)交互式英語語音智能識別系統(tǒng)一般用于 和平板電腦,硬

7、件配備不多【4】,因此系統(tǒng)的工作流程必須完美實現(xiàn),并在NOSE算法的計算過程中選取盡可能多的備選語音,制定英語音標順序,進而減少運算量,節(jié)約語音識別時間。1.2系統(tǒng)模塊資源設(shè)計1.2.1語音訓(xùn)練模塊語音訓(xùn)練模塊為參考數(shù)據(jù)庫和專家數(shù)據(jù)庫提供資源,資源包括英語語音的語料和音標,在線連續(xù)交互式英語語音智能識別系統(tǒng)的功能在很大程度上受限于數(shù)據(jù)庫資源,尤其是語料資源【5】。好的語料資源可增進識別結(jié)果的有效性,系統(tǒng)要求語音訓(xùn)練模塊的語料資源具有廣泛性、代表性和一致性三種特點【6】。廣泛性要求語料結(jié)構(gòu)類型兼容性強,涵蓋大多數(shù)的英語口語發(fā)音規(guī)那么。代表性要求語料資源中含有性別、年紀、語速和方言等資源。一致性要

8、求語料標記點具體且詳細,能夠與用戶英語語音對應(yīng)一致。組織我國多所不同地域的外國語大學教授錄制語料資源,男女人數(shù)各50人,每人錄制40分鐘英語語音,共計2300句,包含1600個英語單詞。錄制結(jié)束后對語音中的單詞等級進行標記,組成語料資源,表1為錄制過程中的英語語音采集標準識別模塊在線連續(xù)交互式識別模塊實施系統(tǒng)數(shù)據(jù)庫的評價、糾正工作,模塊將進行大量運算,需要處理芯片支持運算。DSP芯片【7】〔DigitalSignalProcessing,信號處理芯片〕適合處理數(shù)字信號,其體積小、價格廉價,適合安裝在 和平板電腦上使用。DSP芯片還具有強大的在線交互能力,處理速度快。在線連續(xù)交互式識別模塊選

9、擇的DSP芯片是OMAP5912ZZG[8],該芯片內(nèi)部配置了開發(fā)工具,多媒體數(shù)據(jù)庫、DSP操作系統(tǒng)、鏈橋技術(shù)均能夠免費使用,圖2是OMAP5912ZZG芯片結(jié)構(gòu)。圖2中,OMAP5912ZZG芯片存儲處理器規(guī)格是250KB的隨存隨取存儲器,作用是對英語語音數(shù)據(jù)和液晶顯示屏的顯示數(shù)據(jù)進行緩沖。內(nèi)存卡用于進行系統(tǒng)內(nèi)存擴展,交互式矢量圖對音頻進行幀緩沖。英語語音在線連續(xù)交互的實現(xiàn)由存儲處理器完成,它支持多種處理模式。OMAP5912ZZG芯片能夠?qū)τ⒄Z語音識別任務(wù)進行內(nèi)存分配,并經(jīng)由以太網(wǎng)接口移植出語音識別函數(shù)。在線連續(xù)交互式識別模塊進行語音識別時,OMAP5912ZZG芯片的地位是協(xié)同處理器,主

10、處理器是用戶 或平板電腦上的微處理器。2語音識別函數(shù)設(shè)計語音識別函數(shù)是在線連續(xù)交互式英語語音智能識別系統(tǒng)的根底識別函數(shù),識別流程如圖3所示。語音識別函數(shù)的本質(zhì)是一種梅爾頻率倒譜系數(shù),在語音識別中具有能量特征,與音頻之間的關(guān)系是非線性的,符合人類聽覺神經(jīng)的信號收發(fā)特點,識別率高[9]。語音特征處理分為濾波、樣本采集、格式變更、信號增大和語音分幀。單元匹配指加窗操作,加窗的作用是平滑語音相鄰幀之間的信號。設(shè)是窗函數(shù),是幀信號,為幀序列,那么可表示加窗后的語音幀信號。窗函數(shù)有三種形態(tài),分別是矩形〔Rectangular〕、漢明〔Hanming〕和漢寧〔Hanning〕,表示如下:式中為幀數(shù)量。在

11、線連續(xù)交互式英語語音智能識別系統(tǒng)按照用戶英語語音特點自動選擇窗函數(shù)形態(tài)。詞性解碼與語法解析即為經(jīng)歷傅里葉變換的過程,可獲取到語音信號的頻率譜線,設(shè)是變換后的幀序列,有:設(shè)語音特征處理后的語音能量為經(jīng)余弦變換后得到語義解析結(jié)果:式〔4〕和式〔5〕給出的解析結(jié)果中存在一局部無用數(shù)據(jù),有用數(shù)據(jù)主要存在于的區(qū)間內(nèi),式〔6〕是刪除無用數(shù)據(jù)后的歸一化識別識別系統(tǒng)的有效性進行分析,本次實驗從標準的模式識別數(shù)據(jù)庫中提取語音訓(xùn)練集。訓(xùn)練集為“ContinuousonlineinteractiveEnglishspeechintelligentrecognitionsystemisverygood〞,共11個英文單詞。實驗的語音采樣頻率為20kHz;語音信號窗選擇24維漢明窗,長度是18ms,分幀243點,幀移75點;語音特征參數(shù)的矢量量化為48碼,量化后生成一個4270階的矩陣;11個單詞經(jīng)訓(xùn)練后都能輸出一個語音模型。圖4為實驗環(huán)境圖,為了防止安裝于 或平板電腦上的英語語音智能識別系統(tǒng)受到 硬件性能的限制無法發(fā)揮全部功能,統(tǒng)一在計算機上模擬高端 硬件性能進行實驗。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!