《在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計》由會員分享,可在線閱讀,更多相關(guān)《在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計
摘要:英語語音智能識別系統(tǒng)的開展方向是在線、連續(xù)性的人機交互,為此,設(shè)計在線連續(xù)交互式英語語音智能識別系統(tǒng),并基于梅爾頻率倒譜系數(shù)設(shè)計語音識別函數(shù)。系統(tǒng)的參考數(shù)據(jù)庫選取NOSE算法計算語音評價分數(shù)并查錯,利用專家知識庫糾正用戶英語語音。系統(tǒng)由語音訓(xùn)練模塊和在線連續(xù)交互式識別模塊組成,前者為系統(tǒng)數(shù)據(jù)庫提供英語語音的語料、音標資源,后者實施系統(tǒng)數(shù)據(jù)庫的評價、糾正工作。實驗結(jié)果證明設(shè)計的系統(tǒng)語音識別率高且識別時間短,有效性強。關(guān)鍵詞:在線;連續(xù)交互式;語音;智能識別?34文獻標識碼:A文章編號:1004?373X〔2021〕15?0137?04Abstra
2、ct:ThedevelopmentdirectionofEnglishphoneticsintelligentrecognitionsystemtowardstheon?lineandcontinuoushuman?computerinteraction,thereforeanon??linecontinuousinteractivemodule.TheformerprovidesthecorpusandphoneticresourcesofEnglishphoneticsforthesystemdatabase.Thelatterperformstheevaluationandcorrect
3、ionforthesystemdatabase.Theexperimentalresultsshowthatthesystemhashighspeechrecognitionrate,shortrecognitiontime,andhigheffectiveness.Keywords:onlinesystem;continuousinteraction;voice;intelligentrecognitionsystem0引言英語是國際語言,隨著各國間經(jīng)濟、人文、科技等信息交流的不斷加深,英語語音智能識別漸漸成為信息技術(shù)領(lǐng)域的重點研究對象,其目標是使用機器達成設(shè)備與人類之間的語音交互,令設(shè)備更
4、加智能化,增加娛樂能力,為不方便進行鍵盤、鼠標錄入的人群提供便利。英語語音智能識別的目標符合現(xiàn)代化開展腳步,英語語音智能識別系統(tǒng)層出不窮,第一款識別系統(tǒng)名為Audry系統(tǒng),各項性能比較完善,現(xiàn)已得到極大開展。最近新出的Audry系統(tǒng)利用數(shù)據(jù)庫計算手段從英語根底語法開始對語音的元音和獨立詞進行識別,識別率高,但識別時間長,只適合進行短小語句識別。1963年,由前蘇聯(lián)設(shè)計的端點檢測系統(tǒng)使用動態(tài)編程實現(xiàn)英語語音識別,系統(tǒng)的實時性不好,對在線、連續(xù)性的英語語音識別力不強。此后,著名的貝爾實驗室【1】改變了語音識別研究方向,設(shè)計出一個語音打印機,將英語語音翻譯在設(shè)備顯示屏上,再進行人機交互,在智能
5、中被普遍應(yīng)用,其功能少但識別精準。從1980年開始,HMM〔HiddenMarkovModel,隱馬爾可夫模型〕【2】系統(tǒng)進入到人們的生活中,其結(jié)合了Audry系統(tǒng)的計算手段以及語音打印機的人機交互能力并進行改善,從細節(jié)語音識別轉(zhuǎn)換成整體語音識別,增進了在線、連續(xù)性英語語音信號的平穩(wěn)性,是語音智能識別歷史中的重要里程碑。顯然,英語語音智能識別系統(tǒng)的開展方向是在線、連續(xù)性的人機交互,對識別效率要求高,如果能夠在最短的時間糾正語音錯誤,也可以極大提高系統(tǒng)識別率,這是在英語語音智能識別系統(tǒng)設(shè)計中的研究熱點。1在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計在線連續(xù)交互式英語語音智能識別系統(tǒng)主要由語音訓(xùn)練模塊和
6、在線連續(xù)交互式識別識別系統(tǒng)工作流程如圖1所示。系統(tǒng)擁有兩個數(shù)據(jù)庫,分別是參考數(shù)據(jù)庫和專家數(shù)據(jù)庫。參考數(shù)據(jù)庫的作用是對用戶英語語音進行評價,由英語標準發(fā)音特征進行訓(xùn)練。參考數(shù)據(jù)庫使用的語音評價算法是NOSE算法【3】,是一種非母語語音的口語評價技術(shù)。專家數(shù)據(jù)庫的作用是糾正用戶英語語音,它在常見的英語口語發(fā)音錯誤的根底上構(gòu)建。系統(tǒng)從用戶英語語音中提取特征,用訓(xùn)練成功的參考數(shù)據(jù)庫解碼英語語音,使用NOSE算法計算語音評價分數(shù),將分數(shù)變更成能夠展現(xiàn)出用戶英語語音口語質(zhì)量的評價工程,之后對語音進行查錯,最后利用專家知識庫糾正用戶英語語音。由于在線連續(xù)交互式英語語音智能識別系統(tǒng)一般用于 和平板電腦,硬
7、件配備不多【4】,因此系統(tǒng)的工作流程必須完美實現(xiàn),并在NOSE算法的計算過程中選取盡可能多的備選語音,制定英語音標順序,進而減少運算量,節(jié)約語音識別時間。1.2系統(tǒng)模塊資源設(shè)計1.2.1語音訓(xùn)練模塊語音訓(xùn)練模塊為參考數(shù)據(jù)庫和專家數(shù)據(jù)庫提供資源,資源包括英語語音的語料和音標,在線連續(xù)交互式英語語音智能識別系統(tǒng)的功能在很大程度上受限于數(shù)據(jù)庫資源,尤其是語料資源【5】。好的語料資源可增進識別結(jié)果的有效性,系統(tǒng)要求語音訓(xùn)練模塊的語料資源具有廣泛性、代表性和一致性三種特點【6】。廣泛性要求語料結(jié)構(gòu)類型兼容性強,涵蓋大多數(shù)的英語口語發(fā)音規(guī)那么。代表性要求語料資源中含有性別、年紀、語速和方言等資源。一致性要
8、求語料標記點具體且詳細,能夠與用戶英語語音對應(yīng)一致。組織我國多所不同地域的外國語大學教授錄制語料資源,男女人數(shù)各50人,每人錄制40分鐘英語語音,共計2300句,包含1600個英語單詞。錄制結(jié)束后對語音中的單詞等級進行標記,組成語料資源,表1為錄制過程中的英語語音采集標準識別模塊在線連續(xù)交互式識別模塊實施系統(tǒng)數(shù)據(jù)庫的評價、糾正工作,模塊將進行大量運算,需要處理芯片支持運算。DSP芯片【7】〔DigitalSignalProcessing,信號處理芯片〕適合處理數(shù)字信號,其體積小、價格廉價,適合安裝在 和平板電腦上使用。DSP芯片還具有強大的在線交互能力,處理速度快。在線連續(xù)交互式識別模塊選
9、擇的DSP芯片是OMAP5912ZZG[8],該芯片內(nèi)部配置了開發(fā)工具,多媒體數(shù)據(jù)庫、DSP操作系統(tǒng)、鏈橋技術(shù)均能夠免費使用,圖2是OMAP5912ZZG芯片結(jié)構(gòu)。圖2中,OMAP5912ZZG芯片存儲處理器規(guī)格是250KB的隨存隨取存儲器,作用是對英語語音數(shù)據(jù)和液晶顯示屏的顯示數(shù)據(jù)進行緩沖。內(nèi)存卡用于進行系統(tǒng)內(nèi)存擴展,交互式矢量圖對音頻進行幀緩沖。英語語音在線連續(xù)交互的實現(xiàn)由存儲處理器完成,它支持多種處理模式。OMAP5912ZZG芯片能夠?qū)τ⒄Z語音識別任務(wù)進行內(nèi)存分配,并經(jīng)由以太網(wǎng)接口移植出語音識別函數(shù)。在線連續(xù)交互式識別模塊進行語音識別時,OMAP5912ZZG芯片的地位是協(xié)同處理器,主
10、處理器是用戶 或平板電腦上的微處理器。2語音識別函數(shù)設(shè)計語音識別函數(shù)是在線連續(xù)交互式英語語音智能識別系統(tǒng)的根底識別函數(shù),識別流程如圖3所示。語音識別函數(shù)的本質(zhì)是一種梅爾頻率倒譜系數(shù),在語音識別中具有能量特征,與音頻之間的關(guān)系是非線性的,符合人類聽覺神經(jīng)的信號收發(fā)特點,識別率高[9]。語音特征處理分為濾波、樣本采集、格式變更、信號增大和語音分幀。單元匹配指加窗操作,加窗的作用是平滑語音相鄰幀之間的信號。設(shè)是窗函數(shù),是幀信號,為幀序列,那么可表示加窗后的語音幀信號。窗函數(shù)有三種形態(tài),分別是矩形〔Rectangular〕、漢明〔Hanming〕和漢寧〔Hanning〕,表示如下:式中為幀數(shù)量。在
11、線連續(xù)交互式英語語音智能識別系統(tǒng)按照用戶英語語音特點自動選擇窗函數(shù)形態(tài)。詞性解碼與語法解析即為經(jīng)歷傅里葉變換的過程,可獲取到語音信號的頻率譜線,設(shè)是變換后的幀序列,有:設(shè)語音特征處理后的語音能量為經(jīng)余弦變換后得到語義解析結(jié)果:式〔4〕和式〔5〕給出的解析結(jié)果中存在一局部無用數(shù)據(jù),有用數(shù)據(jù)主要存在于的區(qū)間內(nèi),式〔6〕是刪除無用數(shù)據(jù)后的歸一化識別識別系統(tǒng)的有效性進行分析,本次實驗從標準的模式識別數(shù)據(jù)庫中提取語音訓(xùn)練集。訓(xùn)練集為“ContinuousonlineinteractiveEnglishspeechintelligentrecognitionsystemisverygood〞,共11個英文單詞。實驗的語音采樣頻率為20kHz;語音信號窗選擇24維漢明窗,長度是18ms,分幀243點,幀移75點;語音特征參數(shù)的矢量量化為48碼,量化后生成一個4270階的矩陣;11個單詞經(jīng)訓(xùn)練后都能輸出一個語音模型。圖4為實驗環(huán)境圖,為了防止安裝于 或平板電腦上的英語語音智能識別系統(tǒng)受到 硬件性能的限制無法發(fā)揮全部功能,統(tǒng)一在計算機上模擬高端 硬件性能進行實驗。