歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

雷運(yùn)發(fā)第3章音頻信息處理課件

  • 資源ID:100769255       資源大?。?span id="v3fbrdz" class="font-tahoma">588KB        全文頁(yè)數(shù):80頁(yè)
  • 資源格式: PPT        下載積分:25積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 微信開(kāi)放平臺(tái)登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要25積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開(kāi),此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案,請(qǐng)知曉。

雷運(yùn)發(fā)第3章音頻信息處理課件

雷運(yùn)發(fā)第3章音頻信息處理 第第3章章 音頻信息處理音頻信息處理 學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo)l 了解聲音信號(hào)的特點(diǎn)、存儲(chǔ)格式及質(zhì)量的度量方法l 理解音頻信號(hào)壓縮方法及音頻編碼標(biāo)準(zhǔn)l 掌握常用的音頻處理軟件對(duì)聲音信號(hào)進(jìn)行處理l了解語(yǔ)音識(shí)別技術(shù)及其應(yīng)用雷運(yùn)發(fā)第3章音頻信息處理3.1 音頻信息處理基礎(chǔ)音頻信息處理基礎(chǔ) 音頻信息音頻信息在多媒體中的應(yīng)用應(yīng)用極為廣泛:視頻圖像配以娓娓動(dòng)聽(tīng)的音樂(lè)和語(yǔ)音 ;靜態(tài)或動(dòng)態(tài)圖像配以解說(shuō)和背景音樂(lè) ;立體聲音樂(lè)可增加空間感 ;游戲中的音響效果等。 音頻處理技術(shù)主要包括音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號(hào)的存儲(chǔ)、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號(hào)的編碼、壓縮、傳輸、存取、糾錯(cuò)等。 雷運(yùn)發(fā)第3章音頻信息處理3.1.1 3.1.1 音頻信號(hào)的特點(diǎn)音頻信號(hào)的特點(diǎn) 1.1.音頻信號(hào)的分類音頻信號(hào)的分類音頻信號(hào)可分為兩類:語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)音頻信號(hào)可分為兩類:語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。語(yǔ)音語(yǔ)音是語(yǔ)言的物質(zhì)載體,是社會(huì)交際工具的符號(hào), 它包含了豐富的語(yǔ)言內(nèi)涵,是人類進(jìn)行信息交流所特有的形式。非語(yǔ)音信號(hào)非語(yǔ)音信號(hào)主要包括音樂(lè)和自然界存在的其他聲音形式。非語(yǔ)音信號(hào)的特點(diǎn)是不具有復(fù)雜的語(yǔ)義和語(yǔ)法信息,信息量低、識(shí)別簡(jiǎn)單。 雷運(yùn)發(fā)第3章音頻信息處理 規(guī)則音頻規(guī)則音頻是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線來(lái)表示,稱為聲波聲波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量,我們稱之為模擬量模擬量。用聲音錄制軟件記錄的英文單詞用聲音錄制軟件記錄的英文單詞“Hello”Hello”的語(yǔ)音實(shí)際波形的語(yǔ)音實(shí)際波形 雷運(yùn)發(fā)第3章音頻信息處理2.2.模擬音頻信號(hào)的兩個(gè)重要參數(shù)模擬音頻信號(hào)的兩個(gè)重要參數(shù) 模擬音頻信號(hào)有兩個(gè)重要參數(shù):頻率和幅度頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低,聲波幅度的大小體現(xiàn)聲音的強(qiáng)弱。 一個(gè)聲源每秒鐘可產(chǎn)生成百上千個(gè)波,我們把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號(hào)的頻率頻率,單位用赫茲(Hz)或千赫茲(kHz)表示。信號(hào)的幅度信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。對(duì)音頻信號(hào),聲音的強(qiáng)度用分貝聲音的強(qiáng)度用分貝(dB)(dB)表示表示,分貝的幅度就是音量。 幅度限周期 基線雷運(yùn)發(fā)第3章音頻信息處理3. 3. 聲音的聲音的A/DA/D與與D/AD/A轉(zhuǎn)換轉(zhuǎn)換 A/DA/D轉(zhuǎn)換轉(zhuǎn)換就是把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的過(guò)程,模擬電信號(hào)變?yōu)榱擞伞?”和“1”組成的Bit信號(hào)。這樣做的好處是顯而易見(jiàn)的,聲音存儲(chǔ)質(zhì)量得到了加強(qiáng),數(shù)字化的聲音信息使計(jì)算機(jī)能夠進(jìn)行識(shí)別、處理和壓縮 。A/D轉(zhuǎn)換的一個(gè)關(guān)鍵步驟是聲音的采樣和量化采樣和量化,得到數(shù)字音頻信號(hào),它在時(shí)間上是不連續(xù)的離散信號(hào)。 借助于A/D或D/A轉(zhuǎn)換器,模擬信號(hào)和數(shù)字信號(hào)可以互相轉(zhuǎn)換。 雷運(yùn)發(fā)第3章音頻信息處理4. 4. 聲音的三要素聲音的三要素 1 1)音調(diào))音調(diào):代表了聲音的高低。音調(diào)與頻率有關(guān),頻率越高,音調(diào)越高,反之亦然。 讀者也許有這樣的經(jīng)驗(yàn),當(dāng)提高磁帶錄音機(jī)的轉(zhuǎn)速時(shí),其旋轉(zhuǎn)加快,聲音信號(hào)的頻率提高,其喇叭放出來(lái)聲音的音調(diào)提高了。同樣,在使用音頻處理軟件對(duì)聲音的頻率進(jìn)行調(diào)整時(shí),也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào),如果改變了某種聲源的音調(diào),則聲音會(huì)發(fā)生質(zhì)的轉(zhuǎn)變,使人們無(wú)法辨別聲源本來(lái)的面目。 雷運(yùn)發(fā)第3章音頻信息處理 2 2)音色)音色:即特色的聲音。聲音分純音純音和復(fù)音復(fù)音兩種類型。所謂純音,是指振幅和周期均為常數(shù)的聲音;復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中,最低頻率的聲音是“基音基音”,它是聲音的基調(diào)。其他頻率的聲音稱為“諧音”,也叫泛音泛音?;艉椭C音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨(dú)特的音色,例如各種樂(lè)器的聲音、每個(gè)人的聲音、各種生物的聲音等,人們就是依據(jù)音色來(lái)辨別聲源種類的。 3 3)音強(qiáng))音強(qiáng):聲音的強(qiáng)度,也被稱為聲音的響度,常說(shuō)的“音量”也是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比,振幅越大,強(qiáng)度越大。唱盤、CD激光盤以及其他形式聲音載體中的聲音強(qiáng)度是一定的,通過(guò)播放設(shè)備的音量控制,可改變聆聽(tīng)時(shí)的響度。 雷運(yùn)發(fā)第3章音頻信息處理聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜線性頻譜是具有周期性的單一頻率聲波;連續(xù)頻譜連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專門的設(shè)備中創(chuàng)造出來(lái),聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波,該聲波具有廣泛的頻率分量,聽(tīng)起來(lái)聲音飽滿、音色多樣且具有生氣。 5.5.聲音的頻譜聲音的頻譜雷運(yùn)發(fā)第3章音頻信息處理3.1.2 3.1.2 模擬音頻的數(shù)字化過(guò)程模擬音頻的數(shù)字化過(guò)程 數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理,現(xiàn)在幾乎所有的專業(yè)化聲音錄制、編輯器都是數(shù)字方式。對(duì)模擬音頻數(shù)字化過(guò)程涉及到音頻的采樣、量化和編碼。音頻的采樣、量化和編碼。 采樣和量化的過(guò)程可由采樣和量化的過(guò)程可由A/DA/D轉(zhuǎn)換器轉(zhuǎn)換器實(shí)現(xiàn)實(shí)現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣,即每個(gè)周期測(cè)量和量化信號(hào)一次。經(jīng)采樣和量化后聲音信號(hào)經(jīng)編碼后就成為數(shù)字音頻信號(hào),可以將其以文件形式保存在計(jì)算機(jī)的存儲(chǔ)介質(zhì)中,這樣的文件一般稱為數(shù)字聲波文件。 模擬信號(hào)的數(shù)字化過(guò)程 100101100011101 雷運(yùn)發(fā)第3章音頻信息處理 信息論的奠基者香農(nóng)(Shannon)指出:在一定條件下,用在一定條件下,用離散的序列可以完全代表一個(gè)連續(xù)函數(shù)離散的序列可以完全代表一個(gè)連續(xù)函數(shù),這是采樣定理的基本內(nèi)容。 為實(shí)現(xiàn)A/D轉(zhuǎn)換,需要把模擬音頻信號(hào)波形進(jìn)行分割把模擬音頻信號(hào)波形進(jìn)行分割,這種這種方法稱為采樣方法稱為采樣(Sampling)。采樣的過(guò)程是每隔一個(gè)時(shí)間間隔在采樣的過(guò)程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅度值模擬聲音的波形上取一個(gè)幅度值,把時(shí)間上的連續(xù)信號(hào)變成時(shí)間上的離散信號(hào)。該時(shí)間間隔稱為采樣周期,其倒數(shù)為采樣頻率。采樣頻率采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本。 1. 1. 采樣采樣 采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特(Nyquist)理論,只有采樣頻率高于聲音信號(hào)最高頻率的兩只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí),才能把數(shù)字信號(hào)表示的聲音還原成為原來(lái)的聲音倍時(shí),才能把數(shù)字信號(hào)表示的聲音還原成為原來(lái)的聲音。 2 2f ff fs s雷運(yùn)發(fā)第3章音頻信息處理 采樣只解決了音頻波形信號(hào)在時(shí)間坐標(biāo)時(shí)間坐標(biāo)(即橫軸即橫軸)上把一個(gè)波形切成若干個(gè)等分的數(shù)字化問(wèn)題,但是還需要用某種數(shù)字化的方法來(lái)反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對(duì)聲波波形幅度的數(shù)字化表示稱之為對(duì)聲波波形幅度的數(shù)字化表示稱之為“量量化化”。 量化的過(guò)程量化的過(guò)程是先將采樣后的信號(hào)按整個(gè)聲波的幅度劃分成有限個(gè)區(qū)段的集合,把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類,并賦于相同的量化值。如何分割采樣信號(hào)的幅度呢? 我們還是采取二進(jìn)制的方式,以位以位(bit)或或16位位(bit)的方式來(lái)劃分縱軸的方式來(lái)劃分縱軸。也就是說(shuō)在一個(gè)以8位為記錄模式的音效中,其縱軸將會(huì)被劃分為個(gè)量化等級(jí),用以記錄其幅度大小。2. 量化量化雷運(yùn)發(fā)第3章音頻信息處理 以下圖所示的原始模擬波形為例進(jìn)行采樣和量化。假設(shè)采樣頻率為1000次/秒,即每1/1000秒A/D轉(zhuǎn)換器采樣一次,其幅度被劃分成0到9共10個(gè)量化等級(jí),并將其采樣的幅度值取最接近0 9之間的一個(gè)數(shù)來(lái)表示,如下圖所示。圖中每個(gè)正方形表示一次采樣。雷運(yùn)發(fā)第3章音頻信息處理 D/A轉(zhuǎn)換器轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來(lái)信號(hào)時(shí),得到下圖中藍(lán)色(直線段)線段所示的波形。從圖中可以看出,藍(lán)色線與原波形(紅色線)相比,其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號(hào)波形有較大的失真。 雷運(yùn)發(fā)第3章音頻信息處理 失真失真在采樣過(guò)程中是不可避免的,如何減少失真呢如何減少失真呢?可以直觀地看出,我們可以把上圖中的波形劃分成更為細(xì)小的區(qū)間,即采用更高的采樣頻率。同時(shí),增加量化精度采用更高的采樣頻率。同時(shí),增加量化精度,以得到更高的量化等級(jí),即可減少失真的程度。在下圖(左)中,采樣率和量化等級(jí)均提高了一倍,分別為2000次/秒和20個(gè)量化等級(jí)。在下圖(右)中,采樣率和量化等級(jí)再提高了一倍,分別達(dá)到4000次/秒和40個(gè)量化等級(jí)。從圖中可以看出,當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來(lái)信號(hào)時(shí)(圖中的輪廓線),信號(hào)的失真明顯減少,信號(hào)質(zhì)量得到了提高。雷運(yùn)發(fā)第3章音頻信息處理3. 3. 編碼編碼 模擬信號(hào)量經(jīng)過(guò)采樣和量化以后,形成一系列的離散信號(hào)脈沖數(shù)字信號(hào)。這種脈沖數(shù)字信號(hào)可以一定的方式進(jìn)行編碼,形成計(jì)算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼,就是按照一定編碼,就是按照一定的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái),并在有用的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái),并在有用的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí),可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò),如在一定范圍內(nèi)有錯(cuò),可加以糾正。 編碼的形式比較多,常用的編碼方式是PCM脈沖調(diào)制。脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCM)是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào))是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式,即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離制方式,即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)。雷運(yùn)發(fā)第3章音頻信息處理3.1.3 3.1.3 數(shù)字音頻的文件格式數(shù)字音頻的文件格式 在多媒體技術(shù)中,存儲(chǔ)音頻信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。 1. WAVWAV文件文件 WAV文件又稱波形文件,來(lái)源于對(duì)聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù),然后存入磁盤,這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺(tái)的音頻信息資源,被Windows平臺(tái)及其應(yīng)用程序所廣泛支持。雷運(yùn)發(fā)第3章音頻信息處理 WAV聲音文件是使用RIFF(Resource Interchange 資源交換文件)的格式描述的,它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語(yǔ)音特征值、聲道特征以及PCM格式類型標(biāo)志等。WAV數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長(zhǎng)度和波形音頻數(shù)據(jù)3個(gè)數(shù)據(jù)子塊組成。 Wave格式支持多種壓縮算法,支持多種音頻位數(shù)、采樣頻率和聲道,是PC機(jī)上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲(chǔ)簡(jiǎn)短的聲音片斷。 未壓縮的聲音文件的存儲(chǔ)量未壓縮的聲音文件的存儲(chǔ)量可用下式計(jì)算:可用下式計(jì)算: 存儲(chǔ)量(存儲(chǔ)量(KBKB)= =(采樣頻率(采樣頻率KHZKHZ采樣位數(shù)采樣位數(shù)bitbit聲道數(shù)聲道數(shù)時(shí)間秒)時(shí)間秒)/8/8 雷運(yùn)發(fā)第3章音頻信息處理2.VOC2.VOC文件文件 VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式,多用于保存 Creative Sound Blaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被Windows平臺(tái)和DOS平臺(tái)所支持。 與WAV格式類似,VOC文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始地址的指針,這個(gè)指針幫助數(shù)據(jù)塊定位以便順利找到第一個(gè)數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類型的子塊,如聲音數(shù)據(jù)、靜音、標(biāo)記、ASCII碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。 雷運(yùn)發(fā)第3章音頻信息處理3.MPEG音頻文件.MP1/.MP2/.MP3 這里的音頻文件格式指的是MPEG標(biāo)準(zhǔn)中的音頻部分,即MPEG音頻層(MPEG Audio Layer)。MPEG音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEG Audio Layer 1/2/3),分別對(duì)應(yīng)MP1、MP2和MP3這三種聲音文件; MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為41和6181,而MP3的壓縮率則高達(dá)101121,也就是說(shuō)一分鐘CD音質(zhì)的音樂(lè),未經(jīng)壓縮需要10MB存儲(chǔ)空間,而經(jīng)過(guò)MP3壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)基本保持不失真。 雷運(yùn)發(fā)第3章音頻信息處理 4. RealAudio文件文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司開(kāi)發(fā)的一種新型流式音頻(Streaming Audio)文件格式;它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中,主要用于在低速率的廣域網(wǎng)上實(shí)時(shí)傳輸音頻信息;網(wǎng)絡(luò)連接速率不同,客戶端所獲得的聲音質(zhì)量也不盡相同:對(duì)于28.8kb/s的連接,可以達(dá)到廣播級(jí)的聲音質(zhì)量;如果擁有ISDN或更快的線路連接,則可獲得CD音質(zhì)的聲音。 雷運(yùn)發(fā)第3章音頻信息處理5.AIFF文件文件.AIF/.AIFF AIFF是音頻交換文件格式(Audio Interchange )的英文縮寫,是蘋果計(jì)算機(jī)公司開(kāi)發(fā)的一種聲音文件格式;被Macintosh平臺(tái)及其應(yīng)用程序所支持,其他專業(yè)音頻軟件包也同樣支持這種格式。雷運(yùn)發(fā)第3章音頻信息處理3.1.4 3.1.4 聲音質(zhì)量的評(píng)價(jià)聲音質(zhì)量的評(píng)價(jià) 目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號(hào)的帶寬來(lái)衡量聲音的質(zhì)量,等級(jí)由高到低依次是DAT,CD,F(xiàn)M,AM和數(shù)字電話。此外,聲音質(zhì)量的度量還有兩種基本的方法:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。評(píng)價(jià)語(yǔ)音質(zhì)量時(shí),有時(shí)同時(shí)采取兩種方法評(píng)估,有時(shí)以主觀質(zhì)量度量為主。 1 1以聲音的帶寬衡量聲音的質(zhì)量以聲音的帶寬衡量聲音的質(zhì)量 雷運(yùn)發(fā)第3章音頻信息處理2 2、聲音客觀質(zhì)量的度量、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(s signal to n niose r ratio,SNR)來(lái)度量。它指音源產(chǎn)生最大不失真聲音信號(hào)強(qiáng)度與同時(shí)發(fā)出噪音強(qiáng)度之間的比率,通常以S/N表示。一般用分貝(dB)為單位,信噪比越高表示音頻質(zhì)量越好。信噪比(SNR)用下式計(jì)算:SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise)其中,Vsignal表示信號(hào)電壓,Vnoise表示噪聲電壓;SNR的單位為分貝(db)。 雷運(yùn)發(fā)第3章音頻信息處理3 3、聲音主觀質(zhì)量的度量、聲音主觀質(zhì)量的度量 與用SNR客觀質(zhì)量度量相比較,應(yīng)該可以說(shuō)人的感覺(jué)(如聽(tīng)覺(jué)、視覺(jué)等)更具有決定意義,感覺(jué)上的、主觀上的測(cè)試應(yīng)該成為評(píng)價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為,在語(yǔ)音和圖像信號(hào)編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng),更有意義??墒且话銇?lái)說(shuō),可靠的主觀度量值也是比較難獲得的,所獲得的值也是一個(gè)相對(duì)值。對(duì)聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制 :優(yōu)(Excellent)、良(Good) 、中(Fair) 、差(Poor) 、劣(Bad) 。雷運(yùn)發(fā)第3章音頻信息處理3.2音頻信號(hào)壓縮技術(shù)音頻信號(hào)壓縮技術(shù) 音頻信號(hào)壓縮編碼的主要依據(jù)是人耳的聽(tīng)覺(jué)特性,主要有兩點(diǎn): 1.人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)人耳聽(tīng)不到 .2.人的聽(tīng)覺(jué)存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)聲使弱聲難以聽(tīng)到,并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān) . 聲音編碼算法就是通過(guò)這些特性來(lái)去掉更多的冗余數(shù)據(jù),來(lái)達(dá)到壓縮數(shù)據(jù)的目的。 雷運(yùn)發(fā)第3章音頻信息處理3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理 它的原理框圖下圖所示 雷運(yùn)發(fā)第3章音頻信息處理3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理 它的原理框圖下圖所示 雷運(yùn)發(fā)第3章音頻信息處理 模擬信號(hào)數(shù)字化一般有三個(gè)步驟:第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。但那時(shí)并沒(méi)有涉及如何進(jìn)行量化。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說(shuō)量化也是一種壓縮數(shù)據(jù)的方法;第三步是編碼,就是按一定格式記錄采樣和量化后的數(shù)據(jù)。 雷運(yùn)發(fā)第3章音頻信息處理2均勻量化均勻量化 采用相同的“等分尺”來(lái)度量采樣得到的幅度,也稱為線性量化,如圖3-4所示。量化后的樣本值Y和原始值X的差 E=Y-X稱為量化誤差或量化噪聲。 雷運(yùn)發(fā)第3章音頻信息處理3非均勻量化非均勻量化 對(duì)輸入信號(hào)進(jìn)行量化時(shí),大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,如圖3-5所示。 雷運(yùn)發(fā)第3章音頻信息處理一個(gè)CDDA采用脈沖編碼調(diào)制PCM編碼的實(shí)例 雷運(yùn)發(fā)第3章音頻信息處理 首先用一組脈沖采樣時(shí)鐘信號(hào)與輸入的模擬音頻信號(hào)相乘,相乘的結(jié)果即輸入信號(hào)在時(shí)間軸上的數(shù)字化。然后對(duì)采樣以后的信號(hào)幅值進(jìn)行量化。最簡(jiǎn)單的量化方法是均衡量化,這個(gè)量化的過(guò)程由量化器來(lái)完成。對(duì)經(jīng)量化器A/D變換后的信號(hào)再進(jìn)行編碼,即把量化的信號(hào)電平轉(zhuǎn)換成二進(jìn)制碼組,就得到了離散的二進(jìn)制輸出數(shù)據(jù)序列x(n),n表示量化的時(shí)間序列,x(n)的值就是n時(shí)刻量化后的幅值,以二進(jìn)制的形式表示和記錄。 雷運(yùn)發(fā)第3章音頻信息處理3.2.2 3.2.2 增量調(diào)制增量調(diào)制 它是一種預(yù)測(cè)編碼技術(shù),是PCM編碼的一種變形。DM是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。圖3-7 DM波形示意圖雷運(yùn)發(fā)第3章音頻信息處理 從上圖中可以看到,在開(kāi)始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化,這種現(xiàn)象稱為增量調(diào)制器的“斜率過(guò)載”(slope overload)。 在輸入信號(hào)緩慢變化部分,即輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granular noise),這種噪聲是不可能消除的。 在輸入信號(hào)變化快的區(qū)域,斜率過(guò)載是關(guān)心的焦點(diǎn),而在輸入信號(hào)變化慢的區(qū)域,關(guān)心的焦點(diǎn)是粒狀噪聲。 雷運(yùn)發(fā)第3章音頻信息處理3.2.3 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制 是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是非瞬時(shí)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間才發(fā)生變化。 改變量化階大小的方法有兩種:一種稱為前向自適應(yīng) ,后向自適應(yīng) 。前者是根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端。后者是從量化器剛輸出的過(guò)去樣本中來(lái)提取量化階信息。 雷運(yùn)發(fā)第3章音頻信息處理 (a) 前向自適應(yīng) 雷運(yùn)發(fā)第3章音頻信息處理(b) 后向自適應(yīng)后向自適應(yīng) 雷運(yùn)發(fā)第3章音頻信息處理3.2.4 差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制 是利用樣本與樣本之間存在的信息冗余度來(lái)進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過(guò)去的樣本去估算(estimate)下一個(gè)樣本信號(hào)的幅度大小,這個(gè)值稱為預(yù)測(cè)值,然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對(duì)采樣信號(hào)進(jìn)行量化編碼,而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì)值。 雷運(yùn)發(fā)第3章音頻信息處理 差分脈沖編碼調(diào)制的概念示于圖差分脈沖編碼調(diào)制的概念示于圖3-93-9。圖中的。圖中的差分信號(hào)差分信號(hào)d(k)d(k)是離散輸入信號(hào)是離散輸入信號(hào)s(k)s(k)和預(yù)測(cè)器輸和預(yù)測(cè)器輸出的估算值出的估算值se(k-1)se(k-1)之差。注意,之差。注意,se(k-1)se(k-1)是對(duì)是對(duì)s(k)s(k)的預(yù)測(cè)值,的預(yù)測(cè)值, 雷運(yùn)發(fā)第3章音頻信息處理3.2.5 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制 綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。它的編碼簡(jiǎn)化框圖如圖3-10所示。 雷運(yùn)發(fā)第3章音頻信息處理雷運(yùn)發(fā)第3章音頻信息處理3.3 音頻編碼標(biāo)準(zhǔn) 3.3.1 CCITT G系列聲音壓縮標(biāo)準(zhǔn)系列聲音壓縮標(biāo)準(zhǔn) CCITT和ISO先后提出了一系列有關(guān)語(yǔ)音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡(jiǎn)要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。 1電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 信號(hào)頻率規(guī)定在300Hz3.4kHz,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM),當(dāng)采樣頻率為8kHz,進(jìn)行8bit量化時(shí),所得數(shù)據(jù)速率為64kb/s,即一個(gè)數(shù)字電話。1972年CCITT為電話質(zhì)量和語(yǔ)音壓縮制定了PCM標(biāo)準(zhǔn)G.711,其速率為64Kbs,使用非線性量化技術(shù),主要用于公共電話網(wǎng)中。 雷運(yùn)發(fā)第3章音頻信息處理 2 2調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率在50Hz一7kHz范圍。G.722標(biāo)準(zhǔn)是采用16kHz采樣,14bit量化,信號(hào)數(shù)據(jù)速率為224kbits,采用子帶編碼方法,將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分,分別進(jìn)行ADPCM編碼,再混合形成輸出碼流,224kbits可以被壓縮成64kbits,最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbits),因此利用G.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個(gè)B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。 雷運(yùn)發(fā)第3章音頻信息處理3 3高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 高保真立體聲音頻信號(hào)頻率范圍是50Hz20kHz,采用441kHz采樣頻率,16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達(dá)705kbits。1991年國(guó)際標(biāo)準(zhǔn)化組織ISO和CCITT開(kāi)始聯(lián)合制定MPEG標(biāo)準(zhǔn),其中ISOCDlll72-3作為“MPEG音頻”標(biāo)準(zhǔn),成為國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。MPEG音頻第一和第二層次編碼是將輸入音頻信號(hào)進(jìn)行采樣頻率為48kHz,44.1kHz,32kHz的采樣,經(jīng)濾波器組將其分為32個(gè)子帶,同時(shí)利用人耳屏蔽效應(yīng),根據(jù)音頻信號(hào)的性質(zhì)計(jì)算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數(shù),獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶,非均勻量化和熵編碼技術(shù),再進(jìn)一步提高壓縮比。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32448kbits,適合于CDDA光盤應(yīng)用。雷運(yùn)發(fā)第3章音頻信息處理 3.3.2 MP33.3.2 MP3壓縮技術(shù)壓縮技術(shù) MP3的全名是MPEG Audio Layer-3,簡(jiǎn)單地說(shuō)就是一種聲音文件的壓縮格式。 ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個(gè)使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案 ,按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。它們?cè)诓捎脗鹘y(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過(guò)研究人耳和大腦聽(tīng)覺(jué)神經(jīng)對(duì)音頻失真的敏感度,在編碼時(shí)先分析聲音文件的波形,利用濾波器找出噪音電平(Noise Level),然后濾去人耳不敏感的信號(hào),通過(guò)矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列,最后編碼形成MPEG的文件。而音質(zhì)聽(tīng)起來(lái)與CD相差不大。 雷運(yùn)發(fā)第3章音頻信息處理 MPEGMPEG的層次與壓縮比率的層次與壓縮比率 Layer1(相當(dāng)于384kbps立體聲信號(hào))4:1Layer2(相當(dāng)于192256kbps立體聲信號(hào))6:18:1Layer3 (相當(dāng)于112154kbps立體聲信號(hào))10:112:1雷運(yùn)發(fā)第3章音頻信息處理 3.3.3 MP4壓縮技術(shù)壓縮技術(shù) MP4并不是MPEG-4或者M(jìn)PEG-1Layer4,它的出現(xiàn)是針對(duì)MP3的大眾化、無(wú)版權(quán)的一種保護(hù)格式,由美國(guó)網(wǎng)絡(luò)技術(shù)公司開(kāi)發(fā),美國(guó)唱片行業(yè)聯(lián)合會(huì)倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂(lè)播放格式。 MP4使用的是MPEG-2 AAC技術(shù)也就是俗稱的a2b或AAC。其中,MPEG-2是MPEG于1994年11月針對(duì)數(shù)碼電視(數(shù)碼影像)提出的。它的特點(diǎn)就是,音質(zhì)更加完美而壓縮比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采樣率為896KHz下提供了148個(gè)聲道可選范圍的高質(zhì)量音頻編碼。AAC就是Advanced Audio Coding(先進(jìn)音頻編碼)的意思,適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼,并且允許對(duì)多媒體進(jìn)行編碼/解碼。 雷運(yùn)發(fā)第3章音頻信息處理 AAC與MP3相比,增加了諸如對(duì)立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等MP3沒(méi)有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)CD音質(zhì)。 AAC技術(shù)主要由以下三個(gè)部分組成。第一,AT&T的音頻壓縮技術(shù)專利。它可以將AAC壓縮比提高到20:1而不損失音質(zhì)。這樣,一首3分鐘的歌僅僅需要2.25MB,這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫(kù)。它可以為你的AAC Music創(chuàng)建一個(gè)特定的密鑰,將此密鑰存于其數(shù)據(jù)庫(kù)中。同時(shí),只有AAC的播放器才能播放含有這種密鑰第三、協(xié)議認(rèn)證。這個(gè)認(rèn)證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時(shí)間、歌曲可以播放時(shí)間以及售賣許可等信息。雷運(yùn)發(fā)第3章音頻信息處理 MP4技術(shù)的優(yōu)越性要遠(yuǎn)遠(yuǎn)高于MP3,因?yàn)樗m合多媒體技術(shù)的發(fā)展以及視聽(tīng)欣賞的需求。但是,MP4是一種商品,它利用改良后的MPEG-2 AAC技術(shù)并強(qiáng)加上由出版公司直接授權(quán)的知識(shí)產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn);而MP3是一種自由音樂(lè)格式,任何人都可以自由使用。此外,MP4實(shí)際上是由音樂(lè)出版界聯(lián)合授意的官方標(biāo)準(zhǔn);MP3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下,MP3的靈活和自由度要遠(yuǎn)遠(yuǎn)大于MP4,這使得音樂(lè)發(fā)燒友們更傾向于使用MP3。更重要的一點(diǎn)是,MP3是目前最為流行的一種音樂(lè)格式,它占據(jù)著大量的網(wǎng)絡(luò)資源,這使得MP4的推廣普及難上加難。 雷運(yùn)發(fā)第3章音頻信息處理3.3.4樂(lè)器數(shù)字接口樂(lè)器數(shù)字接口MIDI 產(chǎn)生MIDI樂(lè)音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是頻率調(diào)制(frequency modulation,F(xiàn)M)合成法,另一種是樂(lè)音樣本合成法,也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來(lái)生成音樂(lè)。 FM合成器生成樂(lè)音的工作原理主要是把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá),并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來(lái),通過(guò)數(shù)模轉(zhuǎn)換器(digital to analog convertor,DAC)來(lái)生成樂(lè)音。但是使用FM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的,有些樂(lè)音幾乎不能產(chǎn)生。 樂(lè)音樣本合成法就是把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái),播放時(shí)改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。樂(lè)音樣本的采集相對(duì)比較直觀。 雷運(yùn)發(fā)第3章音頻信息處理 MIDI協(xié)議協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法,用來(lái)把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。 MIDI信息是以“MIDI messages”傳輸?shù)?,它可以被認(rèn)為是告訴音樂(lè)合成器(music synthesizer)如何演奏一小段音樂(lè)的一種指令,而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國(guó)際MIDI協(xié)會(huì)(International MIDI Association)出版的MIDI 1.0規(guī)范對(duì)MIDI協(xié)議作了完整的說(shuō)明。雷運(yùn)發(fā)第3章音頻信息處理MIDIMIDI數(shù)據(jù)流數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bit stream),其速率為31.25 kbps,每個(gè)字節(jié)為10位(1位開(kāi)始位,8位數(shù)據(jù)位和1位停止位)。MIDI樂(lè)器上的MIDI接口通常包含3種不同的MIDI連接器,用IN(輸入), OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDI controller)產(chǎn)生,如樂(lè)器鍵盤(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂(lè)器使用的一種設(shè)備,在播放時(shí)把演奏轉(zhuǎn)換成實(shí)時(shí)的MIDI數(shù)據(jù)流,MIDI音序器是一種裝置,允許MIDI數(shù)據(jù)被捕獲、存儲(chǔ)、編輯、組合和重奏。來(lái)自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過(guò)該裝置的MIDI OUT連接器傳輸。雷運(yùn)發(fā)第3章音頻信息處理3.4 常用音頻處理軟件簡(jiǎn)介常用音頻處理軟件簡(jiǎn)介 3.4.1 Cool Edit Pro CoolEdit Pro是著名的Syntrillium公司開(kāi)發(fā)的數(shù)字音頻處理軟件,其運(yùn)行環(huán)境為Windows啟動(dòng)后其界面如右圖所示。雷運(yùn)發(fā)第3章音頻信息處理CoolEdit Pro的主要特色有: (1).(1).支持的音頻格式十分豐富支持的音頻格式十分豐富,多達(dá)十余種,還提供了對(duì)5種不同類型WAV文件的支持。(2).(2).提供豐富的特殊效果提供豐富的特殊效果。包括3D混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、反轉(zhuǎn)、靜音等。(3).(3).提供了強(qiáng)大的提供了強(qiáng)大的DSPDSP(數(shù)字信號(hào)處理)能力。能夠同時(shí)(數(shù)字信號(hào)處理)能力。能夠同時(shí)處理處理6464條音軌。條音軌。支持錄音、回放、混音、音頻編輯。借助它,能夠方便地制作出自己想要的任何特殊音效,并添加到各種類型的多媒體作品中去。 (4).(4).操作界面設(shè)計(jì)簡(jiǎn)捷方便操作界面設(shè)計(jì)簡(jiǎn)捷方便。在工具欄中,提供了56個(gè)圖形化按鈕。幾乎所有的編輯操作都能夠方便地進(jìn)行操作。雷運(yùn)發(fā)第3章音頻信息處理3.4.2 Gold WaveGoldWave的窗口界面如圖下圖所示。 雷運(yùn)發(fā)第3章音頻信息處理 GoldWave是一款相當(dāng)不錯(cuò)的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式,而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CD ROM中的音樂(lè)來(lái)錄制編輯。 作為Wave文件編輯處理工具,支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進(jìn)行編輯,所以除了它強(qiáng)大的編輯功能外,用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。 GoldWave同時(shí)是較新的、適合于一般進(jìn)行音頻素材采集與制作的軟件,它集音頻錄制和編輯于一體,不僅是一個(gè)錄音程序,可以很方便地制作CAI課件的背景音樂(lè)、音效、錄制CD、轉(zhuǎn)換音樂(lè)格式等,而且還具有各種復(fù)雜的音樂(lè)編輯和特效處理功能。該軟件不需要安裝,只要運(yùn)行程序文件夾中的可執(zhí)行程序即可。GoldWave小巧玲瓏,只有600K左右,可從下載。 雷運(yùn)發(fā)第3章音頻信息處理3.4.3 CakeWalk(音樂(lè)大師)(音樂(lè)大師) 作為一種圖形化的音樂(lè)編輯軟件,CakeWalk的主要工作界面就是各種工作窗口,我們對(duì)MIDI事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示,音軌窗既是CakeWalk主界面的主要組成部分,也是重要的工作窗口。類似的還有鋼琴窗簾、事件列表窗、調(diào)音臺(tái)窗等,每個(gè)窗口各有所長(zhǎng),分別適用于不同的編輯對(duì)象和編輯特征。雷運(yùn)發(fā)第3章音頻信息處理1. Cakewalkakewalk的調(diào)音臺(tái)的調(diào)音臺(tái)可以自動(dòng)混音,可以一邊播放樂(lè)曲,一邊記錄控制鍵(滑鍵)的調(diào)整動(dòng)作,而且多個(gè)控制鍵可以編組控制,這為制作漸強(qiáng)減弱效果提供了最為簡(jiǎn)單的操作手段。2.對(duì)于所有連續(xù)變化的數(shù)據(jù),例如彎音、調(diào)制、控制器、鍵速和速度等,Cakewalk都提供了手工劃線的編輯方式提供了手工劃線的編輯方式,用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此,對(duì)于像彎音輪的細(xì)微變化過(guò)程、速度的自由變化等之類較難處理的數(shù)據(jù),在Cakewalk中都變得異常簡(jiǎn)單。3.Cakewalk可以將其所有菜單操作命令賦予MIDI鍵盤,也就是說(shuō),可以用合成器的鍵盤來(lái)控制軟件的各種操作可以用合成器的鍵盤來(lái)控制軟件的各種操作,其功能是所有音序軟件中最全面的。4. Cakewalk可以將音符的位置、控制器的變化等將音符的位置、控制器的變化等MIDIMIDI信息圖形信息圖形化地顯示出來(lái)化地顯示出來(lái),因此看起來(lái)更加接近總譜。 Cakewalk Pro AudioCakewalk Pro Audio的的 一些特色功能一些特色功能雷運(yùn)發(fā)第3章音頻信息處理3.5波形音頻文件的采集與制作波形音頻文件的采集與制作 3.5.1利用利用“錄音機(jī)錄音機(jī)”生成和編輯波形文件生成和編輯波形文件 Windows錄音機(jī)的主要功能是錄音和放音,使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音,也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述:(1)波形文件的錄制:確保音頻輸入設(shè)備已經(jīng)連接到計(jì)算機(jī)。錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機(jī)。(2)波形文件的存儲(chǔ):存儲(chǔ)的文件格式為波形(.wav)文件。(3)聲音的編輯:復(fù)制、粘貼、插入、刪除等操作。(4)音頻變換與特殊效果:更改聲音的大小、速度、回音等。 雷運(yùn)發(fā)第3章音頻信息處理 Cool Edit Pro是一種非常出色的聲音編輯器,其主要功能操作如下所述。 (1)波形文件的錄制:錄制及錄制參數(shù)(采樣率、量化位數(shù)、單雙聲道等)的設(shè)定。 ( 2 ) 波 形 文 件 的 存 儲(chǔ) : 存 儲(chǔ) 的 文 件 格 式(.wav、.au、.smp、.asf、.wma等)的選擇,文件格式與參數(shù)(采樣率、量化位數(shù)、單雙聲道)的變換。 (3)波形文件選定范圍播放,記錄播放時(shí)間。 (4)聲音的編輯:剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點(diǎn)定位、確定節(jié)拍等。 (5)聲音的變換與特殊效果:降噪、擴(kuò)音、剪接、添加立體環(huán)繞、淡入淡出、3D回響等音效。3.5.2用用Cool Edit Pro編輯制作波形文件編輯制作波形文件 雷運(yùn)發(fā)第3章音頻信息處理3.6 聲音文件格式的互換聲音文件格式的互換 1 1選擇聲音文件格式的部分原則 1)Wav文件:不僅所有的Windows的音效處理應(yīng)用程序都可以播放WAVE文件,而且常見(jiàn)的各種多媒體編輯制作軟件的音效播放都能直接使用WAV文件。再者,WAV格式的音質(zhì)效果也不錯(cuò) 。 2)MP3文件 :如果通過(guò)適當(dāng)?shù)墓ぞ邅?lái)截取CD上的數(shù)字音頻并保存為CD音質(zhì)的WAVE文件,然后進(jìn)行MPEG Layer 3的壓縮編碼形成MP3文件,再用合適的解碼軟件對(duì)MP3解碼。那么可以形成一個(gè)節(jié)約大量存儲(chǔ)空間,保持CD音質(zhì)的整體解決方案。 3)MIDI文件:是多媒體計(jì)算機(jī)產(chǎn)生音頻(特別是音樂(lè))的另一種主要方式,可以滿足需要長(zhǎng)時(shí)間音樂(lè)的場(chǎng)合。 雷運(yùn)發(fā)第3章音頻信息處理 4)SWA文件:SWA格式的音樂(lè)文件,是Authorware4.0以上版本支持的特殊音樂(lè)格式,它的容量類似于流行的MP3,也非常小。在Authorware4.0或4.0以上版本中,自帶WAVSWA轉(zhuǎn)換器, 3.6.2轉(zhuǎn)換轉(zhuǎn)換CD音軌音軌 下面以比較常用的CDCopy為例來(lái)說(shuō)明一下如何轉(zhuǎn)換CD音軌。CDCopy是一個(gè)常用的抓音軌工具,它對(duì)爛盤的糾錯(cuò)性能非常好,還可以把CD音軌轉(zhuǎn)換為WAV、AU、RA、Yamaha VQF、AAC、MP3等多種聲音格式,而且CDCopy是一個(gè)共享軟件,我們可以從http:/下載到它的最新版本。抓取及轉(zhuǎn)換音軌 步驟分以下3步:1選擇文件格式 2設(shè)置文件保存路徑 3轉(zhuǎn)換音軌雷運(yùn)發(fā)第3章音頻信息處理 3.7.1語(yǔ)音識(shí)別的發(fā)展歷史語(yǔ)音識(shí)別的發(fā)展歷史 可以將語(yǔ)音識(shí)別近六十年的發(fā)展歷史劃分為4個(gè)時(shí)期: (1)初始發(fā)展期 (2)基礎(chǔ)突破期 (3)綜合發(fā)展期 (4)成熟期 3.7 語(yǔ)音識(shí)別技術(shù)及應(yīng)用語(yǔ)音識(shí)別技術(shù)及應(yīng)用 雷運(yùn)發(fā)第3章音頻信息處理3.7.2語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別技術(shù) 語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,其目的就是要讓機(jī)器具有人的聽(tīng)覺(jué)功能,在人機(jī)語(yǔ)音通訊中“聽(tīng)懂”人類口述的語(yǔ)言。根據(jù)不同的需求,語(yǔ)音識(shí)別的識(shí)別內(nèi)容可分為狹義的語(yǔ)音識(shí)別和說(shuō)話人語(yǔ)音識(shí)別 。 雷運(yùn)發(fā)第3章音頻信息處理1語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)語(yǔ)音識(shí)別技術(shù)的基礎(chǔ) 一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分:(1)語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。(2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。(3)語(yǔ)言模型與語(yǔ)言處理:語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對(duì)小詞表語(yǔ)音識(shí)別系統(tǒng),往往不需要語(yǔ)言處理部分。雷運(yùn)發(fā)第3章音頻信息處理 聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大的影響。必須根據(jù)不同語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。雷運(yùn)發(fā)第3章音頻信息處理 語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。 雷運(yùn)發(fā)第3章音頻信息處理2語(yǔ)音識(shí)別的基本原理語(yǔ)音識(shí)別的基本原理 雷運(yùn)發(fā)第3章音頻信息處理 預(yù)處理預(yù)處理包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題: 特征提取部分特征提取部分用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等; 訓(xùn)練訓(xùn)練在識(shí)別之前進(jìn)行,通過(guò)讓講話者多次重復(fù)語(yǔ)音,從原始語(yǔ)音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類,形成模式庫(kù); 模式匹配部分模式匹配部分是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心,它是根據(jù)一定的準(zhǔn)則(如某種距離測(cè)度)以及專家知識(shí)(如構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等),計(jì)算輸入特征與庫(kù)存模式之間的相似度,判斷出輸入語(yǔ)音的語(yǔ)意信息。 雷運(yùn)發(fā)第3章音頻信息處理3 3處理的方法:處理的方法:(1) 連續(xù)語(yǔ)音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定;剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略;波形的自動(dòng)切分(依賴于識(shí)別基元的選擇方案)。 (2) 特征參數(shù)提取 識(shí)別語(yǔ)音的過(guò)程,實(shí)際上是對(duì)語(yǔ)音特征參數(shù)模式的比較和匹配的過(guò)程。語(yǔ)音特征參數(shù)的選取對(duì)系統(tǒng)識(shí)別結(jié)果起著重要的作用。因此,必須尋找一個(gè)既能充分表達(dá)語(yǔ)音特征又能彼此區(qū)別的特征參數(shù),這是語(yǔ)音識(shí)別中的一個(gè)最重要基本問(wèn)題。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過(guò)零率、能量、短時(shí)頻譜、共振峰頻率及帶寬等。 雷運(yùn)發(fā)第3章音頻信息處理 (3)參數(shù)模板存儲(chǔ)。)參數(shù)模板存儲(chǔ)。在建立識(shí)別系統(tǒng)時(shí),首先進(jìn)行特征參數(shù)提取,然后對(duì)系統(tǒng)進(jìn)行訓(xùn)練和聚類。通過(guò)訓(xùn)練,系統(tǒng)建立并存儲(chǔ)一個(gè)該系統(tǒng)需識(shí)別字(或音節(jié))的參數(shù)模板庫(kù)。 (4)識(shí)別判決。識(shí)別時(shí),待識(shí)語(yǔ)音信號(hào)經(jīng)過(guò)與訓(xùn)練時(shí)相同的特征參數(shù)提取后,與模式模板存儲(chǔ)器中的模式進(jìn)行匹配計(jì)算和比較,并根據(jù)一定的規(guī)則進(jìn)行識(shí)別判決,最后輸出識(shí)別結(jié)果。雷運(yùn)發(fā)第3章音頻信息處理3.7.3 語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別系統(tǒng)的類型 1按可識(shí)別的詞匯量多少 2按照語(yǔ)音的輸入方式 3按發(fā)音者為特定/非特定人 4按發(fā)音者的聲紋 雷運(yùn)發(fā)第3章音頻信息處理3.7.4 語(yǔ)音識(shí)別的應(yīng)用語(yǔ)音識(shí)別的應(yīng)用 1在信息處理領(lǐng)域的應(yīng)用 (1)給計(jì)算機(jī)發(fā)送指令 。 (2)聽(tīng)寫系統(tǒng) 。 (3)信息查詢。 (4)網(wǎng)上交談。 2教育與商務(wù)應(yīng)用 (1)語(yǔ)音教學(xué)軟件。 (2)電話查詢。 (3)電子商務(wù)。 3消費(fèi)電子產(chǎn)品應(yīng)用 雷運(yùn)發(fā)第3章音頻信息處理第三章小結(jié)第三章小結(jié) 聲音是攜帶信息的重要媒體,對(duì)音頻信息的處理是多媒體技術(shù)研究的一個(gè)重要方面。聲音種類繁多,且不同種類的聲音之間既有共性也有自身的特性。在本章的前3節(jié)主要介紹了音頻信息處理的基本知識(shí)和音頻信號(hào)壓縮及編碼等理論。在后4節(jié)中先介紹了常用音頻處理軟件及聲音文件的制作、轉(zhuǎn)換等實(shí)際應(yīng)用,最后介紹了一個(gè)目前較熱門的應(yīng)用領(lǐng)域語(yǔ)音識(shí)別技術(shù)。 雷運(yùn)發(fā)第3章音頻信息處理第第3 3章章討論題討論題1.聲音按其特性分為哪幾類?舉例說(shuō)明。聲音按其特性分為哪幾類?舉例說(shuō)明。分為規(guī)則和不規(guī)則兩類。不規(guī)則指不含任何信息的噪音;規(guī)則聲音分為語(yǔ)音、音樂(lè)和音效。語(yǔ)音是指具有語(yǔ)言內(nèi)涵和人類約定俗成的特殊媒體,音樂(lè)是規(guī)范的、符號(hào)化的聲音,音效是指人類熟悉的其他聲音,如雨聲、雷聲、機(jī)器轟鳴聲。2.聲音具有哪聲音具有哪3個(gè)要素?舉例說(shuō)明。個(gè)要素?舉例說(shuō)明。音強(qiáng)、音調(diào)、音色。雷運(yùn)發(fā)第3章音頻信息處理3.聲音數(shù)字化分為哪兩個(gè)步驟?聲音數(shù)字化分為哪兩個(gè)步驟?采樣采樣就是每隔一段時(shí)間就讀一次聲音信號(hào)的幅度,記錄下來(lái)的原始模擬聲波在某一時(shí)刻的狀態(tài),稱之為樣本;每秒鐘抽取聲波幅度樣本的次數(shù),稱為采樣頻率,采樣頻率的高低由奈奎斯特采樣訂立和聲音信號(hào)本身的最 高頻率決定 ;常用的有8kHz , 11.025kHz, 22.05, kHz 16kHz, 44.1kHz, 48kHz等。量化量化:把采樣得到的聲波幅度轉(zhuǎn)化為數(shù)字值,也就是把某一幅度范圍內(nèi)的電壓用用一個(gè)數(shù)字表示。量化位數(shù) 是每個(gè)采樣點(diǎn)能夠表示的數(shù)據(jù)范圍,有8/12/16/32位。量化級(jí)量化級(jí) 的大小決定了聲音的動(dòng)態(tài)范圍,即被記錄和重放的聲音最高與最低之間的差值。量化有很多種方法,可歸納為兩類,均勻量化和非均勻量化。雷運(yùn)發(fā)第3章音頻信息處理4. 從人機(jī)交互的角度看,音頻信號(hào)有哪些從人機(jī)交互的角度看,音頻信號(hào)有哪些處理過(guò)程?處理過(guò)程? 1.音頻獲取音頻獲?。ㄓ?jì)算機(jī)接收音頻信號(hào)):語(yǔ)音識(shí)別和理解。 2.音頻合成音頻合成(計(jì)算機(jī)輸出音頻信號(hào)):語(yǔ)音合成和音樂(lè)合成; 3. 聲音定位聲音定位:包括立體聲模擬、音/視頻同步。 4.人通過(guò)網(wǎng)絡(luò)與別人通信人通過(guò)網(wǎng)絡(luò)與別人通信:語(yǔ)音采集、音頻編碼/解碼,音頻傳輸?shù)?。雷運(yùn)發(fā)第3章音頻信息處理5.聲卡有哪些主要功能?聲卡有哪些主要功能? 1.錄制、編輯和回放聲音文件; 2.控制各個(gè)音源的音量,混合后再數(shù)字化; 3.記錄和回放聲音文件; 4.文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別; 5.MIDI接口和音樂(lè)合成。6.聲卡有哪些主要技術(shù)指標(biāo)?聲卡有哪些主要技術(shù)指標(biāo)?1.采樣率與量化位; 2.FM合成與波形表;3.外圍接口; 4.音頻壓縮;5.DSP芯片; 6. 軟件支持。雷運(yùn)發(fā)第3章音頻信息處理實(shí)驗(yàn)題實(shí)驗(yàn)題1、清制作一段自己的錄音文件,并配背景音樂(lè),寫出制作步驟。2、請(qǐng)敘述用Cool Edit Pro取出某段錄音文件中的環(huán)境噪音的步驟。3、請(qǐng)把某段正常速度錄制的語(yǔ)音文件,在保持語(yǔ)調(diào)不變的情況下把語(yǔ)速降低到正常語(yǔ)速的70%。

注意事項(xiàng)

本文(雷運(yùn)發(fā)第3章音頻信息處理課件)為本站會(huì)員(陽(yáng)***)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!