雷運(yùn)發(fā)第3章音頻信息處理課件

資源ID：100769255 資源大?。?span id="v3fbrdz" class="font-tahoma">588KB 全文頁(yè)數(shù)：80頁(yè)
資源格式： PPT 下載積分：25積分

快捷下載

會(huì)員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要25積分

郵箱/手機(jī)：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào)，方便查詢和重復(fù)下載（系統(tǒng)自動(dòng)生成）
支付方式：
驗(yàn)證碼：	換一換

賬號(hào)：
密碼：
驗(yàn)證碼：	換一換
當(dāng)日自動(dòng)登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會(huì)被瀏覽器默認(rèn)打開(kāi)，此種情況可以點(diǎn)擊瀏覽器菜單，保存網(wǎng)頁(yè)到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請(qǐng)使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案，請(qǐng)知曉。

網(wǎng)站客服

侵權(quán)投訴

雷運(yùn)發(fā)第3章音頻信息處理課件

雷運(yùn)發(fā)第3章音頻信息處理第第3章章音頻信息處理音頻信息處理學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo)l 了解聲音信號(hào)的特點(diǎn)、存儲(chǔ)格式及質(zhì)量的度量方法l 理解音頻信號(hào)壓縮方法及音頻編碼標(biāo)準(zhǔn)l 掌握常用的音頻處理軟件對(duì)聲音信號(hào)進(jìn)行處理l了解語(yǔ)音識(shí)別技術(shù)及其應(yīng)用雷運(yùn)發(fā)第3章音頻信息處理3.1 音頻信息處理基礎(chǔ)音頻信息處理基礎(chǔ) 音頻信息音頻信息在多媒體中的應(yīng)用應(yīng)用極為廣泛：視頻圖像配以娓娓動(dòng)聽(tīng)的音樂(lè)和語(yǔ)音；靜態(tài)或動(dòng)態(tài)圖像配以解說(shuō)和背景音樂(lè) ；立體聲音樂(lè)可增加空間感；游戲中的音響效果等。音頻處理技術(shù)主要包括音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號(hào)的存儲(chǔ)、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號(hào)的編碼、壓縮、傳輸、存取、糾錯(cuò)等。雷運(yùn)發(fā)第3章音頻信息處理3.1.1 3.1.1 音頻信號(hào)的特點(diǎn)音頻信號(hào)的特點(diǎn) 1.1.音頻信號(hào)的分類音頻信號(hào)的分類音頻信號(hào)可分為兩類：語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)音頻信號(hào)可分為兩類：語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。語(yǔ)音語(yǔ)音是語(yǔ)言的物質(zhì)載體，是社會(huì)交際工具的符號(hào), 它包含了豐富的語(yǔ)言內(nèi)涵，是人類進(jìn)行信息交流所特有的形式。非語(yǔ)音信號(hào)非語(yǔ)音信號(hào)主要包括音樂(lè)和自然界存在的其他聲音形式。非語(yǔ)音信號(hào)的特點(diǎn)是不具有復(fù)雜的語(yǔ)義和語(yǔ)法信息，信息量低、識(shí)別簡(jiǎn)單。雷運(yùn)發(fā)第3章音頻信息處理規(guī)則音頻規(guī)則音頻是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線來(lái)表示，稱為聲波聲波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量，我們稱之為模擬量模擬量。用聲音錄制軟件記錄的英文單詞用聲音錄制軟件記錄的英文單詞“Hello”Hello”的語(yǔ)音實(shí)際波形的語(yǔ)音實(shí)際波形雷運(yùn)發(fā)第3章音頻信息處理2.2.模擬音頻信號(hào)的兩個(gè)重要參數(shù)模擬音頻信號(hào)的兩個(gè)重要參數(shù) 模擬音頻信號(hào)有兩個(gè)重要參數(shù)：頻率和幅度頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低，聲波幅度的大小體現(xiàn)聲音的強(qiáng)弱。一個(gè)聲源每秒鐘可產(chǎn)生成百上千個(gè)波，我們把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號(hào)的頻率頻率，單位用赫茲(Hz)或千赫茲(kHz)表示。信號(hào)的幅度信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大，聲音越強(qiáng)。對(duì)音頻信號(hào)，聲音的強(qiáng)度用分貝聲音的強(qiáng)度用分貝(dB)(dB)表示表示，分貝的幅度就是音量。幅度限周期基線雷運(yùn)發(fā)第3章音頻信息處理3. 3. 聲音的聲音的A/DA/D與與D/AD/A轉(zhuǎn)換轉(zhuǎn)換 A/DA/D轉(zhuǎn)換轉(zhuǎn)換就是把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的過(guò)程，模擬電信號(hào)變?yōu)榱擞伞?”和“1”組成的Bit信號(hào)。這樣做的好處是顯而易見(jiàn)的，聲音存儲(chǔ)質(zhì)量得到了加強(qiáng)，數(shù)字化的聲音信息使計(jì)算機(jī)能夠進(jìn)行識(shí)別、處理和壓縮。A/D轉(zhuǎn)換的一個(gè)關(guān)鍵步驟是聲音的采樣和量化采樣和量化，得到數(shù)字音頻信號(hào)，它在時(shí)間上是不連續(xù)的離散信號(hào)。借助于A/D或D/A轉(zhuǎn)換器，模擬信號(hào)和數(shù)字信號(hào)可以互相轉(zhuǎn)換。雷運(yùn)發(fā)第3章音頻信息處理4. 4. 聲音的三要素聲音的三要素 1 1）音調(diào)）音調(diào)：代表了聲音的高低。音調(diào)與頻率有關(guān)，頻率越高，音調(diào)越高，反之亦然。讀者也許有這樣的經(jīng)驗(yàn)，當(dāng)提高磁帶錄音機(jī)的轉(zhuǎn)速時(shí)，其旋轉(zhuǎn)加快，聲音信號(hào)的頻率提高，其喇叭放出來(lái)聲音的音調(diào)提高了。同樣，在使用音頻處理軟件對(duì)聲音的頻率進(jìn)行調(diào)整時(shí)，也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào)，如果改變了某種聲源的音調(diào)，則聲音會(huì)發(fā)生質(zhì)的轉(zhuǎn)變，使人們無(wú)法辨別聲源本來(lái)的面目。雷運(yùn)發(fā)第3章音頻信息處理 2 2）音色）音色：即特色的聲音。聲音分純音純音和復(fù)音復(fù)音兩種類型。所謂純音，是指振幅和周期均為常數(shù)的聲音；復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中，最低頻率的聲音是“基音基音”，它是聲音的基調(diào)。其他頻率的聲音稱為“諧音”，也叫泛音泛音?；艉椭C音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨(dú)特的音色，例如各種樂(lè)器的聲音、每個(gè)人的聲音、各種生物的聲音等，人們就是依據(jù)音色來(lái)辨別聲源種類的。 3 3）音強(qiáng)）音強(qiáng)：聲音的強(qiáng)度，也被稱為聲音的響度，常說(shuō)的“音量”也是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比，振幅越大，強(qiáng)度越大。唱盤、CD激光盤以及其他形式聲音載體中的聲音強(qiáng)度是一定的，通過(guò)播放設(shè)備的音量控制，可改變聆聽(tīng)時(shí)的響度。雷運(yùn)發(fā)第3章音頻信息處理聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜線性頻譜是具有周期性的單一頻率聲波；連續(xù)頻譜連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專門的設(shè)備中創(chuàng)造出來(lái)，聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波，該聲波具有廣泛的頻率分量，聽(tīng)起來(lái)聲音飽滿、音色多樣且具有生氣。 5.5.聲音的頻譜聲音的頻譜雷運(yùn)發(fā)第3章音頻信息處理3.1.2 3.1.2 模擬音頻的數(shù)字化過(guò)程模擬音頻的數(shù)字化過(guò)程數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理，現(xiàn)在幾乎所有的專業(yè)化聲音錄制、編輯器都是數(shù)字方式。對(duì)模擬音頻數(shù)字化過(guò)程涉及到音頻的采樣、量化和編碼。音頻的采樣、量化和編碼。采樣和量化的過(guò)程可由采樣和量化的過(guò)程可由A/DA/D轉(zhuǎn)換器轉(zhuǎn)換器實(shí)現(xiàn)實(shí)現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣，即每個(gè)周期測(cè)量和量化信號(hào)一次。經(jīng)采樣和量化后聲音信號(hào)經(jīng)編碼后就成為數(shù)字音頻信號(hào)，可以將其以文件形式保存在計(jì)算機(jī)的存儲(chǔ)介質(zhì)中，這樣的文件一般稱為數(shù)字聲波文件。模擬信號(hào)的數(shù)字化過(guò)程 100101100011101 雷運(yùn)發(fā)第3章音頻信息處理信息論的奠基者香農(nóng)（Shannon）指出：在一定條件下，用在一定條件下，用離散的序列可以完全代表一個(gè)連續(xù)函數(shù)離散的序列可以完全代表一個(gè)連續(xù)函數(shù)，這是采樣定理的基本內(nèi)容。為實(shí)現(xiàn)A/D轉(zhuǎn)換，需要把模擬音頻信號(hào)波形進(jìn)行分割把模擬音頻信號(hào)波形進(jìn)行分割，這種這種方法稱為采樣方法稱為采樣(Sampling)。采樣的過(guò)程是每隔一個(gè)時(shí)間間隔在采樣的過(guò)程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅度值模擬聲音的波形上取一個(gè)幅度值，把時(shí)間上的連續(xù)信號(hào)變成時(shí)間上的離散信號(hào)。該時(shí)間間隔稱為采樣周期，其倒數(shù)為采樣頻率。采樣頻率采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本。 1. 1. 采樣采樣采樣頻率與聲音頻率之間有一定的關(guān)系，根據(jù)奈奎斯特（Nyquist）理論，只有采樣頻率高于聲音信號(hào)最高頻率的兩只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí)，才能把數(shù)字信號(hào)表示的聲音還原成為原來(lái)的聲音倍時(shí)，才能把數(shù)字信號(hào)表示的聲音還原成為原來(lái)的聲音。 2 2f ff fs s雷運(yùn)發(fā)第3章音頻信息處理采樣只解決了音頻波形信號(hào)在時(shí)間坐標(biāo)時(shí)間坐標(biāo)(即橫軸即橫軸)上把一個(gè)波形切成若干個(gè)等分的數(shù)字化問(wèn)題，但是還需要用某種數(shù)字化的方法來(lái)反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對(duì)聲波波形幅度的數(shù)字化表示稱之為對(duì)聲波波形幅度的數(shù)字化表示稱之為“量量化化”。量化的過(guò)程量化的過(guò)程是先將采樣后的信號(hào)按整個(gè)聲波的幅度劃分成有限個(gè)區(qū)段的集合，把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類，并賦于相同的量化值。如何分割采樣信號(hào)的幅度呢? 我們還是采取二進(jìn)制的方式，以位以位(bit)或或16位位(bit)的方式來(lái)劃分縱軸的方式來(lái)劃分縱軸。也就是說(shuō)在一個(gè)以8位為記錄模式的音效中，其縱軸將會(huì)被劃分為個(gè)量化等級(jí)，用以記錄其幅度大小。2. 量化量化雷運(yùn)發(fā)第3章音頻信息處理以下圖所示的原始模擬波形為例進(jìn)行采樣和量化。假設(shè)采樣頻率為1000次/秒，即每1/1000秒A/D轉(zhuǎn)換器采樣一次，其幅度被劃分成0到9共10個(gè)量化等級(jí)，并將其采樣的幅度值取最接近0 9之間的一個(gè)數(shù)來(lái)表示，如下圖所示。圖中每個(gè)正方形表示一次采樣。雷運(yùn)發(fā)第3章音頻信息處理 D/A轉(zhuǎn)換器轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來(lái)信號(hào)時(shí)，得到下圖中藍(lán)色(直線段)線段所示的波形。從圖中可以看出，藍(lán)色線與原波形(紅色線)相比，其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號(hào)波形有較大的失真。雷運(yùn)發(fā)第3章音頻信息處理失真失真在采樣過(guò)程中是不可避免的，如何減少失真呢如何減少失真呢？可以直觀地看出，我們可以把上圖中的波形劃分成更為細(xì)小的區(qū)間，即采用更高的采樣頻率。同時(shí)，增加量化精度采用更高的采樣頻率。同時(shí)，增加量化精度，以得到更高的量化等級(jí)，即可減少失真的程度。在下圖（左）中，采樣率和量化等級(jí)均提高了一倍，分別為2000次/秒和20個(gè)量化等級(jí)。在下圖（右）中，采樣率和量化等級(jí)再提高了一倍，分別達(dá)到4000次/秒和40個(gè)量化等級(jí)。從圖中可以看出，當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來(lái)信號(hào)時(shí)（圖中的輪廓線），信號(hào)的失真明顯減少，信號(hào)質(zhì)量得到了提高。雷運(yùn)發(fā)第3章音頻信息處理3. 3. 編碼編碼模擬信號(hào)量經(jīng)過(guò)采樣和量化以后，形成一系列的離散信號(hào)脈沖數(shù)字信號(hào)。這種脈沖數(shù)字信號(hào)可以一定的方式進(jìn)行編碼，形成計(jì)算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼，就是按照一定編碼，就是按照一定的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái)，并在有用的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái)，并在有用的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí)，可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò)，如在一定范圍內(nèi)有錯(cuò)，可加以糾正。編碼的形式比較多，常用的編碼方式是PCM脈沖調(diào)制。脈沖編碼調(diào)制（脈沖編碼調(diào)制（PCM）是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)）是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式，即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離制方式，即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離散的量，然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)散的量，然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)。雷運(yùn)發(fā)第3章音頻信息處理3.1.3 3.1.3 數(shù)字音頻的文件格式數(shù)字音頻的文件格式在多媒體技術(shù)中，存儲(chǔ)音頻信息的文件格式主要有：WAV文件、VOC文件和MP3文件等。 1. WAVWAV文件文件 WAV文件又稱波形文件，來(lái)源于對(duì)聲音模擬波形的采樣，并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù)，然后存入磁盤，這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺(tái)的音頻信息資源，被Windows平臺(tái)及其應(yīng)用程序所廣泛支持。雷運(yùn)發(fā)第3章音頻信息處理 WAV聲音文件是使用RIFF（Resource Interchange 資源交換文件）的格式描述的，它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語(yǔ)音特征值、聲道特征以及PCM格式類型標(biāo)志等。WAV數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長(zhǎng)度和波形音頻數(shù)據(jù)3個(gè)數(shù)據(jù)子塊組成。 Wave格式支持多種壓縮算法，支持多種音頻位數(shù)、采樣頻率和聲道，是PC機(jī)上最為流行的聲音文件格式，但其文件尺寸較大，多用于存儲(chǔ)簡(jiǎn)短的聲音片斷。未壓縮的聲音文件的存儲(chǔ)量未壓縮的聲音文件的存儲(chǔ)量可用下式計(jì)算：可用下式計(jì)算：存儲(chǔ)量（存儲(chǔ)量（KBKB）= =（采樣頻率（采樣頻率KHZKHZ采樣位數(shù)采樣位數(shù)bitbit聲道數(shù)聲道數(shù)時(shí)間秒）時(shí)間秒）/8/8 雷運(yùn)發(fā)第3章音頻信息處理2.VOC2.VOC文件文件 VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式，多用于保存 Creative Sound Blaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù)，被Windows平臺(tái)和DOS平臺(tái)所支持。與WAV格式類似，VOC文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始地址的指針，這個(gè)指針幫助數(shù)據(jù)塊定位以便順利找到第一個(gè)數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類型的子塊，如聲音數(shù)據(jù)、靜音、標(biāo)記、ASCII碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。雷運(yùn)發(fā)第3章音頻信息處理3.MPEG音頻文件.MP1/.MP2/.MP3 這里的音頻文件格式指的是MPEG標(biāo)準(zhǔn)中的音頻部分，即MPEG音頻層(MPEG Audio Layer)。MPEG音頻文件的壓縮是一種有損壓縮，根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEG Audio Layer 1/2/3)，分別對(duì)應(yīng)MP1、MP2和MP3這三種聲音文件； MPEG音頻編碼具有很高的壓縮率，MP1和MP2的壓縮率分別為41和6181，而MP3的壓縮率則高達(dá)101121，也就是說(shuō)一分鐘CD音質(zhì)的音樂(lè)，未經(jīng)壓縮需要10MB存儲(chǔ)空間，而經(jīng)過(guò)MP3壓縮編碼后只有1MB左右，同時(shí)其音質(zhì)基本保持不失真。雷運(yùn)發(fā)第3章音頻信息處理 4. RealAudio文件文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司開(kāi)發(fā)的一種新型流式音頻(Streaming Audio)文件格式；它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中，主要用于在低速率的廣域網(wǎng)上實(shí)時(shí)傳輸音頻信息；網(wǎng)絡(luò)連接速率不同，客戶端所獲得的聲音質(zhì)量也不盡相同：對(duì)于28.8kb/s的連接，可以達(dá)到廣播級(jí)的聲音質(zhì)量；如果擁有ISDN或更快的線路連接，則可獲得CD音質(zhì)的聲音。雷運(yùn)發(fā)第3章音頻信息處理5.AIFF文件文件.AIF/.AIFF AIFF是音頻交換文件格式(Audio Interchange )的英文縮寫，是蘋果計(jì)算機(jī)公司開(kāi)發(fā)的一種聲音文件格式；被Macintosh平臺(tái)及其應(yīng)用程序所支持，其他專業(yè)音頻軟件包也同樣支持這種格式。雷運(yùn)發(fā)第3章音頻信息處理3.1.4 3.1.4 聲音質(zhì)量的評(píng)價(jià)聲音質(zhì)量的評(píng)價(jià) 目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號(hào)的帶寬來(lái)衡量聲音的質(zhì)量，等級(jí)由高到低依次是DAT，CD，F(xiàn)M，AM和數(shù)字電話。此外，聲音質(zhì)量的度量還有兩種基本的方法：一種是客觀質(zhì)量度量，另一種是主觀質(zhì)量度量。評(píng)價(jià)語(yǔ)音質(zhì)量時(shí)，有時(shí)同時(shí)采取兩種方法評(píng)估，有時(shí)以主觀質(zhì)量度量為主。 1 1以聲音的帶寬衡量聲音的質(zhì)量以聲音的帶寬衡量聲音的質(zhì)量雷運(yùn)發(fā)第3章音頻信息處理2 2、聲音客觀質(zhì)量的度量、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(s signal to n niose r ratio，SNR)來(lái)度量。它指音源產(chǎn)生最大不失真聲音信號(hào)強(qiáng)度與同時(shí)發(fā)出噪音強(qiáng)度之間的比率，通常以S/N表示。一般用分貝（dB）為單位，信噪比越高表示音頻質(zhì)量越好。信噪比(SNR)用下式計(jì)算：SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise)其中，Vsignal表示信號(hào)電壓，Vnoise表示噪聲電壓；SNR的單位為分貝(db)。雷運(yùn)發(fā)第3章音頻信息處理3 3、聲音主觀質(zhì)量的度量、聲音主觀質(zhì)量的度量與用SNR客觀質(zhì)量度量相比較，應(yīng)該可以說(shuō)人的感覺(jué)(如聽(tīng)覺(jué)、視覺(jué)等)更具有決定意義，感覺(jué)上的、主觀上的測(cè)試應(yīng)該成為評(píng)價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為，在語(yǔ)音和圖像信號(hào)編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng)，更有意義?？墒且话銇?lái)說(shuō)，可靠的主觀度量值也是比較難獲得的，所獲得的值也是一個(gè)相對(duì)值。對(duì)聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制：優(yōu)(Excellent)、良(Good) 、中(Fair) 、差(Poor) 、劣(Bad) 。雷運(yùn)發(fā)第3章音頻信息處理3.2音頻信號(hào)壓縮技術(shù)音頻信號(hào)壓縮技術(shù) 音頻信號(hào)壓縮編碼的主要依據(jù)是人耳的聽(tīng)覺(jué)特性，主要有兩點(diǎn)： 1.人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平，低于這個(gè)電平的聲音信號(hào)人耳聽(tīng)不到 .2.人的聽(tīng)覺(jué)存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí)，強(qiáng)聲使弱聲難以聽(tīng)到，并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān) . 聲音編碼算法就是通過(guò)這些特性來(lái)去掉更多的冗余數(shù)據(jù)，來(lái)達(dá)到壓縮數(shù)據(jù)的目的。雷運(yùn)發(fā)第3章音頻信息處理3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理它的原理框圖下圖所示雷運(yùn)發(fā)第3章音頻信息處理3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理它的原理框圖下圖所示雷運(yùn)發(fā)第3章音頻信息處理模擬信號(hào)數(shù)字化一般有三個(gè)步驟：第一步是采樣，就是每隔一段時(shí)間間隔讀一次聲音的幅度；第二步是量化，就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。但那時(shí)并沒(méi)有涉及如何進(jìn)行量化。量化有好幾種方法，但可歸納成兩類：一類稱為均勻量化，另一類稱為非均勻量化。采用的量化方法不同，量化后的數(shù)據(jù)量也就不同。因此，可以說(shuō)量化也是一種壓縮數(shù)據(jù)的方法；第三步是編碼，就是按一定格式記錄采樣和量化后的數(shù)據(jù)。雷運(yùn)發(fā)第3章音頻信息處理2均勻量化均勻量化采用相同的“等分尺”來(lái)度量采樣得到的幅度，也稱為線性量化，如圖3-4所示。量化后的樣本值Y和原始值X的差 E=Y-X稱為量化誤差或量化噪聲。雷運(yùn)發(fā)第3章音頻信息處理3非均勻量化非均勻量化對(duì)輸入信號(hào)進(jìn)行量化時(shí)，大的輸入信號(hào)采用大的量化間隔，小的輸入信號(hào)采用小的量化間隔，如圖3-5所示。雷運(yùn)發(fā)第3章音頻信息處理一個(gè)CDDA采用脈沖編碼調(diào)制PCM編碼的實(shí)例雷運(yùn)發(fā)第3章音頻信息處理首先用一組脈沖采樣時(shí)鐘信號(hào)與輸入的模擬音頻信號(hào)相乘，相乘的結(jié)果即輸入信號(hào)在時(shí)間軸上的數(shù)字化。然后對(duì)采樣以后的信號(hào)幅值進(jìn)行量化。最簡(jiǎn)單的量化方法是均衡量化，這個(gè)量化的過(guò)程由量化器來(lái)完成。對(duì)經(jīng)量化器A/D變換后的信號(hào)再進(jìn)行編碼，即把量化的信號(hào)電平轉(zhuǎn)換成二進(jìn)制碼組，就得到了離散的二進(jìn)制輸出數(shù)據(jù)序列x(n)，n表示量化的時(shí)間序列，x(n)的值就是n時(shí)刻量化后的幅值，以二進(jìn)制的形式表示和記錄。雷運(yùn)發(fā)第3章音頻信息處理3.2.2 3.2.2 增量調(diào)制增量調(diào)制它是一種預(yù)測(cè)編碼技術(shù)，是PCM編碼的一種變形。DM是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼，將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”，則用“1”表示；相反則用“0”表示，或者相反。圖3-7 DM波形示意圖雷運(yùn)發(fā)第3章音頻信息處理從上圖中可以看到，在開(kāi)始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化，這種現(xiàn)象稱為增量調(diào)制器的“斜率過(guò)載”(slope overload)。在輸入信號(hào)緩慢變化部分，即輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近零的區(qū)域，增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granular noise)，這種噪聲是不可能消除的。在輸入信號(hào)變化快的區(qū)域，斜率過(guò)載是關(guān)心的焦點(diǎn)，而在輸入信號(hào)變化慢的區(qū)域，關(guān)心的焦點(diǎn)是粒狀噪聲。雷運(yùn)發(fā)第3章音頻信息處理3.2.3 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng)，即量化階的大小每隔幾個(gè)樣本就改變，也可以是非瞬時(shí)自適應(yīng)，即量化階的大小在較長(zhǎng)時(shí)間才發(fā)生變化。改變量化階大小的方法有兩種：一種稱為前向自適應(yīng) ，后向自適應(yīng) 。前者是根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平，以此來(lái)確定量化階的大小，并對(duì)其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端。后者是從量化器剛輸出的過(guò)去樣本中來(lái)提取量化階信息。雷運(yùn)發(fā)第3章音頻信息處理 (a) 前向自適應(yīng) 雷運(yùn)發(fā)第3章音頻信息處理(b) 后向自適應(yīng)后向自適應(yīng) 雷運(yùn)發(fā)第3章音頻信息處理3.2.4 差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制是利用樣本與樣本之間存在的信息冗余度來(lái)進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是，根據(jù)過(guò)去的樣本去估算(estimate)下一個(gè)樣本信號(hào)的幅度大小，這個(gè)值稱為預(yù)測(cè)值，然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是，PCM是直接對(duì)采樣信號(hào)進(jìn)行量化編碼，而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì)值。雷運(yùn)發(fā)第3章音頻信息處理差分脈沖編碼調(diào)制的概念示于圖差分脈沖編碼調(diào)制的概念示于圖3-93-9。圖中的。圖中的差分信號(hào)差分信號(hào)d(k)d(k)是離散輸入信號(hào)是離散輸入信號(hào)s(k)s(k)和預(yù)測(cè)器輸和預(yù)測(cè)器輸出的估算值出的估算值se(k-1)se(k-1)之差。注意，之差。注意，se(k-1)se(k-1)是對(duì)是對(duì)s(k)s(k)的預(yù)測(cè)值，的預(yù)測(cè)值，雷運(yùn)發(fā)第3章音頻信息處理3.2.5 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性，是一種性能比較好的波形編碼。它的核心想法是：利用自適應(yīng)的思想改變量化階的大小，即使用小的量化階(step-size)去編碼小的差值，使用大的量化階去編碼大的差值,使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。它的編碼簡(jiǎn)化框圖如圖3-10所示。雷運(yùn)發(fā)第3章音頻信息處理雷運(yùn)發(fā)第3章音頻信息處理3.3 音頻編碼標(biāo)準(zhǔn) 3.3.1 CCITT G系列聲音壓縮標(biāo)準(zhǔn)系列聲音壓縮標(biāo)準(zhǔn) CCITT和ISO先后提出了一系列有關(guān)語(yǔ)音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡(jiǎn)要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。 1電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 信號(hào)頻率規(guī)定在300Hz3.4kHz，采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM)，當(dāng)采樣頻率為8kHz，進(jìn)行8bit量化時(shí)，所得數(shù)據(jù)速率為64kb/s，即一個(gè)數(shù)字電話。1972年CCITT為電話質(zhì)量和語(yǔ)音壓縮制定了PCM標(biāo)準(zhǔn)G.711，其速率為64Kbs，使用非線性量化技術(shù)，主要用于公共電話網(wǎng)中。雷運(yùn)發(fā)第3章音頻信息處理 2 2調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率在50Hz一7kHz范圍。G.722標(biāo)準(zhǔn)是采用16kHz采樣，14bit量化，信號(hào)數(shù)據(jù)速率為224kbits，采用子帶編碼方法，將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分，分別進(jìn)行ADPCM編碼，再混合形成輸出碼流，224kbits可以被壓縮成64kbits，最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbits)，因此利用G.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個(gè)B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。雷運(yùn)發(fā)第3章音頻信息處理3 3高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 高保真立體聲音頻信號(hào)頻率范圍是50Hz20kHz，采用441kHz采樣頻率，16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換，其數(shù)據(jù)速率每聲道達(dá)705kbits。1991年國(guó)際標(biāo)準(zhǔn)化組織ISO和CCITT開(kāi)始聯(lián)合制定MPEG標(biāo)準(zhǔn)，其中ISOCDlll72-3作為“MPEG音頻”標(biāo)準(zhǔn)，成為國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。MPEG音頻第一和第二層次編碼是將輸入音頻信號(hào)進(jìn)行采樣頻率為48kHz，44.1kHz，32kHz的采樣，經(jīng)濾波器組將其分為32個(gè)子帶，同時(shí)利用人耳屏蔽效應(yīng)，根據(jù)音頻信號(hào)的性質(zhì)計(jì)算各頻率分量的人耳屏蔽門限，選擇各子帶的量化參數(shù)，獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶，非均勻量化和熵編碼技術(shù)，再進(jìn)一步提高壓縮比。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32448kbits，適合于CDDA光盤應(yīng)用。雷運(yùn)發(fā)第3章音頻信息處理 3.3.2 MP33.3.2 MP3壓縮技術(shù)壓縮技術(shù) MP3的全名是MPEG Audio Layer-3，簡(jiǎn)單地說(shuō)就是一種聲音文件的壓縮格式。 ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個(gè)使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案，按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。它們?cè)诓捎脗鹘y(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過(guò)研究人耳和大腦聽(tīng)覺(jué)神經(jīng)對(duì)音頻失真的敏感度，在編碼時(shí)先分析聲音文件的波形，利用濾波器找出噪音電平(Noise Level)，然后濾去人耳不敏感的信號(hào)，通過(guò)矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列，最后編碼形成MPEG的文件。而音質(zhì)聽(tīng)起來(lái)與CD相差不大。雷運(yùn)發(fā)第3章音頻信息處理 MPEGMPEG的層次與壓縮比率的層次與壓縮比率 Layer1(相當(dāng)于384kbps立體聲信號(hào))4:1Layer2(相當(dāng)于192256kbps立體聲信號(hào))6:18:1Layer3 (相當(dāng)于112154kbps立體聲信號(hào))10:112:1雷運(yùn)發(fā)第3章音頻信息處理 3.3.3 MP4壓縮技術(shù)壓縮技術(shù) MP4并不是MPEG-4或者M(jìn)PEG-1Layer4，它的出現(xiàn)是針對(duì)MP3的大眾化、無(wú)版權(quán)的一種保護(hù)格式，由美國(guó)網(wǎng)絡(luò)技術(shù)公司開(kāi)發(fā)，美國(guó)唱片行業(yè)聯(lián)合會(huì)倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂(lè)播放格式。 MP4使用的是MPEG-2 AAC技術(shù)也就是俗稱的a2b或AAC。其中，MPEG-2是MPEG于1994年11月針對(duì)數(shù)碼電視(數(shù)碼影像)提出的。它的特點(diǎn)就是，音質(zhì)更加完美而壓縮比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采樣率為896KHz下提供了148個(gè)聲道可選范圍的高質(zhì)量音頻編碼。AAC就是Advanced Audio Coding(先進(jìn)音頻編碼)的意思，適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼，并且允許對(duì)多媒體進(jìn)行編碼/解碼。雷運(yùn)發(fā)第3章音頻信息處理 AAC與MP3相比，增加了諸如對(duì)立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等MP3沒(méi)有的特性，使得在音頻壓縮后仍能完美的再現(xiàn)CD音質(zhì)。 AAC技術(shù)主要由以下三個(gè)部分組成。第一，AT&T的音頻壓縮技術(shù)專利。它可以將AAC壓縮比提高到20:1而不損失音質(zhì)。這樣，一首3分鐘的歌僅僅需要2.25MB，這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫(kù)。它可以為你的AAC Music創(chuàng)建一個(gè)特定的密鑰，將此密鑰存于其數(shù)據(jù)庫(kù)中。同時(shí)，只有AAC的播放器才能播放含有這種密鑰第三、協(xié)議認(rèn)證。這個(gè)認(rèn)證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時(shí)間、歌曲可以播放時(shí)間以及售賣許可等信息。雷運(yùn)發(fā)第3章音頻信息處理 MP4技術(shù)的優(yōu)越性要遠(yuǎn)遠(yuǎn)高于MP3，因?yàn)樗m合多媒體技術(shù)的發(fā)展以及視聽(tīng)欣賞的需求。但是，MP4是一種商品，它利用改良后的MPEG-2 AAC技術(shù)并強(qiáng)加上由出版公司直接授權(quán)的知識(shí)產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn)；而MP3是一種自由音樂(lè)格式，任何人都可以自由使用。此外，MP4實(shí)際上是由音樂(lè)出版界聯(lián)合授意的官方標(biāo)準(zhǔn)；MP3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下，MP3的靈活和自由度要遠(yuǎn)遠(yuǎn)大于MP4，這使得音樂(lè)發(fā)燒友們更傾向于使用MP3。更重要的一點(diǎn)是，MP3是目前最為流行的一種音樂(lè)格式，它占據(jù)著大量的網(wǎng)絡(luò)資源，這使得MP4的推廣普及難上加難。雷運(yùn)發(fā)第3章音頻信息處理3.3.4樂(lè)器數(shù)字接口樂(lè)器數(shù)字接口MIDI 產(chǎn)生MIDI樂(lè)音的方法很多，現(xiàn)在用得較多的方法有兩種：一種是頻率調(diào)制(frequency modulation，F(xiàn)M)合成法，另一種是樂(lè)音樣本合成法，也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來(lái)生成音樂(lè)。 FM合成器生成樂(lè)音的工作原理主要是把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá)，并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來(lái)，通過(guò)數(shù)模轉(zhuǎn)換器(digital to analog convertor，DAC)來(lái)生成樂(lè)音。但是使用FM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的，有些樂(lè)音幾乎不能產(chǎn)生。樂(lè)音樣本合成法就是把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái)，播放時(shí)改變播放速度，從而改變音調(diào)周期，生成各種音階的音符。樂(lè)音樣本的采集相對(duì)比較直觀。雷運(yùn)發(fā)第3章音頻信息處理 MIDI協(xié)議協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法，用來(lái)把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。 MIDI信息是以“MIDI messages”傳輸?shù)?，它可以被認(rèn)為是告訴音樂(lè)合成器(music synthesizer)如何演奏一小段音樂(lè)的一種指令，而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國(guó)際MIDI協(xié)會(huì)(International MIDI Association)出版的MIDI 1.0規(guī)范對(duì)MIDI協(xié)議作了完整的說(shuō)明。雷運(yùn)發(fā)第3章音頻信息處理MIDIMIDI數(shù)據(jù)流數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bit stream)，其速率為31.25 kbps，每個(gè)字節(jié)為10位(1位開(kāi)始位，8位數(shù)據(jù)位和1位停止位)。MIDI樂(lè)器上的MIDI接口通常包含3種不同的MIDI連接器，用IN(輸入), OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDI controller)產(chǎn)生，如樂(lè)器鍵盤(musical instrument keyboard)，或者由MIDI音序器(MIDI sequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂(lè)器使用的一種設(shè)備，在播放時(shí)把演奏轉(zhuǎn)換成實(shí)時(shí)的MIDI數(shù)據(jù)流，MIDI音序器是一種裝置，允許MIDI數(shù)據(jù)被捕獲、存儲(chǔ)、編輯、組合和重奏。來(lái)自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過(guò)該裝置的MIDI OUT連接器傳輸。雷運(yùn)發(fā)第3章音頻信息處理3.4 常用音頻處理軟件簡(jiǎn)介常用音頻處理軟件簡(jiǎn)介 3.4.1 Cool Edit Pro CoolEdit Pro是著名的Syntrillium公司開(kāi)發(fā)的數(shù)字音頻處理軟件，其運(yùn)行環(huán)境為Windows啟動(dòng)后其界面如右圖所示。雷運(yùn)發(fā)第3章音頻信息處理CoolEdit Pro的主要特色有： (1).(1).支持的音頻格式十分豐富支持的音頻格式十分豐富，多達(dá)十余種，還提供了對(duì)5種不同類型WAV文件的支持。(2).(2).提供豐富的特殊效果提供豐富的特殊效果。包括3D混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、反轉(zhuǎn)、靜音等。(3).(3).提供了強(qiáng)大的提供了強(qiáng)大的DSPDSP（數(shù)字信號(hào)處理）能力。能夠同時(shí)（數(shù)字信號(hào)處理）能力。能夠同時(shí)處理處理6464條音軌。條音軌。支持錄音、回放、混音、音頻編輯。借助它，能夠方便地制作出自己想要的任何特殊音效，并添加到各種類型的多媒體作品中去。 (4).(4).操作界面設(shè)計(jì)簡(jiǎn)捷方便操作界面設(shè)計(jì)簡(jiǎn)捷方便。在工具欄中，提供了56個(gè)圖形化按鈕。幾乎所有的編輯操作都能夠方便地進(jìn)行操作。雷運(yùn)發(fā)第3章音頻信息處理3.4.2 Gold WaveGoldWave的窗口界面如圖下圖所示。雷運(yùn)發(fā)第3章音頻信息處理 GoldWave是一款相當(dāng)不錯(cuò)的數(shù)碼錄音及編輯軟件，除了附有許多的效果處理功能外，它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式，而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CD ROM中的音樂(lè)來(lái)錄制編輯。作為Wave文件編輯處理工具，支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進(jìn)行編輯，所以除了它強(qiáng)大的編輯功能外，用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。 GoldWave同時(shí)是較新的、適合于一般進(jìn)行音頻素材采集與制作的軟件，它集音頻錄制和編輯于一體，不僅是一個(gè)錄音程序，可以很方便地制作CAI課件的背景音樂(lè)、音效、錄制CD、轉(zhuǎn)換音樂(lè)格式等，而且還具有各種復(fù)雜的音樂(lè)編輯和特效處理功能。該軟件不需要安裝，只要運(yùn)行程序文件夾中的可執(zhí)行程序即可。GoldWave小巧玲瓏，只有600K左右，可從下載。雷運(yùn)發(fā)第3章音頻信息處理3.4.3 CakeWalk（音樂(lè)大師）（音樂(lè)大師）作為一種圖形化的音樂(lè)編輯軟件，CakeWalk的主要工作界面就是各種工作窗口，我們對(duì)MIDI事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示，音軌窗既是CakeWalk主界面的主要組成部分，也是重要的工作窗口。類似的還有鋼琴窗簾、事件列表窗、調(diào)音臺(tái)窗等，每個(gè)窗口各有所長(zhǎng)，分別適用于不同的編輯對(duì)象和編輯特征。雷運(yùn)發(fā)第3章音頻信息處理1. Cakewalkakewalk的調(diào)音臺(tái)的調(diào)音臺(tái)可以自動(dòng)混音，可以一邊播放樂(lè)曲，一邊記錄控制鍵（滑鍵）的調(diào)整動(dòng)作，而且多個(gè)控制鍵可以編組控制，這為制作漸強(qiáng)減弱效果提供了最為簡(jiǎn)單的操作手段。2.對(duì)于所有連續(xù)變化的數(shù)據(jù)，例如彎音、調(diào)制、控制器、鍵速和速度等，Cakewalk都提供了手工劃線的編輯方式提供了手工劃線的編輯方式，用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此，對(duì)于像彎音輪的細(xì)微變化過(guò)程、速度的自由變化等之類較難處理的數(shù)據(jù)，在Cakewalk中都變得異常簡(jiǎn)單。3.Cakewalk可以將其所有菜單操作命令賦予MIDI鍵盤，也就是說(shuō)，可以用合成器的鍵盤來(lái)控制軟件的各種操作可以用合成器的鍵盤來(lái)控制軟件的各種操作，其功能是所有音序軟件中最全面的。4. Cakewalk可以將音符的位置、控制器的變化等將音符的位置、控制器的變化等MIDIMIDI信息圖形信息圖形化地顯示出來(lái)化地顯示出來(lái)，因此看起來(lái)更加接近總譜。 Cakewalk Pro AudioCakewalk Pro Audio的的一些特色功能一些特色功能雷運(yùn)發(fā)第3章音頻信息處理3.5波形音頻文件的采集與制作波形音頻文件的采集與制作 3.5.1利用利用“錄音機(jī)錄音機(jī)”生成和編輯波形文件生成和編輯波形文件 Windows錄音機(jī)的主要功能是錄音和放音，使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音，也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述：（1）波形文件的錄制：確保音頻輸入設(shè)備已經(jīng)連接到計(jì)算機(jī)。錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機(jī)。（2）波形文件的存儲(chǔ)：存儲(chǔ)的文件格式為波形（.wav）文件。（3）聲音的編輯：復(fù)制、粘貼、插入、刪除等操作。（4）音頻變換與特殊效果：更改聲音的大小、速度、回音等。雷運(yùn)發(fā)第3章音頻信息處理 Cool Edit Pro是一種非常出色的聲音編輯器，其主要功能操作如下所述。（1）波形文件的錄制：錄制及錄制參數(shù)（采樣率、量化位數(shù)、單雙聲道等）的設(shè)定。（ 2 ）波形文件的存儲(chǔ) ：存儲(chǔ) 的文件格式（.wav、.au、.smp、.asf、.wma等）的選擇，文件格式與參數(shù)（采樣率、量化位數(shù)、單雙聲道）的變換。（3）波形文件選定范圍播放，記錄播放時(shí)間。（4）聲音的編輯：剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點(diǎn)定位、確定節(jié)拍等。（5）聲音的變換與特殊效果：降噪、擴(kuò)音、剪接、添加立體環(huán)繞、淡入淡出、3D回響等音效。3.5.2用用Cool Edit Pro編輯制作波形文件編輯制作波形文件雷運(yùn)發(fā)第3章音頻信息處理3.6 聲音文件格式的互換聲音文件格式的互換 1 1選擇聲音文件格式的部分原則 1）Wav文件：不僅所有的Windows的音效處理應(yīng)用程序都可以播放WAVE文件，而且常見(jiàn)的各種多媒體編輯制作軟件的音效播放都能直接使用WAV文件。再者，WAV格式的音質(zhì)效果也不錯(cuò) 。 2）MP3文件：如果通過(guò)適當(dāng)?shù)墓ぞ邅?lái)截取CD上的數(shù)字音頻并保存為CD音質(zhì)的WAVE文件，然后進(jìn)行MPEG Layer 3的壓縮編碼形成MP3文件，再用合適的解碼軟件對(duì)MP3解碼。那么可以形成一個(gè)節(jié)約大量存儲(chǔ)空間，保持CD音質(zhì)的整體解決方案。 3）MIDI文件：是多媒體計(jì)算機(jī)產(chǎn)生音頻（特別是音樂(lè)）的另一種主要方式，可以滿足需要長(zhǎng)時(shí)間音樂(lè)的場(chǎng)合。雷運(yùn)發(fā)第3章音頻信息處理 4）SWA文件：SWA格式的音樂(lè)文件，是Authorware4.0以上版本支持的特殊音樂(lè)格式，它的容量類似于流行的MP3，也非常小。在Authorware4.0或4.0以上版本中，自帶WAVSWA轉(zhuǎn)換器， 3.6.2轉(zhuǎn)換轉(zhuǎn)換CD音軌音軌下面以比較常用的CDCopy為例來(lái)說(shuō)明一下如何轉(zhuǎn)換CD音軌。CDCopy是一個(gè)常用的抓音軌工具，它對(duì)爛盤的糾錯(cuò)性能非常好，還可以把CD音軌轉(zhuǎn)換為WAV、AU、RA、Yamaha VQF、AAC、MP3等多種聲音格式，而且CDCopy是一個(gè)共享軟件，我們可以從http:/下載到它的最新版本。抓取及轉(zhuǎn)換音軌步驟分以下3步：1選擇文件格式 2設(shè)置文件保存路徑 3轉(zhuǎn)換音軌雷運(yùn)發(fā)第3章音頻信息處理 3.7.1語(yǔ)音識(shí)別的發(fā)展歷史語(yǔ)音識(shí)別的發(fā)展歷史可以將語(yǔ)音識(shí)別近六十年的發(fā)展歷史劃分為4個(gè)時(shí)期：（1）初始發(fā)展期（2）基礎(chǔ)突破期（3）綜合發(fā)展期（4）成熟期 3.7 語(yǔ)音識(shí)別技術(shù)及應(yīng)用語(yǔ)音識(shí)別技術(shù)及應(yīng)用雷運(yùn)發(fā)第3章音頻信息處理3.7.2語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別技術(shù) 語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象，是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支，其目的就是要讓機(jī)器具有人的聽(tīng)覺(jué)功能，在人機(jī)語(yǔ)音通訊中“聽(tīng)懂”人類口述的語(yǔ)言。根據(jù)不同的需求，語(yǔ)音識(shí)別的識(shí)別內(nèi)容可分為狹義的語(yǔ)音識(shí)別和說(shuō)話人語(yǔ)音識(shí)別。雷運(yùn)發(fā)第3章音頻信息處理1語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)語(yǔ)音識(shí)別技術(shù)的基礎(chǔ) 一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分：（1）語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。（2）聲學(xué)模型與模式匹配（識(shí)別算法）：聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型（模式）進(jìn)行匹配與比較，得到最佳的識(shí)別結(jié)果。（3）語(yǔ)言模型與語(yǔ)言處理：語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型，語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對(duì)小詞表語(yǔ)音識(shí)別系統(tǒng)，往往不需要語(yǔ)言處理部分。雷運(yùn)發(fā)第3章音頻信息處理聲學(xué)模型是識(shí)別系統(tǒng)的底層模型，并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型）對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率，以及靈活性有較大的影響。必須根據(jù)不同語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。雷運(yùn)發(fā)第3章音頻信息處理語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正，特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識(shí)別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識(shí)別。雷運(yùn)發(fā)第3章音頻信息處理2語(yǔ)音識(shí)別的基本原理語(yǔ)音識(shí)別的基本原理雷運(yùn)發(fā)第3章音頻信息處理預(yù)處理預(yù)處理包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等，并涉及到語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題：特征提取部分特征提取部分用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù)，如平均能量、平均跨零率、共振峰等；訓(xùn)練訓(xùn)練在識(shí)別之前進(jìn)行，通過(guò)讓講話者多次重復(fù)語(yǔ)音，從原始語(yǔ)音樣本中去除冗余信息，保留關(guān)鍵數(shù)據(jù)，再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類，形成模式庫(kù)；模式匹配部分模式匹配部分是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心，它是根據(jù)一定的準(zhǔn)則（如某種距離測(cè)度）以及專家知識(shí)（如構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等），計(jì)算輸入特征與庫(kù)存模式之間的相似度，判斷出輸入語(yǔ)音的語(yǔ)意信息。雷運(yùn)發(fā)第3章音頻信息處理3 3處理的方法：處理的方法：(1) 連續(xù)語(yǔ)音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定；剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略；波形的自動(dòng)切分(依賴于識(shí)別基元的選擇方案)。 (2) 特征參數(shù)提取識(shí)別語(yǔ)音的過(guò)程，實(shí)際上是對(duì)語(yǔ)音特征參數(shù)模式的比較和匹配的過(guò)程。語(yǔ)音特征參數(shù)的選取對(duì)系統(tǒng)識(shí)別結(jié)果起著重要的作用。因此，必須尋找一個(gè)既能充分表達(dá)語(yǔ)音特征又能彼此區(qū)別的特征參數(shù)，這是語(yǔ)音識(shí)別中的一個(gè)最重要基本問(wèn)題。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過(guò)零率、能量、短時(shí)頻譜、共振峰頻率及帶寬等。雷運(yùn)發(fā)第3章音頻信息處理（3）參數(shù)模板存儲(chǔ)。）參數(shù)模板存儲(chǔ)。在建立識(shí)別系統(tǒng)時(shí)，首先進(jìn)行特征參數(shù)提取，然后對(duì)系統(tǒng)進(jìn)行訓(xùn)練和聚類。通過(guò)訓(xùn)練，系統(tǒng)建立并存儲(chǔ)一個(gè)該系統(tǒng)需識(shí)別字（或音節(jié)）的參數(shù)模板庫(kù)。（4）識(shí)別判決。識(shí)別時(shí)，待識(shí)語(yǔ)音信號(hào)經(jīng)過(guò)與訓(xùn)練時(shí)相同的特征參數(shù)提取后，與模式模板存儲(chǔ)器中的模式進(jìn)行匹配計(jì)算和比較，并根據(jù)一定的規(guī)則進(jìn)行識(shí)別判決，最后輸出識(shí)別結(jié)果。雷運(yùn)發(fā)第3章音頻信息處理3.7.3 語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別系統(tǒng)的類型 1按可識(shí)別的詞匯量多少 2按照語(yǔ)音的輸入方式 3按發(fā)音者為特定/非特定人 4按發(fā)音者的聲紋雷運(yùn)發(fā)第3章音頻信息處理3.7.4 語(yǔ)音識(shí)別的應(yīng)用語(yǔ)音識(shí)別的應(yīng)用 1在信息處理領(lǐng)域的應(yīng)用（1）給計(jì)算機(jī)發(fā)送指令。（2）聽(tīng)寫系統(tǒng) 。（3）信息查詢。（4）網(wǎng)上交談。 2教育與商務(wù)應(yīng)用（1）語(yǔ)音教學(xué)軟件。（2）電話查詢。（3）電子商務(wù)。 3消費(fèi)電子產(chǎn)品應(yīng)用雷運(yùn)發(fā)第3章音頻信息處理第三章小結(jié)第三章小結(jié) 聲音是攜帶信息的重要媒體，對(duì)音頻信息的處理是多媒體技術(shù)研究的一個(gè)重要方面。聲音種類繁多，且不同種類的聲音之間既有共性也有自身的特性。在本章的前3節(jié)主要介紹了音頻信息處理的基本知識(shí)和音頻信號(hào)壓縮及編碼等理論。在后4節(jié)中先介紹了常用音頻處理軟件及聲音文件的制作、轉(zhuǎn)換等實(shí)際應(yīng)用，最后介紹了一個(gè)目前較熱門的應(yīng)用領(lǐng)域語(yǔ)音識(shí)別技術(shù)。雷運(yùn)發(fā)第3章音頻信息處理第第3 3章章討論題討論題1.聲音按其特性分為哪幾類？舉例說(shuō)明。聲音按其特性分為哪幾類？舉例說(shuō)明。分為規(guī)則和不規(guī)則兩類。不規(guī)則指不含任何信息的噪音；規(guī)則聲音分為語(yǔ)音、音樂(lè)和音效。語(yǔ)音是指具有語(yǔ)言內(nèi)涵和人類約定俗成的特殊媒體，音樂(lè)是規(guī)范的、符號(hào)化的聲音，音效是指人類熟悉的其他聲音，如雨聲、雷聲、機(jī)器轟鳴聲。2.聲音具有哪聲音具有哪3個(gè)要素？舉例說(shuō)明。個(gè)要素？舉例說(shuō)明。音強(qiáng)、音調(diào)、音色。雷運(yùn)發(fā)第3章音頻信息處理3.聲音數(shù)字化分為哪兩個(gè)步驟？聲音數(shù)字化分為哪兩個(gè)步驟？采樣采樣就是每隔一段時(shí)間就讀一次聲音信號(hào)的幅度，記錄下來(lái)的原始模擬聲波在某一時(shí)刻的狀態(tài)，稱之為樣本；每秒鐘抽取聲波幅度樣本的次數(shù)，稱為采樣頻率，采樣頻率的高低由奈奎斯特采樣訂立和聲音信號(hào)本身的最高頻率決定；常用的有8kHz , 11.025kHz, 22.05, kHz 16kHz, 44.1kHz, 48kHz等。量化量化：把采樣得到的聲波幅度轉(zhuǎn)化為數(shù)字值，也就是把某一幅度范圍內(nèi)的電壓用用一個(gè)數(shù)字表示。量化位數(shù) 是每個(gè)采樣點(diǎn)能夠表示的數(shù)據(jù)范圍，有8/12/16/32位。量化級(jí)量化級(jí) 的大小決定了聲音的動(dòng)態(tài)范圍，即被記錄和重放的聲音最高與最低之間的差值。量化有很多種方法，可歸納為兩類，均勻量化和非均勻量化。雷運(yùn)發(fā)第3章音頻信息處理4. 從人機(jī)交互的角度看，音頻信號(hào)有哪些從人機(jī)交互的角度看，音頻信號(hào)有哪些處理過(guò)程？處理過(guò)程？ 1.音頻獲取音頻獲?。ㄓ?jì)算機(jī)接收音頻信號(hào)）：語(yǔ)音識(shí)別和理解。 2.音頻合成音頻合成（計(jì)算機(jī)輸出音頻信號(hào)）：語(yǔ)音合成和音樂(lè)合成； 3. 聲音定位聲音定位：包括立體聲模擬、音/視頻同步。 4.人通過(guò)網(wǎng)絡(luò)與別人通信人通過(guò)網(wǎng)絡(luò)與別人通信：語(yǔ)音采集、音頻編碼/解碼，音頻傳輸?shù)?。雷運(yùn)發(fā)第3章音頻信息處理5.聲卡有哪些主要功能？聲卡有哪些主要功能？ 1.錄制、編輯和回放聲音文件； 2.控制各個(gè)音源的音量，混合后再數(shù)字化； 3.記錄和回放聲音文件； 4.文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別； 5.MIDI接口和音樂(lè)合成。6.聲卡有哪些主要技術(shù)指標(biāo)？聲卡有哪些主要技術(shù)指標(biāo)？1.采樣率與量化位； 2.FM合成與波形表；3.外圍接口； 4.音頻壓縮；5.DSP芯片； 6. 軟件支持。雷運(yùn)發(fā)第3章音頻信息處理實(shí)驗(yàn)題實(shí)驗(yàn)題1、清制作一段自己的錄音文件，并配背景音樂(lè)，寫出制作步驟。2、請(qǐng)敘述用Cool Edit Pro取出某段錄音文件中的環(huán)境噪音的步驟。3、請(qǐng)把某段正常速度錄制的語(yǔ)音文件，在保持語(yǔ)調(diào)不變的情況下把語(yǔ)速降低到正常語(yǔ)速的70%。

注意事項(xiàng)

本文（雷運(yùn)發(fā)第3章音頻信息處理課件）為本站會(huì)員（陽(yáng)***）主動(dòng)上傳，裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)（點(diǎn)擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載，重復(fù)下載不扣分。