錄音藝術(shù)論文:人工智能技術(shù)在電影錄音領(lǐng)域的應(yīng)用探析
《錄音藝術(shù)論文:人工智能技術(shù)在電影錄音領(lǐng)域的應(yīng)用探析》由會員分享,可在線閱讀,更多相關(guān)《錄音藝術(shù)論文:人工智能技術(shù)在電影錄音領(lǐng)域的應(yīng)用探析(13頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、錄音藝術(shù)論文:人工智能技術(shù)在電影錄音領(lǐng)域的應(yīng)用探析 摘要: 隨著人工智能與語音識別(Speech Recognition)、計算機(jī)作曲(Composing with Computers)以及電影聲音創(chuàng)作之間融合度的不斷加深,人工智能在電影錄音技術(shù)制作領(lǐng)域中的應(yīng)用將為電影聲音創(chuàng)作和電影聲音美學(xué)帶來又一次的革命。電影錄音技術(shù)制作中的對白編輯(Dialogue Editing)、環(huán)境聲編輯(Ambient Sound Editing)以及音響編輯(Sound Effects Editing)等工作環(huán)節(jié)的制作效率都將在人工智能技術(shù)的支持下得到顯著的提升。此外,人工智能的加入將導(dǎo)引電影聲音美
2、學(xué)發(fā)生極大的變革,主要體現(xiàn)在帶動電影觀眾接受審美模式的升級、引發(fā)電影聲音制作人員創(chuàng)作觀念的進(jìn)化、推動電影聲音美學(xué)理論的發(fā)展等方面。 關(guān)鍵詞: 人工智能; 錄音技術(shù); 錄音流程; 電影聲音創(chuàng)作; 聲音美學(xué); 一、引言:人工智能技術(shù)引入電影錄音領(lǐng)域 2016年3月,由世界著名科技公司谷歌(Google)旗下的DeepMind團(tuán)隊開發(fā)的“阿爾法”(AlphaGo)圍棋機(jī)器人以4∶1的總比分戰(zhàn)勝韓國圍棋世界冠軍、職業(yè)九段棋手李世石。2017年5月,“阿爾法”圍棋機(jī)器人在中國烏鎮(zhèn)圍棋峰會上,再次以3∶0的總分戰(zhàn)勝圍棋世界排名第一的中國選手柯潔。
3、兩次戰(zhàn)勝人類圍棋世界冠軍,讓人工智能技術(shù)及其自我學(xué)習(xí)、進(jìn)化能力得到普遍關(guān)注?!鞍柗ā眹鍣C(jī)器人的工作原理被稱為“深度學(xué)習(xí)”(Deep Learning)?!吧疃葘W(xué)習(xí)”是“機(jī)器學(xué)習(xí)”(Machine Learning)領(lǐng)域研究中的一個重要研究方向?!皺C(jī)器學(xué)習(xí)”則是人工智能的核心概念,是使計算機(jī)獲得智能的途徑?!吧疃葘W(xué)習(xí)”是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中所獲得的各類信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋具有很大的幫助。因為,“機(jī)器學(xué)習(xí)”的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù);而“深度學(xué)習(xí)”則是一個更加復(fù)雜的機(jī)器學(xué)習(xí)算法,它在語音和圖像識別
4、方面所取得的各類成果,已遠(yuǎn)遠(yuǎn)超過先前的相關(guān)技術(shù)。1“阿爾法”圍棋機(jī)器人的全面勝利預(yù)示著這樣一個事實(shí),那就是以計算機(jī)人工智能為基礎(chǔ)的新信息技術(shù)時代(新IT時代)的到來。如今,人臉識別、語音識別、地圖導(dǎo)航、無人駕駛、智能家居等人工智能技術(shù)已然進(jìn)入人們的日常生活中,并逐漸成為一種無法拒絕的生產(chǎn)及生活方式。 電影中的聲音是構(gòu)成電影視聽語言的重要藝術(shù)元素。1927年,美國華納兄弟公司出品的電影《爵士歌手》(Jazz Singer)的上映標(biāo)志著有聲電影時代的到來。從此,電影從一門純視覺藝術(shù)轉(zhuǎn)變成為一門視與聽的綜合藝術(shù)形式。聲音的引入在很大程度上提升了電影的藝術(shù)審美表現(xiàn)能力。首先,它使得
5、電影更加真實(shí)。無論是對白語言亦或是自然音響的加入,都使觀眾在觀看電影時越發(fā)接近于自身的生活感知經(jīng)驗,極大地提升了電影的真實(shí)度和可信度。其次,聲音豐富了電影的時空特性,使電影增加了一個全新的信息維度。電影從以視覺信息為主導(dǎo)的視覺空間進(jìn)化成同時兼具視覺及聽覺信息的視聽空間,最終得以再現(xiàn)真實(shí)或夢想生活中的現(xiàn)實(shí)或虛擬環(huán)境。再次,聲音賦予了電影講述復(fù)雜故事的能力,形成了豐富的電影視聽語言與視聽思維(如畫外音、閃回、聲畫對位等)。同時,聲音亦解放了攝影機(jī)的運(yùn)動形態(tài),使得攝影機(jī)能夠以更加自由、靈活的視角與聲音共同進(jìn)行敘事。所以,不難理解,與視覺語言以及其他種類的語言一樣,電影聲音也是認(rèn)識世界、描述世界和理解
6、世界的一種重要方式。 電影的藝術(shù)屬性是由其工業(yè)屬性決定的。在聲音進(jìn)入電影的不到一百年的時間里,電影藝術(shù)經(jīng)歷了不斷的發(fā)展與變化。而電影聲音的錄音技術(shù)制作則經(jīng)歷了由“唱盤發(fā)聲”到“片上發(fā)聲”,從“光學(xué)”到“磁學(xué)”,從“模擬”到“數(shù)字”,由“單聲道”到“立體聲”,再由“多聲道環(huán)繞聲”(Surround Sound)到“空間聲”(Space Sound)的不同革命性的發(fā)展階段。但必須指出的是,縱觀國內(nèi)外,電影聲音的錄音技術(shù)制作工藝在數(shù)十年的發(fā)展過程當(dāng)中并沒有實(shí)現(xiàn)質(zhì)的變化。早期的電影聲音是記錄在光學(xué)和磁性聲片上的,對聲音的處理需要手動地對光學(xué)或磁性聲片進(jìn)行物理上的剪輯和拼貼等工作,這
7、就需要耗費(fèi)巨大的人力成本和時間成本。而數(shù)字化計算機(jī)時代到來以后,隨著計算機(jī)數(shù)字音頻工作站(DAW)以及計算機(jī)非線性編輯技術(shù)(NLE)的引入,使傳統(tǒng)對磁性聲片上的線性剪輯處理工藝得以淘汰,從而進(jìn)入到了電影聲音的數(shù)字化計算機(jī)非線性編輯時代。這種將聲音信號記錄在計算機(jī)硬盤,通過計算機(jī)CPU、內(nèi)存、DSP(數(shù)字信號處理技術(shù))芯片和相關(guān)專業(yè)音頻軟件進(jìn)行運(yùn)算處理的非線性音頻編輯方式,極大地提高了電影錄音技術(shù)制作的生產(chǎn)效率。這種錄音技術(shù)制作工藝允許錄音制作人員在一個完整的工程序列中的任意位置對聲音進(jìn)行插入、刪除、移動、疊加、淡入淡出等聲音蒙太奇的藝術(shù)處理,使得曾經(jīng)一個具備熟練操作技巧的錄音制作人員幾個小時的
8、工作內(nèi)容,在計算機(jī)平臺上只要幾分鐘就可以完成,并且這種處理方式在流程上還是可逆的,只需一個快捷鍵就能夠退回到編輯前的狀態(tài),這為電影錄音技術(shù)制作行業(yè)乃至整個電影行業(yè)的快速發(fā)展和崛起都起到了極大的推動作用。 然而,直至今天,電影錄音技術(shù)制作工藝仍然維持著這種從目前的眼光來看已然相當(dāng)傳統(tǒng)和保守的工業(yè)生產(chǎn)模式。通過回顧聲音的發(fā)展歷史可以得知,1992年美國電影《蝙蝠俠歸來》(Batman Returns)和1993年《侏羅紀(jì)公園》(Jurassic Park)的上映標(biāo)志著電影數(shù)字多聲道環(huán)繞聲時代的開啟。在此后的一段時間內(nèi),形成了以Dolby SRD(數(shù)字頻譜錄音)、DTS
9、(數(shù)字影院系統(tǒng))以及SDDS(索尼數(shù)字動態(tài)聲音)三種數(shù)字多聲道環(huán)繞聲影院還音系統(tǒng)三足鼎立的局面。 1998年10月23日,美國懸疑驚悚影片《最后的廣播》(The Last Broadcast)上映,這部影片是世界影史上第一部從拍攝、剪輯到放映等全流程采用了數(shù)字化技術(shù),且影片時長為一部標(biāo)準(zhǔn)故事片長度的影片。該片將電影帶入了全面數(shù)字化的時代,具有重要的歷史里程碑意義。而數(shù)字電影的到來猶如一顆重磅炸彈,一夜之間將擁有百年工業(yè)歷史的傳統(tǒng)膠片電影推入到歷史發(fā)展的滾滾洪流中。曾為全球最大的膠片供應(yīng)商、世界影像巨頭的美國柯達(dá)公司也在受到了數(shù)字電影沖擊后于2012年申請破產(chǎn)保護(hù)。電影發(fā)行載
10、體的巨變對電影的工業(yè)化生產(chǎn)流程帶來極大的沖擊與改變,各類聲畫素材經(jīng)過后期制作完成后會輸出一個數(shù)字電影發(fā)行數(shù)據(jù)包(DCP,Digital Cinema Package)。DCP作為數(shù)字電影制作和發(fā)行專門開發(fā)的數(shù)據(jù)包,可經(jīng)由移動硬盤、光盤、寬帶網(wǎng)絡(luò)等形式輸入進(jìn)數(shù)字電影院中的播放服務(wù)器,從而對DCP進(jìn)行解包以放映數(shù)字電影。當(dāng)前的DCP文件在聲音技術(shù)層面包含有16個聲道,全部支持48KHz、24Bit無損數(shù)字音頻格式,采用PCM方式進(jìn)行編碼和解碼。過去,Dolby SRD、DTS與SDDS之所以能夠占據(jù)多年的市場份額,其原因主要在于這三種電影聲音制式在膠片極其有限的物理空間上找到了用于存儲數(shù)字聲音信息
11、的位置(SRD是在片孔之間,SDDS是在膠片片邊緣,DTS則在膠片上記錄了與外部CD同步的TC時碼信號),并在空間局限與還音品質(zhì)之間取得了良好的平衡性。這些數(shù)字電影聲音的技術(shù)應(yīng)用同樣隨著全流程數(shù)字化電影的到來畫上了句號,因為數(shù)字電影已不再需要嚴(yán)苛地節(jié)省信息存儲空間,也不再需要對聲音進(jìn)行各類有損壓縮來進(jìn)行存儲和還放。 2012年,杜比推出具有劃時代意義的全景聲系統(tǒng)(Atmos,取詞自Atmosphere),與之伴隨的是基于對象(Object-Based)的電影聲音制作理念及工藝。此外,這套全景聲系統(tǒng)最多支持高達(dá)64個聲道(是此前5.1聲道的10倍還多),且在影院天花板處增設(shè)了
12、專門的頂置聲道(Overhead Speakers),用來表現(xiàn)垂直方向的聲音。垂直聲場的加入以及基于對象聲音制作方法的引入,使電影聲音從“環(huán)繞聲”進(jìn)入“空間聲”時代。 美國影片《地心引力》是世界上第一部使用杜比全景聲的真人故事片。該片于2013年上映,并于2014年一舉奪得第86屆奧斯卡金像獎中的最佳混音(Sound Mixing)與最佳音效剪輯(Sound Editing)兩個大獎,囊括了全部的聲音類獎項。這部影片借助Atmos系統(tǒng)將電影聲音的空間藝術(shù)表現(xiàn)力提升到了一個全新的層次。隨后,包括德國IOSONO、比利時BARCO以及美國DTS在內(nèi)的多家電影技術(shù)公司紛紛推出自己
13、的多維空間聲還音系統(tǒng)。一時間,“臨境音”“三維聲”“全息聲”等各類空間聲還音系統(tǒng)硝煙四起、不絕于耳。因此,也有人將基于對象的空間聲影院聲音系統(tǒng)視作電影聲音的第三次革命。 但是,空間聲時代的到來不但沒有使電影聲音的生產(chǎn)制作工藝流程簡化,反而使之更為復(fù)雜。由于空間聲影院系統(tǒng)的普及率遠(yuǎn)未到達(dá)百分之百,還有相當(dāng)數(shù)量的影院并沒有升級到市面上現(xiàn)有的任何一種空間聲系統(tǒng)。因此在一部電影的混錄制作環(huán)節(jié),混錄師常常需要先對5.1聲音格式進(jìn)行混錄,然后再在其基礎(chǔ)上加混成空間聲格式(也有混錄師直接混錄空間聲格式,再做其他類型的環(huán)繞聲混錄)。這樣的錄音技術(shù)制作過程無疑會產(chǎn)生更多的制作工作量與更長的制
14、作周期。另外,由于不同的空間聲體系涉及迥異的聲音編碼方式以及揚(yáng)聲器布局及吊裝方式,并且對于空間聲的升級本身就會帶來巨大的設(shè)備采購成本投入,因此很少有影院會同時引進(jìn)幾種不同的空間聲系統(tǒng)。這就使得電影聲音的空間聲混錄制作和發(fā)行格式很難統(tǒng)一,甚至漸行漸遠(yuǎn)?;熹泿熜枰獮椴煌陌l(fā)行格式制作出不同的聲音混底,無形當(dāng)中進(jìn)一步增加了工作量、時間和制作成本。此外,除了混錄階段工藝的變化以外,在此之前的包括聲音錄制、聲音編輯處理等工藝流程沒有任何不同之處。 所以說,傳統(tǒng)的基于非線性音頻編輯的電影錄音技術(shù)制作工藝流程用現(xiàn)在的眼光來看已經(jīng)處于其生命周期的末期,盡管這個末期可能還會持續(xù)相當(dāng)長的一段時
15、間。但是真正的問題在于傳統(tǒng)的工藝和方法沒有結(jié)合當(dāng)下這個時代最新、最先進(jìn)的生產(chǎn)理念,而后者一定是未來影響全球工業(yè)和生產(chǎn)以及人類生活的重要因素。因此,如何將計算機(jī)人工智能技術(shù)應(yīng)用于電影錄音技術(shù)制作領(lǐng)域,已成為本行業(yè)亟待討論的重要命題。 二、人工智能在影音技術(shù)與藝術(shù)領(lǐng)域應(yīng)用前瞻 1. 人工智能與語音識別 不可否認(rèn),語音識別(Speech Recognition)是人們在日常生活中能夠廣泛接觸、使用場景極其豐富的人工智能技術(shù)。無論是文字聽寫還是聊天機(jī)器人,其內(nèi)部核心技術(shù)都是語音識別。語音識別是計算機(jī)語言學(xué)的一個次級交叉學(xué)科(Interdisc
16、iplinary Subfield),具有語言學(xué)、計算機(jī)科學(xué)以及電子信息工程等多學(xué)科的學(xué)科特點(diǎn)及知識結(jié)構(gòu)。 語音識別作為在21世紀(jì)信息技術(shù)領(lǐng)域最具發(fā)展前景的學(xué)科及行業(yè)之一,其歷史并不算長,只有短短60余年的時間。1952年,美國貝爾實(shí)驗室的包括斯蒂芬巴拉謝克(Stephen Balshek)在內(nèi)的三名研究人員研發(fā)出了一款名為“奧德麗”(Audrey)的單揚(yáng)聲器語音識別系統(tǒng),該系統(tǒng)是世界上第一個能識別出10個英文數(shù)字發(fā)音的實(shí)驗系統(tǒng)。此后,來自世界各地的企業(yè)和科研機(jī)構(gòu)甚至是軍方部門陸續(xù)加入到語言識別的科研隊伍中來,并在20世紀(jì)70年代后取得了技術(shù)上的突破性進(jìn)展。
17、 根據(jù)識別對象的不同,語音識別可分為3類,分別為孤立詞識別(Isolated Word Recognition)、關(guān)鍵詞識別(Keyword Recognition)和連續(xù)語音識別(Continuous Speech Recognition)。顯然,連續(xù)語音識別是語音識別領(lǐng)域技術(shù)攻關(guān)的重點(diǎn)和難點(diǎn),也是這一領(lǐng)域最能產(chǎn)生經(jīng)濟(jì)和社會效益的發(fā)展前景之一。我國科大訊飛是在人工智能語音識別領(lǐng)域取得豐富成果的企業(yè)之一,也是最早把深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別領(lǐng)域的機(jī)構(gòu)。 目前,語音識別技術(shù)已經(jīng)在不同的行業(yè)中實(shí)現(xiàn)了商業(yè)化運(yùn)營,為提高生產(chǎn)力、改善生產(chǎn)效率做出了實(shí)質(zhì)性的貢獻(xiàn)。以湖南廣播電臺為例
18、,其與科大訊飛合作開發(fā)的智能音頻編輯系統(tǒng),就在很大程度上改善了新聞采編的流程和效率。該系統(tǒng)上線以來,全年全臺共計使用近萬次,錄音轉(zhuǎn)寫時長超過一萬小時,語音翻譯綜合效能比11∶1,結(jié)合同步音頻文本編輯功能,音頻編輯全流程工作效率提高近三倍。2 2. 人工智能與音樂 2012年,筆者第一次體驗音樂識別軟件SoundHound時就被它的功能及高識別成功率留下了深刻印象。6年以后,這家提供免費(fèi)音樂檢索服務(wù)的企業(yè)已經(jīng)成為估值超過10億美元的行業(yè)獨(dú)角獸。實(shí)際上,SoundHound這款軟件的使用十分簡單,啟動軟件后,用戶只需要對著手機(jī)進(jìn)行某一段音樂旋律的哼唱,軟件就
19、會自動幫助用戶找出這段音樂的歌名、專輯及歌詞等信息。 實(shí)際上,SoundHound軟件的工作原理是音樂信息檢索技術(shù)(MIR,Music Information Retrieval)。MIR以音樂聲音為基礎(chǔ),基于音頻信號處理提取音頻特征,后端大量采用AI中的各種機(jī)器學(xué)習(xí)技術(shù)。3MIR算法主要對音樂的音高、旋律變化、節(jié)奏、和聲等信息進(jìn)行分析,并通過節(jié)拍跟蹤、速度檢測、歌聲分離、歌詞識別等功能對音樂的內(nèi)容進(jìn)行分析并提取特征,最后通過與數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行比對,找出最為相近的信息數(shù)據(jù)。 2018年,一家來自法國圖盧茲的科技公司Hexachord發(fā)布了一款名為Orb
20、 Composer的軟件,震驚了中外音樂界。這款軟件是世界上第一款有著極高完成度的人工智能作曲軟件。Orb Composer預(yù)制了六種基本模式,分別為鋼琴(Piano)、弦樂(Strings)、管弦樂隊(Orchestra)、流行/搖滾(Pop/Rock)和氛圍(Ambient),可以按照用戶設(shè)定的配器方案、情緒、強(qiáng)度、速度等參數(shù)進(jìn)行自動作曲。許多音樂界專業(yè)人士都對該人工智能作曲軟件的作曲能力表示驚訝,因為后者并非是對音符進(jìn)行簡單、隨意的拼接處理。隨著“深度學(xué)習(xí)”的不斷進(jìn)化,這種AI作曲軟件的創(chuàng)造性是不可限量的。 3. 人工智能與電影 早在2016年,美
21、國IBM公司的人工智能系統(tǒng)“沃森”(Watson)就參與到影視制作項目當(dāng)中,為美國??怂闺娪肮局谱髁藨乙呻娪啊赌Ω返念A(yù)告片。IBM的研究團(tuán)隊將100部恐怖電影預(yù)告片中的每個鏡頭分離出來對沃森進(jìn)行訓(xùn)練,沃森會對這些預(yù)告片進(jìn)行視覺、音頻、場景構(gòu)成等方面的分析。例如,每個場景都被沃森標(biāo)記為一種諸如可怕、恐懼和喜悅等情感標(biāo)簽,此外,還會對人物的語調(diào)和音樂的響度進(jìn)行分析,以理解每個不同場景與情緒的關(guān)系4。最終,在將《摩根》整部電影輸入計算機(jī)系統(tǒng)后,沃森在很短的時間內(nèi)就遴選出了適合作為預(yù)告片的場景,并完成了剪輯。 而工作室分設(shè)在洛杉磯和北京的rct studio則開發(fā)了專門用于影視
22、編劇的一款名為“摩爾普斯”(Morpheus)5的引擎軟件。通過向引擎導(dǎo)入標(biāo)準(zhǔn)文檔格式的故事腳本,引擎會自動分析主要情節(jié)線,并拉取出主要人物。引擎知曉每個人物所扮演的角色以及他們的目的,并會列出每個角色的行為可能性。每個角色背后都由一個完整的人工智能模型實(shí)現(xiàn)運(yùn)算和支持,引擎還會根據(jù)故事背景和人類邏輯將故事發(fā)展的可能性進(jìn)行合理性限制。編劇和導(dǎo)演可以在中途增設(shè)新的條件或規(guī)則,而事件的結(jié)果則會相應(yīng)改變。當(dāng)其中一個角色表現(xiàn)了某種行為之后,其他角色在理解這種行為的基礎(chǔ)上會做出相應(yīng)的反應(yīng)。通過摩爾普斯引擎編寫的故事腳本,還可以同時以Unity三維引擎進(jìn)行動畫預(yù)演,具有很強(qiáng)的直觀性。當(dāng)越來越多的故事情節(jié)輸入
23、到摩爾普斯引擎中,引擎也會從中學(xué)習(xí)到更多的知識,最終會表現(xiàn)得越來越像人類。6 除了導(dǎo)演和編劇以外,人工智能目前已經(jīng)廣泛運(yùn)用于動畫制作、2D轉(zhuǎn)3D、特效合成等影視制作領(lǐng)域。 三、AI技術(shù)平臺下的電影錄音技術(shù)制作特征探析 在傳統(tǒng)電影聲音后期制作工藝中,通常包含有聲音編輯(或稱聲音剪輯)、擬音、ADR錄音、聲音預(yù)混和聲音終混等流程。而聲音編輯中又細(xì)分為對白編輯、音樂編輯、環(huán)境聲編輯、音響編輯等步驟和流程。在現(xiàn)有的電影錄音技術(shù)制作流程當(dāng)中,聲音編輯是涉及工作人員數(shù)量最多、涉及工作量最大的工藝流程。因此,在聲音編輯流程中全面地引入人工智能技術(shù),
24、將在最大程度上提升電影聲音制作的效率。 1. 對白編輯與人工智能 在以往的對白編輯中,需要通過人工的方式將錄音機(jī)錄制的場記板合板聲與攝影機(jī)拍攝下來的合板動作在剪輯工程時間線上對齊,以實(shí)現(xiàn)聲音和畫面的同步。進(jìn)入數(shù)字時代以后,專業(yè)級的數(shù)字電影攝影機(jī)和數(shù)字錄音機(jī)都具備了時間碼功能,在每次拍攝之前,通過兩個機(jī)器之間的時間碼校準(zhǔn)操作,就能夠在后期剪輯軟件上自動將同一時間碼標(biāo)準(zhǔn)的聲音和畫面素材同步對齊,大大提升了剪輯的效率。當(dāng)前,常見的流程是,畫面剪輯部門完成畫面與同期對白的同步,之后將參考畫面以及包括同期聲音軌的OMF(Open Media Framework)文
25、件或AAF(Advanced Authoring Format)文件轉(zhuǎn)遞給聲音部門,由聲音部門根據(jù)畫面針對以對白為主要內(nèi)容的聲音分軌文件進(jìn)行編輯處理。在制作過程中,對白編輯人員主要對聲音的內(nèi)容(如去掉有害聲音)、聲音的響度、聲音的入點(diǎn)及出點(diǎn)、聲音的進(jìn)出方式(如淡入淡出、切入切出)等方面進(jìn)行制作及處理。這些工作屬于基礎(chǔ)性聲音編輯工作,通常是由對白編輯部門完成。引入人工智能技術(shù)以后,計算機(jī)通過人臉識別技術(shù)對畫面內(nèi)容進(jìn)行分析,從而判斷某一場戲當(dāng)中有哪幾個角色在講話、不同角色所處的不同銀幕位置,以及人物角色處于一個怎樣的聲學(xué)空間(如開放空間還是密閉空間,是臥室還是教堂,等等),最后根據(jù)畫面中人物的景別
26、和距離,對人物的對白進(jìn)行自動編輯。除了根據(jù)畫面內(nèi)容設(shè)置正確合理的對白電平、頻率響應(yīng)、聲像位置和運(yùn)動以及不同環(huán)境的空間感以外,還能夠?qū)Σ焕硐氲穆曇暨M(jìn)行糾錯處理,例如進(jìn)行適當(dāng)?shù)慕翟?、去除過多的有害混響甚至彌補(bǔ)由于同期錄音話筒跟隨不及時而造成的指向性話筒離軸聲染色效應(yīng)。 2. 環(huán)境聲編輯與人工智能 環(huán)境聲編輯也是電影聲音制作中的一個重要環(huán)節(jié)。環(huán)境聲,或稱為自然音響,起到構(gòu)建銀幕空間、增強(qiáng)真實(shí)感以及渲染影片氛圍等作用。由于同期錄音過程中常常存在拍攝現(xiàn)場具有有害噪聲、拍攝周期緊張、器材設(shè)備種類及數(shù)量有限等客觀因素,導(dǎo)致出現(xiàn)在同期錄音階段錄制的優(yōu)質(zhì)環(huán)境聲素材數(shù)量少或
27、質(zhì)量不高等問題。因此,在以往的環(huán)境聲編輯中,制作人員通常需要花費(fèi)大量的時間人為地在環(huán)境聲素材資料庫中檢索與畫面場景相吻合的聲音素材,有時還經(jīng)常需要將幾個不同的環(huán)境聲素材進(jìn)行疊加使用,以增強(qiáng)真實(shí)感和戲劇性效果。基于內(nèi)容的聲音檢索,人工智能技術(shù)將從根本上改變這一現(xiàn)狀。通過系統(tǒng)的機(jī)器學(xué)習(xí)與訓(xùn)練,例如讓計算機(jī)“收聽”大量的環(huán)境聲樣本,人工智能技術(shù)完全可以實(shí)現(xiàn)對風(fēng)聲、雨聲、蟲鳴聲、城市街道聲等各具特點(diǎn)的環(huán)境音響的辨別。而同樣基于對畫面內(nèi)容的分析,例如天氣情況、所處地理環(huán)境、交通擁堵程度等等,人工智能可以自動為特定一場戲選擇最優(yōu)的一條或若干條環(huán)境聲素材,從而減少人工操作的負(fù)擔(dān)。 3.
28、音響編輯與人工智能 傳統(tǒng)的音響編輯主要涉及素材選擇、聲畫同步、電平調(diào)節(jié)、聲像設(shè)置、效果處理等幾項工作內(nèi)容,因為音響編輯往往是對聲音的細(xì)節(jié)性處理,因此常常會產(chǎn)生很多的工作量。利用基于畫面內(nèi)容識別以及聲音內(nèi)容識別的人工智能技術(shù),可以解決絕大多數(shù)的寫實(shí)性音響的制作和處理工作。例如,畫面上表現(xiàn)的是一個中年人騎自行車摔倒在地的故事情節(jié),人工智能在完成對畫面內(nèi)容的分析以后,可以判斷這個角色的性別、年齡、摔倒的原因、摔倒過程的速度、地面的材質(zhì)、自行車的類型、摔倒后當(dāng)事人與他人的反應(yīng)等一系列關(guān)鍵信息,然后通過這些關(guān)鍵信息對音響素材庫中的素材進(jìn)行檢索,找出最為合適的聲音素材,并根據(jù)畫面動作將
29、選定的聲音素材與畫面進(jìn)行同步對位,并進(jìn)行響度、頻率、位置、空間等方面的處理,最終只需要制作人員對聲音進(jìn)行簡單潤色即可使用。寫意性的音響,例如表現(xiàn)人物主觀心理的音響,則需要更高級別的人工智能技術(shù)加以實(shí)現(xiàn)。由于寫意性音響或稱表現(xiàn)性音響涉及制作人員對聲音的高層次創(chuàng)作,具有很強(qiáng)的主觀性與隨意性,而這一特點(diǎn)是現(xiàn)階段的人工智能技術(shù)所無法企及的,因為這涉及對人類思維方式的模仿。此外,對聲音進(jìn)行主觀創(chuàng)作過程中所體現(xiàn)出的主觀性與制作人員的成長背景、受教育水平、生活及工作經(jīng)驗、哲學(xué)觀念等方面有著很強(qiáng)的相關(guān)性和特殊性,這與目前基于計算機(jī)編程的人工智能技術(shù)的高度準(zhǔn)確性與科學(xué)性是兩種截然不同的信息處理方式。
30、 四、人工智能導(dǎo)引的電影聲音美學(xué)轉(zhuǎn)向 電影聲音美學(xué)與電影錄音技術(shù)的發(fā)展一直呈現(xiàn)出一種精確而復(fù)雜的互動性關(guān)系。有聲電影誕生于無聲電影出現(xiàn)的30年后,在這30年里,無聲片已經(jīng)形成了一套完整的視覺表意系統(tǒng)及電影語言。有聲電影誕生之初,由于當(dāng)時的錄音設(shè)備無論在頻響、信噪比、動態(tài)范圍、聲道數(shù)量等方面都尚不具備較好的表現(xiàn)力,因此,彼時的電影聲音美學(xué)以自然主義為主要訴求,即首先考慮的是如何讓觀眾能夠聽清從揚(yáng)聲器中傳出的聲響。在隨后的幾十年時間里,隨著更加優(yōu)異的聲音記錄與還原技術(shù)的不斷推出,電影聲音的清晰度、可懂度得以迅速提升,因此,在滿足了聲音的高保真度的記錄和還原的基礎(chǔ)上,電影
31、聲音美學(xué)從自然主義向表現(xiàn)主義轉(zhuǎn)向,從而使電影聲音創(chuàng)作成為一門藝術(shù)。 2012年,以杜比全景聲為首的空間聲電影還音系統(tǒng)為電影聲音美學(xué)的進(jìn)一步發(fā)展打開了一扇窗戶,它憑借基于對象的聲音制作模式以及新增設(shè)的頂置揚(yáng)聲器從而將影院聲音從二維提升到三維,在為觀眾提供更具真實(shí)感與沉浸感的觀影體驗的同時,亦改變了電影聲音制作者們的創(chuàng)作觀念,使他們從更高的維度上考慮電影聲音創(chuàng)作的可能性問題。 當(dāng)前,電影聲音美學(xué)正處于一個生機(jī)勃勃、蓄勢待發(fā)的快速發(fā)展期。在下一個階段,隨著人工智能技術(shù)的不斷迭代和更新,勢必會對電影聲音美學(xué)帶來影響。從目前的眼光來看,這種影響將突出體現(xiàn)在如下三個
32、方面。 1. 人工智能帶動電影觀眾接受審美模式升級 1924年,美國西方電氣公司(Western Electric)旗下的貝爾實(shí)驗室推出了名為“維他風(fēng)”(Vitaphone)的電影同步錄音系統(tǒng),將聲音記錄在一張由蟲膠制成的直徑為16英寸、每分鐘轉(zhuǎn)動331/3圈的唱片上,首次實(shí)現(xiàn)了對電影聲音的記錄,并通過一個單獨(dú)的揚(yáng)聲器對聲音進(jìn)行還原。1931年,作為電影觀眾的英國EMI唱片公司工程師艾倫布呂姆萊因(Alan Blumlein)不滿于電影只有一個喇叭發(fā)聲,因此,在經(jīng)過研究與創(chuàng)新后發(fā)明了雙聲道立體聲,并申請了專利。為了進(jìn)一步塑造更為真實(shí)可信的聲音空間效果,從
33、雙聲道立體聲向多聲道環(huán)繞聲的演進(jìn)具有歷史必然性。美國電影企業(yè)家華爾特迪士尼從20世紀(jì)30年代早期開始研制多聲道技術(shù),并于1940年隨著《幻想曲》(Fantasia)的上映推出了具備三個聲道的幻想聲(Fantasound)聲音系統(tǒng)。20世紀(jì)50年代以后,多聲道環(huán)繞聲系統(tǒng)進(jìn)入快速發(fā)展期,多家廠商陸續(xù)推出了自己的環(huán)繞聲系統(tǒng);70年代以來,逐漸形成了以5.1聲道(5個全頻段聲道+1個超低音聲道)為主要形態(tài)的多聲道影院聲音系統(tǒng)。 數(shù)字多聲道環(huán)繞聲系統(tǒng)為觀眾在觀影時帶來了前所未有的來自聲音上的震撼體驗,在營造逼真聽覺效果的同時極大地提升了電影聲音的藝術(shù)表現(xiàn)力。而人工智能作為下一代的技術(shù)
34、革命,無疑將再一次推動電影觀眾接受審美模式的升級和躍遷。此前,電影錄音技術(shù)制作全部由人工的方式完成,而傳統(tǒng)電影錄音制作工藝流程復(fù)雜、涉及人員眾多,勢必會造成不同制作人員對聲音在技術(shù)上的處理具有差異性和主觀性。而人工智能技術(shù)一旦介入電影聲音制作環(huán)節(jié),將從頻率、響度、空間等方面對聲音進(jìn)行標(biāo)準(zhǔn)化的技術(shù)檢查,并糾正其中的錯誤和缺陷,使觀眾能夠在影院中收聽到保真度、還原度和精確度更高的聲音,使電影聲音表意模式得以優(yōu)化。 2. 人工智能引發(fā)電影聲音制作人員創(chuàng)作觀念進(jìn)化 人工智能技術(shù)憑借高效率計算機(jī)輔助特性,將極大地解放電影錄音技術(shù)制作的生產(chǎn)力,使電影錄音技術(shù)制作人員
35、能夠?qū)⒏嘤行Ьν斗庞陔娪奥曇羲囆g(shù)創(chuàng)作上,從而帶來電影聲音創(chuàng)作審美觀念的變革。 一個比較理想的模式是使基于深度學(xué)習(xí)技術(shù)的人工智能系統(tǒng)對獲得包括奧斯卡金像獎最佳混音與最佳音效剪輯獎、美國電影聲音編輯協(xié)會(MPSE)獎以及中國電影金雞獎最佳錄音獎等獎項的影片進(jìn)行文本分析,從聲音頻率響應(yīng)、響度、空間性、運(yùn)動性等指標(biāo)進(jìn)行數(shù)據(jù)量化,從而得出一個不同類型獲獎影片的數(shù)據(jù)模型。根據(jù)此數(shù)據(jù)模型,電影錄音制作人員能夠?qū)Λ@獎影片的聲音特性進(jìn)行直觀、全面的掌握,并將經(jīng)驗運(yùn)用到未來的電影聲音創(chuàng)作實(shí)踐中,推動創(chuàng)作審美觀念的全面進(jìn)步。 3. 人工智能推動電影聲音美學(xué)理論發(fā)展
36、 電影聲音美學(xué)理論經(jīng)歷了早期時期、經(jīng)典時期及現(xiàn)代時期三個發(fā)展階段。在早期以及經(jīng)典電影聲音美學(xué)理論時期,包括謝爾蓋愛森斯坦、貝拉巴拉茲、魯?shù)婪驉垡驖h姆等電影理論家都對電影聲音的美學(xué)及其意義進(jìn)行過深入的探討。而進(jìn)入現(xiàn)代理論時期,以米希爾希翁、里克阿爾特曼為代表的電影聲音理論家則根據(jù)電影聲音的現(xiàn)代性呈現(xiàn)對電影聲音美學(xué)進(jìn)行了重新的、更能夠適應(yīng)當(dāng)今時代特征的思考,將電影聲音美學(xué)研究從聲音的物理屬性研究與心理屬性研究提升到聽覺文化研究的范疇。 人工智能時代的電影聲音美學(xué)研究的格局將被改寫,其理論研究的版圖將被重新劃分。通過人工智能制作出來的電影聲音文本,雖然其面向的對象仍是
37、人類觀眾,但是產(chǎn)生方式已經(jīng)由人類制作者變?yōu)殡娮由?,這種傳播學(xué)視域下信息生產(chǎn)者的更迭將對電影聲音的生產(chǎn)和傳播模型及其倫理帶來深刻的變化和影響??梢韵胂蟮慕K極形態(tài)甚至是作為接受者的觀眾也會部分地人工智能化,作為觀眾的人工智能將如何聆聽電影聲音、將如何觀看電影將是一個未來值得深入探討的話題。 五、人工智能在電影錄音技術(shù)制作中的應(yīng)用性、局限性與可能性討論 鑒于現(xiàn)有科學(xué)技術(shù)的發(fā)展水平,在當(dāng)前以及接下來的一段時間內(nèi),人工智能技術(shù)在電影錄音技術(shù)制作中的作用主要是以替代人工的方式從事電影聲音制作流程中的基礎(chǔ)性工作,以提升電影錄音技術(shù)制作的工作效率。此外,人工智能還應(yīng)能
38、夠從事對音頻素材進(jìn)行簡單拼貼、組合等初級創(chuàng)造性工作,而具有高級審美特性的創(chuàng)意性工作如聲音設(shè)計與混錄是目前這個階段的人工智能技術(shù)無法實(shí)現(xiàn)的。提升人工智能在電影聲音制作領(lǐng)域的應(yīng)用性及普及性的一個關(guān)鍵之處在于要讓人工智能理解電影中的聲音,而這需要兩個基本的過程才能得以實(shí)現(xiàn)。 第一,人工智能需要對聲音具有完全技術(shù)指標(biāo)分析的能力,也就是說,人工智能要在能夠識別聲音的頻率、振幅、方位、空間等基本信息的基礎(chǔ)之上,通過分析聲音的頻譜構(gòu)成(包括基頻、諧頻)以及發(fā)聲方式(如ADSR形態(tài)7)從而對聲音的音色或類別進(jìn)行判斷,以此實(shí)現(xiàn)基于內(nèi)容的對自然音響(尤其是頻響特征和節(jié)拍特征無明顯規(guī)律性)的識別
39、功能。一旦人工智能能夠識別聲音的內(nèi)容,就可以實(shí)現(xiàn)大規(guī)模的基于聲畫結(jié)合的聲音處理。 第二,人工智能需要掌握基本的電影錄音技術(shù)制作規(guī)律。電影錄音技術(shù)制作是基于制作人員對電影聲音的分類、構(gòu)成、功能、技術(shù)手段、表現(xiàn)形式等多方面的認(rèn)知與理解從而對電影中的聲音進(jìn)行主觀能動性處理的一種行為,而更高層次的聲音制作例如聲音設(shè)計,則更需要進(jìn)行系統(tǒng)及長期的訓(xùn)練才能夠獲得具有較高水準(zhǔn)的制作觀念及制作水平。人工智能首先需要了解和掌握電影聲音制作的規(guī)律,例如電影中的角色語言在不同情境下的響度浮動范圍、戰(zhàn)爭場面中槍炮等武器的音色及頻響特點(diǎn)、原始森林中聽覺環(huán)境的聲音元素構(gòu)成等,若要獲得以上案例中的功能,需
40、要讓人工智能對大量的影片進(jìn)行畫面和聲音上的分析,并按照類型片的模式分別歸納出不同影片在聲音制作上的整體及細(xì)節(jié)特征。 最后,在理解電影聲音的客觀性的基礎(chǔ)上嘗試?yán)斫怆娪奥曇舻闹饔^性。電影聲音的主觀性是自有聲電影誕生的近百年來最具藝術(shù)魅力的特征,也創(chuàng)造了無數(shù)經(jīng)典而美妙的電影聲音藝術(shù)形象,成為了人類共同的文明寶藏。電影聲音的主觀性包括兩個方面的內(nèi)容,第一部分是電影聲音制作人員在進(jìn)行聲音藝術(shù)創(chuàng)作的過程中根據(jù)自身的認(rèn)識與經(jīng)驗所施加的主觀性;第二部分是觀眾作為接受客體在觀看電影并聆聽經(jīng)由聲音制作人員設(shè)計和創(chuàng)作的聲音時所表現(xiàn)出的主觀性,正是這兩方面的主觀性的結(jié)合,才使得電影聲音產(chǎn)生了永恒的
41、審美意義。人工智能技術(shù)作為電影聲音的制作者和生產(chǎn)者,通過技術(shù)上的升級和強(qiáng)化,在進(jìn)行電影錄音技術(shù)制作時試圖用數(shù)字的方式還原人類在創(chuàng)作表現(xiàn)性聲音或進(jìn)行聲音設(shè)計時的思維過程,這樣就能在更大程度上實(shí)現(xiàn)從制作到創(chuàng)作的跨越。 注釋 1陳先昌:《基于卷積神經(jīng)網(wǎng)絡(luò)的“深度學(xué)習(xí)”算法與應(yīng)用研究》,浙江工商大學(xué)碩士學(xué)位論文,2014年,第1頁。 2王涓、唐煒、向軍:《智能音頻編輯系統(tǒng)在廣播電臺的虛擬化部署和應(yīng)用》,《電聲技術(shù)》,2019年第7期,第77—80頁。 3李偉、高智輝:《音樂信息檢索技術(shù):音樂與人工智能的融合》,《藝術(shù)探索》,2018年第5期,第112
42、頁。 4材料來源:《Watson要進(jìn)軍好萊塢了?!它為《Morgan》制作了第一部認(rèn)知電影預(yù)告片!》,http://www. sohu. com/a/121865183_320672,2016年12月7日。 5摩爾普斯(希臘語:Μορφα)是希臘神話中的夢神,他能夠在人的夢中化成不同人的形象。 6材料來源:The Key Technology Behind Morpheus Engine,:8081/rwt/ZGZW/https/PJSYILLUPS4XI4LQFG/ com/,2019年12月29日。 7聲音從產(chǎn)生到消逝,包括了“建立”(Attack)、“衰減”(Decay)、“延音”(Sustain)和“釋放”(Release)等四個階段。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。