自然語言處理計算機(jī)教學(xué)課件PPT
《自然語言處理計算機(jī)教學(xué)課件PPT》由會員分享,可在線閱讀,更多相關(guān)《自然語言處理計算機(jī)教學(xué)課件PPT(118頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、自然語言處理Natural Language Processing(NLP)主要內(nèi)容(1)p自然語言處理概述n什么是自然語言處理n自然語言處理的典型應(yīng)用n自然語言處理的基本任務(wù)n自然語言處理的基本策略和實(shí)現(xiàn)方法n自然語言處理的難點(diǎn)n自然語言處理所涉及的學(xué)科 (http:/ (IBM Model等)n.(基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法)主要內(nèi)容(3)所需的前導(dǎo)知識p編譯技術(shù)p概率與統(tǒng)計p.參考書籍p宗成慶,統(tǒng)計自然語言處理統(tǒng)計自然語言處理,清華大學(xué)出版社,2008p劉群等譯,自然語言理解(第二版)自然語言理解(第二版),電子工業(yè)出版社,2005p苑春法等譯,統(tǒng)計自然語言處理基礎(chǔ)統(tǒng)計自然語言處理基礎(chǔ),
2、電子工業(yè)出版社,2005p馮志偉等譯,自然語言處理綜論自然語言處理綜論,電子工業(yè)出版社,2005p黃昌寧等,語料庫語言學(xué)語料庫語言學(xué),商務(wù)印書館,2002p馮志偉,計算語言學(xué)基礎(chǔ)計算語言學(xué)基礎(chǔ),商務(wù)印書館,2001p余士文,計算語言學(xué)概論計算語言學(xué)概論,商務(wù)印書館,2003p姚天順,自然語言理解一種讓機(jī)器懂得人類語言的研究(第自然語言理解一種讓機(jī)器懂得人類語言的研究(第2版)版),清華大學(xué)出版社,2002p趙鐵軍等,機(jī)器翻譯原理機(jī)器翻譯原理,哈爾濱工業(yè)大學(xué)出版社,2000p宗成慶等譯,統(tǒng)計機(jī)器翻譯統(tǒng)計機(jī)器翻譯,電子工業(yè)出版社,2012pPeter F. Brown, et al., A Sta
3、tistical Approach to MT, Computational Linguistics, 1990,16(2)課程考核pProjectsn提交報告(說明基本做法)和源程序及可運(yùn)行的程序p期末筆試 自然語言處理概述什么是自然語言處理p充分利用信息將會給人們帶來巨大的收益,而大量的信息以自然語言自然語言(英語、漢語等)形式存在。p如何有效地有效地獲取和利用以自然語言形式自然語言形式出現(xiàn)的信息?n自然語言處理自然語言處理(Natural Language Processing,簡稱NLP)是指用計算機(jī)對自然語言信息進(jìn)行處理的方法和技術(shù)。p與NLP相近的兩個研究領(lǐng)域:n自然語言理解自然語
4、言理解(Natural Language Understanding, NLU):強(qiáng)調(diào)對語言含義和意圖的深層次解釋。n計算語言學(xué)計算語言學(xué)(Computational Linguistics, CL):強(qiáng)調(diào)可計算的語言理論。NLP技術(shù)的典型應(yīng)用p機(jī)器翻譯p自動摘要p文本分類與信息過濾p信息檢索p自動問答p情感分析p信息抽取p.機(jī)器翻譯(Machine Translation)p機(jī)器翻譯(Machine Translation,簡稱MT)是指利用計算機(jī)實(shí)現(xiàn)自然語言之間的自動自動翻譯。n是最早的計算機(jī)應(yīng)用之一n分為:文本機(jī)器翻譯和語音機(jī)器翻譯p機(jī)器輔助輔助翻譯(Machine Aided Tran
5、slation或Computer Aided Translation,簡稱MAT或CAT)n翻譯記憶體(Translation Memory,簡稱TM)n雙語對照的譯后編輯n.自動摘要(Text Summarization)p利用計算機(jī)自動地從原始文檔中提取全面、準(zhǔn)確地反映該文檔中心內(nèi)容的簡潔、連貫的短文。n應(yīng)對信息過載n分為單文檔摘要和多文檔摘要文本分類(Text Classification)p將一篇文檔歸于預(yù)先給定的一個類別集合中的某一類或某幾類。n圖書館的圖書分類n網(wǎng)頁分類n信息過濾n.信息檢索(Information Retrieval,IR)p基于關(guān)鍵詞,從某文檔集合中檢索出相關(guān)的
6、文檔。n谷歌搜索、百度搜索、. n主題相關(guān)的文本獲取。自動問答(Question Answering,QA)p針對用戶提出的問題,給出具體的答案。nApple的Siri、IBM的Watson機(jī)器人、百度的“知道”、各種問答機(jī)器人、 n提高信息獲取的效率情感分析(Sentiment Analysis或 Opinion Analysis )p分析文章(評論)對某個對象(社會熱點(diǎn)事件、產(chǎn)品或者服務(wù))的態(tài)度(正面還是負(fù)面)。n政府輿情分析:熱點(diǎn)事件發(fā)現(xiàn)、預(yù)警n企業(yè)市場決策:產(chǎn)品意見調(diào)查、產(chǎn)品推薦n消費(fèi)者購買決策n.信息抽?。↖nformation Extraction,IE)p從非結(jié)構(gòu)化或半結(jié)構(gòu)化的自
7、然語言文本中提取出與某主題相關(guān)的結(jié)構(gòu)化信息。n主題相關(guān)的信息獲取(包括實(shí)體、實(shí)體關(guān)系、事件等抽?。?。(信息檢索是主題相關(guān)的文檔獲?。﹏對機(jī)器翻譯、自動問答、情感分析等提供支持。新華社北京月日電(記者李術(shù)峰): 中國農(nóng)工民主黨第十二屆中央常務(wù)委員會第一次會議今天在北京召開。會議研究通過了貫徹落實(shí)“兩會”精神的有關(guān)決定,審議通過了中國農(nóng)工民主黨中央年工作要點(diǎn)(草案),并任命了中央副秘書長。農(nóng)工民主黨中央主席蔣正華主持了會議,他說,農(nóng)工民主黨有多名黨員作為代表和委員參加了今年的“兩會”,各位黨員要認(rèn)真履行代表和委員的職責(zé),開好會,在年的工作中認(rèn)真貫徹“兩會”精神,加強(qiáng)農(nóng)工民主黨的自身建設(shè),推動事業(yè)進(jìn)
8、一步發(fā)展,為建設(shè)有中國特色社會主義事業(yè)作出新的貢獻(xiàn)。會前,農(nóng)工民主黨中央邀請參加“兩會”的來自全國各省、自治區(qū)、直轄市的農(nóng)工民主黨黨員進(jìn)行了聯(lián)誼活動。信息抽取實(shí)例信息抽取實(shí)例:會議報道(人民日報1998-03-09)信息抽取的結(jié)果會 議 時 間 Time 年3月8日會 議 地 點(diǎn) Spot 北京會議召集者/主持人Convener個人姓名/團(tuán)體名稱 Name蔣正華機(jī) 構(gòu) 、 職 位 Org/Post主席,農(nóng)工民主黨中央會議名/標(biāo)題Conf-Title 中國農(nóng)工民主黨第十二屆中央常務(wù)委員會第一次會議 .只要處理對象涉及自然語言的都需要NLP!自然語言處理的基本任務(wù)p語言分析:分析語言表達(dá)的結(jié)構(gòu)和含
9、義n詞法分析:形態(tài)還原、詞性標(biāo)注、命名實(shí)體(人名、地名、機(jī)構(gòu)名)識別、分詞(漢語、日語等)等n句法分析:確定句子的組成形式(組塊分析、結(jié)構(gòu)分析、依存分析)n語義分析:語言表達(dá)的含義或意義,包括詞義、句義(邏輯、格關(guān)系、.)、篇章(上下文)(指代、實(shí)體關(guān)系、.)p語言生成:從某種內(nèi)部表示生成語言表達(dá)n詞、句子、篇章的生成p多語言處理(機(jī)器翻譯、跨語言檢索):語言之間的對應(yīng)、轉(zhuǎn)換p不同的應(yīng)用對上述任務(wù)有不同的要求。自然語言處理的實(shí)現(xiàn)方法p基于知識工程的理性方法(Rationalist approach)n以規(guī)則形式表達(dá)語言知識。n基于規(guī)則進(jìn)行符號推理,從而實(shí)現(xiàn)語言信息處理。n強(qiáng)調(diào)人對語言知識的理性
10、整理(受Chomsky主張的人具有先天語言能力觀點(diǎn)的影響,主宰19601985)。p基于語料庫的經(jīng)驗方法(Empiricist approach)n以大規(guī)模語料庫為語言知識基礎(chǔ)。n利用統(tǒng)計學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法自動獲取隱含在語料庫中的知識,學(xué)習(xí)到的知識體現(xiàn)為一系列模型參數(shù)。 (訓(xùn)練)n基于學(xué)習(xí)到的參數(shù)和相應(yīng)的模型進(jìn)行語言信息處理。p混合方法n理性方法的優(yōu)、缺點(diǎn)p相應(yīng)的語言學(xué)理論基礎(chǔ)好p語言知識描述精確p處理效率高p知識獲取困難(高級勞動)p系統(tǒng)魯棒性差:不完備的規(guī)則系統(tǒng)將導(dǎo)致推理的失敗p知識擴(kuò)充困難,很難保證規(guī)則之間的一致性n經(jīng)驗方法的優(yōu)、缺點(diǎn)p知識獲取容易(低級勞動)p系統(tǒng)魯棒性好
11、:概率大的作為結(jié)果p知識擴(kuò)充容易、一致性容易維護(hù)p相應(yīng)的語言學(xué)理論基礎(chǔ)差(可解釋性差)p缺乏對語言學(xué)知識的深入描述和利用,過于機(jī)械p處理效率低n利用各家之長,相互融合?自然語言的分類(基于形態(tài)結(jié)構(gòu))p分析型語言n沒有或很少有詞形變化n沒有表示詞的語法功能的附加成分,由詞序和虛詞表示詞之間的語法關(guān)系n如:漢語p黏著型語言n有詞形變化n詞的語法意義(功能)由附加成分表達(dá)n如:日語p屈折型語言n有詞形變化n詞的語法意義由詞的形態(tài)變化來表示n如:英語p另外,語言還可以按下面分類:nSVO型(主-動-賓)nVSO型(動-主-賓)nSOV型(主-賓-動)自然語言處理的難點(diǎn)p歧義處理n自然語言充滿了大量的歧
12、義(為什么?)n有限的詞匯和規(guī)則表達(dá)復(fù)雜、多樣的對象p語言知識的表示、獲取和運(yùn)用p成語和慣用型的處理p對語言的靈活性和動態(tài)性的處理n靈活性:同一個意圖的不同表達(dá),甚至包含錯誤的語法等n動態(tài)性:語言在不斷的變化,如:新詞等p上下文和常識知識(與語言無關(guān))的利用和處理漢語處理的難點(diǎn)p缺乏計算語言學(xué)的句法/語義理論,大都借用基于西方語言的句法/語義理論p資源(語料庫)缺乏p詞法分析n分詞n詞性標(biāo)注難p句法分析n主動詞識別難(特別對于流水句)n詞法分類與句法功能對應(yīng)差(例如:他喜歡走)p語義分析n句法結(jié)構(gòu)與句義對應(yīng)差(例如:老頭曬太陽)n時體態(tài)確定難 (漢語無形態(tài)變化)自然語言處理所涉及的學(xué)科p語言學(xué)
13、:各種語法、語義理論p計算機(jī)科學(xué)(包括人工智能、機(jī)器學(xué)習(xí))p數(shù)學(xué):邏輯、概率與統(tǒng)計、信息論等p哲學(xué)(認(rèn)知學(xué))p心理學(xué)p. 基于規(guī)則的自然語言處理方法 (理性方法,傳統(tǒng)方法)概述p強(qiáng)調(diào)對語言知識的理性整理(知識工程)p受計算語言學(xué)理論指導(dǎo)p基于規(guī)則的知識表示和推導(dǎo)(符號計算)p語言處理規(guī)則(數(shù)據(jù))與程序分離,程序體現(xiàn)為規(guī)則語言的解釋器!詞法分析p形態(tài)還原(針對英語、德語、法語等)n把句子中的詞還原成它們的基本詞形。p詞性標(biāo)注n為句子中的詞標(biāo)上預(yù)定義類別集合中的類。p命名實(shí)體識別n識別出句子中的人名、地名、機(jī)構(gòu)名等。p分詞(針對漢語、日語等)n識別出句子中的詞。形態(tài)還原(英語)p把句子中的詞還原成
14、原形,作為詞的其它信息(詞典、個性規(guī)則)的索引。p構(gòu)詞特點(diǎn)n屈折變化:詞尾和詞形變化,詞性不變。如:pstudy, studied,studied,studyingpspeak,spoke,spoken,speakingn派生變化:加前綴和后綴,詞性發(fā)生變化。如:pfriend,friendly,friendship,.n復(fù)合變化:多個單詞以某種方式組合成一個詞。p還原規(guī)則n通用規(guī)則:變化有規(guī)律n個性規(guī)則:變化無規(guī)律形態(tài)還原規(guī)則舉例p英語“規(guī)則動詞”還原n*s - * (SINGULAR3)n*es - * (SINGULAR3)n*ies - *y (SINGULAR3)n*ing - *
15、(VING)n*ing - *e (VING)n*ying - *ie (VING)n*?ing - *? (VING)n*ed - * (PAST)(VEN)n*ed - *e (PAST)(VEN)n*ied - *y (PAST)(VEN)n*?ed - *? (PAST)(VEN)p英語不規(guī)則動詞還原nwent - go (PAST)ngone - go (VEN)nsat - sit (PAST) (VEN)形態(tài)還原算法1.輸入一個單詞2.如果詞典里有該詞,輸出該詞及其屬性,轉(zhuǎn)4,否則,轉(zhuǎn)33.如果有該詞的還原規(guī)則,并且,詞典里有還原后的詞,則輸出還原后的詞及其屬性,轉(zhuǎn)4,否則,調(diào)用
16、4.如果輸入中還有單詞,轉(zhuǎn)(1),否則,結(jié)束。Proj. 1 實(shí)現(xiàn)一個英語單詞還原工具。(詞典:http:/ class)nNounsp句法上:可作物主、可有限定詞、有復(fù)數(shù)形式p語義上:人名、地名和物名nVerbsp句法上:作謂語、有幾種詞形變化p語義上:動作、過程(一系列動作)nAdjectivesp句法上:修飾Nouns等p語義上:性質(zhì)nAdverbsp句法上:修飾Verbs等p語義上:方向、程度、方式、時間p封閉類(closed class,function words)nDeterminersnPronounsnPrepositionsnConjunctionsnAuxiliary v
17、erbsnParticles(if、not、.)nNumeralsp為什么要分類?分類帶來的問題?p兼類詞n一個詞具有兩個或者兩個以上的詞性n英文的Brown語料庫中,10.4%的詞是兼類詞。例如:pThe back doorpOn my backpPromise to back the billn漢語兼類詞,例如:p把門鎖上, 買了一把鎖p他研究., 研究工作n漢語詞的兼類更多?與所采用的分類體系是否有關(guān)?詞性標(biāo)注方法p詞典和規(guī)則提供候選詞性p消歧規(guī)則進(jìn)行消歧漢語分詞(切分)p詞是語言中最小的能獨(dú)立運(yùn)用的單位,也是語言信息處理的基本單位。p分詞是指根據(jù)某個分詞規(guī)范,把一個“字”串劃分成“詞”
18、串。n問題:難以確定何謂漢語的“詞”p單字詞與語素的界定:豬肉、牛肉p詞與短語(詞組)的界定:黑布、黑板、黑戶、黑人n信息處理用現(xiàn)代漢語分詞規(guī)范:GB-13715(1992)n具體應(yīng)用系統(tǒng)可根據(jù)各自的需求制定規(guī)范p分詞帶來的問題n丟失信息、錯誤的分詞、不同的分詞規(guī)范切分歧義及歧義字段的種類p交集型歧義字段nABC切分成AB/C或A/BCn如:“和平等”p“獨(dú)立/自主/和/平等/獨(dú)立/的/原則”p“討論/戰(zhàn)爭/與/和平/等/問題”p組合型歧義字段nAB切分成AB或A/Bn如:“馬上”p“他/騎/在/馬/上”p“馬上/過來”p混合型歧義n由交集型歧義和組合型歧義嵌套與交叉而成n如:“得到達(dá)”(交集
19、型、組合型)p“我/今晚/得/到達(dá)/南京” p“我/得到/達(dá)克寧/了 ” p“我/得/到/達(dá)克寧/公司/去”南京市長江大橋.南京市長江二橋.p偽歧義與真歧義n偽歧義字段指在任何情況下只有一種切分p“挨批評”只有一種切分p根據(jù)歧義字段本身就能消歧n真歧義字段指在不同的情況下有多種切分p“從小學(xué)”可以有多種切分: “從小/學(xué)” ,如:“從小/學(xué)/電腦” (“從小”是切分成“從小”還是“從/小”要根據(jù)分詞規(guī)范?。?“從/小學(xué)”,如:“他/從/小學(xué)/畢業(yè)/后”p根據(jù)歧義字段的上下文來消歧分詞方法一般通過分詞詞典和分詞規(guī)則庫進(jìn)行分詞。主要方法有:p正向最大匹配(FMM)或逆向最大匹配(RMM)n從左至右
20、(FMM)或從右至左(RMM),取最長的詞n“幼兒園 地 節(jié)目”或“幼兒 園地 節(jié)目”p雙向最大匹配n分別采用FMM和RMM進(jìn)行分詞n如果結(jié)果一致,則認(rèn)為成功;否則,n采用消歧規(guī)則進(jìn)行消歧(交集型歧義):p正向最大、逆向最小匹配n發(fā)現(xiàn)組合型歧義p逐詞遍歷匹配n在全句中取最長的詞,去掉之,對剩下字符串重復(fù)該過程 p設(shè)立切分標(biāo)記n收集詞首字和詞尾字,把句子分成較小單位,再用某些方法切分 p全切分n獲得所有可能的切分,選擇最大可能的切分基于規(guī)則的歧義字段消歧方法p利用歧義字串、前驅(qū)字串和后繼字串的句法、語義和語用信息:n句法信息p“陣風(fēng)”:根據(jù)前面是否有數(shù)詞來消歧?!耙?陣/風(fēng)/吹/過/來”、“今天
21、/有/陣風(fēng)”n語義信息p“了解”:“他/學(xué)會/了/解/數(shù)學(xué)/難題”(“難題”一般是“解”而不是“了解”,另外,還有“學(xué)會”)n語用信息p“拍賣”:“乒乓球拍賣完了”,要根據(jù)場景(上下文)來確定p規(guī)則的粒度n基于具體的詞(個性規(guī)則)n基于詞類、詞義類(共性規(guī)則)Proj. 2 實(shí)現(xiàn)一個基于詞典與規(guī)則的漢語自動分詞系統(tǒng)。(詞典:http:/ ate the cat的組成分分析SNPVPNAMEJohnVNPateARTNthecatJohn ate the cat的依存分析John ate the catsubobjmod句法分析-組成分分析p句法分析的目的n判斷句子的合法性(句子識別)n確定句子
22、的結(jié)構(gòu)(句子中單詞相互關(guān)聯(lián)的方式)p基于上下文無關(guān)語法(CFG)的表示nCFG能描述大部分的自然語言結(jié)構(gòu)n可以構(gòu)造高效的基于CFG的句法分析器p通常采用樹形結(jié)構(gòu)來表示句法分析的結(jié)果優(yōu)秀語法的特征p通用性n能正確分析的句子的范圍p選擇性n能判斷出錯誤句子的范圍p可理解性n自身的簡易程度p*魯棒性n對不合法句子的容忍度(通用性):He love her.n通用性與選擇性矛盾的處置,如:忽略主謂一致性檢查將導(dǎo)致無法區(qū)分下面句子的不同含義(歧義)pFlying planes are(be) dangerous.pFlying planes is(be) dangerous.一個簡單的基于CFG的英語語
23、法1. S - NP VP2. VP - V NP3. NP - NAME4. NP - ART N5. NAME - John6. V - ate7. ART - the8. N - cat9. .p產(chǎn)生式59屬于詞法規(guī)則,一般由詞典、詞形還原以及詞性標(biāo)注算法來描述 。p產(chǎn)生式14屬于句法規(guī)則?;贑FG的分析器p自頂向下n利用產(chǎn)生式,從S開始,嘗試將S改寫/推導(dǎo)成與輸入句子相匹配的終結(jié)符號序列。p自底向上n利用產(chǎn)生式,嘗試將輸入句子與產(chǎn)生式右部進(jìn)行匹配,最后規(guī)約到S。p回溯n在改寫或規(guī)約的某一步可能有多個產(chǎn)生式供選擇。n從一個錯誤的嘗試(改寫或規(guī)約)返回,進(jìn)行下一個嘗試。p保留改寫或規(guī)約的
24、歷史n回溯需要n輸出正確的分析結(jié)果也需要一個簡單的自頂向下句法分析算法p語法n1. S - NP VP 2. NP - ART N 3. NP - ART ADJ Nn4. VP - V 5. VP - V NPp位置計數(shù)器n1 The 2 dogs 3 cried 4p狀態(tài)n由符號表和當(dāng)前位置構(gòu)成,如:(NP VP) 1) 表示從位置1開始尋找NP,且NP后面是VP。初始狀態(tài)為: (S) 1)n分為當(dāng)前狀態(tài)和后備狀態(tài)。p狀態(tài)轉(zhuǎn)換n當(dāng)前狀態(tài)的符號表的第一個符號是詞法符號(詞性),并且句子中當(dāng)前詞屬于該詞性,則刪除符號表中第一個符號,并更新當(dāng)前位置(加1),得到新的當(dāng)前狀態(tài)。n當(dāng)前狀態(tài)的符號表的
25、第一個符號是句法符號,則依據(jù)語法獲得所有以該符號為左部的產(chǎn)生式,用它們的右部替換符號表中的該符號,從而得到一批新的狀態(tài),選擇其中一個作為新的當(dāng)前狀態(tài),其它作為后備狀態(tài)。p回溯n從后備狀態(tài)中取一個作為當(dāng)前狀態(tài),繼續(xù)分析p算法1. 取 (S) 1)作為當(dāng)前狀態(tài)當(dāng)前狀態(tài)(初始狀態(tài)),后備狀態(tài)后備狀態(tài)為空。2. 若當(dāng)前狀態(tài)為空,則失敗,算法結(jié)束,3. 否則,若當(dāng)前狀態(tài)的符號表為空,(1)位置計數(shù)器值處于句子末尾,則成功,算法結(jié)束(2)位置計數(shù)器值處于句子中間,轉(zhuǎn)54. 否則,進(jìn)行狀態(tài)轉(zhuǎn)換狀態(tài)轉(zhuǎn)換,若轉(zhuǎn)換成功,則轉(zhuǎn)25. 否則,回溯回溯,轉(zhuǎn)2。步驟步驟當(dāng)前狀態(tài)當(dāng)前狀態(tài)后備狀態(tài)后備狀態(tài)備注備注1(S) 1
26、)初始狀態(tài)2(NP VP) 1)規(guī)則1改寫3(ART N VP) 1)(ART ADJ N VP) 1)規(guī)則2、3改寫4(N VP) 2)(ART ADJ N VP) 1)ART匹配the5(VP) 3)(ART ADJ N VP) 1)N匹配cat6(V) 3)(V NP) 3)(ART ADJ N VP) 1)規(guī)則4、5改寫7() 4)(V NP) 3)(ART ADJ N VP) 1)V匹配caught“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-
27、V NP步驟步驟當(dāng)前狀態(tài)當(dāng)前狀態(tài)后備狀態(tài)后備狀態(tài)備注備注8(V NP) 3)(ART ADJ N VP) 1)回溯9(NP) 4)(ART ADJ N VP) 1)V匹配caught10(ART N) 4)(ART ADJ N) 4)(ART ADJ N VP) 1)規(guī)則2、3改寫11(N) 5)(ART ADJ N) 4)(ART ADJ N VP) 1)ART匹配a12() 6)(ART ADJ N) 4)(ART ADJ N VP) 1)N匹配mouse13結(jié)束“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(續(xù))1. S-NP VP 2. NP-ART
28、 N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP搜索策略p深度優(yōu)先n后備狀態(tài)采用“?!苯Y(jié)構(gòu)n后備狀態(tài)少,存儲效率高n面臨“左遞歸”問題p廣度優(yōu)先n后備狀態(tài)采用“隊列”結(jié)構(gòu)n后備狀態(tài)多,存儲效率不高自底向上句法分析p簡單的自底向上句法分析效率不高,常常會重復(fù)嘗試相同的匹配操作(回溯之前已匹配過)。p一種基于圖的句法分析技術(shù)(Chart Parsing)被提出,它把已經(jīng)匹配過的結(jié)果保存起來,今后需要時可直接使用它們,不必重新匹配。(動態(tài)規(guī)劃)Chart Parsing的數(shù)據(jù)表示p圖(chart)的結(jié)點(diǎn)表示句子中詞之間的位置數(shù)字p非活動邊集(chart的核心,常直接就被稱為
29、chart)n記錄分析中規(guī)約成功所得到的所有詞法/句法符號p活動邊集n未完全匹配的產(chǎn)生式,用加小圓圈標(biāo)記()的產(chǎn)生式來表示,如:pNP - ART ADJ NpNP - ART Np待處理表(agenda)n記錄等待加入chart的已匹配成功的詞法/句法符號p上面的活動邊、非活動邊以及詞法/句法符號都帶有“始/終結(jié)點(diǎn)”位置信息“1 The 2 cat 3 caught 4 a 5 mouse 6”分析中的數(shù)據(jù)示例1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4.
30、VP-V 5. VP-V NPN(2,3)agenda56amouse重復(fù)下面的操作,直到agenda為空并且輸入中沒有下一個詞p若agenda為空,則把句子中下一個詞的各種詞法符號(詞性)和它們的位置加入進(jìn)來,p從agenda中取一個元素(設(shè)為C,位置為:p1-p2)p對下面形式的每個規(guī)則增加活動邊:nX-CX1.Xn,增加一條活動邊活動邊:X-C X1.Xn,位置為:p1-p2;nX-C,把X加入agenda,位置為:p1-p2p將C作為非活動邊非活動邊加入到chart的位置p1-p2p對已有活動邊已有活動邊進(jìn)行邊擴(kuò)展邊擴(kuò)展n對每個形式為:X-X1. C.Xn的活動邊,若它在p0-p1之間
31、,則增加一條活動邊活動邊:X-X1. C .Xn,位置:p0-p2n對每個形式為: X-X1. Xn C的活動邊,若它在p0-p1之間,則把X加入agenda ,位置為:p0-p2Chart Parsing句法分析算法“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPART(1,2)agenda56amouse“1 The 2 cat 3 c
32、aught 4 a 5 mouse 6”的分析過程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPN(2,3)agenda56amouseNNP(1,3)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N
33、4. VP-V 5. VP-V NPagenda56amouseNNP(1,3)S - NP VPNP“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNV(3,4)S - NP VPNPVP - V NPVP(3,4)V“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)123
34、4ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVP(3,4)VVPS(1,4)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5.
35、VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPS(1,4)S“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPART(4,5)SNP - ART NNP - ART ADJ NART“1 The 2 cat 3 caught
36、4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPN(5,6)SNP - ART NNP - ART ADJ NARTNNP(4,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動
37、邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNNP(4,6)S - NP VPNPVP(3,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. V
38、P-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNS - NP VPNPVP(3,6)VPS(1,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動邊非活動邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART N
39、NP - ART ADJ NARTNS - NP VPNPVPS(1,6)SProj. 3 實(shí)現(xiàn)一個基于簡單英語語法的chart句法分析器。nagenda采用棧or隊列?n可能會有無用(不可能用到)的活動邊,影響效率。句法分析與邏輯程序設(shè)計p邏輯程序設(shè)計是把程序組織成一組事實(shí)(謂詞)和一組推理規(guī)則,計算(推理)過程由實(shí)現(xiàn)系統(tǒng)自動給出,它基于謂詞演算(Predicate Calculus)進(jìn)行計算。pPROLOG是一個邏輯程序設(shè)計語言,在程序中,用子句(clause)描述事實(shí)和推理規(guī)則,推理過程由PROLOG的執(zhí)行機(jī)制自動完成。p對句法分析而言,n事實(shí):句子中每個詞的詞性以及詞在句子中的位置等n
40、推理規(guī)則:文法(產(chǎn)生式)一個基于CFG的PROLOG句法分析器p詞典、詞形還原以及詞性標(biāo)注結(jié)果可表示成事實(shí):nisart(the)nisname(john)nisverb(ate)nisnoun(cat)n.p輸入句子“John ate the cat”可表示成事實(shí):nword(john,1,2)nword(ate,2,3)nword(the,3,4)nword(cat,4,5)p語法規(guī)則可表示成推理規(guī)則:ns(P1,P3):-np(P1,P2),vp(P2,P3)nnp(P1,P3):-art(P1,P2),n(P2,P3)nnp(P1,P3):-name(P1,P3)npp(P1,P3):
41、-p(P1,P2),np(P2,P3)nvp(P1,P2):-v(P1,P2)nvp(P1,P3):-v(P1,P2),np(P2,P3)nvp(P1,P3):-v(P1,P2),pp(P2,P3)nn(P1,P2):-word(W,P1,P2),isnoun(W)nart(P1,P2):-word(W,P1,P2),isart(W)nv(P1,P2):-word(W,P1,P2),isverb(W)nname(P1,P2):-word(W,P1,P2),isname(W)p通過查詢謂詞s(1,5)的真假來識別句子“John ate the cat”:n?- s(1,5)p標(biāo)準(zhǔn)PROLOG的處
42、理策略與深度優(yōu)先的自頂向下分析方法一致。傳統(tǒng)CFG在描述自然語言時存在的問題1. S - NP VP 4. VP - V2. NP - ART N 5. VP - V NP3. NP - ART ADJ Np上面的CFG描述了英語的一個子集,同時,它又會生成一些不合法的英語句子,如:nThe student solve the problem.(主謂不一致)nThe teacher disappeared the problem.(不及物動詞)一種可能的解決方案增加句法符號和規(guī)則p把NP分為NP-S和NP-P;把VP分成VP-S和VP-P:nS-NP-S VP-SnS-NP-P VP-Pp把N
43、分成N-S和N-P:nNP-S-ART N-SnNP-S-ART ADJ N-SnNP-P-ART N-PnNP-P-ART ADJ N-Pp把V分成V-S-I、V-S-T、V-P-I和V-P-T:nVP-S-V-S-InVP-S-V-S-T NP-S nVP-S-V-S-T NP-PnVP-P-V-P-InVP-P-V-P-T NP-SnVP-P-V-P-T NP-P增加句法符號和規(guī)則帶來的問題p增加了規(guī)則的數(shù)量和潛在的冗余p類似的規(guī)則缺乏關(guān)聯(lián)性p對語言結(jié)構(gòu)描述缺乏深度(表層)基于特征的擴(kuò)展CFGp不增加原CFG中的句法符號p給每個句法符號增加特征特征(屬性),例如:nNP(PER 3,NU
44、M s) /第三人稱單數(shù)nVP(PER 3,NUM p) /第三人稱復(fù)數(shù)p特征由特征名和特征值構(gòu)成。一系列特征構(gòu)成了一個特征特征結(jié)構(gòu)結(jié)構(gòu)(復(fù)雜特征集)。p特征值可以是普通值(原子),也可以是另一個特征結(jié)構(gòu),例如:nNP(AGR(PER 3, NUM s),可簡寫為:nNP(AGR 3s)p一個特征的特征值可以有多個,表示成:nN(ROOT fish, AGR 3s,3p)p特征值也可以是變量,表示取值可以任意,例如:nNP(AGR ?a) 表示NP的AGR特征值可取任意值p可以對變量形式的特征值限定范圍(受限變量),例如:nNP(AGR ?a3s,3p)p同名的變量表示它們的值要相同,例如:n
45、S-NP(AGR ?a) VP(AGR ?a) 表示NP與VP的AGR特征值要一致(取同樣的值,主謂一致)p一個規(guī)則如果包含特征值為變量的成分,則該規(guī)則代表了一組規(guī)則(規(guī)則模板)。例如,上述規(guī)則代表:nS-NP(AGR 3s) VP(AGR 3s)nS-NP(AGR 3p) VP(AGR 3p)n.一個基于特征結(jié)構(gòu)的CFG語法pS-NP(AGR ?a) VP(AGR ?a)pNP(AGR ?a) - ART N(AGR ?a)pNP(AGR ?a) - ART ADJ N(AGR ?a)pVP(AGR ?a) - V(AGR ?a,VAL itr)pVP(AGR ?a) - V(AGR ?a,
46、VAL tr) NP合一文法p一個文法可以表示成一系列特征結(jié)構(gòu)間的約束關(guān)系所組成的集合,這樣的文法稱為合一文法(Unification Grammar,UG),它為基于特征的CFG文法提供了一個形式描述基礎(chǔ)。p例如:nUG中特征結(jié)構(gòu)X0、X1和X2之間的約束關(guān)系:pX0-X1 X2 (CAT0=S,CAT1=NP,CAT2=VP, AGR0=AGR1=AGR2,VFORM0=VFORM2)n可以描述下面的一條基于特征的CFG中的規(guī)則:pS-NP(AGR ?a) VP(AGR ?a)p特征結(jié)構(gòu)的合一運(yùn)算構(gòu)成了合一文法的基本操作,其作用有兩個:n檢查特征結(jié)構(gòu)間的相容性以確定多個特征結(jié)構(gòu)是否可以合并
47、(規(guī)約)n創(chuàng)建新的特征結(jié)構(gòu)(規(guī)約的結(jié)果)合一運(yùn)算p特征結(jié)構(gòu)“相容”n(f)表示特征結(jié)構(gòu)的特征f的值n若、為特征結(jié)構(gòu),對于所有的特征f(屬于或):p若(f)=a,(f)=b,a、b都是原子,和是相容的當(dāng)且僅當(dāng)a=bp若(f)、(f)均為特征結(jié)構(gòu),和是相容的當(dāng)且僅當(dāng)(f)與(f)相容(遞歸)p特征結(jié)構(gòu)“合一運(yùn)算”:n如果a、b都是原子,若a=b,則ab=a,否則ab=n若、均為特征結(jié)構(gòu),則p若(f)=v,但(f)未定義,則f=v屬于p若(f)=v,但(f)未定義,則f=v屬于p若(f)=v1,(f)=v2,且v1與v2相容,則f=(v1v2)屬于,否則,= 合一運(yùn)算舉例p(CAT V, ROOT
48、cry)與(CAT V, VFORM pres)可以合一為:(CAT V, ROOT cry, VFORM pres)p(CAT V, AGR 3s)與(CAT V, AGR 3p)不能合一p(CAT N,ROOT fish, AGR 3s,3p)與(CAT N, AGR 3s)可以合一為: (CAT N,ROOT fish, AGR 3s)基于特征CFG的chart parsingp句子與規(guī)則匹配時,除了語法成分要相同,還要對各個特征進(jìn)行匹配和泛化處理。p若規(guī)則包含特征值為變量的成分,匹配時需要實(shí)例化這個規(guī)則,例如:n對于規(guī)則:pNP(AGR ?a)- ART(AGR ?a) N(AGR ?
49、a)n若有下面的語法成分需要匹配:pART(ROOT a, AGR 3s)n則需要實(shí)例化規(guī)則中的?a:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n它與ART(ROOT a, AGR 3s)匹配后擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n若句子中還有N(ROOT dog, AGR 3s)需要匹配,則進(jìn)一步擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s) p如果待匹配的語法成分的特征值中包含受限變量,則實(shí)例化后的規(guī)則中的取值范圍為兩者的交集,例如:n實(shí)例化前的規(guī)則:pNP(AGR ?a)- ART(AGR ?
50、a) N(AGR ?a)n要匹配的語法成分:pART(ROOT the, AGR ?a3s,3p)n實(shí)例化后的規(guī)則為:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n匹配擴(kuò)展后為:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n再與N(ROOT dog, AGR 3s)匹配后擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s) 語義分析p語義分析的目的是給出語言表達(dá)的含義或意義(meaning)。p語義分析包括n詞義計算(詞義表示、多義詞消歧等)n句義計算(邏輯形式與
51、組合理論、語義角色標(biāo)注等)n篇章語義計算(指代、實(shí)體關(guān)系等)詞匯語義p句子的意義由句子中詞匯的語義組合而成。句義分析首先需要解決詞匯的語義表示和分析。p詞匯的語義表示:n義項(義位)n語義類 n義素組合義項(義位)p一個詞往往有幾個意義,每一個意義就是一個義項。例如:“明白”在現(xiàn)代漢語詞典中的義項:n內(nèi)容、意義等使人容易了解;清楚;明確n公開的、不含糊的n聰明;懂道理n知道;了解語義類p由于義項的數(shù)量巨大,研究它們以及它們之間的關(guān)系非常困難。p解決這個問題的一種辦法是:對義項進(jìn)行泛化(抽象、概括)從而形成一些語義類(類似于詞法分類詞性的做法)。例如:n把“走”、“跑”、“跳”、“爬”幾個義項泛
52、化為語義類:“移動”。n現(xiàn)代漢語詞林p泛化的問題:n語義類過多會失去泛化的效果。n語義類過少會丟失信息。義素(語義特征)p解決義項數(shù)量巨大的另一種方法是采用“義素”(語義特征)表示,義素是比義項更基本的語義單位。p一個義項可以表示成義素的集合(類似于句法中的復(fù)雜特征集)。例如:n“哥哥”的義素包括:“人、親屬、同胞、年長、男性”p在知網(wǎng)(http:/)中用“義原”表示。p義素為詞匯語義提供了更精確的描述。義素為詞匯語義提供了更精確的描述。詞義之間的關(guān)系p詞義之間的關(guān)系n上下位關(guān)系: “動物”與 “獅子”n整體-部分關(guān)系:“身體”與“上肢”n同義關(guān)系:“美麗”與“漂亮”n反義關(guān)系:“高”與“矮”
53、n包含關(guān)系:“兄弟”與“哥哥”和“弟弟”p表示詞義之間關(guān)系的另一種方式是語義場由幾個相互關(guān)聯(lián)的詞義構(gòu)成的語義系統(tǒng)。例如:n“師傅、徒弟”構(gòu)成一個語義場n“上、下、左、右”也構(gòu)成一個語義場n語義場的確定與本體論(Ontology)有關(guān)。p詞義之間的關(guān)系可以為詞義之間的搭配提供依據(jù),從而為詞義之間的關(guān)系可以為詞義之間的搭配提供依據(jù),從而為詞義消歧和句義分析提供幫助。詞義消歧和句義分析提供幫助。句義分析p句義分為:n上下文無關(guān)意義n上下文有關(guān)意義p“Do you know what gate you are going to?”的意義是什么?p句義分析的方式n先句法后語義n句法語義一體化n完全語義分
54、析(無句法分析)p句義的表示n邏輯形式n論旨角色或格角色句義表示與分析(1)邏輯形式與語義組合p邏輯形式(LF,Logical Form)用于表示上下文無關(guān)的句義。它是對一階謂詞演算(FOPC)的擴(kuò)充,增加了一些操作和廣義量詞。例如:n(DOG1 FIDO1)描述了句子:Fido is a dog.n(LOVES1 SUE1 JACK1)描述了句子:Sue loves jack.n(NOT (LOVES1 SUE1 JACK1)描述了句子:Sue does not love jack.n(MOST1 d1:(DOG1 d1)(BARKS1 d1)描述了句子:Most dogs bark.n(P
55、RES(SEES1 JOHN1 FIDO1)描述了John sees Fido.n(EVERY b1:(BOY1 b1)(A d1:(DOG1 d1)(LOVES b1 d1)描述了句子:Every boy loves a dog.的一個意思n(A d1:(DOG1 d1)(EVERY b1:(BOY1 b1) (LOVES b1 d1)描述了句子:Every boy loves a dog.的另一個意思n(LOVES1 )描述了句子:Every boy loves a dog.的兩個意思(歧義表示)p語義組合:句子的語義由其成分的語義組合而成。n演算為語義組合提供了形式化的計算基礎(chǔ)和表示。p
56、組合理論用于語義組合面臨的難題:n句法結(jié)構(gòu)與邏輯形式之間存在結(jié)構(gòu)上的不一致n對習(xí)慣用語的處理(句義不由成分語義組合)p帶語義解釋的語法(語法/語義一體化)n句法規(guī)則中加入語義特征,例如:pS(.,SEM (?semvp,?semnp)- NP(.,SEM ?semnp)VP(.,SEM ?semvp)n伴隨句法規(guī)則給出句法符號的語義描述和計算規(guī)則句義表示與分析(2)論旨角色與格語法p論旨角色(thematic role)或格角色(case role)n基于動詞給出句子中其它成分與它的淺層語義關(guān)系,例如:pThe boy opened the door with a key. the boy:
57、AGENT(施事格) the door: OBJECT(客體格) a key: INSTUMENT(工具格)格語法p格語法由美國語言學(xué)家Charles J. Fillmore提出的用于對句法結(jié)構(gòu)與語義之間關(guān)系進(jìn)行描述的理論。n“Towards a modern theory of case”、“The case for case”、“Some problems for case grammar”p基本語義規(guī)則nS-M+Pp一個句子(S)由情態(tài)(M)和命題(P)構(gòu)成。p情態(tài)包括:時體態(tài)、語氣以及否定等。nP-V+C1+C2+.+Cnp命題由動詞(V)及若干格短語(C1Cn)構(gòu)成。nCi-Ki+N
58、Pip格短語由格標(biāo)記(K,表層格)和名詞短語(NP)組成。n從表層格到深層格的轉(zhuǎn)換規(guī)則p深層格的種類:n施事格(Agentive):He laughed.n工具格(Instrumental):He cut the rope with a knife.n與格(Dative):He gives me a ball.n使成格(Factitive):John dreamed a dream about Mary.n方位格(Locative):He is in the house.n客體格(Objective): He bought a book.n受益格(Benefective): He sang a
59、 song for Mary.n源點(diǎn)格(Source): I bought a book from Mary.n終點(diǎn)格(Goal): I sold a car to Mary.n伴隨格(Comitative): He sang a song with Mary.n.(有多少格?)p動詞格框架n詞典中對每個動詞需給出:p它所允許的格,包括它們的性質(zhì)(必需、禁止、自由)p這些格的特征(附屬詞、中心詞語義信息等)基于格語法的語義分析p基于的信息n格體系n動詞格框架n名詞語義信息p分析過程n格短語及主動詞識別n利用主動詞格框架確定格短語的格。p分析結(jié)果:句子的格框架?;诟裾Z法的語義分析結(jié)果(例)pI
60、n the room, he broke a window with a hammer.BREAK case-frame agentive: HE objective: WINDOW instrumental: HAMMER locative: ROOM modals time: past voice: active機(jī)器翻譯機(jī)器翻譯歷史p1947,Warren Weavers memop1954,第一個公開展示的俄英MT原型系統(tǒng)p1966,美國科學(xué)院的ALPAC報告宣告機(jī)器翻譯走入低谷p1970s,Systran(1970),Meteo(1976),pEarly 1980s,復(fù)蘇,Eurotr
61、a、Mu、.pLate 1980searly 1990s,商品化系統(tǒng)投入市場,語音翻譯和統(tǒng)計機(jī)器翻譯(SMT)出現(xiàn)pLate 1990s,Internet加速了MT,MAT、EBMT技術(shù)出現(xiàn)pAfter 2000,SMT大行其道!p現(xiàn)在,NMT熱!I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All
62、I need do is strip off the code in order to retrieve the information contained in the text p直譯(Direct):從原文句子的表層(詞、詞組或短語)出發(fā),直接轉(zhuǎn)換成譯文(必要的詞序調(diào)整)。p轉(zhuǎn)換(Transfer):對源語言進(jìn)行分析,得到一個基于源語言的中間表示;然后,把這個中間表示轉(zhuǎn)換成基于目標(biāo)語言的中間表示;從基于目標(biāo)語言的中間表示生成目標(biāo)語言。p中間語(Interlingua):對源語言進(jìn)行分析,得到一個獨(dú)立于源語言和目標(biāo)語言的、基于概念的中間表示;從這個中間表示生成目標(biāo)語言。機(jī)器翻譯的基本策略中
63、間語言源語言目標(biāo)語言分析生成詞匯轉(zhuǎn)換句法轉(zhuǎn)換語義轉(zhuǎn)換(詞法、句法、語義)(詞法、句法、語義)機(jī)器翻譯金字塔機(jī)器翻譯的實(shí)現(xiàn)方法p基于語言規(guī)則的理性方法(Rationalist approach)n基于以規(guī)則形式表達(dá)的語言知識(詞、句法、語義以及轉(zhuǎn)換)進(jìn)行推理。(Rule-based MT)n又稱傳統(tǒng)的翻譯方法,強(qiáng)調(diào)人對語言知識的理性整理。p基于語料庫的經(jīng)驗方法(Empiricist approach)n以大規(guī)模語料庫(單語和雙語)為語言知識基礎(chǔ)。包括:p基于統(tǒng)計的方法(Statistical MT,SMT) 利用統(tǒng)計學(xué)習(xí)方法自動獲取和運(yùn)用隱含在語料庫中的知識 翻譯知識的獲取在翻譯之前完成,體現(xiàn)為
64、一系列統(tǒng)計數(shù)據(jù)(參數(shù))p基于實(shí)例的方法(Example-based MT,EBMT) 基于類比原理,通過相似度計算,在語料庫中找出最相似的句子 翻譯知識的獲取在翻譯之前沒有全部完成,翻譯過程中還需要語料庫p基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法(Neural MT,NMT) 自動學(xué)習(xí)特征Rule-based MTp基于詞的轉(zhuǎn)換翻譯p基于句法結(jié)構(gòu)轉(zhuǎn)換的翻譯p基于語義轉(zhuǎn)換的翻譯p基于中間語言(Interlingua)的翻譯p一個基于規(guī)則的轉(zhuǎn)換翻譯系統(tǒng)實(shí)例基于詞的轉(zhuǎn)換翻譯p翻譯過程n詞法分析(源語言)n譯詞選擇n詞序調(diào)整n形態(tài)(詞形變化)生成p翻譯所基于的知識n詞法規(guī)則(源語言)n對譯(雙語)詞典及規(guī)則n調(diào)序規(guī)
65、則n形態(tài)生成規(guī)則p問題n沒有句法結(jié)構(gòu)和語義分析的指導(dǎo),轉(zhuǎn)換很難很好地進(jìn)行,特別是對句法/語義結(jié)構(gòu)相差很大的語言。n譯詞選擇和詞序調(diào)整工作可用的信息太少(只利用了原句中的局部信息和已得到的譯詞信息) ?;诰浞ńY(jié)構(gòu)轉(zhuǎn)換的翻譯p句法分析(源語言)p遞歸地利用一組“樹-樹”的轉(zhuǎn)換規(guī)則,把源語言的句法樹轉(zhuǎn)換成目標(biāo)語言的句法樹p從目標(biāo)語言的句法樹生成目標(biāo)語言句子。句法樹轉(zhuǎn)換的例NPDetAN1delicioussoupAdjNNPNPtv(X)tv(Y)tv(X)tv(Y)NPDetUnaN1sopa deliciosaNAdjN1tv(A)tv(B)AdjNN1tv(B)tv(A)NAdjDetUna
66、SL TreeTree-to-tree transformationsTL Treedelicious deliciosa soup sopaDetAA delicious soupUna sopa deliciosa(English)(Spanish)基于語義轉(zhuǎn)換的翻譯p語義表示具有較高的語言獨(dú)立性,在語義級轉(zhuǎn)換避免了語言相關(guān)的句法結(jié)構(gòu)轉(zhuǎn)換。p轉(zhuǎn)換規(guī)則需要解決不同語言之間的語義表示的對應(yīng)問題:n邏輯表示中的謂詞轉(zhuǎn)換n論旨角色表示的格轉(zhuǎn)換基于中間語言(Interlingua)的翻譯p基于中間語的翻譯是指對源語言進(jìn)行分析,得到一個獨(dú)立于源語言和目標(biāo)語言的、基于概念的中間語言表示,然后從這個中間語言表示生成目標(biāo)語言。p對于n種語言之間的翻譯(多語翻譯)n轉(zhuǎn)換翻譯需要n(n-1)個模塊n中間語言翻譯需要2n個模塊語言1語言2語言4語言3中間語語言1語言2語言4語言3中間語言翻譯轉(zhuǎn)換翻譯p中間語言翻譯需解決的重要問題:n一個統(tǒng)一的概念集及概念之間的關(guān)系集(本體論ontology所涉及的內(nèi)容),使得它們對多種語言都適合。p中間語言翻譯所需要的ontology是否存在?p中間語言翻譯加大了語言分析
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點(diǎn)美食推薦
- XX國有企業(yè)黨委書記個人述責(zé)述廉報告及2025年重點(diǎn)工作計劃
- 世界濕地日濕地的含義及價值
- 20XX年春節(jié)節(jié)后復(fù)工安全生產(chǎn)培訓(xùn)人到場心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫之美生活之美
- 節(jié)后開工第一課輕松掌握各要點(diǎn)節(jié)后常見的八大危險
- 廈門城市旅游介紹廈門景點(diǎn)介紹廈門美食展示
- 節(jié)后開工第一課復(fù)工復(fù)產(chǎn)十注意節(jié)后復(fù)工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓(xùn)
- 深圳城市旅游介紹景點(diǎn)推薦美食探索
- 節(jié)后復(fù)工安全生產(chǎn)培訓(xùn)勿忘安全本心人人講安全個個會應(yīng)急
- 預(yù)防性維修管理
- 常見閥門類型及特點(diǎn)
- 設(shè)備預(yù)防性維修
- 2.乳化液泵工理論考試試題含答案