自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT

上傳人:文*** 文檔編號(hào):62332649 上傳時(shí)間:2022-03-14 格式:PPT 頁(yè)數(shù):118 大小:942.50KB
收藏 版權(quán)申訴 舉報(bào) 下載
自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT_第1頁(yè)
第1頁(yè) / 共118頁(yè)
自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT_第2頁(yè)
第2頁(yè) / 共118頁(yè)
自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT_第3頁(yè)
第3頁(yè) / 共118頁(yè)

本資源只提供3頁(yè)預(yù)覽,全部文檔請(qǐng)下載后查看!喜歡就下載吧,查找使用更方便

40 積分

下載資源

資源描述:

《自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT》由會(huì)員分享,可在線閱讀,更多相關(guān)《自然語(yǔ)言處理計(jì)算機(jī)教學(xué)課件PPT(118頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、自然語(yǔ)言處理Natural Language Processing(NLP)主要內(nèi)容(1)p自然語(yǔ)言處理概述n什么是自然語(yǔ)言處理n自然語(yǔ)言處理的典型應(yīng)用n自然語(yǔ)言處理的基本任務(wù)n自然語(yǔ)言處理的基本策略和實(shí)現(xiàn)方法n自然語(yǔ)言處理的難點(diǎn)n自然語(yǔ)言處理所涉及的學(xué)科 (http:/ (IBM Model等)n.(基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法)主要內(nèi)容(3)所需的前導(dǎo)知識(shí)p編譯技術(shù)p概率與統(tǒng)計(jì)p.參考書籍p宗成慶,統(tǒng)計(jì)自然語(yǔ)言處理統(tǒng)計(jì)自然語(yǔ)言處理,清華大學(xué)出版社,2008p劉群等譯,自然語(yǔ)言理解(第二版)自然語(yǔ)言理解(第二版),電子工業(yè)出版社,2005p苑春法等譯,統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ),

2、電子工業(yè)出版社,2005p馮志偉等譯,自然語(yǔ)言處理綜論自然語(yǔ)言處理綜論,電子工業(yè)出版社,2005p黃昌寧等,語(yǔ)料庫(kù)語(yǔ)言學(xué)語(yǔ)料庫(kù)語(yǔ)言學(xué),商務(wù)印書館,2002p馮志偉,計(jì)算語(yǔ)言學(xué)基礎(chǔ)計(jì)算語(yǔ)言學(xué)基礎(chǔ),商務(wù)印書館,2001p余士文,計(jì)算語(yǔ)言學(xué)概論計(jì)算語(yǔ)言學(xué)概論,商務(wù)印書館,2003p姚天順,自然語(yǔ)言理解一種讓機(jī)器懂得人類語(yǔ)言的研究(第自然語(yǔ)言理解一種讓機(jī)器懂得人類語(yǔ)言的研究(第2版)版),清華大學(xué)出版社,2002p趙鐵軍等,機(jī)器翻譯原理機(jī)器翻譯原理,哈爾濱工業(yè)大學(xué)出版社,2000p宗成慶等譯,統(tǒng)計(jì)機(jī)器翻譯統(tǒng)計(jì)機(jī)器翻譯,電子工業(yè)出版社,2012pPeter F. Brown, et al., A Sta

3、tistical Approach to MT, Computational Linguistics, 1990,16(2)課程考核pProjectsn提交報(bào)告(說(shuō)明基本做法)和源程序及可運(yùn)行的程序p期末筆試 自然語(yǔ)言處理概述什么是自然語(yǔ)言處理p充分利用信息將會(huì)給人們帶來(lái)巨大的收益,而大量的信息以自然語(yǔ)言自然語(yǔ)言(英語(yǔ)、漢語(yǔ)等)形式存在。p如何有效地有效地獲取和利用以自然語(yǔ)言形式自然語(yǔ)言形式出現(xiàn)的信息?n自然語(yǔ)言處理自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是指用計(jì)算機(jī)對(duì)自然語(yǔ)言信息進(jìn)行處理的方法和技術(shù)。p與NLP相近的兩個(gè)研究領(lǐng)域:n自然語(yǔ)言理解自然語(yǔ)

4、言理解(Natural Language Understanding, NLU):強(qiáng)調(diào)對(duì)語(yǔ)言含義和意圖的深層次解釋。n計(jì)算語(yǔ)言學(xué)計(jì)算語(yǔ)言學(xué)(Computational Linguistics, CL):強(qiáng)調(diào)可計(jì)算的語(yǔ)言理論。NLP技術(shù)的典型應(yīng)用p機(jī)器翻譯p自動(dòng)摘要p文本分類與信息過(guò)濾p信息檢索p自動(dòng)問(wèn)答p情感分析p信息抽取p.機(jī)器翻譯(Machine Translation)p機(jī)器翻譯(Machine Translation,簡(jiǎn)稱MT)是指利用計(jì)算機(jī)實(shí)現(xiàn)自然語(yǔ)言之間的自動(dòng)自動(dòng)翻譯。n是最早的計(jì)算機(jī)應(yīng)用之一n分為:文本機(jī)器翻譯和語(yǔ)音機(jī)器翻譯p機(jī)器輔助輔助翻譯(Machine Aided Tran

5、slation或Computer Aided Translation,簡(jiǎn)稱MAT或CAT)n翻譯記憶體(Translation Memory,簡(jiǎn)稱TM)n雙語(yǔ)對(duì)照的譯后編輯n.自動(dòng)摘要(Text Summarization)p利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面、準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)潔、連貫的短文。n應(yīng)對(duì)信息過(guò)載n分為單文檔摘要和多文檔摘要文本分類(Text Classification)p將一篇文檔歸于預(yù)先給定的一個(gè)類別集合中的某一類或某幾類。n圖書館的圖書分類n網(wǎng)頁(yè)分類n信息過(guò)濾n.信息檢索(Information Retrieval,IR)p基于關(guān)鍵詞,從某文檔集合中檢索出相關(guān)的

6、文檔。n谷歌搜索、百度搜索、. n主題相關(guān)的文本獲取。自動(dòng)問(wèn)答(Question Answering,QA)p針對(duì)用戶提出的問(wèn)題,給出具體的答案。nApple的Siri、IBM的Watson機(jī)器人、百度的“知道”、各種問(wèn)答機(jī)器人、 n提高信息獲取的效率情感分析(Sentiment Analysis或 Opinion Analysis )p分析文章(評(píng)論)對(duì)某個(gè)對(duì)象(社會(huì)熱點(diǎn)事件、產(chǎn)品或者服務(wù))的態(tài)度(正面還是負(fù)面)。n政府輿情分析:熱點(diǎn)事件發(fā)現(xiàn)、預(yù)警n企業(yè)市場(chǎng)決策:產(chǎn)品意見調(diào)查、產(chǎn)品推薦n消費(fèi)者購(gòu)買決策n.信息抽?。↖nformation Extraction,IE)p從非結(jié)構(gòu)化或半結(jié)構(gòu)化的自

7、然語(yǔ)言文本中提取出與某主題相關(guān)的結(jié)構(gòu)化信息。n主題相關(guān)的信息獲?。ò▽?shí)體、實(shí)體關(guān)系、事件等抽?。?。(信息檢索是主題相關(guān)的文檔獲?。﹏對(duì)機(jī)器翻譯、自動(dòng)問(wèn)答、情感分析等提供支持。新華社北京月日電(記者李術(shù)峰): 中國(guó)農(nóng)工民主黨第十二屆中央常務(wù)委員會(huì)第一次會(huì)議今天在北京召開。會(huì)議研究通過(guò)了貫徹落實(shí)“兩會(huì)”精神的有關(guān)決定,審議通過(guò)了中國(guó)農(nóng)工民主黨中央年工作要點(diǎn)(草案),并任命了中央副秘書長(zhǎng)。農(nóng)工民主黨中央主席蔣正華主持了會(huì)議,他說(shuō),農(nóng)工民主黨有多名黨員作為代表和委員參加了今年的“兩會(huì)”,各位黨員要認(rèn)真履行代表和委員的職責(zé),開好會(huì),在年的工作中認(rèn)真貫徹“兩會(huì)”精神,加強(qiáng)農(nóng)工民主黨的自身建設(shè),推動(dòng)事業(yè)進(jìn)

8、一步發(fā)展,為建設(shè)有中國(guó)特色社會(huì)主義事業(yè)作出新的貢獻(xiàn)。會(huì)前,農(nóng)工民主黨中央邀請(qǐng)參加“兩會(huì)”的來(lái)自全國(guó)各省、自治區(qū)、直轄市的農(nóng)工民主黨黨員進(jìn)行了聯(lián)誼活動(dòng)。信息抽取實(shí)例信息抽取實(shí)例:會(huì)議報(bào)道(人民日?qǐng)?bào)1998-03-09)信息抽取的結(jié)果會(huì) 議 時(shí) 間 Time 年3月8日會(huì) 議 地 點(diǎn) Spot 北京會(huì)議召集者/主持人Convener個(gè)人姓名/團(tuán)體名稱 Name蔣正華機(jī) 構(gòu) 、 職 位 Org/Post主席,農(nóng)工民主黨中央會(huì)議名/標(biāo)題Conf-Title 中國(guó)農(nóng)工民主黨第十二屆中央常務(wù)委員會(huì)第一次會(huì)議 .只要處理對(duì)象涉及自然語(yǔ)言的都需要NLP!自然語(yǔ)言處理的基本任務(wù)p語(yǔ)言分析:分析語(yǔ)言表達(dá)的結(jié)構(gòu)和含

9、義n詞法分析:形態(tài)還原、詞性標(biāo)注、命名實(shí)體(人名、地名、機(jī)構(gòu)名)識(shí)別、分詞(漢語(yǔ)、日語(yǔ)等)等n句法分析:確定句子的組成形式(組塊分析、結(jié)構(gòu)分析、依存分析)n語(yǔ)義分析:語(yǔ)言表達(dá)的含義或意義,包括詞義、句義(邏輯、格關(guān)系、.)、篇章(上下文)(指代、實(shí)體關(guān)系、.)p語(yǔ)言生成:從某種內(nèi)部表示生成語(yǔ)言表達(dá)n詞、句子、篇章的生成p多語(yǔ)言處理(機(jī)器翻譯、跨語(yǔ)言檢索):語(yǔ)言之間的對(duì)應(yīng)、轉(zhuǎn)換p不同的應(yīng)用對(duì)上述任務(wù)有不同的要求。自然語(yǔ)言處理的實(shí)現(xiàn)方法p基于知識(shí)工程的理性方法(Rationalist approach)n以規(guī)則形式表達(dá)語(yǔ)言知識(shí)。n基于規(guī)則進(jìn)行符號(hào)推理,從而實(shí)現(xiàn)語(yǔ)言信息處理。n強(qiáng)調(diào)人對(duì)語(yǔ)言知識(shí)的理性

10、整理(受Chomsky主張的人具有先天語(yǔ)言能力觀點(diǎn)的影響,主宰19601985)。p基于語(yǔ)料庫(kù)的經(jīng)驗(yàn)方法(Empiricist approach)n以大規(guī)模語(yǔ)料庫(kù)為語(yǔ)言知識(shí)基礎(chǔ)。n利用統(tǒng)計(jì)學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法自動(dòng)獲取隱含在語(yǔ)料庫(kù)中的知識(shí),學(xué)習(xí)到的知識(shí)體現(xiàn)為一系列模型參數(shù)。 (訓(xùn)練)n基于學(xué)習(xí)到的參數(shù)和相應(yīng)的模型進(jìn)行語(yǔ)言信息處理。p混合方法n理性方法的優(yōu)、缺點(diǎn)p相應(yīng)的語(yǔ)言學(xué)理論基礎(chǔ)好p語(yǔ)言知識(shí)描述精確p處理效率高p知識(shí)獲取困難(高級(jí)勞動(dòng))p系統(tǒng)魯棒性差:不完備的規(guī)則系統(tǒng)將導(dǎo)致推理的失敗p知識(shí)擴(kuò)充困難,很難保證規(guī)則之間的一致性n經(jīng)驗(yàn)方法的優(yōu)、缺點(diǎn)p知識(shí)獲取容易(低級(jí)勞動(dòng))p系統(tǒng)魯棒性好

11、:概率大的作為結(jié)果p知識(shí)擴(kuò)充容易、一致性容易維護(hù)p相應(yīng)的語(yǔ)言學(xué)理論基礎(chǔ)差(可解釋性差)p缺乏對(duì)語(yǔ)言學(xué)知識(shí)的深入描述和利用,過(guò)于機(jī)械p處理效率低n利用各家之長(zhǎng),相互融合?自然語(yǔ)言的分類(基于形態(tài)結(jié)構(gòu))p分析型語(yǔ)言n沒有或很少有詞形變化n沒有表示詞的語(yǔ)法功能的附加成分,由詞序和虛詞表示詞之間的語(yǔ)法關(guān)系n如:漢語(yǔ)p黏著型語(yǔ)言n有詞形變化n詞的語(yǔ)法意義(功能)由附加成分表達(dá)n如:日語(yǔ)p屈折型語(yǔ)言n有詞形變化n詞的語(yǔ)法意義由詞的形態(tài)變化來(lái)表示n如:英語(yǔ)p另外,語(yǔ)言還可以按下面分類:nSVO型(主-動(dòng)-賓)nVSO型(動(dòng)-主-賓)nSOV型(主-賓-動(dòng))自然語(yǔ)言處理的難點(diǎn)p歧義處理n自然語(yǔ)言充滿了大量的歧

12、義(為什么?)n有限的詞匯和規(guī)則表達(dá)復(fù)雜、多樣的對(duì)象p語(yǔ)言知識(shí)的表示、獲取和運(yùn)用p成語(yǔ)和慣用型的處理p對(duì)語(yǔ)言的靈活性和動(dòng)態(tài)性的處理n靈活性:同一個(gè)意圖的不同表達(dá),甚至包含錯(cuò)誤的語(yǔ)法等n動(dòng)態(tài)性:語(yǔ)言在不斷的變化,如:新詞等p上下文和常識(shí)知識(shí)(與語(yǔ)言無(wú)關(guān))的利用和處理漢語(yǔ)處理的難點(diǎn)p缺乏計(jì)算語(yǔ)言學(xué)的句法/語(yǔ)義理論,大都借用基于西方語(yǔ)言的句法/語(yǔ)義理論p資源(語(yǔ)料庫(kù))缺乏p詞法分析n分詞n詞性標(biāo)注難p句法分析n主動(dòng)詞識(shí)別難(特別對(duì)于流水句)n詞法分類與句法功能對(duì)應(yīng)差(例如:他喜歡走)p語(yǔ)義分析n句法結(jié)構(gòu)與句義對(duì)應(yīng)差(例如:老頭曬太陽(yáng))n時(shí)體態(tài)確定難 (漢語(yǔ)無(wú)形態(tài)變化)自然語(yǔ)言處理所涉及的學(xué)科p語(yǔ)言學(xué)

13、:各種語(yǔ)法、語(yǔ)義理論p計(jì)算機(jī)科學(xué)(包括人工智能、機(jī)器學(xué)習(xí))p數(shù)學(xué):邏輯、概率與統(tǒng)計(jì)、信息論等p哲學(xué)(認(rèn)知學(xué))p心理學(xué)p. 基于規(guī)則的自然語(yǔ)言處理方法 (理性方法,傳統(tǒng)方法)概述p強(qiáng)調(diào)對(duì)語(yǔ)言知識(shí)的理性整理(知識(shí)工程)p受計(jì)算語(yǔ)言學(xué)理論指導(dǎo)p基于規(guī)則的知識(shí)表示和推導(dǎo)(符號(hào)計(jì)算)p語(yǔ)言處理規(guī)則(數(shù)據(jù))與程序分離,程序體現(xiàn)為規(guī)則語(yǔ)言的解釋器!詞法分析p形態(tài)還原(針對(duì)英語(yǔ)、德語(yǔ)、法語(yǔ)等)n把句子中的詞還原成它們的基本詞形。p詞性標(biāo)注n為句子中的詞標(biāo)上預(yù)定義類別集合中的類。p命名實(shí)體識(shí)別n識(shí)別出句子中的人名、地名、機(jī)構(gòu)名等。p分詞(針對(duì)漢語(yǔ)、日語(yǔ)等)n識(shí)別出句子中的詞。形態(tài)還原(英語(yǔ))p把句子中的詞還原成

14、原形,作為詞的其它信息(詞典、個(gè)性規(guī)則)的索引。p構(gòu)詞特點(diǎn)n屈折變化:詞尾和詞形變化,詞性不變。如:pstudy, studied,studied,studyingpspeak,spoke,spoken,speakingn派生變化:加前綴和后綴,詞性發(fā)生變化。如:pfriend,friendly,friendship,.n復(fù)合變化:多個(gè)單詞以某種方式組合成一個(gè)詞。p還原規(guī)則n通用規(guī)則:變化有規(guī)律n個(gè)性規(guī)則:變化無(wú)規(guī)律形態(tài)還原規(guī)則舉例p英語(yǔ)“規(guī)則動(dòng)詞”還原n*s - * (SINGULAR3)n*es - * (SINGULAR3)n*ies - *y (SINGULAR3)n*ing - *

15、(VING)n*ing - *e (VING)n*ying - *ie (VING)n*?ing - *? (VING)n*ed - * (PAST)(VEN)n*ed - *e (PAST)(VEN)n*ied - *y (PAST)(VEN)n*?ed - *? (PAST)(VEN)p英語(yǔ)不規(guī)則動(dòng)詞還原nwent - go (PAST)ngone - go (VEN)nsat - sit (PAST) (VEN)形態(tài)還原算法1.輸入一個(gè)單詞2.如果詞典里有該詞,輸出該詞及其屬性,轉(zhuǎn)4,否則,轉(zhuǎn)33.如果有該詞的還原規(guī)則,并且,詞典里有還原后的詞,則輸出還原后的詞及其屬性,轉(zhuǎn)4,否則,調(diào)用

16、4.如果輸入中還有單詞,轉(zhuǎn)(1),否則,結(jié)束。Proj. 1 實(shí)現(xiàn)一個(gè)英語(yǔ)單詞還原工具。(詞典:http:/ class)nNounsp句法上:可作物主、可有限定詞、有復(fù)數(shù)形式p語(yǔ)義上:人名、地名和物名nVerbsp句法上:作謂語(yǔ)、有幾種詞形變化p語(yǔ)義上:動(dòng)作、過(guò)程(一系列動(dòng)作)nAdjectivesp句法上:修飾Nouns等p語(yǔ)義上:性質(zhì)nAdverbsp句法上:修飾Verbs等p語(yǔ)義上:方向、程度、方式、時(shí)間p封閉類(closed class,function words)nDeterminersnPronounsnPrepositionsnConjunctionsnAuxiliary v

17、erbsnParticles(if、not、.)nNumeralsp為什么要分類?分類帶來(lái)的問(wèn)題?p兼類詞n一個(gè)詞具有兩個(gè)或者兩個(gè)以上的詞性n英文的Brown語(yǔ)料庫(kù)中,10.4%的詞是兼類詞。例如:pThe back doorpOn my backpPromise to back the billn漢語(yǔ)兼類詞,例如:p把門鎖上, 買了一把鎖p他研究., 研究工作n漢語(yǔ)詞的兼類更多?與所采用的分類體系是否有關(guān)?詞性標(biāo)注方法p詞典和規(guī)則提供候選詞性p消歧規(guī)則進(jìn)行消歧漢語(yǔ)分詞(切分)p詞是語(yǔ)言中最小的能獨(dú)立運(yùn)用的單位,也是語(yǔ)言信息處理的基本單位。p分詞是指根據(jù)某個(gè)分詞規(guī)范,把一個(gè)“字”串劃分成“詞”

18、串。n問(wèn)題:難以確定何謂漢語(yǔ)的“詞”p單字詞與語(yǔ)素的界定:豬肉、牛肉p詞與短語(yǔ)(詞組)的界定:黑布、黑板、黑戶、黑人n信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范:GB-13715(1992)n具體應(yīng)用系統(tǒng)可根據(jù)各自的需求制定規(guī)范p分詞帶來(lái)的問(wèn)題n丟失信息、錯(cuò)誤的分詞、不同的分詞規(guī)范切分歧義及歧義字段的種類p交集型歧義字段nABC切分成AB/C或A/BCn如:“和平等”p“獨(dú)立/自主/和/平等/獨(dú)立/的/原則”p“討論/戰(zhàn)爭(zhēng)/與/和平/等/問(wèn)題”p組合型歧義字段nAB切分成AB或A/Bn如:“馬上”p“他/騎/在/馬/上”p“馬上/過(guò)來(lái)”p混合型歧義n由交集型歧義和組合型歧義嵌套與交叉而成n如:“得到達(dá)”(交集

19、型、組合型)p“我/今晚/得/到達(dá)/南京” p“我/得到/達(dá)克寧/了 ” p“我/得/到/達(dá)克寧/公司/去”南京市長(zhǎng)江大橋.南京市長(zhǎng)江二橋.p偽歧義與真歧義n偽歧義字段指在任何情況下只有一種切分p“挨批評(píng)”只有一種切分p根據(jù)歧義字段本身就能消歧n真歧義字段指在不同的情況下有多種切分p“從小學(xué)”可以有多種切分: “從小/學(xué)” ,如:“從小/學(xué)/電腦” (“從小”是切分成“從小”還是“從/小”要根據(jù)分詞規(guī)范?。?“從/小學(xué)”,如:“他/從/小學(xué)/畢業(yè)/后”p根據(jù)歧義字段的上下文來(lái)消歧分詞方法一般通過(guò)分詞詞典和分詞規(guī)則庫(kù)進(jìn)行分詞。主要方法有:p正向最大匹配(FMM)或逆向最大匹配(RMM)n從左至右

20、(FMM)或從右至左(RMM),取最長(zhǎng)的詞n“幼兒園 地 節(jié)目”或“幼兒 園地 節(jié)目”p雙向最大匹配n分別采用FMM和RMM進(jìn)行分詞n如果結(jié)果一致,則認(rèn)為成功;否則,n采用消歧規(guī)則進(jìn)行消歧(交集型歧義):p正向最大、逆向最小匹配n發(fā)現(xiàn)組合型歧義p逐詞遍歷匹配n在全句中取最長(zhǎng)的詞,去掉之,對(duì)剩下字符串重復(fù)該過(guò)程 p設(shè)立切分標(biāo)記n收集詞首字和詞尾字,把句子分成較小單位,再用某些方法切分 p全切分n獲得所有可能的切分,選擇最大可能的切分基于規(guī)則的歧義字段消歧方法p利用歧義字串、前驅(qū)字串和后繼字串的句法、語(yǔ)義和語(yǔ)用信息:n句法信息p“陣風(fēng)”:根據(jù)前面是否有數(shù)詞來(lái)消歧?!耙?陣/風(fēng)/吹/過(guò)/來(lái)”、“今天

21、/有/陣風(fēng)”n語(yǔ)義信息p“了解”:“他/學(xué)會(huì)/了/解/數(shù)學(xué)/難題”(“難題”一般是“解”而不是“了解”,另外,還有“學(xué)會(huì)”)n語(yǔ)用信息p“拍賣”:“乒乓球拍賣完了”,要根據(jù)場(chǎng)景(上下文)來(lái)確定p規(guī)則的粒度n基于具體的詞(個(gè)性規(guī)則)n基于詞類、詞義類(共性規(guī)則)Proj. 2 實(shí)現(xiàn)一個(gè)基于詞典與規(guī)則的漢語(yǔ)自動(dòng)分詞系統(tǒng)。(詞典:http:/ ate the cat的組成分分析SNPVPNAMEJohnVNPateARTNthecatJohn ate the cat的依存分析John ate the catsubobjmod句法分析-組成分分析p句法分析的目的n判斷句子的合法性(句子識(shí)別)n確定句子

22、的結(jié)構(gòu)(句子中單詞相互關(guān)聯(lián)的方式)p基于上下文無(wú)關(guān)語(yǔ)法(CFG)的表示nCFG能描述大部分的自然語(yǔ)言結(jié)構(gòu)n可以構(gòu)造高效的基于CFG的句法分析器p通常采用樹形結(jié)構(gòu)來(lái)表示句法分析的結(jié)果優(yōu)秀語(yǔ)法的特征p通用性n能正確分析的句子的范圍p選擇性n能判斷出錯(cuò)誤句子的范圍p可理解性n自身的簡(jiǎn)易程度p*魯棒性n對(duì)不合法句子的容忍度(通用性):He love her.n通用性與選擇性矛盾的處置,如:忽略主謂一致性檢查將導(dǎo)致無(wú)法區(qū)分下面句子的不同含義(歧義)pFlying planes are(be) dangerous.pFlying planes is(be) dangerous.一個(gè)簡(jiǎn)單的基于CFG的英語(yǔ)語(yǔ)

23、法1. S - NP VP2. VP - V NP3. NP - NAME4. NP - ART N5. NAME - John6. V - ate7. ART - the8. N - cat9. .p產(chǎn)生式59屬于詞法規(guī)則,一般由詞典、詞形還原以及詞性標(biāo)注算法來(lái)描述 。p產(chǎn)生式14屬于句法規(guī)則?;贑FG的分析器p自頂向下n利用產(chǎn)生式,從S開始,嘗試將S改寫/推導(dǎo)成與輸入句子相匹配的終結(jié)符號(hào)序列。p自底向上n利用產(chǎn)生式,嘗試將輸入句子與產(chǎn)生式右部進(jìn)行匹配,最后規(guī)約到S。p回溯n在改寫或規(guī)約的某一步可能有多個(gè)產(chǎn)生式供選擇。n從一個(gè)錯(cuò)誤的嘗試(改寫或規(guī)約)返回,進(jìn)行下一個(gè)嘗試。p保留改寫或規(guī)約的

24、歷史n回溯需要n輸出正確的分析結(jié)果也需要一個(gè)簡(jiǎn)單的自頂向下句法分析算法p語(yǔ)法n1. S - NP VP 2. NP - ART N 3. NP - ART ADJ Nn4. VP - V 5. VP - V NPp位置計(jì)數(shù)器n1 The 2 dogs 3 cried 4p狀態(tài)n由符號(hào)表和當(dāng)前位置構(gòu)成,如:(NP VP) 1) 表示從位置1開始尋找NP,且NP后面是VP。初始狀態(tài)為: (S) 1)n分為當(dāng)前狀態(tài)和后備狀態(tài)。p狀態(tài)轉(zhuǎn)換n當(dāng)前狀態(tài)的符號(hào)表的第一個(gè)符號(hào)是詞法符號(hào)(詞性),并且句子中當(dāng)前詞屬于該詞性,則刪除符號(hào)表中第一個(gè)符號(hào),并更新當(dāng)前位置(加1),得到新的當(dāng)前狀態(tài)。n當(dāng)前狀態(tài)的符號(hào)表的

25、第一個(gè)符號(hào)是句法符號(hào),則依據(jù)語(yǔ)法獲得所有以該符號(hào)為左部的產(chǎn)生式,用它們的右部替換符號(hào)表中的該符號(hào),從而得到一批新的狀態(tài),選擇其中一個(gè)作為新的當(dāng)前狀態(tài),其它作為后備狀態(tài)。p回溯n從后備狀態(tài)中取一個(gè)作為當(dāng)前狀態(tài),繼續(xù)分析p算法1. 取 (S) 1)作為當(dāng)前狀態(tài)當(dāng)前狀態(tài)(初始狀態(tài)),后備狀態(tài)后備狀態(tài)為空。2. 若當(dāng)前狀態(tài)為空,則失敗,算法結(jié)束,3. 否則,若當(dāng)前狀態(tài)的符號(hào)表為空,(1)位置計(jì)數(shù)器值處于句子末尾,則成功,算法結(jié)束(2)位置計(jì)數(shù)器值處于句子中間,轉(zhuǎn)54. 否則,進(jìn)行狀態(tài)轉(zhuǎn)換狀態(tài)轉(zhuǎn)換,若轉(zhuǎn)換成功,則轉(zhuǎn)25. 否則,回溯回溯,轉(zhuǎn)2。步驟步驟當(dāng)前狀態(tài)當(dāng)前狀態(tài)后備狀態(tài)后備狀態(tài)備注備注1(S) 1

26、)初始狀態(tài)2(NP VP) 1)規(guī)則1改寫3(ART N VP) 1)(ART ADJ N VP) 1)規(guī)則2、3改寫4(N VP) 2)(ART ADJ N VP) 1)ART匹配the5(VP) 3)(ART ADJ N VP) 1)N匹配cat6(V) 3)(V NP) 3)(ART ADJ N VP) 1)規(guī)則4、5改寫7() 4)(V NP) 3)(ART ADJ N VP) 1)V匹配caught“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-

27、V NP步驟步驟當(dāng)前狀態(tài)當(dāng)前狀態(tài)后備狀態(tài)后備狀態(tài)備注備注8(V NP) 3)(ART ADJ N VP) 1)回溯9(NP) 4)(ART ADJ N VP) 1)V匹配caught10(ART N) 4)(ART ADJ N) 4)(ART ADJ N VP) 1)規(guī)則2、3改寫11(N) 5)(ART ADJ N) 4)(ART ADJ N VP) 1)ART匹配a12() 6)(ART ADJ N) 4)(ART ADJ N VP) 1)N匹配mouse13結(jié)束“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(續(xù))1. S-NP VP 2. NP-ART

28、 N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP搜索策略p深度優(yōu)先n后備狀態(tài)采用“棧”結(jié)構(gòu)n后備狀態(tài)少,存儲(chǔ)效率高n面臨“左遞歸”問(wèn)題p廣度優(yōu)先n后備狀態(tài)采用“隊(duì)列”結(jié)構(gòu)n后備狀態(tài)多,存儲(chǔ)效率不高自底向上句法分析p簡(jiǎn)單的自底向上句法分析效率不高,常常會(huì)重復(fù)嘗試相同的匹配操作(回溯之前已匹配過(guò))。p一種基于圖的句法分析技術(shù)(Chart Parsing)被提出,它把已經(jīng)匹配過(guò)的結(jié)果保存起來(lái),今后需要時(shí)可直接使用它們,不必重新匹配。(動(dòng)態(tài)規(guī)劃)Chart Parsing的數(shù)據(jù)表示p圖(chart)的結(jié)點(diǎn)表示句子中詞之間的位置數(shù)字p非活動(dòng)邊集(chart的核心,常直接就被稱為

29、chart)n記錄分析中規(guī)約成功所得到的所有詞法/句法符號(hào)p活動(dòng)邊集n未完全匹配的產(chǎn)生式,用加小圓圈標(biāo)記()的產(chǎn)生式來(lái)表示,如:pNP - ART ADJ NpNP - ART Np待處理表(agenda)n記錄等待加入chart的已匹配成功的詞法/句法符號(hào)p上面的活動(dòng)邊、非活動(dòng)邊以及詞法/句法符號(hào)都帶有“始/終結(jié)點(diǎn)”位置信息“1 The 2 cat 3 caught 4 a 5 mouse 6”分析中的數(shù)據(jù)示例1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4.

30、VP-V 5. VP-V NPN(2,3)agenda56amouse重復(fù)下面的操作,直到agenda為空并且輸入中沒有下一個(gè)詞p若agenda為空,則把句子中下一個(gè)詞的各種詞法符號(hào)(詞性)和它們的位置加入進(jìn)來(lái),p從agenda中取一個(gè)元素(設(shè)為C,位置為:p1-p2)p對(duì)下面形式的每個(gè)規(guī)則增加活動(dòng)邊:nX-CX1.Xn,增加一條活動(dòng)邊活動(dòng)邊:X-C X1.Xn,位置為:p1-p2;nX-C,把X加入agenda,位置為:p1-p2p將C作為非活動(dòng)邊非活動(dòng)邊加入到chart的位置p1-p2p對(duì)已有活動(dòng)邊已有活動(dòng)邊進(jìn)行邊擴(kuò)展邊擴(kuò)展n對(duì)每個(gè)形式為:X-X1. C.Xn的活動(dòng)邊,若它在p0-p1之間

31、,則增加一條活動(dòng)邊活動(dòng)邊:X-X1. C .Xn,位置:p0-p2n對(duì)每個(gè)形式為: X-X1. Xn C的活動(dòng)邊,若它在p0-p1之間,則把X加入agenda ,位置為:p0-p2Chart Parsing句法分析算法“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPART(1,2)agenda56amouse“1 The 2 cat 3 c

32、aught 4 a 5 mouse 6”的分析過(guò)程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPN(2,3)agenda56amouseNNP(1,3)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程 (算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N

33、4. VP-V 5. VP-V NPagenda56amouseNNP(1,3)S - NP VPNP“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNV(3,4)S - NP VPNPVP - V NPVP(3,4)V“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)123

34、4ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVP(3,4)VVPS(1,4)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5.

35、VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPS(1,4)S“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPART(4,5)SNP - ART NNP - ART ADJ NART“1 The 2 cat 3 caught

36、4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPN(5,6)SNP - ART NNP - ART ADJ NARTNNP(4,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)

37、邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNNP(4,6)S - NP VPNPVP(3,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. V

38、P-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNS - NP VPNPVP(3,6)VPS(1,6)“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活動(dòng)邊非活動(dòng)邊1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART N

39、NP - ART ADJ NARTNS - NP VPNPVPS(1,6)SProj. 3 實(shí)現(xiàn)一個(gè)基于簡(jiǎn)單英語(yǔ)語(yǔ)法的chart句法分析器。nagenda采用棧or隊(duì)列?n可能會(huì)有無(wú)用(不可能用到)的活動(dòng)邊,影響效率。句法分析與邏輯程序設(shè)計(jì)p邏輯程序設(shè)計(jì)是把程序組織成一組事實(shí)(謂詞)和一組推理規(guī)則,計(jì)算(推理)過(guò)程由實(shí)現(xiàn)系統(tǒng)自動(dòng)給出,它基于謂詞演算(Predicate Calculus)進(jìn)行計(jì)算。pPROLOG是一個(gè)邏輯程序設(shè)計(jì)語(yǔ)言,在程序中,用子句(clause)描述事實(shí)和推理規(guī)則,推理過(guò)程由PROLOG的執(zhí)行機(jī)制自動(dòng)完成。p對(duì)句法分析而言,n事實(shí):句子中每個(gè)詞的詞性以及詞在句子中的位置等n

40、推理規(guī)則:文法(產(chǎn)生式)一個(gè)基于CFG的PROLOG句法分析器p詞典、詞形還原以及詞性標(biāo)注結(jié)果可表示成事實(shí):nisart(the)nisname(john)nisverb(ate)nisnoun(cat)n.p輸入句子“John ate the cat”可表示成事實(shí):nword(john,1,2)nword(ate,2,3)nword(the,3,4)nword(cat,4,5)p語(yǔ)法規(guī)則可表示成推理規(guī)則:ns(P1,P3):-np(P1,P2),vp(P2,P3)nnp(P1,P3):-art(P1,P2),n(P2,P3)nnp(P1,P3):-name(P1,P3)npp(P1,P3):

41、-p(P1,P2),np(P2,P3)nvp(P1,P2):-v(P1,P2)nvp(P1,P3):-v(P1,P2),np(P2,P3)nvp(P1,P3):-v(P1,P2),pp(P2,P3)nn(P1,P2):-word(W,P1,P2),isnoun(W)nart(P1,P2):-word(W,P1,P2),isart(W)nv(P1,P2):-word(W,P1,P2),isverb(W)nname(P1,P2):-word(W,P1,P2),isname(W)p通過(guò)查詢謂詞s(1,5)的真假來(lái)識(shí)別句子“John ate the cat”:n?- s(1,5)p標(biāo)準(zhǔn)PROLOG的處

42、理策略與深度優(yōu)先的自頂向下分析方法一致。傳統(tǒng)CFG在描述自然語(yǔ)言時(shí)存在的問(wèn)題1. S - NP VP 4. VP - V2. NP - ART N 5. VP - V NP3. NP - ART ADJ Np上面的CFG描述了英語(yǔ)的一個(gè)子集,同時(shí),它又會(huì)生成一些不合法的英語(yǔ)句子,如:nThe student solve the problem.(主謂不一致)nThe teacher disappeared the problem.(不及物動(dòng)詞)一種可能的解決方案增加句法符號(hào)和規(guī)則p把NP分為NP-S和NP-P;把VP分成VP-S和VP-P:nS-NP-S VP-SnS-NP-P VP-Pp把N

43、分成N-S和N-P:nNP-S-ART N-SnNP-S-ART ADJ N-SnNP-P-ART N-PnNP-P-ART ADJ N-Pp把V分成V-S-I、V-S-T、V-P-I和V-P-T:nVP-S-V-S-InVP-S-V-S-T NP-S nVP-S-V-S-T NP-PnVP-P-V-P-InVP-P-V-P-T NP-SnVP-P-V-P-T NP-P增加句法符號(hào)和規(guī)則帶來(lái)的問(wèn)題p增加了規(guī)則的數(shù)量和潛在的冗余p類似的規(guī)則缺乏關(guān)聯(lián)性p對(duì)語(yǔ)言結(jié)構(gòu)描述缺乏深度(表層)基于特征的擴(kuò)展CFGp不增加原CFG中的句法符號(hào)p給每個(gè)句法符號(hào)增加特征特征(屬性),例如:nNP(PER 3,NU

44、M s) /第三人稱單數(shù)nVP(PER 3,NUM p) /第三人稱復(fù)數(shù)p特征由特征名和特征值構(gòu)成。一系列特征構(gòu)成了一個(gè)特征特征結(jié)構(gòu)結(jié)構(gòu)(復(fù)雜特征集)。p特征值可以是普通值(原子),也可以是另一個(gè)特征結(jié)構(gòu),例如:nNP(AGR(PER 3, NUM s),可簡(jiǎn)寫為:nNP(AGR 3s)p一個(gè)特征的特征值可以有多個(gè),表示成:nN(ROOT fish, AGR 3s,3p)p特征值也可以是變量,表示取值可以任意,例如:nNP(AGR ?a) 表示NP的AGR特征值可取任意值p可以對(duì)變量形式的特征值限定范圍(受限變量),例如:nNP(AGR ?a3s,3p)p同名的變量表示它們的值要相同,例如:n

45、S-NP(AGR ?a) VP(AGR ?a) 表示NP與VP的AGR特征值要一致(取同樣的值,主謂一致)p一個(gè)規(guī)則如果包含特征值為變量的成分,則該規(guī)則代表了一組規(guī)則(規(guī)則模板)。例如,上述規(guī)則代表:nS-NP(AGR 3s) VP(AGR 3s)nS-NP(AGR 3p) VP(AGR 3p)n.一個(gè)基于特征結(jié)構(gòu)的CFG語(yǔ)法pS-NP(AGR ?a) VP(AGR ?a)pNP(AGR ?a) - ART N(AGR ?a)pNP(AGR ?a) - ART ADJ N(AGR ?a)pVP(AGR ?a) - V(AGR ?a,VAL itr)pVP(AGR ?a) - V(AGR ?a,

46、VAL tr) NP合一文法p一個(gè)文法可以表示成一系列特征結(jié)構(gòu)間的約束關(guān)系所組成的集合,這樣的文法稱為合一文法(Unification Grammar,UG),它為基于特征的CFG文法提供了一個(gè)形式描述基礎(chǔ)。p例如:nUG中特征結(jié)構(gòu)X0、X1和X2之間的約束關(guān)系:pX0-X1 X2 (CAT0=S,CAT1=NP,CAT2=VP, AGR0=AGR1=AGR2,VFORM0=VFORM2)n可以描述下面的一條基于特征的CFG中的規(guī)則:pS-NP(AGR ?a) VP(AGR ?a)p特征結(jié)構(gòu)的合一運(yùn)算構(gòu)成了合一文法的基本操作,其作用有兩個(gè):n檢查特征結(jié)構(gòu)間的相容性以確定多個(gè)特征結(jié)構(gòu)是否可以合并

47、(規(guī)約)n創(chuàng)建新的特征結(jié)構(gòu)(規(guī)約的結(jié)果)合一運(yùn)算p特征結(jié)構(gòu)“相容”n(f)表示特征結(jié)構(gòu)的特征f的值n若、為特征結(jié)構(gòu),對(duì)于所有的特征f(屬于或):p若(f)=a,(f)=b,a、b都是原子,和是相容的當(dāng)且僅當(dāng)a=bp若(f)、(f)均為特征結(jié)構(gòu),和是相容的當(dāng)且僅當(dāng)(f)與(f)相容(遞歸)p特征結(jié)構(gòu)“合一運(yùn)算”:n如果a、b都是原子,若a=b,則ab=a,否則ab=n若、均為特征結(jié)構(gòu),則p若(f)=v,但(f)未定義,則f=v屬于p若(f)=v,但(f)未定義,則f=v屬于p若(f)=v1,(f)=v2,且v1與v2相容,則f=(v1v2)屬于,否則,= 合一運(yùn)算舉例p(CAT V, ROOT

48、cry)與(CAT V, VFORM pres)可以合一為:(CAT V, ROOT cry, VFORM pres)p(CAT V, AGR 3s)與(CAT V, AGR 3p)不能合一p(CAT N,ROOT fish, AGR 3s,3p)與(CAT N, AGR 3s)可以合一為: (CAT N,ROOT fish, AGR 3s)基于特征CFG的chart parsingp句子與規(guī)則匹配時(shí),除了語(yǔ)法成分要相同,還要對(duì)各個(gè)特征進(jìn)行匹配和泛化處理。p若規(guī)則包含特征值為變量的成分,匹配時(shí)需要實(shí)例化這個(gè)規(guī)則,例如:n對(duì)于規(guī)則:pNP(AGR ?a)- ART(AGR ?a) N(AGR ?

49、a)n若有下面的語(yǔ)法成分需要匹配:pART(ROOT a, AGR 3s)n則需要實(shí)例化規(guī)則中的?a:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n它與ART(ROOT a, AGR 3s)匹配后擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n若句子中還有N(ROOT dog, AGR 3s)需要匹配,則進(jìn)一步擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s) p如果待匹配的語(yǔ)法成分的特征值中包含受限變量,則實(shí)例化后的規(guī)則中的取值范圍為兩者的交集,例如:n實(shí)例化前的規(guī)則:pNP(AGR ?a)- ART(AGR ?

50、a) N(AGR ?a)n要匹配的語(yǔ)法成分:pART(ROOT the, AGR ?a3s,3p)n實(shí)例化后的規(guī)則為:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n匹配擴(kuò)展后為:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n再與N(ROOT dog, AGR 3s)匹配后擴(kuò)展為:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s) 語(yǔ)義分析p語(yǔ)義分析的目的是給出語(yǔ)言表達(dá)的含義或意義(meaning)。p語(yǔ)義分析包括n詞義計(jì)算(詞義表示、多義詞消歧等)n句義計(jì)算(邏輯形式與

51、組合理論、語(yǔ)義角色標(biāo)注等)n篇章語(yǔ)義計(jì)算(指代、實(shí)體關(guān)系等)詞匯語(yǔ)義p句子的意義由句子中詞匯的語(yǔ)義組合而成。句義分析首先需要解決詞匯的語(yǔ)義表示和分析。p詞匯的語(yǔ)義表示:n義項(xiàng)(義位)n語(yǔ)義類 n義素組合義項(xiàng)(義位)p一個(gè)詞往往有幾個(gè)意義,每一個(gè)意義就是一個(gè)義項(xiàng)。例如:“明白”在現(xiàn)代漢語(yǔ)詞典中的義項(xiàng):n內(nèi)容、意義等使人容易了解;清楚;明確n公開的、不含糊的n聰明;懂道理n知道;了解語(yǔ)義類p由于義項(xiàng)的數(shù)量巨大,研究它們以及它們之間的關(guān)系非常困難。p解決這個(gè)問(wèn)題的一種辦法是:對(duì)義項(xiàng)進(jìn)行泛化(抽象、概括)從而形成一些語(yǔ)義類(類似于詞法分類詞性的做法)。例如:n把“走”、“跑”、“跳”、“爬”幾個(gè)義項(xiàng)泛

52、化為語(yǔ)義類:“移動(dòng)”。n現(xiàn)代漢語(yǔ)詞林p泛化的問(wèn)題:n語(yǔ)義類過(guò)多會(huì)失去泛化的效果。n語(yǔ)義類過(guò)少會(huì)丟失信息。義素(語(yǔ)義特征)p解決義項(xiàng)數(shù)量巨大的另一種方法是采用“義素”(語(yǔ)義特征)表示,義素是比義項(xiàng)更基本的語(yǔ)義單位。p一個(gè)義項(xiàng)可以表示成義素的集合(類似于句法中的復(fù)雜特征集)。例如:n“哥哥”的義素包括:“人、親屬、同胞、年長(zhǎng)、男性”p在知網(wǎng)(http:/)中用“義原”表示。p義素為詞匯語(yǔ)義提供了更精確的描述。義素為詞匯語(yǔ)義提供了更精確的描述。詞義之間的關(guān)系p詞義之間的關(guān)系n上下位關(guān)系: “動(dòng)物”與 “獅子”n整體-部分關(guān)系:“身體”與“上肢”n同義關(guān)系:“美麗”與“漂亮”n反義關(guān)系:“高”與“矮”

53、n包含關(guān)系:“兄弟”與“哥哥”和“弟弟”p表示詞義之間關(guān)系的另一種方式是語(yǔ)義場(chǎng)由幾個(gè)相互關(guān)聯(lián)的詞義構(gòu)成的語(yǔ)義系統(tǒng)。例如:n“師傅、徒弟”構(gòu)成一個(gè)語(yǔ)義場(chǎng)n“上、下、左、右”也構(gòu)成一個(gè)語(yǔ)義場(chǎng)n語(yǔ)義場(chǎng)的確定與本體論(Ontology)有關(guān)。p詞義之間的關(guān)系可以為詞義之間的搭配提供依據(jù),從而為詞義之間的關(guān)系可以為詞義之間的搭配提供依據(jù),從而為詞義消歧和句義分析提供幫助。詞義消歧和句義分析提供幫助。句義分析p句義分為:n上下文無(wú)關(guān)意義n上下文有關(guān)意義p“Do you know what gate you are going to?”的意義是什么?p句義分析的方式n先句法后語(yǔ)義n句法語(yǔ)義一體化n完全語(yǔ)義分

54、析(無(wú)句法分析)p句義的表示n邏輯形式n論旨角色或格角色句義表示與分析(1)邏輯形式與語(yǔ)義組合p邏輯形式(LF,Logical Form)用于表示上下文無(wú)關(guān)的句義。它是對(duì)一階謂詞演算(FOPC)的擴(kuò)充,增加了一些操作和廣義量詞。例如:n(DOG1 FIDO1)描述了句子:Fido is a dog.n(LOVES1 SUE1 JACK1)描述了句子:Sue loves jack.n(NOT (LOVES1 SUE1 JACK1)描述了句子:Sue does not love jack.n(MOST1 d1:(DOG1 d1)(BARKS1 d1)描述了句子:Most dogs bark.n(P

55、RES(SEES1 JOHN1 FIDO1)描述了John sees Fido.n(EVERY b1:(BOY1 b1)(A d1:(DOG1 d1)(LOVES b1 d1)描述了句子:Every boy loves a dog.的一個(gè)意思n(A d1:(DOG1 d1)(EVERY b1:(BOY1 b1) (LOVES b1 d1)描述了句子:Every boy loves a dog.的另一個(gè)意思n(LOVES1 )描述了句子:Every boy loves a dog.的兩個(gè)意思(歧義表示)p語(yǔ)義組合:句子的語(yǔ)義由其成分的語(yǔ)義組合而成。n演算為語(yǔ)義組合提供了形式化的計(jì)算基礎(chǔ)和表示。p

56、組合理論用于語(yǔ)義組合面臨的難題:n句法結(jié)構(gòu)與邏輯形式之間存在結(jié)構(gòu)上的不一致n對(duì)習(xí)慣用語(yǔ)的處理(句義不由成分語(yǔ)義組合)p帶語(yǔ)義解釋的語(yǔ)法(語(yǔ)法/語(yǔ)義一體化)n句法規(guī)則中加入語(yǔ)義特征,例如:pS(.,SEM (?semvp,?semnp)- NP(.,SEM ?semnp)VP(.,SEM ?semvp)n伴隨句法規(guī)則給出句法符號(hào)的語(yǔ)義描述和計(jì)算規(guī)則句義表示與分析(2)論旨角色與格語(yǔ)法p論旨角色(thematic role)或格角色(case role)n基于動(dòng)詞給出句子中其它成分與它的淺層語(yǔ)義關(guān)系,例如:pThe boy opened the door with a key. the boy:

57、AGENT(施事格) the door: OBJECT(客體格) a key: INSTUMENT(工具格)格語(yǔ)法p格語(yǔ)法由美國(guó)語(yǔ)言學(xué)家Charles J. Fillmore提出的用于對(duì)句法結(jié)構(gòu)與語(yǔ)義之間關(guān)系進(jìn)行描述的理論。n“Towards a modern theory of case”、“The case for case”、“Some problems for case grammar”p基本語(yǔ)義規(guī)則nS-M+Pp一個(gè)句子(S)由情態(tài)(M)和命題(P)構(gòu)成。p情態(tài)包括:時(shí)體態(tài)、語(yǔ)氣以及否定等。nP-V+C1+C2+.+Cnp命題由動(dòng)詞(V)及若干格短語(yǔ)(C1Cn)構(gòu)成。nCi-Ki+N

58、Pip格短語(yǔ)由格標(biāo)記(K,表層格)和名詞短語(yǔ)(NP)組成。n從表層格到深層格的轉(zhuǎn)換規(guī)則p深層格的種類:n施事格(Agentive):He laughed.n工具格(Instrumental):He cut the rope with a knife.n與格(Dative):He gives me a ball.n使成格(Factitive):John dreamed a dream about Mary.n方位格(Locative):He is in the house.n客體格(Objective): He bought a book.n受益格(Benefective): He sang a

59、 song for Mary.n源點(diǎn)格(Source): I bought a book from Mary.n終點(diǎn)格(Goal): I sold a car to Mary.n伴隨格(Comitative): He sang a song with Mary.n.(有多少格?)p動(dòng)詞格框架n詞典中對(duì)每個(gè)動(dòng)詞需給出:p它所允許的格,包括它們的性質(zhì)(必需、禁止、自由)p這些格的特征(附屬詞、中心詞語(yǔ)義信息等)基于格語(yǔ)法的語(yǔ)義分析p基于的信息n格體系n動(dòng)詞格框架n名詞語(yǔ)義信息p分析過(guò)程n格短語(yǔ)及主動(dòng)詞識(shí)別n利用主動(dòng)詞格框架確定格短語(yǔ)的格。p分析結(jié)果:句子的格框架?;诟裾Z(yǔ)法的語(yǔ)義分析結(jié)果(例)pI

60、n the room, he broke a window with a hammer.BREAK case-frame agentive: HE objective: WINDOW instrumental: HAMMER locative: ROOM modals time: past voice: active機(jī)器翻譯機(jī)器翻譯歷史p1947,Warren Weavers memop1954,第一個(gè)公開展示的俄英MT原型系統(tǒng)p1966,美國(guó)科學(xué)院的ALPAC報(bào)告宣告機(jī)器翻譯走入低谷p1970s,Systran(1970),Meteo(1976),pEarly 1980s,復(fù)蘇,Eurotr

61、a、Mu、.pLate 1980searly 1990s,商品化系統(tǒng)投入市場(chǎng),語(yǔ)音翻譯和統(tǒng)計(jì)機(jī)器翻譯(SMT)出現(xiàn)pLate 1990s,Internet加速了MT,MAT、EBMT技術(shù)出現(xiàn)pAfter 2000,SMT大行其道!p現(xiàn)在,NMT熱!I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All

62、I need do is strip off the code in order to retrieve the information contained in the text p直譯(Direct):從原文句子的表層(詞、詞組或短語(yǔ))出發(fā),直接轉(zhuǎn)換成譯文(必要的詞序調(diào)整)。p轉(zhuǎn)換(Transfer):對(duì)源語(yǔ)言進(jìn)行分析,得到一個(gè)基于源語(yǔ)言的中間表示;然后,把這個(gè)中間表示轉(zhuǎn)換成基于目標(biāo)語(yǔ)言的中間表示;從基于目標(biāo)語(yǔ)言的中間表示生成目標(biāo)語(yǔ)言。p中間語(yǔ)(Interlingua):對(duì)源語(yǔ)言進(jìn)行分析,得到一個(gè)獨(dú)立于源語(yǔ)言和目標(biāo)語(yǔ)言的、基于概念的中間表示;從這個(gè)中間表示生成目標(biāo)語(yǔ)言。機(jī)器翻譯的基本策略中

63、間語(yǔ)言源語(yǔ)言目標(biāo)語(yǔ)言分析生成詞匯轉(zhuǎn)換句法轉(zhuǎn)換語(yǔ)義轉(zhuǎn)換(詞法、句法、語(yǔ)義)(詞法、句法、語(yǔ)義)機(jī)器翻譯金字塔機(jī)器翻譯的實(shí)現(xiàn)方法p基于語(yǔ)言規(guī)則的理性方法(Rationalist approach)n基于以規(guī)則形式表達(dá)的語(yǔ)言知識(shí)(詞、句法、語(yǔ)義以及轉(zhuǎn)換)進(jìn)行推理。(Rule-based MT)n又稱傳統(tǒng)的翻譯方法,強(qiáng)調(diào)人對(duì)語(yǔ)言知識(shí)的理性整理。p基于語(yǔ)料庫(kù)的經(jīng)驗(yàn)方法(Empiricist approach)n以大規(guī)模語(yǔ)料庫(kù)(單語(yǔ)和雙語(yǔ))為語(yǔ)言知識(shí)基礎(chǔ)。包括:p基于統(tǒng)計(jì)的方法(Statistical MT,SMT) 利用統(tǒng)計(jì)學(xué)習(xí)方法自動(dòng)獲取和運(yùn)用隱含在語(yǔ)料庫(kù)中的知識(shí) 翻譯知識(shí)的獲取在翻譯之前完成,體現(xiàn)為

64、一系列統(tǒng)計(jì)數(shù)據(jù)(參數(shù))p基于實(shí)例的方法(Example-based MT,EBMT) 基于類比原理,通過(guò)相似度計(jì)算,在語(yǔ)料庫(kù)中找出最相似的句子 翻譯知識(shí)的獲取在翻譯之前沒有全部完成,翻譯過(guò)程中還需要語(yǔ)料庫(kù)p基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法(Neural MT,NMT) 自動(dòng)學(xué)習(xí)特征Rule-based MTp基于詞的轉(zhuǎn)換翻譯p基于句法結(jié)構(gòu)轉(zhuǎn)換的翻譯p基于語(yǔ)義轉(zhuǎn)換的翻譯p基于中間語(yǔ)言(Interlingua)的翻譯p一個(gè)基于規(guī)則的轉(zhuǎn)換翻譯系統(tǒng)實(shí)例基于詞的轉(zhuǎn)換翻譯p翻譯過(guò)程n詞法分析(源語(yǔ)言)n譯詞選擇n詞序調(diào)整n形態(tài)(詞形變化)生成p翻譯所基于的知識(shí)n詞法規(guī)則(源語(yǔ)言)n對(duì)譯(雙語(yǔ))詞典及規(guī)則n調(diào)序規(guī)

65、則n形態(tài)生成規(guī)則p問(wèn)題n沒有句法結(jié)構(gòu)和語(yǔ)義分析的指導(dǎo),轉(zhuǎn)換很難很好地進(jìn)行,特別是對(duì)句法/語(yǔ)義結(jié)構(gòu)相差很大的語(yǔ)言。n譯詞選擇和詞序調(diào)整工作可用的信息太少(只利用了原句中的局部信息和已得到的譯詞信息) 。基于句法結(jié)構(gòu)轉(zhuǎn)換的翻譯p句法分析(源語(yǔ)言)p遞歸地利用一組“樹-樹”的轉(zhuǎn)換規(guī)則,把源語(yǔ)言的句法樹轉(zhuǎn)換成目標(biāo)語(yǔ)言的句法樹p從目標(biāo)語(yǔ)言的句法樹生成目標(biāo)語(yǔ)言句子。句法樹轉(zhuǎn)換的例NPDetAN1delicioussoupAdjNNPNPtv(X)tv(Y)tv(X)tv(Y)NPDetUnaN1sopa deliciosaNAdjN1tv(A)tv(B)AdjNN1tv(B)tv(A)NAdjDetUna

66、SL TreeTree-to-tree transformationsTL Treedelicious deliciosa soup sopaDetAA delicious soupUna sopa deliciosa(English)(Spanish)基于語(yǔ)義轉(zhuǎn)換的翻譯p語(yǔ)義表示具有較高的語(yǔ)言獨(dú)立性,在語(yǔ)義級(jí)轉(zhuǎn)換避免了語(yǔ)言相關(guān)的句法結(jié)構(gòu)轉(zhuǎn)換。p轉(zhuǎn)換規(guī)則需要解決不同語(yǔ)言之間的語(yǔ)義表示的對(duì)應(yīng)問(wèn)題:n邏輯表示中的謂詞轉(zhuǎn)換n論旨角色表示的格轉(zhuǎn)換基于中間語(yǔ)言(Interlingua)的翻譯p基于中間語(yǔ)的翻譯是指對(duì)源語(yǔ)言進(jìn)行分析,得到一個(gè)獨(dú)立于源語(yǔ)言和目標(biāo)語(yǔ)言的、基于概念的中間語(yǔ)言表示,然后從這個(gè)中間語(yǔ)言表示生成目標(biāo)語(yǔ)言。p對(duì)于n種語(yǔ)言之間的翻譯(多語(yǔ)翻譯)n轉(zhuǎn)換翻譯需要n(n-1)個(gè)模塊n中間語(yǔ)言翻譯需要2n個(gè)模塊語(yǔ)言1語(yǔ)言2語(yǔ)言4語(yǔ)言3中間語(yǔ)語(yǔ)言1語(yǔ)言2語(yǔ)言4語(yǔ)言3中間語(yǔ)言翻譯轉(zhuǎn)換翻譯p中間語(yǔ)言翻譯需解決的重要問(wèn)題:n一個(gè)統(tǒng)一的概念集及概念之間的關(guān)系集(本體論ontology所涉及的內(nèi)容),使得它們對(duì)多種語(yǔ)言都適合。p中間語(yǔ)言翻譯所需要的ontology是否存在?p中間語(yǔ)言翻譯加大了語(yǔ)言分析

展開閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!