信息檢索與word文字處理.ppt
《信息檢索與word文字處理.ppt》由會員分享,可在線閱讀,更多相關(guān)《信息檢索與word文字處理.ppt(31頁珍藏版)》請在裝配圖網(wǎng)上搜索。
信息檢索與網(wǎng)絡(luò)應(yīng)用,SENTAIDAITBADE,,信息檢索與網(wǎng)絡(luò)應(yīng)用,,,,感受檢索的魅力,網(wǎng)站內(nèi)容的獲取,常用網(wǎng)站,主題詞的設(shè)定,計算機信息的檢索,,計算機信息檢索基礎(chǔ),計算機檢索系統(tǒng)概述,計算機信息檢索:利用計算機及相關(guān)軟件和通信設(shè)備,對本地計算機、遠(yuǎn)程服務(wù)器上存貯的信息進行檢索。1.計算機信息檢索的發(fā)展大體經(jīng)歷了三個階段:聯(lián)機檢索階段(60年代中期到70年代中期);光盤數(shù)據(jù)庫檢索階段(70年代中期到80年代末);網(wǎng)絡(luò)化檢索階段(90年代初至今)。2.計算機信息檢索的服務(wù)方式(1)回溯檢索指追溯查找過去的信息,幫助用戶查找過去幾年甚至幾十年的文獻信息,使用戶一次檢索就可以全面了解某一課題在某一段時間中的發(fā)展情況。,,計算機檢索系統(tǒng)概述,(2)定題檢索定題檢索服務(wù)是根據(jù)用戶檢索課題的內(nèi)容,一次性輸人事先確定好的檢索提問式保存在檢索系統(tǒng)中。(3)人機對話檢索用戶一旦輸入檢索提問,計算機檢索系統(tǒng)就可立即執(zhí)行,并在用戶終端顯示屏上輸出檢索結(jié)果。(4)聯(lián)機訂購用戶通過聯(lián)機檢索得到的結(jié)果一般都是二次文獻,如果需要一次文獻,可以通過終端聯(lián)機訂購原始文獻的復(fù)印件或原文。,SENTAIDA,,計算機檢索系統(tǒng)的結(jié)構(gòu),1.計算機信息檢索原理計算機信息檢索是指人們在計算機檢索網(wǎng)絡(luò)或終端上,使用特定的檢索指令、檢索詞和檢索策略,從計算機檢索系統(tǒng)的數(shù)據(jù)庫中檢索出所需要的信息,然后再由終端設(shè)備顯示、下載和打印的過程。廣義的計算機信息檢索包含兩個過程:(1)對原始信息加工處理并存貯在各種信息載體上一是對待加工的信息進行著錄,即按一定的規(guī)則進行描述。二是對待加工的信息進行標(biāo)引。形成從內(nèi)容角度查找信息的檢索點。,SENTAIDA,,計算機檢索系統(tǒng)的結(jié)構(gòu),(2)信息查詢過程用戶對檢索需求加以分析,明確檢索范圍,弄清主題概念,然后用系統(tǒng)語言或自然語言表示主題概念,形成檢索標(biāo)識及檢索策略,輸入計算機進行查找。2.計算機檢索系統(tǒng)的構(gòu)成由計算機硬件,檢索軟件、數(shù)據(jù)庫、通信網(wǎng)絡(luò)等組成。,計算機檢索的基本程序,1.分析檢索課題就是明確檢索目的、要求和檢索的范圍。2.選擇檢索系統(tǒng)和數(shù)據(jù)庫根據(jù)主題范圍、信息類型、時間范圍等因素選擇檢索系統(tǒng)和數(shù)據(jù)庫。3.確定檢索途徑和檢索詞常用的檢索途徑有著者、分類、主題、文獻題名、文獻號、代碼、引文、文獻類型,出版時間、語種等。檢索詞是表達文獻信息需求的基本元素,是用戶輸入的檢索語詞。,計算機檢索的基本程序,4.構(gòu)建檢索式是用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統(tǒng)規(guī)定的其他組配連接符號組成,是檢索策略具體體現(xiàn)。5.檢索并調(diào)整檢索策略在檢索過程中應(yīng)及時分析檢索結(jié)果是否與檢索要求一致,并根據(jù)檢索結(jié)果對檢索詞、檢索提問式作相應(yīng)的修改和調(diào)整,直至得到比較滿意的結(jié)果。6.輸出檢索結(jié)果根據(jù)檢索系統(tǒng)提供的檢索結(jié)果輸出方式,選擇需要的記錄以及相應(yīng)的字段,選擇文摘或全文等,將檢索結(jié)果顯示在屏幕上、或存儲到磁盤上、或打印輸出。,信息檢索的基本技術(shù),計算機檢索的基本技術(shù),信息的檢索模型有布爾檢索模型、向量空間模型、概率模型、模糊集合模型、擴展布爾檢索模型等幾種。具體檢索技術(shù)有布爾檢索、截詞檢索、限制檢索、加權(quán)檢索、聚類檢索等。1.布爾邏輯檢索技術(shù)指利用布爾運算符連接各個檢索詞,由計算機進行相應(yīng)邏輯運算,以找出所需信息的方法。AND(或)、OR(或+)、NOT(或一)。2.截詞檢索技術(shù)分為后截詞檢索(前方一致),前截詞檢索(后方一致),中截詞檢索(前后方一致),以及前后截詞檢索(中間一致)基本類型?!?”代表多個字符,“#”代表單個字符,“?”或者“n?”代表O個到9個額外的字符。,計算機檢索的基本技術(shù),3.位置檢索技術(shù)可要求檢索詞以用戶所規(guī)定的相對位置出現(xiàn)。常用的位置算符有以下8種:(w)算符(WITH)、(nw)算符(nWORD)、(N)算符(NEAR)、(nN)算符(nNEAR)、(F)算符(FIELD)、(S)算符(SUBFIELD)、(C)算符(CITATION)、(L)算符(LINK)4.加權(quán)檢索技術(shù)方法是:在檢索提問式中,根據(jù)每個提問詞重要程度,分別給予一定的加權(quán)數(shù)值加以區(qū)別,稱為權(quán)數(shù);同時再給出檢索命中的閾值。5.限制檢索技術(shù)是通過限制檢索范圍,達到優(yōu)化檢索結(jié)果的方法。限制檢索的方式有多種,例如進行字段檢索、使用限制符、采用限制檢索命令等。,互聯(lián)網(wǎng)信息資源概述,1.互聯(lián)網(wǎng)信息資源的內(nèi)涵即指以數(shù)字化形式記錄的,以多種媒體形式表達的,分布式存儲在互聯(lián)網(wǎng)不同主機上并通過計算機網(wǎng)絡(luò)通訊方式進行傳遞的信息資源的集合。2.互聯(lián)網(wǎng)信息資源的特點數(shù)字化存儲和傳遞;數(shù)量巨大,增長迅速;內(nèi)容豐富,形式多樣;穩(wěn)定性差,變化頻繁;結(jié)構(gòu)復(fù)雜,分布廣泛;信息組織的局部有序性與整體無序性;信息新穎,定期更新;3.互聯(lián)網(wǎng)信息資源的類型和內(nèi)容類型主要包括:非正式出版信息、半正式出版信息、正式出版信息、萬維網(wǎng)(WWW)信息資源、電子郵件(E-mail)信息資源、FTP信息資源(文件傳送協(xié)議)、Telnet信息資源(遠(yuǎn)程登錄協(xié)議)、Usenet/Newsgroup信息資源(專題討論組),互聯(lián)網(wǎng)信息資源概述,4.互聯(lián)網(wǎng)信息資源的組織互聯(lián)網(wǎng)信息組織方法可歸納為語法信息組織方法、語義信息組織方法和語用信息組織方法?;ヂ?lián)網(wǎng)信息資源的組織形式主要表現(xiàn)為:網(wǎng)頁網(wǎng)站、搜索引擎、專業(yè)導(dǎo)航系統(tǒng)、虛擬圖書館等。5.互聯(lián)網(wǎng)信息資源的評價評價標(biāo)準(zhǔn)包括9項:信息的準(zhǔn)確性;信息發(fā)布者的權(quán)威性;提供信息的廣度和深度;主頁中的鏈接是否可靠、有效;版面設(shè)計質(zhì)量;信息的時效性;讀者對象;信息的獨特性;主頁的可操作性,并特別強調(diào)可存取性、權(quán)威性、交互性和愉悅性這四項標(biāo)準(zhǔn)。,互聯(lián)網(wǎng)搜索引擎,搜索引擎(searchengine)是對互聯(lián)網(wǎng)上的信息資源進行搜集整理,然后提供查詢的系統(tǒng).它包括信息搜集、信息整理和用戶查詢?nèi)糠?。包括目錄服?wù)和關(guān)鍵字檢索兩種服務(wù)方式。搜索引擎可以是一個專門的網(wǎng)站,也可以是某個網(wǎng)站上的一個系統(tǒng)。1.搜索引擎的類型按照索引方式分為分類搜索引擎和機器人搜索引擎。分類搜索引擎采用人工或機器搜索WWW信息,依靠專業(yè)人員對信息進行甄別和分類而建立的以分類導(dǎo)航或分類摘要查詢?yōu)橹鞯囊活愐?,又稱“主題指南”。機器人搜索引擎指由網(wǎng)上搜索軟件自動收集網(wǎng)頁建庫,以全文檢索為主的引擎。按照檢索方式可將搜索引擎劃分獨立搜索引擎、元搜索引擎、網(wǎng)絡(luò)搜索軟件。,互聯(lián)網(wǎng)搜索引擎,2.搜索引擎的工作原理搜索引擎實際上是一個專用的WWW服務(wù)器,它收集Internet上成千上萬甚至上億個網(wǎng)頁信息,組成龐大的索引數(shù)據(jù)庫。自動運行并對大量頁面進行索引。3.搜索引擎的檢索功能大多數(shù)搜索引擎提供以下檢索功能:布爾邏輯檢索、截詞檢索、限制檢索、區(qū)分大小寫檢索、加減檢索、概念檢索、結(jié)果過濾、語句檢索、智能化檢索等。,常用搜索引擎,著名搜索引擎的使用,1.Google中文http://www.google.comGoogle收錄20億多網(wǎng)頁。Google提供的關(guān)鍵詞查詢,查詢范圍有四種:所有網(wǎng)站、圖像、網(wǎng)上論壇和網(wǎng)頁目錄。Google所提供的幾項特殊檢索功能有:(1)按鏈接搜索(2)按指定網(wǎng)域搜索(3)網(wǎng)頁快照(4)查找PDF文件2.百度百度也提供了搜索幫助、高級搜索、搜索工具、百度大全等,也是基于關(guān)鍵詞的搜索引擎。百度提供網(wǎng)頁快照、在指定網(wǎng)站內(nèi)搜索、在標(biāo)題中搜索、在URI。中搜索、并行搜索、相關(guān)搜索等功能。百度搜霸。,著名搜索引擎的使用,3.metacrawlerhttp://WWWmetaerawler是一個并行式的元搜索引擎,主要提供三種類型服務(wù):Web搜索服務(wù)、黃頁服務(wù)、白頁服務(wù)。具有同時調(diào)用Google、Yahoo、AskJeevesAbout、LookSmart、TeomaOverture等搜索引擎的功能,然后按相關(guān)度給出詳細(xì)結(jié)果。4.Excite搜索引擎Excite是一個智能性的搜索引擎,主要提供頻道(channel)和搜索(search)兩種Web信息服務(wù),可以對網(wǎng)站、目錄,新聞、照片等進行搜索。Excite搜索服務(wù)的個性化服務(wù)特色非常突出。,檢索效果評價,檢索效果評價的指標(biāo)在檢索評價實踐中,評價檢索效果的常用指標(biāo)具體有以下幾種:查全率(Recallratio)——用R表示;查準(zhǔn)率(Precisionratio)——用P表示;漏檢率(()missionratio)一一用U表示;誤檢率(Fall—Outratio)——用F表示。其中,最常用的檢索效果評價指標(biāo)為查全率和查準(zhǔn)率。,檢索效果評價,1.查全率和漏檢率是評價檢索效果最常用的兩項關(guān)鍵指標(biāo)。2.查準(zhǔn)率和誤檢率查準(zhǔn)率是指檢出的相關(guān)文獻量與檢出文獻總量的比率,是衡量信息檢索系統(tǒng)精確度的尺度。誤檢率是指誤檢(檢出不相關(guān))文獻總量的比率,是衡量信息檢索系統(tǒng)誤檢文獻和程度的尺度。3.檢索速度(T)、新穎率(N)與有效率(A),檢索效果的優(yōu)化,影響檢索效果的因素是多方面的,檢索效果的優(yōu)化就需要針對影響查全率、查準(zhǔn)率、檢索速度等因素從多方面進行改進。1.提高檢索系統(tǒng)的功能包括提高檢索系統(tǒng)的運行速度,提供檢索手段的完備性,檢索功能的智能化,檢索界面的友好性和易用性等。這里既包括硬件設(shè)備也包括檢索程序的設(shè)計2.提高數(shù)據(jù)庫的質(zhì)量數(shù)據(jù)庫的質(zhì)量是提高檢索效率的基本因素。從數(shù)據(jù)庫整體來說,要做到相關(guān)文獻信息收錄完整,具有完備的索引系統(tǒng)、完備的幫助系統(tǒng),數(shù)據(jù)庫結(jié)構(gòu)科學(xué),信息記錄使用標(biāo)準(zhǔn)規(guī)范的格式等。,檢索效果的優(yōu)化,3.提高檢索人員的素質(zhì)檢索人員不僅指專門從事檢索的圖書情報工作人員,也包括普通用戶。4.優(yōu)化檢索策略檢索者利用檢索工具對查找到所需內(nèi)容的科學(xué)安排。一般可采取三方面的舉措來優(yōu)化檢索策略,從而提高檢索效果。(1)科學(xué)選擇數(shù)據(jù)庫(2)提高查全率(3)提高查準(zhǔn)率,綜合檢索實例及分析,用百度進行檢索:(1)在百度檢索框中輸入檢索詞“城市青少年”,檢索到10,400,000條記錄;再用“價值結(jié)構(gòu)”在結(jié)果中檢索共檢索到1,370,000條記錄,其中兩條為相關(guān)記錄。從檢索情況來看,用“城市青少年”進行檢索,檢索詞過于專指,造成很大的漏檢。(2)在百度檢索框中輸入檢索詞“青少年價值觀”擴檢,檢索到1,620,000條記錄,很大程度上提高了檢全率。相關(guān)記錄有:青少年人生價值觀狀況分析、我國青少年價值觀發(fā)展特點與教育對策研究、新時期青少年價值觀的現(xiàn)狀與變化的追蹤研究、我國五城市青少年學(xué)生價值觀的調(diào)查等等。(3)在百度檢索框中輸入檢索式:“青年價值觀”+“社會教育”再次擴檢,從檢索命中記錄來看,用“青年價值觀”+“社會教育”檢索,彌補了用“青少年價值觀”+“社會教育”檢索時造成的對青年價值觀的部分漏檢。用戶可以嘗試著用其它檢索詞進行組配檢索,不斷地擴檢、縮檢以提高檢準(zhǔn)率和檢全率。另外,百度會提供相關(guān)的檢索詞供用戶參考。在檢索的過程當(dāng)中,我們可以利用檢索到的文獻以及其參考文獻為線索進行相關(guān)文獻的檢索。除了百度外,Google也是最常用、檢索功能強大的搜索引擎,用戶可以配合一起使用。,示例,,網(wǎng)站內(nèi)容的獲取,上機作業(yè),上機內(nèi)容:題目:搜索引擎的界面和原理的進一步理解具體內(nèi)容:對比以下四個搜索引擎界面、主要檢索方法及功能1.Google中文2.百度3.metacrawlerhttp://WWW4.Excite搜索引擎要求:對比各搜索引擎的界面、主要檢索方法和功能特色及異同,寫出你的評價。,,題目:檢索工具的初步使用具體內(nèi)容:請查找寫出4個或以上的國內(nèi)外搜索引擎(即網(wǎng)站)。然后分別在上述四個搜索引擎中查找并記下:1.利用關(guān)鍵字“模具設(shè)計”所檢索到的記錄的條數(shù)2.利用關(guān)鍵字“機械模具設(shè)計”所檢索到的記錄的條數(shù)3.對比各搜索引擎所檢索到的記錄條數(shù),寫出你的認(rèn)識與結(jié)論。,,檢索實例[檢索課題]“非典”對中國經(jīng)濟的影響(期刊論文)[分析課題]首先,分析課題并制定檢索策略,“非典”是“傳染性非典型肺炎”的簡稱(SARS).確定將“非典”、“SARS”、“中國經(jīng)濟”、“經(jīng)濟運行”作為檢索詞.據(jù)此,編制檢索式如下:(非典orSARS)and中國經(jīng)濟and經(jīng)濟運行。,,檢索實例[檢索課題]電子商務(wù)對稅收征管的影響與對策[分析課題]本課題涉及到電子商務(wù)、稅收征管兩個主題,兩個主題的關(guān)系是電子商務(wù)的產(chǎn)生、存在對傳統(tǒng)的稅收征管產(chǎn)生影響,以及相應(yīng)的對策。[選擇檢索詞、編制檢索式]根據(jù)課題分析,我們選擇電子商務(wù)(相關(guān)詞:網(wǎng)絡(luò)貿(mào)易、網(wǎng)上貿(mào)易、網(wǎng)絡(luò)營銷)、稅收征管、影響、對策作為檢索詞。初步擬定檢索式:(電子商務(wù)OR網(wǎng)絡(luò)貿(mào)易OR網(wǎng)上貿(mào)易OR網(wǎng)絡(luò)營銷)AND稅收征管AND(影響OR對策)。[檢索步驟]首先進入數(shù)據(jù)庫檢索的高級檢索界面,選擇“關(guān)鍵詞”作為檢索人口.在檢索詞輸入框中;輸入檢索詞:“電子商務(wù)”、“網(wǎng)絡(luò)貿(mào)易”、“網(wǎng)上貿(mào)易”、“網(wǎng)絡(luò)營銷”,檢索詞之間用“或”連接。點擊“開始檢索”,系統(tǒng)反饋命中記錄14274條。選擇“關(guān)鍵詞”作為檢索入口,進行3次二次檢索,在檢索詞輸人框中分別輸入的檢索詞為:稅收征管、影響、對策,系統(tǒng)最終反饋命中記錄5條。[檢索結(jié)果分析]通過對上述5條記錄的分析,這些記錄都符合檢索課題要求。,,ThankYou!,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 信息 檢索 word 文字處理
鏈接地址:http://m.appdesigncorp.com/p-11520157.html