《中文名稱規(guī)范文檔與VIAF共享問題分析--》由會員分享,可在線閱讀,更多相關《中文名稱規(guī)范文檔與VIAF共享問題分析--(4頁珍藏版)》請在裝配圖網上搜索。
1、中文名稱規(guī)范文檔與VIAF共享問題分析??
關鍵詞:中文名稱規(guī)范文檔;VIAF;共享
下載論文網
摘要:在信息技術不斷發(fā)展的過程中,我國圖書館對規(guī)范控制也從以往的獨立模式慢慢轉向合作模式。因為不同國家之間的圖書館規(guī)范文檔在形式方面存在較大差異,因此,實現不同成員庫信息資源共享逐漸成為協(xié)作規(guī)范控制工作的重要內容。文章通過構建中心式模型,對我國不同成員館數據庫中規(guī)范文檔進行整合,并且探討了中文名稱規(guī)范文檔與VIAF共享的方式,以期為中文名稱規(guī)范文檔與VIAF共享工作提供一定幫助。
中圖分類號:G250文獻標識碼:A文章編號:1003-15
2、88(2018)02-0111-03
1背景
在互聯網技術不斷發(fā)展的過程中,網絡逐漸滲透到人們生活中的各個領域,也使規(guī)范文檔擁有更為廣泛的來源,且規(guī)范文檔種類不斷增加。規(guī)范文檔儲存于各個機構之中,而且各個機構所擁有的資源既存在一定重復,又有一定差別,其所采用的數據組織形式同樣存在一定差異,導致大量且分散的異構數據很難得到利用,也在很大程度上影響到名稱規(guī)范文檔的進一步發(fā)展。基于用戶需求而言,現階段互聯網的現有組織形式無法滿足用戶逐漸深化的數據需求。在數字化環(huán)境下,圖書館的信息資源除了包含大量紙質信息資源,數字信息資源所占的比例不斷增加,互聯網信息數據的數量呈幾何式增長。而對于信息資源
3、急劇增加的問題,各機構應當采取一定的方法,對不同?C構相對分散的信息資源進行整合,確保目前名稱規(guī)范所包含的信息更加豐富,從而可以更加準確地對同名記錄加以區(qū)分,而且還能對不同的對象所對應的同一資源加以集中,確保用戶在信息資源檢索過程中能夠更加快速、準確以及便捷,有效地提升查全率[1]。不同機構應構建相應的共享機制,可以對相關主題信息資源進行整合處理,從而顯著降低冗余信息數量,為用戶提供更加清晰和全面的信息結構。
2影響中文名稱規(guī)范文檔與VIAF共享的要素
2.1編目規(guī)則
不同機構會結合自身情況編制出相應的編目規(guī)則,作為編目過程中的參考標準,各個機構依照制定的相應標準,將相關信息
4、資源通過規(guī)范方法完成著錄工作。不同編目機構采用的著錄規(guī)則存在較大差異,而且著錄規(guī)則相對較多,不同的著錄規(guī)則之間也存在一定差異。著錄規(guī)則主要包含AACR2、西文文獻著錄條例、中文文獻編目規(guī)則、FRBR、FRAD、ICP及RDA等?,F階段,國際上不同組織與機構之間已開展廣泛合作,而且不少組織及機構開始在其所使用的規(guī)范文檔里添加一些中文字段,極大地促進了中文名稱規(guī)范文檔共享范圍的進一步擴大。然而,還有很多地區(qū)的編目組織及機構在開展著錄工作時采用的規(guī)則有所差異,其中包含的中文字段具體位置以及對應功能均有所不同,導致在信息資源共享的過程中存在較大阻礙。對于著錄款目工作而言,《中國文獻編目規(guī)則》將主要的款
5、目全部取消,目前我國目錄體系里的一些書名信息、著錄信息以及主題信息等還處于分離狀態(tài),而且不同款目信息間也不存在主要、次要的區(qū)別。但是,在AACR2以及《西文文獻著錄條例》之中,由于西歐各國存在一些多款目字典式目錄,且一直沿襲自己的編目習慣,現在依舊保留了主要款目。在進行著錄過程中,AACR2相關要求更為嚴格,其中替代順序以及優(yōu)先級別等均有非常嚴格的規(guī)定,能夠確保開展著錄工作時更加精準。而由于我國圖書版權頁面里含有相對多的信息,《中國文獻編目規(guī)則》把圖書的版權頁面以及書名頁面并列作為編目工作的信息來源,但是沒有將二者所對應的優(yōu)先順序加以說明。而從表目的具體形式來看,二者均含有主體信息以及附加信息
6、,但是各個國家在進行名稱的表達方面有著一定差異,特別是在附加信息之中,更是存在相對大的不同[2]。
2.2數據元素
與名稱實體存在一定的關聯性,除去名稱實體所對應名稱之外的一些信息均稱為數據元素,FRAD將數據元素認定為名稱實體所對應的屬性。當記錄信息達到相應規(guī)模以后,便會產生非常多的同名實體記錄,而用戶在進行信息檢索的過程中就容易產生混淆。在名稱主體的標目信息中,數據元素是極其關鍵的內容,進行信息匹配時一般將其當作名稱附加信息,以確保各個名稱主體能夠被更為準確地區(qū)分開來。通常,數據元素包含兩種類別,一是性別信息、生卒信息、民族信息及籍貫信息等,二是學科信息、專長信息以及職業(yè)信息等
7、,前者屬于名稱主體所對應的自然屬性,而后者屬于名稱主體所對應的社會屬性?,F階段,在進行附加信息的選擇過程中不論采取何種方式,都不能構建出統(tǒng)一的標準,但是人們逐漸形成了一個共識,即將生卒信息當作最主要的匹配信息,要是不能獲取到生卒信息,或是生卒信息較難確認時,則再考慮采用其他信息作為主要匹配信息[3]。在具體的應用過程中,我國的國家圖書館以及CALIS一般采取加入關鍵詞或者是加入學科信息的方式,對相同人物名稱加以區(qū)分,如張三(化工)、張三(酒店管理)等。不過,采用這種形式對不同人的名稱進行區(qū)分的過程中同樣會產生兩個問題:第一,在選用區(qū)分信息的過程中主要受到人為因素影響,而且大部分區(qū)分信息都是編目
8、人員通過推斷獲得的,相關信息表述無法達到非常精確的要求,使相同領域中一些相似的學科極易出現混淆。第二,即使加入區(qū)分信息,在一些情況下也無法確定名稱主體的具體身份,這樣極易導致數目信息發(fā)生連接錯誤的問題,同時還會導致用戶在信息檢索過程中更加困難。對于相同名稱的不同人物進行區(qū)分的過程中,數據元素選擇是極為重要的,其會在很大程度上影響名稱規(guī)范文檔的質量。不過,現階段數據元素相關規(guī)范依舊存在一定的不足,各機構應當不斷加以完善。
3中文名稱規(guī)范文檔與VIAF的共享
VIAF將各個國家權威的文檔進行匹配以及連接,同時把不同類型的文檔加以分組處理,產生對相同實體進行描述的記錄合集,并且將這一合集
9、當作相應實體的權威記錄,其中含有該實體存在一定差異性的各種名稱信息?,F階段,我國在數據源規(guī)范方面擁有一定的基礎條件,國家圖書館規(guī)范數據庫的相關記錄在近幾年得到了極大的增長,同時能夠實現信息的共享,也為中文名稱規(guī)范文檔和VIAF實現數據共享創(chuàng)造了條件。而要想實現和VIAF之間的信息共享,需要對中文名稱文檔進行規(guī)范,構建信息更為全面以及規(guī)范的文檔數據庫。 3.1中文名稱規(guī)范文檔的構建
在中文名稱規(guī)范工作方面,我國內地和臺灣地區(qū)還沒有建立統(tǒng)一標準。2000年,由國家圖書館、HKCAN、CALIS以及臺灣漢學研究中心共同構建了中文名稱規(guī)范數據庫,不過其所應用的具體模式仍然是不同機構獨立構
10、建數據庫,借助于網絡平臺實現信息共享,該方式屬于較為簡便的分布式信息共享模式。不同機構進行信息的收集以及數據庫建設已經趨于成熟,但不同機構間的互聯性相對較差,具體使用的格式以及規(guī)范都有一定差異,僅采取數據匹配的方法容易導致查全率偏低等問題的產生。同時,不同機構在進行信息更新時未能同步完成,所以,當采用分布式信息共享模式時,怎樣確保信息成果得到更好地共享還有待進行深入研究。
3.1.1模型構建。由于我國圖書館領域不同機構在進行數據庫建設過程中基本上都是獨立建庫,因此我國需要構建相應的機制,確保不同機構之間可以實現信息共享。目前,中文名稱規(guī)范數據庫能夠完成聯機查詢工作,但在信息交互過程中仍然
11、存在一些問題。筆者采用中心式模型,構建基于客?艋?/服務器的多館中心鏈接,構建相應的中心數據庫,而成員庫包含我國各個名稱規(guī)范庫,具體模型見圖1。用戶在進行信息檢索的過程中,得到的結果為不同數據庫間的數據整合信息。構建完整且系統(tǒng)的中心數據庫,將不同機構中的數據庫進行鏈接,數據信息的描述內容含有簡體、繁體、英文以及拼音等不同形式,各個成員庫只是從中心庫讀取相關數據信息,但不能修改中心庫的數據信息。當用戶需要進行信息檢索時,無論采取哪種方式都可以檢索到中心數據庫包含的信息,確保實現信息資源的共享。而不同成員庫可以對機構內部數據庫加以修改,并且修改行為可以實時體現在中心庫。
3.1.2名稱標目以
12、及功能字段。由于各個機構所采用的標目選用規(guī)則有所差異,因此,采取更為適宜的標目以及功能字段,可以確保用戶在信息檢索過程中擁有更高的查全率以及查準率。依照名稱規(guī)范記錄具體狀況,同時參照各個機構的名稱規(guī)范文檔,筆者得出完整的名稱規(guī)范文檔應當包含的信息(見圖2)。在標目選擇過程中,各個機構因為自身的編
目背景以及文化的不同,采用的原則同樣有所差異。例如,北京大學圖書館在進行標目的選擇過程中,會將《辭?!防锼拿Q當作規(guī)范標目優(yōu)先選用,或是將具有較高權威性的工具書里的翻譯姓名當作標目。而香港地區(qū)基本上都是根據國外的數據源進行套錄,并且在這一過程中盡可能維持源數據不變。因此,在規(guī)范標目的選取過
13、程中,各機構要盡可能采用人們知曉的名稱作為標目。規(guī)范標目包含的內容包括個人名稱以及附加成分,其中附加成分通常含有個人生卒信息、性別信息以及民族信息等。由于生卒信息以及性別信息等均為個人的自然屬性信息,因此其擁有更高的穩(wěn)定性以及精確性。在附加信息中,通常采用的附加信息均為個人自然屬性信息,如VIAF中魯迅的個人名稱規(guī)范標目是“100$alu,Xun,$d1881-1936”。
3.2完成與VIAF的共享
VIAF屬于一種虛擬文檔,而完整的文檔依舊儲存于不同成員庫中,同時各個成員庫之間形成相互鏈接,一些權威數據經由OAI協(xié)定,利用服務器設備在不同的成員庫之中抽取相關數據并完成數據的匹配
14、。在構建中文名稱規(guī)范文檔之后,各機構應當接著完成與VIAF的共享工作。VIAF能夠為所有的實體分配所對應的ID,如VIAF為李白所分配的ID為108725426,不同文章中的實體利用特定ID進行鏈接。OCLC提供能夠讓用戶進行下載的數據集合,大部分信息結構屬于聚類結構形式,聚類信息集合本質上屬于中樞―發(fā)散式模型,中心為一個個人名、地名等,采用發(fā)散方式與VIAF成員庫中對應的概念資源進行鏈接,在鏈接時可以利用FOAF(Friend-of-a-Friend)詞匯表中的foaf:focus。不同的成員館都會采用各自的方式對名稱實體加以描繪,而且所有的記錄均指向VIAF中所包含的唯一的URI。
4結語
在規(guī)范控制領域中,中文名稱規(guī)范控制是極為重要的內容,而只有對我國目前所擁有的名稱規(guī)范數據進行整合才能確保有效地控制名稱規(guī)范,才能為中文名稱規(guī)范文檔與VIAF共享提供可靠的基礎保障。
參考文獻:
[1]陳辰,王璐,郝曉雪,等.語義化人名規(guī)范文檔建設探索[J].圖書館論壇,2017(10):1-6.
[2]王瑞云,賈君枝.中文個人名稱規(guī)范記錄的實體匹配與聚簇[J].國家圖書館學刊,2017(2):79-86.
[3]崔春,畢強.虛擬國際規(guī)范文檔(VIAF)項目進展[J].圖書情報工作,2014(6):129-134.
(編校:崔萌)