999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CLC與LCC類目同現(xiàn)映射方法研究
——以圖情領域為例*

2019-12-23 05:48:12燁,肖
圖書館論壇 2019年12期
關鍵詞:圖書館方法

徐 燁,肖 明

0 前言

《中國圖書館分類法》 (Chinese Library Classification,CLC)是我國圖情單位普遍使用的綜合性分類法;《美國國會圖書館分類法》(Libraryof Congress Classification,LCC)是美國國會圖書館編制的綜合性等級列舉式圖書分類法,也是世界上最重要的分類法之一。隨著國內(nèi)各圖書館不斷購置大量的英文圖書,如果對這些英文圖書進行分類時僅依靠人工判斷,將會花費大量的人工成本,且工作效率很低。因此,實現(xiàn)中文詞表與英文詞表之間的互操作,將是解決有效檢索和利用英文圖書的重要途徑。

詞表間的互操作主要通過建立類表之間的映射來實現(xiàn),可細分為3種類型:直接映射、間接映射和同現(xiàn)映射[1]。直接映射是指直接在不同的受控詞表之間建立語詞和分類號的匹配關系,主要依靠人工來判斷類目之間的映射關系;間接映射是指利用計算機計算類目語義相關度來確定匹配類型;同現(xiàn)映射是基于書目數(shù)據(jù)庫的映射,是指通過統(tǒng)計同一元數(shù)據(jù)集中表達不同主題的語詞或分類號同現(xiàn)頻次,計算語詞和分類號之間的相關度,從而實現(xiàn)類目匹配。目前國內(nèi)外對詞表之間的映射研究都有一定探究[2-3]。

國外對詞表之間映射的研究開展得早一些。1987年瑞典皇家圖書館通過直接映射實現(xiàn)《瑞典圖書分類法》(SAB)和《杜威十進分類法》(DDC)的映射[4],主要是將DDC中的部分表翻譯成瑞典語,再人工將其進行關聯(lián),并保存在數(shù)據(jù)庫中,以實現(xiàn)二者之間的映射。1995年,紐約州立大學設計一種面向?qū)ο蠛突诳蚣芊治龅膶<蚁到y(tǒng),將美國《數(shù)學主題分類表》(MSC)和DDC進行了映射[5],并將映射關系細分為8種類型:精確匹配、不匹配、專指到泛指、泛指到專指、多對一、循環(huán)映射、上位映射、下位映射。2001年歐盟發(fā)起Renardus項目[6],實現(xiàn)DDC與各國分類法及專業(yè)分類法之間的映射。用戶可以通過Renardus對各國門戶網(wǎng)站進行檢索,再根據(jù)映射結果來實現(xiàn)各國信息門戶按DDC 類目進行顯示。

國內(nèi)對詞表之間映射的研究集中在DDC 與CLC之間,以及《國際專利分類法》(IPC)與CLC之間的映射上。其中,針對DDC與CLC之間的映射研究開展得更早一些。戴劍波等[7]分析了DDC 與CLC 之間相互映射的可行性、映射實現(xiàn)模式、自動映射的實現(xiàn)原理,并且對比分析DDC與CLC之間的差異,提出實現(xiàn)間接映射的原理及可行性。楊眉等[8]采用直接映射和同現(xiàn)映射相結合的方法,對DDC與CLC中的化學工業(yè)領域類目進行研究分析,總結出映射過程中所存在的問題,并且提出了相應的解決方案。趙冬梅[9]運用統(tǒng)計學的方法對DDC與CLC中的數(shù)學類目進行了差異性分析。賈君枝等[10-11]提出了DDC與CLC之間的類目映射原理與方法,并對類目自動映射進行了較為系統(tǒng)的研究,提出了實現(xiàn)自動映射的各種算法。李珂等[12]采用直接映射的方法對DDC與CLC之間的農(nóng)業(yè)科學領域類目進行映射研究,并對映射結果進行統(tǒng)計分析。國內(nèi)研究人員針對IPC與CLC之間的映射研究相對較少一些。周林志等[13]提出基于詞匯相似度建立IPC與CLC之間映射的方法,其主要目標是要解決專利數(shù)據(jù)庫使用率低和降低專利數(shù)據(jù)的孤立程度。

綜上所述,國內(nèi)針對詞表之間互操作的研究集中在DDC與CLC之間的映射上;在映射方法研究方面則主要采用直接映射法。基于此,本文首先分析CLC 與LCC 類目映射的可行性,然后以圖情領域為例,采用一種基于書目記錄的CLC與LCC類目同現(xiàn)映射方法來實現(xiàn)類目間的映射,并分析該方法的優(yōu)缺點,最后對映射結果中一對多的映射關系進行討論。

1 CLC與LCC類目的比較

1.1 CLC的類目特征

《中國圖書館分類法》(CLC)是由國家圖書館《中國圖書館分類法》編輯委員會編制的綜合性分類法[14]。CLC以馬克思列寧主義、毛澤東思想為指導思想,以辯證唯物主義和歷史唯物主義為編制依據(jù),以學科分類和知識分類為基礎,強調(diào)類目的完整性、類目體系的平衡性,以及知識覆蓋的全面性。如果從宏觀結構上分析,則CLC是由編制說明、基本大類表、基本類目表(簡表)、主表、附表(通用復分表),以及字順索引、使用手冊等部分組成;如果從微觀上分析,則CLC的類目是由類號、類名、類級、注釋、參照等部分組成。除主表外,CLC宏觀結構還包括附表、索引、使用手冊等組成部分,其微觀結構則包括類號、類名、類級、注釋、參照等組成部分。CLC力求簡明,易懂易記,不僅適應了我國圖書資料分類實踐的需要,而且為我國圖書資料統(tǒng)一分類編目創(chuàng)造了便利條件。

1.2 LCC的類目特征

《美國國會圖書館分類法》(LCC)是美國國會圖書館在其館長普特南(G.H.Putnam,1861-1955)主持下,根據(jù)該館藏書所編制的一部綜合性等級列舉式分類法[15-16],主要有7 大特點:第一,實用性強。它專門為美國國會圖書館排架使用而編制,從類目安排到號碼配置,都處處考慮了該館藏書的實際需要。第二,類目詳盡,多達20多萬個,是世界上類目最多、篇幅最大的分類法。第三,它不僅可以適用于綜合性圖書館,而且適用于專業(yè)圖書館。第四,它及時反映了新學科和新主題情況。美國國會圖書館設有專門部門來管理LCC,根據(jù)館藏變化來及時修訂類表,并且按季度編印發(fā)行《LCC的補充和修改》,及時報道LCC類號的修訂信息。第五,其各大類分別獨立編制,出版時間和版本并不統(tǒng)一,也沒有統(tǒng)一的編制體例以及通用復分表和總索引。第六,它基本上采用的是順序標記制,故其類號簡短,但類號不能表達類目之間的等級關系,且助記性較差。第七,應用廣泛。目前,LCC號碼已被應用到美國國會圖書館發(fā)行的印刷卡片和機讀目錄,以及美、英等國出版的圖書在版編目數(shù)據(jù)中。除了美國國會圖書館以外,LCC還被美國許多高等學校圖書館、專門圖書館以及美國以外的一些國家的圖書館所采用。

1.3 CLC與LCC類目特征比較:以圖情領域為例

CLC和LCC在圖情領域的類目設置方面存在很大差異,如表1所示。

表1 CLC與LCC在圖情領域的類目設置比較

由于篇幅所限,表1中只羅列出這兩部分類法中的部分類目。在圖書館學領域,CLC羅列到四級類目,LCC只羅列到三級類目;在目錄學領域,LCC只羅列到二級類目。從表1中還可以看出,CLC與LCC在圖情領域上的類目設置有很大不同。例如,在CLC中,“圖書館事業(yè)、信息事業(yè)”是G大類下的三級類目,而應該與之對應的“Bibliography.Library Science.Information Resources”則是Z 大類,屬于一級類目。CLC與LCC在類目設置上的差異性是巨大的,從而為實現(xiàn)二者之間的映射帶來了較大挑戰(zhàn)。從整體上分析,造成這種差異性的主要原因是中外文化上的差異。CLC的類目設置相對側重于圖書整理;LCC則相對偏重于圖書館的社會性,即更側重于圖書館的利用。如果單從圖情領域的類目設置上來分析,則這種差異性主要體現(xiàn)在兩個方面。

一是對圖情學科理解的差異性。例如,LCC中的“General Bibliography”“National Bibliography”“Subject Bibliography”和“Personal Bibliography”雖然與CLC中的“G257 目錄學”有一定的關系,但是主要還是對應到CLC中“Z8 圖書報刊目錄、文摘、索引”二級類目下的“Z81/86 各種圖書目錄”“Z81 國家總目錄”“Z88專科目錄”“Z86個人著作目錄”等三級類目中。

二是設置類目等級體系的差異性。在整體結構上看,CLC將整個圖情學科設置在“G2 信息與知識傳播”之下,并將“圖書館事業(yè)、信息事業(yè)”與“新聞事業(yè)”“博物館事業(yè)”“檔案事業(yè)”等并列起來;LCC 則將“Bibliography.Library Science.Information Resources”單獨設置成Z大類。此外,CLC將“圖書館學”“情報學”“文獻學”“目錄學”等均設置為“圖書館事業(yè)、信息事業(yè)”的下位類,而將“圖書館學、情報學”與“目錄學”視作同位類;LCC 則將“Libraries”與“General Bibliography”設置為二級類目,并將兩者視為同位類,且將“Library Science.Information Science”設置為“Libraries”的下位類。

在圖情領域類目設置上,CLC與LCC存在明顯的差異,具體類目分布情況見表2。從表2中發(fā)現(xiàn),在圖情領域,CLC共有186個類目,從三級類目橫跨到七級類目。其中,五級類目和六級類目共占類目總數(shù)約78%;LCC共計有72個類目,從一級類目橫跨到五級類目。其中,三級類目、四級類目、五級類目共占類目總數(shù)約91.7%。CLC類目設置更多,而LCC的類名則相對較長一些,它通常會使用兩個及兩個以上的詞語組合作為類名。

表2 CLC與LCC在圖情領域的類目分布差異

2 基于書目記錄的類目同現(xiàn)映射方法

2.1 原理

中美兩國在文化環(huán)境、分類原則、分類等級等方面存在諸多差異,導致CLC 與LCC 在類目設置上存在著明顯的差異性。如果采取直接映射方法,則需要人工判斷類目的語義、功用等不同層面,將會耗費大量的人力成本。目前,國內(nèi)外在映射方法研究方面大多集中在間接映射方法上,但間接映射方法往往忽略類目本身的復雜語義,從而導致其映射效果不佳。本文提出了一種同現(xiàn)映射方法,該方法主要是利用已經(jīng)由國家圖書館工作人員標注好的中英文圖書的書目數(shù)據(jù),較好地實現(xiàn)了CLC與LCC的類目映射。

同現(xiàn)映射是以書目數(shù)據(jù)庫中的書目記錄作為基礎,通過統(tǒng)計同一元數(shù)據(jù)集中表達不同主題的語詞或分類號的同現(xiàn)頻次來計算語詞和分類號之間的相似度,從而實現(xiàn)類目映射。在本文中,筆者首先選用圖情領域中英文圖書的書目數(shù)據(jù)作為數(shù)據(jù)源,共計包括2506條書目記錄;然后根據(jù)這些書目記錄計算CLC 下的某一類目與LCC 下的某一類目的相似度,實現(xiàn)了CLC 與LCC 的類目映射。

2.2 具體算法

2.2.1 相似度的計算

鄭麗萍給出了如下類目相似度定義[17]:

其中,Sim(A,B)表示類目A與類目B的相關程度,其取值范圍在0和1之間;d1和d2均表示類目下的書目記錄;O1和O2均表示需要映射的分類法。當Sim(A,B)=0時,表示類目A與類目B是完全不相關的;當Sim(A,B)=1時,表示類目A與類目B是完全相同的。

具體計算相似度的方法有很多,在需要映射的兩個分類法中,利用類目下的具體書目記錄對類目間的相似度進行計算。筆者采用Jaccard系數(shù)來計算相似度。該系數(shù)的計算公式為:

2.2.2 算法步驟

根據(jù)上述計算類目間相似度的公式,可以用分類法中類目A和類目B的具體書目記錄來計算其中,P(A,B)表示一條書目記錄既屬于類目A又屬于類目B的概率;表示一條書目記錄屬于類目A但不屬于類目B的概率;表示一條書目記錄不屬于類目A卻屬于類目B的概率。

以計算P(A,B)為例,基于書目記錄的類目同現(xiàn)映射相似度計算方法如圖1所示。

圖1 基于書目記錄的類目同現(xiàn)映射相似度計算方法

具體算法主要包括6個步驟。(1)將分類法O1的書目記錄數(shù)據(jù)集U1,分成屬于類目A的數(shù)據(jù)集和不屬于類目A的數(shù)據(jù)集(2)將這兩個數(shù)據(jù)集中的書目記錄分別作為正反樣本,采用機器學習方法來進行訓練,最終得到關于類目A的學習器L。(3)將分類法O2的書目記錄數(shù)據(jù)集U2,分成屬于類目B的數(shù)據(jù)集和不屬于類目B的數(shù)據(jù)集(4)使用學習器L對數(shù)據(jù)集中的書目記錄進行分類,分成兩個數(shù)據(jù)集同樣地,將數(shù)據(jù)集分成數(shù)據(jù)集(5)將分類法O1和分類法O2的位置調(diào)換,重復上述步驟,同樣可以分成數(shù)據(jù)集和(6)根據(jù)上述結果,分別計算P(A,B),的值:

根據(jù)上述Sim(A,B)的公式,即:

計算得出類目A與類目B的相似度,再根據(jù)相似度的取值,判斷類目A與類目B能否建立映射,從而實現(xiàn)CLC與LCC之間的類目映射。

3 實驗結果

3.1 基于書目記錄的類目同現(xiàn)映射方法的應用

筆者根據(jù)上述方法,將CLC 與LCC 這兩部分類法中有關圖情領域的類目進行了映射。下面以CLC中的“G252.6 參考咨詢”類目和LCC 的“Z711-711.95 Public Services.Reference Services”類目的相似度計算為例來加以說明。首先,對CLC 中“G252.6 參考咨詢”類目的書目記錄進行樣本訓練。由書目記錄可以計算得到:再對LCC 中的“Z711-711.95 Public Services.Reference Services”類目進行分類,同樣可以計算得到:同理,可以計算得出的值。由于本例中CLC與LCC下的書目記錄個數(shù)是相同的,故N(U1)=N(U2),計算得出的值是相同的。最后,根據(jù)前文提及的相關公式,計算得到Sim(A,B)的值:

同理,可計算出其他類目之間的相似度,見表3和表4(按從高到低進行排序)。

從表3和表4看出,相似度的值存在兩極分化現(xiàn)象。在表3中,類目“G252.6參考咨詢”與類目“Z711-711.95 Public Services.Reference Services”之間相似度的值要明顯高于類目“G252.6”與其他LCC類目之間相似度的值;在表4中,類目“Z711-711.95”與類目“G252.6”及類目“G252”之間相似度的值要明顯高于類目“Z711-711.95”與其他CLC類目之間相似度的值。因此,LCC中的類目“Z711-711.95”,可與CLC中的類目“G252.6”和“G252”進行映射,并形成一對多的映射關系。從直接映射角度來看,LCC中的“Z711-711.95 Public Services.Reference Services”類目的類目名為組合類目,可將其翻譯為“公共服務和參考咨詢服務”,它可以與CLC中的“G252.6 參考咨詢”類目和“G252 信息資源服務”類目確定映射關系。通過比較“Z711-711.95”類目與“G252.0”類目、“G252.1”類目、“G252.6”類目之間的相似度大小,就可以發(fā)現(xiàn)相鄰同位類類目之間的相似度存在著明顯的區(qū)分度。因此,上述基于書目記錄來實現(xiàn)類目同現(xiàn)映射的方法是可行的,也與直接映射的結果關聯(lián)起來,映射效果較好。

表3 CLC“參考咨詢”類目與LCC部分類目間的相似度

表4 LCC“Public Services.Reference Services”類目與CLC部分類目間的相似度

雖然相似度的值存在著明顯的兩極分化現(xiàn)象,區(qū)分度較大,但是計算得出的相似度的值并不高。其主要原因有以下3 點:(1)正如上文所述,CLC與LCC類目結構的差異性較大,所以在書目記錄中,同屬于CLC 類目與LCC 類目的書目記錄數(shù)量與屬于CLC 類目但不屬于LCC 類目(或者不屬于CLC類目但屬于LCC類目)相比,相對較少;(2)類目間存在一對多的映射情況,LCC的類目名經(jīng)常由多個詞組成,導致其映射到CLC的類目上時,種類較多;(3)書目記錄中存在一些分類不合理的書目記錄,例如,將關于圖情領域的國外書籍直接分到“G259 世界各國圖書館事業(yè)、信息事業(yè)”類目下,并未對其按內(nèi)容進行分類,盡管這批書目記錄數(shù)量較小,但也在一定程度上影響了相似度的計算。

3.2 基于書目記錄的類目同現(xiàn)映射方法的結果分析

采用上述方法對CLC 與LCC 中圖情領域的類目進行同現(xiàn)映射,最終得到的部分同現(xiàn)映射結果(存在一對多的情況)如表5所示。

從表5看出,映射結果存在一部分一對多的映射情況。從實驗結果分析可知,LCC 中的“Z711-711.95 Public Services.Reference Services”類目與CLC中的“G252信息資源服務”“G252.6 參考咨詢”類目的相似度較高,且與其他CLC類目的相似度存在明顯的區(qū)分,所以判定其為一對多的映射關系。從類目名稱分析,LCC中的“Z711-711.95 Public Services.Reference Services”類目是由多個詞組成的組合類目,所以極有可能是一對多的映射關系,這與實驗結果符合。但也存在實驗結果與類目名稱分析結果不相符的情況,例如,“G255.72 微縮資料”從類目名稱分析結果上看,應與“Z691-692 Special Classes of Materials Including Manuscripts,Maps,Microforms,Serials”類目產(chǎn)生映射,但從實驗結果看并沒有(見表5),原因是“G255.72 微縮資料”的書目記錄僅有4 條,相似度較小。所以,判斷一對多的映射結果時,除了依據(jù)相似度的大小,也應對類目名稱進行分析,尤其要注意由多個詞組成的組合類目。

表5 CLC與LCC中圖情領域類目同現(xiàn)映射的結果(部分)

如果從類目名稱進行分析,并且采用人工翻譯方法來完成直接映射,則其結果與表5所示的同現(xiàn)映射結果相差不大。但是,其中的少部分映射結果會存在以下3種不足:第一,部分類目無映射,其主要原因是該類目下書目記錄數(shù)較少。例如,表5中的“Z662-664”類目下書目記錄數(shù)僅為8條;第二,部分類目映射不全,其主要原因是該類目下的書目記錄分布不均勻。例如,表5中的“Z691-692”類目,該類目下與“G255.75”類目相關聯(lián)的類目較多,而與“G255.72”類目相關聯(lián)的類目較少;第三,部分類目映射存在錯誤,主要是因為國內(nèi)圖書館在對國外圖書進行分類時,本身就存在著錯誤分類的情況。

綜上所述,從本次實驗的整體情況來看,基于書目記錄的類目同現(xiàn)映射方法可以為實現(xiàn)CLC與LCC之間的互操作提供依據(jù),還會對實現(xiàn)分類法之間的自動映射有所幫助。但是,需要特別注意的是,同現(xiàn)映射結果的好壞會嚴重依賴于書目記錄的數(shù)量和質(zhì)量。

4 結論

鑒于CLC與LCC這兩部分類法在分類角度、整體結構等方面存在著明顯的差異性,所以國內(nèi)鮮有研究CLC 與LCC 之間的映射。筆者在本文中提出了一種基于書目記錄的類目同現(xiàn)映射方法,從而實現(xiàn)了CLC 與LCC 之間的類目映射。與直接映射法相比較,筆者提出的方法不僅更加節(jié)約人工判斷所引發(fā)的成本,而且映射效果相對更好一些,可供CLC 與LCC 之間互操作的實現(xiàn)參考借鑒。同時,需要特別注意的是,該方法仍然存在兩個不足:第一,該方法依賴于書目記錄。書目記錄越多,則類目映射的效果就會越好;第二,該方法忽略了類目之間本身可能存在的語義關系,僅通過相似度來定義映射關系,顯得比較片面。因此,筆者下一步的研究打算從類目的語義層面、功用層面、書目記錄等其他多個角度出發(fā),綜合考慮類目之間的映射關系,最終建立起更加合理、更加完善的類目映射規(guī)則。

猜你喜歡
圖書館方法
圖書館
文苑(2019年20期)2019-11-16 08:52:12
學習方法
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
圖書館里的是是非非
捕魚
主站蜘蛛池模板: 日韩av手机在线| 40岁成熟女人牲交片免费| 91精品国产麻豆国产自产在线| 亚洲综合天堂网| 色哟哟色院91精品网站| 日韩成人午夜| 国产在线观看99| 99re视频在线| 亚洲免费人成影院| 操美女免费网站| 无码精品福利一区二区三区| 91 九色视频丝袜| 制服丝袜无码每日更新| 91福利免费视频| 欧美国产日韩在线| 蜜芽一区二区国产精品| 精品国产成人av免费| 麻豆a级片| 成人综合在线观看| 亚洲无码高清免费视频亚洲| 九九精品在线观看| 国产熟睡乱子伦视频网站| 国产91精品调教在线播放| 午夜啪啪福利| 亚洲午夜片| 亚洲清纯自偷自拍另类专区| 国产女人综合久久精品视| 999福利激情视频| 亚洲伦理一区二区| 人人爽人人爽人人片| 91久久大香线蕉| 国产精品视频猛进猛出| 凹凸国产分类在线观看| 在线国产综合一区二区三区| 思思99思思久久最新精品| 国产成人亚洲精品色欲AV | 久久香蕉国产线看观看精品蕉| 欧美亚洲欧美区| 亚洲精品日产精品乱码不卡| 毛片三级在线观看| h网站在线播放| 亚洲αv毛片| 久久性妇女精品免费| 欧美日韩精品在线播放| 日韩无码真实干出血视频| 亚洲色图综合在线| 国产成人啪视频一区二区三区| 国产精品99在线观看| 亚洲成人一区二区| 日韩欧美国产中文| 国产精品无码制服丝袜| 日韩小视频在线播放| 亚洲资源站av无码网址| 久久免费视频播放| 老熟妇喷水一区二区三区| 国产小视频在线高清播放| 国产美女无遮挡免费视频| 国产成人精品在线1区| 永久免费无码成人网站| 国产91九色在线播放| 欧美一级99在线观看国产| 久久毛片免费基地| 91激情视频| 一边摸一边做爽的视频17国产 | 制服丝袜国产精品| 色噜噜综合网| 丁香婷婷激情综合激情| 91综合色区亚洲熟妇p| 亚洲侵犯无码网址在线观看| 日韩成人午夜| 日本成人一区| 国产 在线视频无码| 国精品91人妻无码一区二区三区| 欧美在线精品怡红院| 天天躁狠狠躁| 成人国产免费| 试看120秒男女啪啪免费| 久久国语对白| 国产在线啪| 亚洲无限乱码一二三四区| 国产91蝌蚪窝| 国产大片喷水在线在线视频|