●鐘秋原 司 莉
(武漢大學 武漢 430072)
?
【資源·共享】
多語言知識組織系統互操作方法研究
●鐘秋原司莉
(武漢大學武漢430072)
[摘要]在已有的知識組織系統互操作的研究背景下,從多語言的角度分析了多語言知識組織系統互操作中存在的三種語言障礙:語種障礙、語義障礙及概念缺失,并結合這些障礙對多語言環境下實現知識組織系統的互操作提出建議:先選擇語種并進行正確翻譯,再結合映射和中介詞典這兩種方法實現互操作。參考文獻12。
[關鍵詞]多語言知識組織系統互操作
1研究背景
知識組織系統是人類用來表達、組織人類知識的各種語義工具的統稱,可以幫助人們更好地理解、獲取各類知識。據已有研究,知識組織系統按其結構、功能及對概念關系的揭示程度,可分為三類[1-2]:
第一,詞匯列表(term lists):規范文檔(authority files)、術語表(glossaries)、地名辭典(gazetteers)、字典(dictionaries);第二,分類與歸類(classifications and categories):系統分類表(classification schemes)、歸類表(categorization schemes)、知識分類表(taxonomies);第三,關系列表( relationship lists):敘詞表(thesauri)、語義網(semantic networks)、知識本體(ontology)。筆者認為標題表(subject headings)應歸入到關系列表這一類。
知識組織系統互操作是指不同知識組織系統之間的兼容互換,即在不同的分類表、敘詞表、本體等知識組織工具中實現兼容互換[3]。在目前國內外已開展的43項知識組織系統互操作研究計劃中,有19項互操作研究項目涉及兩種以上的語言,占互操作研究項目的44.2%[4]。在上述19項項目中,互操作的實現主要采用了以下方法:映射,如建立《中國農業敘詞表》與AGROVOC多語言敘詞表之間的映射;翻譯/轉譯,如對MeSH(美國國家醫學圖書館標題表)進行翻譯;創建多語言敘詞表,如GEMET項目創建的通用環境多語言敘詞表;轉換/中介詞典,如Renardus以DDC作為中介詞典,將參與該項目的各信息機構所使用的分類法映射到DDC上;元敘詞表,如一體化醫學語言系統項目(UMLS),廣泛收錄生物醫學概念、術語,并通過語義網絡建立概念及術語間的關系;連接,如MACS項目,在德語(SWD)、英語(LCSH)、法語(RAMEAU)三種不同語言的標題表之間,建立標題詞的對等連接關系,并存儲進連接資料庫,實現跨語言檢索。這些多語言知識組織系統互操作計劃與項目為我們開展本研究提供了借鑒。
2多語言知識組織系統互操作存在的主要障礙
語言障礙是實現多語言知識組織系統互操作的主要障礙。在互操作時,需要明確不同語種的各種概念的內涵和外延。首先不同語種間要進行翻譯與轉換;其次,語言中一詞多義的現象以及對事物認知的不同使得不同語種的知識組織系統中所包含的概念在內涵和外延上不一定完全等同;再次,由于思想文化的差異,在某一知識組織系統中存在的概念在另一個知識組織系統中可能并不存在,即知識組織系統中概念的缺失。
2.1語種障礙
不同語言之間進行知識組織系統互操作時,會產生翻譯和理解上的困難,涉及的語種越多,翻譯中遇到的困難就越多。如CARMEN、Polish Project、Merimee、CAT/AGROVOC、SAB/DDC等多語言知識組織系統互操作研究計劃只涉及兩種語言,在語言的轉換上只需轉換一次即可,但在HEREIN、MACS、Renardus等互操作研究計劃中均含有3種及其以上的語言,AGROVOC和GEMET項目中則分別涉及16種和22種語言,語種種類的多樣為知識組織系統之間語言的翻譯、轉換增加了困難。
2.2詞義障礙
(1)一詞多義。一詞多義是各種語言中普遍存在的現象,某個詞在不同的語言環境下存在特別的意義。如漢語中“本體”一詞,翻譯成英語為“ontology”,但它既可以指哲學領域中的本體論,也可以指信息科學中的本體,兩個概念是有所區別的。在知識組織系統中如果不能正確判斷多義詞的詞義,就無法準確把握詞匯表中的概念,不利于互操作的實現。
(2)概念外延的不同。這種不同在分類法中具體體現為類名涵蓋范圍的不一致。如《日本十進分類法》和《中圖法》的大類中,都含有綜合性圖書一類。兩部分類法的綜合性圖書類下都包括了叢書、百科全書、論文集、選集、年鑒、連續性出版物等類目,但《日本十進分類法》中還將圖書館學、新聞學、書目學包含其中。
2.3概念缺失
知識組織系統能反映出知識的特點,這種知識文化的差異在此也能得到體現,其具體表現為在某種語言的知識組織系統中存在概念缺失的現象。筆者以圖書館分類法為例,選擇了分別使用英語、日語、漢語三種不同語言的《美國國會圖書館分類法》、《日本十進分類法》與《中國圖書館分類法》在哲學類下的倫理學類進行比較,比較結果如表1[5-7]:

表1 《中圖法》與《NDC》、《LCC》倫理學類目對照表
表1中首先列出《中圖法》中倫理學類下的相關類目,再將《日本十進分類法》與《美國國會圖書館分類法》中與之相應的倫理學類目列于其后,僅在某一分類法中存在的類目則單獨列出。類目對照結果顯示,《中圖法》中的倫理學類目在《日本十進分類法》和《美國國會圖書館分類法》中可找到相關類目對應。三種分類法中僅存在于某一分類法中的類目為《日本十進分類法》中的156武士道和157報德教、石門心學兩個類目以及《美國國會圖書館分類法》中的BJ1298-1335 Evolutionary and genetic ethics(進化倫理學、基因倫理學)、BJ1392 Totalitarian ethics(極權主義倫理)和BJ1395 Feminist ethics(女性倫理學)三個類目。該結果體現了三個國家的文化差異。武士道精神,報德教、石門心學都是源于日本的主流思想文化,因此,較其他國家而言,日本對該類文化的記載、研究更多,在分類法中則單獨列類;而在中國與美國,該類文化并非其主流,相關文獻則分散在日本文化或日本歷史等類目中,從而造成類目的缺失。在《美國國會圖書館分類法》中單列出的倫理學類目Evolutionary and genetic ethics(進化倫理學、基因倫理學)、Totalitarian ethics(極權主義倫理)和Feminist ethics(女性倫理學)也屬此種情況。
3多語言知識組織系統互操作的實現
3.1選用一種語言作為各語種轉換的標準
互操作過程中,當語種只涉及兩三種的時候,可以做到相互翻譯。但當涉及的語種數量較多時,就需要以一種語言作為轉換標準,翻譯時進行一次語言轉換即可。選擇語言時,既要考慮到各知識組織系統的語種情況,也要考慮該語言的應用范圍。若在進行互操作的多個知識組織系統中,以某種語言為主,則可選擇該語言作為標準。若各知識組織系統使用的語言種類零散,其語言選擇過程可經過以下兩個步驟:首先,確定需要進行互操作的知識組織系統使用了哪幾種語言;其次將知識組織系統所使用的語言和各種語言的使用情況相結合,對語言進行選擇。喬治·韋伯曾對世界各種語言的使用情況進行排名,按使用國家數目,其排名如下[8]:
由表2可以看出,英語是使用國家數目最多的語種,而在已有的19項多語言知識組織系統互操作研究計劃中均涉及英語。結合語言的實際使用情況和在知識組織系統中的運用,在包含有英語的多語言知識組織系統互操作中,可以選擇英語作為各語種的轉換標準。若參與互操作的知識組織系統中不包含英語,則可在知識組織系統使用的所有語種中選擇使用國家數目較多的語種作為轉換標準。

表2 語種排名
3.2以直接映射的方式實現互操作
直接映射的基本思想是:先確定不同分類法類目映射時存在的概念關系,再由專家判斷分類法類目之間的關系,并以二維表或其他格式保存[9]。在多語言知識組織系統互操作中,由于存在詞義障礙,需對不同語言的知識組織系統中的概念內涵和外延有準確的理解。在已有的對術語映射的研究中,基于詞形、結構、語義三個層次實現詞表映射,代表了當前術語映射實現的主流思想[10]。多語言環境下,詞形存在的差異較大,可以結合結構和語義兩個層次理解概念的內涵。在建立不同詞匯之間的對等關系過程中,可在結構上先縮小詞義范圍,再借助各類專業詞典確定該詞在概念中的確切含義。縮小詞義范圍的步驟如下:首先確定該概念所屬的專業領域,確定后再根據其類目等級、屬種關系逐層縮小詞義范圍,直至能選擇出恰當的詞義為止。在概念的外延上,不同的知識組織系統之間如有差異,可以對有差異的部分所屬的專業領域進行比較,判斷能否在其它概念外延上重合。
3.3以中介詞典的方式實現互操作
在已有的多語言知識組織系統互操作項目中,映射作為實現互操作的一種常用方法,在其他互操作方法如中介詞典、元敘詞表、多語言敘詞表中也有體現。在進行互操作的知識組織系統的數量較多的情況下,可以選擇具有代表性的知識組織系統作為中介詞典,并與映射方法相結合,以減少互操作過程中的復雜性。選擇中介詞典時應考慮到被選知識組織系統的應用范圍,其應用范圍越廣,互操作成果的使用范圍也就越廣。《杜威十進分類法》(DDC)是國際范圍內使用最為廣泛的通用分類法。在國外許多不同分類語言互操作項目中,均選擇DDC作為中介詞典進行映射,其互操作項目一般分為通用分類法與國家分類法、學科分類法分別映射的互操作[11]。Renardus項目就是以DDC作為不同分類法的交換語言,將其他分類法作單向映射,由此實現互操作。在國內,《中國圖書館分類法》是使用最廣的分類法,因此,也有研究提出以《中圖法》電子版為核心,編制一個國內外分類法對應兼容系統[12]。
選定作為中介詞典的知識組織系統后,可將其作為一個詞匯控制的標準,與其它參與互操作的知識組織系統對照,若其它知識組織系統中存在的概念在作為中介詞典的知識組織系統中有缺失,則可根據與該概念相關文獻的多少以及應用范圍的大小決定是將該概念增補進選定的知識組織系統中還是將該概念映射到與其相關的外延更大的類中。
4結語
筆者就如何實現多語言知識組織系統互操作這一問題分析了互操作過程中在語言方面存在的三個障礙:語種障礙、語義障礙、概念缺失。結合這三種語言障礙提出了多語言知識組織系統互操作的建議,即在多語言知識組織系統的互操作中選擇一種語言作為語種轉換標準,再結合映射和中介詞典這兩種互操作方法使之得以實現。但研究中還存有不足之處:研究中對異構的知識組織系統間的互操作缺少分析,如分類法與敘詞表等不同結構的知識組織系統在多語言環境下進行互操作時,除了語言因素外,對是否需要優先考慮以某種結構的知識組織系統作為中介詞典等問題還需進一步探討。
參考文獻
[1]李育嫦.網絡數字環境下知識組織體系的發展現狀及未來趨勢[J].情報資料工作,2009(2):45-48.
[2]張劍,宋文.數字圖書館的知識組織系統[J].圖書館理論與實踐,2005(5):11-12.
[3]王景俠.知識組織的工具及其語義互操作方法體系[J].數字圖書館論壇,2013(5):41-45.
[4][11]胡濱,吳雯娜.國內外知識組織系統互操作模式及方法研究[J].情報科學,2012(9):1291-1297.
[5]中圖分類號查詢[EB/OL].http://ztflh.jourserv.com/html/645.html.[2015-03-20].
[6]日本十進分類法[EB/OL].http://ja.wikipedia.org/wiki/日本十進分類法.[2015-03-20].
[7]LIBRARY OF CONGRESS CLASSIFICATION OUTLINE[EB/OL]. http://www.loc.gov/aba/cataloging/classification/lcco/lcco_b.pdf.[2015-03-20].
[8]George Weber. Top Languages: The World’s 10 Most Influential Languages[J]. Language Today,1997(2).
[9]戴劍波,侯漢清.圖書分類法映射系統設計原理——以《中國圖書館分類法》和《杜威十進分類法》為例[J].情報學報,2005(3):229-303.
[10]薛春香,喬曉東,朱禮軍.KOS互操作中的術語映射研究綜述[J].現代圖書情報技術,2010(2):31-36.
[12]賀定安.建立以《中圖法》電子版為核心的國內外分類法兼容系統[J].圖書館,2003(6):31-33.
(劉平編發)
Research on the Methods to Realize the Interoperability of Multilingual Knowledge Organization Systems
Zhong Qiuyuan Si Li
(Wuhan University, Wuhan, Hubei 430072, China)
AbstractUnder the background of the existing research on the interoperability of knowledge organization systems, the thesis analyzed three kinds of obstacles from the perspective of multilingual:the obstacle from the different kinds of language, semantic and the omission of concept, and then made some suggestions on the realization of the interoperability: first, choosing a kind of language; second, giving an accurate translation; third, using mapping and intermediary dictionary methods to realize the interoperability. 12 refs.
KeywordsMultilingual. Knowledge organization system. Interoperability.
[中圖法分類號]G250.7
[文獻標識碼]A
[文章編號]1003-7845(2016)03-0043-04
[作者簡介]鐘秋原,武漢大學信息管理學院碩士研究生;司莉, 教授,現在武漢大學信息管理學院工作。
[收稿日期]2015-05-22