趙 捷 (中國科學技術信息研究所 北京 100080)
司 莉 周李梅 柴 源 鄧伊婷 (武漢大學信息管理學院 湖北 武漢 430072)
敘詞表作為信息組織的核心工具,是一種由術語與術語之間的各種關系組成的語義詞典。敘詞表自產生以來,主要用于文獻信息的主題標引與檢索,并提高了文獻檢索的查準率和查全率。現在敘詞表已經成為成熟的語義工具。在新的環境下,敘詞表的編制方法由手工轉為機器輔助,網絡敘詞表也應運而生;敘詞表被用于網絡數據庫和搜索引擎的現象已較為普遍。當前,國外有關敘詞表的編制與應用的研究成果頗豐,對我國的相關研究具有借鑒意義。
筆者調查了網上免費信息資源網站Taxonomy Warehouse[1]和國外一些收錄敘詞表的網站[2-3],共搜集了254部以英文為主的敘詞表。筆者統計并分析了其語種、編制單位、詞表結構、學科分布、載體類型等基本信息,以提供國外以英文為主的敘詞表的概況,供業界同行參考。
根據包含的敘詞的總數量可將敘詞表分為3種規模[4]:大型敘詞表(敘詞總量在10 000個及以上)、中型敘詞表(敘詞總量在1 000~10 000個之間)和小型敘詞表(敘詞總量在1 000個及以下)。在所調查的敘詞表中,大型敘詞表共62部,占總量的24.4%;中型敘詞表共119部,占總量的46.9%;小型敘詞表共73部,占總量的28.7%。
依據《中華人民共和國學科分類與代碼國家標準》(GB/T 13745-92)的相關規定,并參考侯漢清對網絡敘詞表的調查結果(即將被調查的敘詞表分為理工農醫類、人文社科類[4]),統計得出:這254部敘詞表中,理工農醫類敘詞表共126部,占總量的49.6%;人文社科類敘詞表共128部,占總量的50.4%。侯漢清調查了國內130部詞表[4],發現社會科學類占23.85%,自然科學類占58.46%,綜合科學類占17.69%。可以看出,國內自然科學類敘詞表所占比例較大,而國外理工農醫類敘詞表與人文社科類敘詞表比例相近。
通過本次調查發現:學科范圍較小的敘詞表中的敘詞量偏小,但一些復雜科學(如地球科學和生物科學)除外,如《Gale地球科學敘詞表》(Gale Earth Sciences Thesaurus)、《水產科學與漁業敘詞表》(Aquatic Sciences and Fisheries Thesaurus)的敘詞數量達百萬之多。
在所調查的敘詞表中,英文單一語種敘詞表共209部,德文單一語種敘詞表僅1部,即德國哥根廷州立大學圖書館編制的《哥廷根在線分類》(Goettinger Online-Klassifikation),其余44部為雙語或多語種敘詞表(其中43部有英文版本)。單一語種敘詞表占總數的82.7%,雙語或多語種敘詞表占總數的17.3%。除單一語種敘詞表外,其他敘詞表的語種從兩種到十幾種不等,其中,擁有語種較多的敘詞表有《多語言地質敘詞表》(Multilingual Thesaurus of Geosciences)與《職業培訓多語言敘詞表》(Multilingual Thesaurus of Vocational Training),擁有英、法、德等7種語言;《歐洲財政瀏覽器敘詞表》(European Treasury Browser Thesaurus)擁有荷蘭、英、法、意大利等13種歐洲國家語言;《亞洲蔬菜敘詞表》(Asian Vegetables Thesaurus)擁有中、英、日、泰、德等16種語言;《綜合多語言環境敘詞表》(General Multilingual Environmental Thesaurus)則擁有挪威、希臘、捷克、葡萄牙、芬蘭、法語等18種語言。
由于英語被作為全球的通用語言,并且本次調查主要以歐美國家的敘詞表為主,因此,大多數敘詞表在擁有本國語言版本的基礎上同時編制了相應的英文版,如由德國的FIZ技術公司 (Fachinformationszentrum Technik)編制的《工程管理詞庫》(Thesaurus Technik und Management),在德文版的基礎上編有英文版。此外,由機構編制的敘詞表一般均以英文版為主。例如,歐美國家的Gale公司、NASA(National Aeronautics and Space Administration,美國國家航空航天局)、English Heritage、大英博物館等機構編制的敘詞表僅有英文版本;由聯合國相關機構編制的《水產科學與漁業敘詞表》、《ENVOC多語種環境術語敘詞表》(ENVOC Multilingual Thesaurus of Environmental Terms)和《國際難民術語詞庫》(International Thesaurus of Refugee Terminology)等敘詞表,在英文版的基礎上,根據實際需要編制了相應語種的版本。

表1 敘詞表載體類型調查統計表
敘詞表的載體經歷了從印刷版到電子版再到網絡版的過程。當今,以網絡為載體的敘詞表已成為主流。一部分敘詞表在紙質版的基礎上開發了網絡版,另一部分敘詞表直接以電子版或網絡版發行(具體數據見表1)。
在所調查的254部敘詞表中,僅有印刷版的敘詞表共11部。既有印刷版、也有其他版的敘詞表有107部。例如,劍橋科學文摘(Cambridge Science Abstract, 簡稱CSA)編制的《冶金術語敘詞表》(Thesaurus of Metallurgical Terms)以印刷版為主,而《國際原子能信息系統敘詞表》(International Nuclear Information System Thesaurus)在印刷版的基礎上制作了PDF版。
以提供查詢功能的公共網站為載體的敘詞表有66部,包括《人文社科類電子敘詞表》(Humanities and Social Science Electronic Thesaurus,簡稱HASSET)、英國遺產委員會(English Heritage Commission)編制的《NMR貨船敘詞表》(National Monuments Record Cargo Thesaurus,簡稱NMR 貨船敘詞表),等等。
此外,WAND公司編制的3部敘詞表及《教育、技能和兒童服務敘詞表》(Education, Skills and Children's Services Thesaurus)為單一、特定的電子版。Gale公司的69部敘詞表均為CSV/TXT、HTML、XML格式。部分敘詞表還有RDF/SKOS(資源描述框架/簡單知識組織系統)、RDF/OWL(資源描述框架/網絡本體語言)、Word和Excel格式。由此可看出,受調查敘詞表的出版方式大多為HTML、XML和CSV/TXT。這一現象反映了敘詞表發展的網絡化趨勢。大部分編制敘詞表的機構充分利用計算機等技術,構建利于檢索的敘詞表,并對敘詞表進行全方位的改造和升級,在進行網絡化轉變的同時,注重敘詞表的界面設計。
對所調查敘詞表的編制機構進行分類統計,可將敘詞表的編制機構分為聯合國等國際機構、政府機構、公司、學術團體、圖書館、大學、個人、其他等類型。每種機構編制的敘詞表數量如圖1所示。

所調查的敘詞表中,由個人編制的為5部,由大學編制的為15部,以圖書館為單位編制的有19部,由聯合國等國際機構編制的共19部,由學術團體編制的有29部,由政府機構編制的有54部,由公司編制的有100部。敘詞表最初產生于圖書情報領域,編制方法為將自然語言轉化為受控語言。而現在的敘詞表的編制不再限于圖書館等信息機構,商業性機構所占比重較大。在所有被調查的敘詞表中,有100部是由商業機構編制的,這類敘詞表占總數的39.4%,其中Gale公司編有69部敘詞表。屬于政府機構編制的有54部敘詞表(占總數的21.3%),英國遺產委員會(English Heritage Commission)編有8部敘詞表,為政府機構中編制敘詞表數量最多的機構。聯合國等國際性機構,如國際天文協會(International Astronomical Union)、國際勞動組織(International Labour Organization)、國際原子能機構(International Atomic Energy Agency)和國際能源機構(International Energy Agency)等也編制了與自身性質相適應的敘詞表,這類敘詞表共有19部,占總量的7.5%。將敘詞表嵌入到各種商業性機構或政府機構的檢索系統中,導致其編制機構的范圍擴大,這是敘詞表編制在網絡環境下的重要特征。

多國聯合編制的敘詞表共有87部。美國獨立編制了80部敘詞表。并且美國還與其他國家合作編制敘詞表,如Gale公司是由美國牽頭的,其編制的69部敘詞表則屬于多國聯合編制,涉及天文、農業、生物、化學、通信、計算機等各種學科。由此可看出,美國在編制敘詞表領域處于牢固的領軍地位。在所調查的國家或地區中,除美國外,其它國家按所編制的敘詞表數量由高到低的順序為英國、澳大利亞、除英國之外的歐洲地區、加拿大,其編制敘詞表的數量分別是31部、21部、20部、10部。
敘詞表的結構分為宏觀結構和微觀結構,本文主要分析其微觀結構。敘詞表的微觀結構體現在詞間關系上。敘詞表中的詞間關系分為等級關系(Hierarchical relationship)、等同關系(Equivalence relationship)和相關關系(Associative relationship)。等級關系為顯示術語的上位概念和下位概念;等同關系為連接了術語的同義詞;相關關系為建立與術語相關的參照,結構較為松散。被調查的敘詞表的等級結構從2級到12級不等,其中《酒類和其他藥物敘詞表》(Alcohol and Other Drug Thesaurus,簡稱AOD)有12級。在所調查的敘詞表中,同時擁有等級關系、等同關系和相關關系的敘詞表共有215部,占到總量的84.6%。極少數敘詞表的詞間關系簡單,其主要為敘詞數量較少、非學術性的敘詞表。例如,《亞洲蔬菜敘詞表》僅以字順形式列出敘詞,詞間關系極為簡化,沒有等級關系、相關關系或等同關系。
另外,網絡環境下的敘詞表顯示方式更加立體。傳統敘詞表以字順方式排列敘詞,以“用”、“代”、“屬”、“分”、“參”等表示敘詞之間的關系,用戶查閱不便。在所調查的敘詞表中,相當一部分敘詞表中敘詞的上位詞、下位詞和相關詞都可通過超鏈接點擊查看,如《國際職業安全與健康信息中心敘詞表》(Occupational Safety and Health Thesaurus, 簡稱CIS)、《加拿大無線電視和通訊委員會敘詞表》(Canadian Radio-television and Telecommunications Commission Thesaurus,簡稱CRTC)、《弗羅里達環境網絡敘詞表》(Florida Environments Online Thesaurus)。
部分網絡敘詞表面向大眾生活和商業貿易,如《廚師敘詞表》(Cook's Thesaurus)收納了有關廚房用品的敘詞,《亞洲蔬菜敘詞表》是為了亞洲蔬菜的出口,供外貿商查詢、檢索使用。這類敘詞表不僅沒有復雜的查詢方式,且附有圖片,能夠為用戶提供直觀的瀏覽方式。可見,敘詞表的應用領域更加廣泛。
另外,當前個人編制的敘詞表成為敘詞表家族中的新成員。其主要源自于特定領域的學者或從事某項事業多年的人員自身的經驗總結。在所調查的敘詞表中,由個人編制的5部分別為《廚師敘詞表》、《藥草敘詞表》(Thesaurus for the Herb)、《寄生蟲學敘詞表》(Thesaurus of Parasitology)、《液晶研究與應用敘詞表》(Thesaurus for Liquid Crystal Research and Applications)和《哈利波特敘詞表》(Harry Potter Thesaurus)。個人編制敘詞表能夠將個人的隱性知識顯性表示,并促進個人知識的社會化。
網絡環境下,敘詞表的應用不再局限于傳統領域。聯機敘詞表是獨立于檢索系統而存在的網絡信息檢索工具,可同時供聯機編目人員和網絡信息用戶使用;網絡數據庫和搜索引擎也相繼使用敘詞表進行詞匯控制和瀏覽檢索;此外,敘詞表也被應用于本體構建等領域,充分發揮其受控詞表的優勢。
當前,本體是圖書情報領域的研究熱點。本體重在概念及其關系的體現,它在術語表中定義了一系列有關對象和關系的類,其內在的關系規則在表達不同詞匯之間的等同、從屬和相關關系的同時,也提供一種推理的機制。而敘詞表提供的術語詞匯列表及參照系統顯示出的詞間關系能夠為構建本體提供一定的基礎。因此,應充分利用敘詞表進行本體的構建,將敘詞表轉化為本體等在網絡時代知識組織系統中發揮作用。聯合國糧農組織的AOS(Agricultural Ontology Service)項目以糧農敘詞表AGROVOC為原型,構建了農業本體服務,促進了聯合國糧農組織網站的電子資源信息檢索[5-6]。有學者比較了《國家農業圖書館敘詞表》(National Agriculture Library Thesaurus)和一個“農作物-昆蟲(crop-pest)”本體在國家農業圖書館中的檢索效果,得出本體可以為領域知識提供更好的描述和基于知識描述的更深層次的邏輯推理,進而提高檢索質量[7]。
知識分類表是由等級結構和主題詞兩個基本元素組成、具有多種用途的一種知識組織工具。它的主要功能是將資源對象類聚到一個特定的知識等級。知識分類表可用于自動分類、鏈接資源、提供瀏覽等,也可用于優化檢索提問和檢索結果。利用敘詞表分類法構建知識分類表由來已久,如美國醫學協會(American Medical Association,簡稱AMA)利用MeSH(Medical Subject Headings,醫學主題詞表)建立了一個醫學知識分類表,該表在美國醫學協會網站上的應用促進了其網絡期刊文獻的獲取;Saeed和Chaudhry兩位學者用DDC(Dewey Decimal Classification,杜威十進分類法)和IEEE(Institute of Electrical and Electronics Engineers,美國電氣和電子工程師協會)網頁敘詞表建立了知識分類表[8];王紅忠等用DDC和3個敘詞表建立了機構知識分類表,這3個敘詞表分別為美國社會信息科學與技術敘詞表(American Society for Information Science and Technology,簡稱 ASIST&T)、圖書館與信息科學文摘詞表(Library and Information Science Abstracts, 簡稱LISA)及科教資源信息中心(Educational Resources Information Center, 簡稱ERIC)[9]。在構建知識分類表的過程中,敘詞表的范疇索引可以用來構建知識分類表的上位類目,其詞間等級關系可以用來確定下位類目,其詞間等同關系可以建立子目的代替關系,敘詞則可以提供子目的候選詞。
敘詞表在知識組織方面的優勢以及近年來網絡敘詞表的不斷發展,使得一些主題信息網關紛紛利用敘詞表對Web頁面和站點進行標引及檢索。例如,藝術、設計、建筑和媒介信息網關應用《Getty藝術和建筑敘詞表》(Art and Architecture Thesaurus,簡稱AAT)進行標引,社會科學信息網關應用《人文社會科學電子敘詞表》(Humanities and Social Science Electronic Thesaurus,簡稱HASSET)進行標引。敘詞表在網絡信息組織中的應用也體現為嵌入到數據庫檢索系統中,如ETOH數據庫(The Alcohol and Alcohol Problems Science Database)應用《酒類和其他藥物敘詞表》(Alcohol and Other Drug Thesaurus,簡稱AOD),使用戶可以直接選擇AOD敘詞表的敘詞進行檢索。在提高專題性或學術性網絡資源搜索引擎的查準率與查全率時,應充分認識到敘詞表的重要作用。
隨著擁有不同文化和語言背景的群體對各種信息需求量的增加,支持多語種的檢索工具變得越來越重要,多語言化成為敘詞表編制和發展的一種趨勢。敘詞表并非在編制之初就擁有多種語言版本,而是隨著信息組織的需要,通過翻譯原敘詞表的方式添加新的版本。如所調查的敘詞表中,《綜合多語言環境敘詞表》在1998年發布之初,只擁有荷蘭、芬蘭、法、德、意大利、挪威、葡萄牙、西班牙、丹麥和希臘語10種語言[10],截至2011年則發展至18種語言。《地球科學多語言敘詞表》(Multilingual Thesaurus of Geoscience)的編制委員會IUGS/COGEOINFO(International Union of Geological sciences/Commission on Management and Application of Geoscience Infomation,國際地質科學聯合會/國際地學信息管理與應用委員會)宣稱,其目標之一就是將該敘詞表翻譯為多種語言版本,目前該敘詞表已有7種語言版本[11]。
被調查的敘詞表在學科范圍、詞表結構和敘詞的選取等方面都存在著一定的差異,這些差異不利于資源的標引與共享,因此,需要實現不同敘詞表之間的兼容和互操作。在這方面的研究已取得了一些成果,如許多國家已將MeSH譯為本國語言,目前MeSH有法、德、俄、西班牙等多種語言的譯本,可建立跨語言的醫學檢索系統。另外,不同類型的數據庫使用的情報檢索語言也不同,成為了用戶在檢索某一課題時的障礙。因此,情報檢索語言之間也必須實現兼容和互換,使一個檢索式適用于多個系統。如工程索引(Engineering Index,簡稱EI)分類主題一體化詞表的應用在實質上實現了分類語言和主題語言的兼容與互換,體現了分類、主題一體化的發展趨勢。
敘詞表須使用戶易于理解,通過提供定義、范圍注釋或簡介段落提高用戶檢索的查準率與查全率。紙質版敘詞表的詞間關系顯示和術語標注都不足以幫助用戶理解。網絡環境下,敘詞表的編制和應用可以采用相應的技術實現可視化,從而提高用戶瀏覽和檢索的便利性。例如,由斯坦福大學醫學院的醫學情報學研究組開發的Protégé工具,可以用于實現詞間關系可視化。《可視化敘詞表》(Visual Thesaurus)應用輻射圖顯示相關詞匯并可以點擊查詢詞義。

在圖3中,連線顯示詞與詞之間的聯系。鼠標放置在結點,則出現方框顯示該結點下詞的解釋和相關例句。《可視化敘詞表》并非是用于信息標引和檢索的敘詞表,而是以學習工具的形式出現,但這種可視化的應用為敘詞表的未來發展提供了方向。
分面敘詞表是Aitchison等人于1969年提出的概念,表示將分面分類法和敘詞表相結合。他指出,分面在當前的背景下表示一組基本的分類及類與類之間依據一定規則的結合。每一個基本分類本身可能是一個類層次結構①,且絕大多數情況下不同的分面是相互排斥的,因此可以將不同分面中單個概念結合用以查詢或形成檢索式[12]。與傳統敘詞表相比,分面敘詞表引入了一個相當于傳統敘詞表的范疇表和詞族表功能的分面分類表,從而更系統、更明確、更完整地顯示了敘詞表中敘詞間的關系。被調查的敘詞表中,大部分含有等級關系的敘詞表的編制沒有嚴格的分面分析過程,且等級結構不能組合,因此為非分面敘詞表。一小部分敘詞表是分面敘詞表,如《酒類和其他藥物敘詞表》、《美國醫學主題詞表》、《Getty藝術和建筑敘詞表》、《UNESCO敘詞表》、《國際難民術語詞庫》,等等[12]。建立分面敘詞表既可以用于先組式系統②,也可以用于后組式系統③,從而提高信息檢索系統的查詢和瀏覽功能。
隨著新技術的出現,國外對傳統敘詞表的改進、創新和應用不斷加深。敘詞表的編制機構多樣化、數量的增長、語種的增加等,顯示了其作為成熟的語義工具依然在不斷地發展;敘詞表在本體構建、知識分類表構建、網絡信息組織優化等方面的應用,推動著其研究的深化。新環境下,敘詞表對當前的信息組織、知識組織有重大意義。國內在敘詞表理論及應用研究方面與國外存在著較大的差距。因此,加強敘詞表的理論研究和應用研究勢在必行。
注 釋:
①類層次結構是由相互有關聯的若干個類以一定的關系構成的。一個類層次結構有兩種組成成分:類和類之間的關系。
②第一代 OPAC被稱為“詞組索引或先組式系統”。
③第二代OPAC被稱為“關鍵詞或后組式系統”。這類系統采納布爾、截斷、限定(按年代、語種) 等檢索技術,而且能夠按關鍵詞作后組式檢索。
[1]Taxonomy Warehouse[EB/OL].[2011-03-15].http://www.taxonomywarehouse.com/.
[2]Thesaurus.com[EB/OL].[2011-03-15].http://thesaurus.com/Roget-Alpha-Index.html.
[3]Visualthesaurus[EB/OL].[2011-03-15].http://www.visualthesaurus.com/.
[4]侯漢清.網絡時代的情報檢索語言:進展及熱點[EB/OL].[2011-03-15].http://wenku.baidu.com/view/b42aed6eb84ae45c3b358c3b.html.
[5]Eriksen L.From Thesaurus to Ontology: From AGROVOC to the Agricultural Ontology Service (AOS)[J].Synopsis, 2003 (1): 17-20.
[6]聯合國糧農組織AOS項目[EB/OL].[2011-03-15].http://www.fao.org/fishery/topic/18046/en.
[7]Soonho K, Howard W B.A practical Comparison Between Thesaurus and Ontology Techniques as a Basis for Search Improvement[J].Journal of Agricultural & Food Information,2006 (4) :23-42.
[8]Saeed H, Chaudhry A S.Using Dewey Decimal Classification Scheme(DDC) for Building Taxonomies for Knowledge Organization[J].Journal of Documentation,2002 (5):575-583.
[9]Wang Zhonghong, Chaudhry A S, Christopher S G K.Using Classification Schemes and Thesauri to Build an Organizational Taxonomy for Organizing Content and Aiding Navigation[J].Journal of Documentation, 2008 (6): 842-876.
[10]General Multilingual Environmental Thesaurus [EB/OL].[2011-03-15].http://uta.iia.cnr.it/GEMET.htm.
[11]Multilingual Thesaurus of Geoscience[EB/OL].[2011-03-15].http://www.cgi-iugs.org/docs/Multilingual_thesaurus_of_geoscience.pdf.
[12]Tudhope D, Binding C.Faceted Thesauri[J].Axiomathes, 2008 (18):211-222.