受控詞表索引的一致性概述

2017-11-25 05:42:32朱秋霞

長江叢刊 2017年7期

朱秋霞

受控詞表索引的一致性概述

朱秋霞

通過對期刊論文使用受控詞表研究，用于檢查取得敘詞列表的穩定性是否高于或等于標準主題分類詞匯表和擴充主題分類詞匯表的一致性。用圖書情報學的專業方法,建立敘詞列表和標準主題分類詞匯表和擴充主題分類詞匯表（所有的敘詞都做了范圍注釋）的等價關系。Hooper的研究會發現索引新手和引用專家之間的一致性。在這兩個群體中的敘詞列表更好反映了的索引的一致性，但需要更多的研究。

受控詞表主題詞表

在組織和檢索信息的過程，受控詞越來越重要。在這一領域中做出最重要貢獻的是吉爾?萊瓦，此領域內很多貢獻都是來自他。第一次貢獻的是Charles Ammi Cutter 1876年出版了著名的《Rules for a printed dictionary catalog》[1]。這一本關于規則的書對現在仍有影響，例如經濟原理，對主題詞的使用都有定義，使用的地點，方式，主題詞的同義詞和反義詞重現，同音異義的問題，主題詞的結構（簡單和復雜），詞語倒置，語法（See, See also, etc.)，標點符號（逗號，括號等）。

第二個貢獻是構建主題詞列表。Cutter發表了他的作品后不久，美國圖書館協會（ALA）在1895年出版了《List of Subject Headings for Use in Dictionary Catalogs》，為沒有專業館藏的中小型圖書館提供了標引工具。1909年，首次出版的《Subject Headings Used in the Dictionary Catalogs of the Library of Congress》主要參考了上述文獻[2]。雖然曾為美國國會圖書館的編目員內部使用，但它很快成為用于大型公共圖書館和大學圖書館的索引參考工具，它被翻譯成其他語言，完全或部分應用于其他的國家，例如，巴西（1948年），加拿大（1967年），希臘（1978年），南非（1992年）和埃及（1995年）等等。

第三個貢獻是來自Mooers，在20世紀50年代開始引進“主題詞”的想法，所以長時間在文檔中做特定術語的使用，在信息檢索方面作特定主題信息。隨后是構建了第一個敘詞表和第一個主題詞表，如杜邦主題詞表（工程信息中心Du Dupont 1959），ASTIA主題分類詞表（美國國防部，1960），化學工程主題分類詞表（美國化學協會，1961年）等等。

第四個貢獻是國家和國際準則條例。此領域起源于法國，1957年法國AFNOR?44-070提出了Catalogue alphabétique de matières，為建立和提供的主題詞的選擇和編排規則做出貢獻。規范敘詞表是法國的AFNOR Z 47-100-1973（標準檢驗。Regles的ETABLISSEMENT敘詞表monolingues），ISO 2788-1974（文檔編目，單語敘詞表的建立和發展指南）和ANSI Z39.19-1974（美國國家主題詞結構，構造和使用標準指南）。此后，其他國家和ISO本身都在致力于擴展此項標準,直到ISO 2788-1986 和 ISO 5964-1985統一成新的ISO/DIS 25964-1:2010（信息和文獻--敘詞表和其他詞匯互操作性的統一（第1部分：用于信息檢索的敘詞表，第2部分：與其他詞匯的互操作性）。

在此領域內，專業人員和研究人員非常重視受控詞的評定問題。可以根據分析的目的和受控詞表本身進行評定，從而研究它們的結構，專題領域或方面，范圍注釋，語義關系，特異性程度等（內部評估），或研究索引和檢索的使用對信息系統的影響（外部評價）。

在Cranfield項目中Cleverdon第一次引入評估（1956年，1960年等）。Cleverdon比較了一般的十進制分類法，按字母順序排列的主題索引，刻面分類法體制，和由三個索引器分析18000文檔的單元詞索引之間的效率。對評定限定詞匯，標題和主題詞表有許多不同的后續研究。例如，菲德爾? 亨茨勒（1978年）（1991年和1992年），Betts和Marrable（1991），里貝羅（1996年），吉爾Urdiciaín（1998年）和格羅斯和泰勒（2005年），他們對自然語言和限定語言在索引和檢索文件的優點和缺點做出研究。

評定受控詞的另一種方法是與主題詞相互比較。Kishida等研究者在1988年比較了MeSH（醫學主題詞表），的ERIC主題詞表，INSPEC和主題詞根表等等，并作為他們引用，構建信息的準則。與此相反，溫伯格和Cunningham（1985）研究的語義接近MeSH 和 Medline所研究的范疇，而Pozhariskii（1982）提出了量化的能力或語義強度在主題詞表方面的靈活性，經濟性和普遍性。此外，拉爾森（1988年）分析了主題詞表在索引某一館藏文獻是發揮的力量。Soler Monreal（2009）評三大受控詞表（敘詞列表，標準的主題詞表和擴充主題詞表，所有的敘詞進行范圍注釋），如果敘詞列表獲得一致性的分數高于標準主題詞表和擴充主題詞表，則敘詞列表勝出。

索引的一致性，可以為研究一個或幾個索引作為參考。當一個專業的指標相同的文件在不同的時刻，我們講的是內部一致性或索引器內部的一致性。當比較幾個人索引一個文件的結果或者比較兩個索引器索引一個文件的結果是時，我們講的是索引間的一致性或索引器間的一致性。

自20世紀60年代以來，對索引的一致性已開展了多種多樣的調查。從這些測試中可以得出的主要結論是不一致性是是索引的固有特征，而不是偶然的異常。雖然他們進行的測試的方法有很大不同，但是我們可以說，實現索引的一致性范圍大約是10%至60%。從1960年到現在為止，因為使用的測試方法的多樣性，所以大量進行實驗不能同質化。在以后的研究發現中,我們會找出更多阻礙他們的同質化的變量和測試能夠進行的樣品。

[1]Bertrand,A. & Cellier, J.M.Psychological approach to indexing: effects of the operartor’s expertise upon indexing behaviour[J]. Journal of Information Science, 1995,21(6):459~472.

[2]Fidel, R.Who needs controlled vocabulary?[J].Special Libraries,1992:83(1):1~9.

（作者單位：武警警種學院）

朱秋霞（1988-），女，河南周口人，碩士，助理館員，研究方向：圖書館信息化建設。