余豐民



摘 要:通過1980年~2003年和2004年~2011年兩個時間段的詞頻統計與可視化知識圖譜等方法的比較分析與研究,展現了國內主題詞表研究領域的熱點和趨勢,認為:國內對主題詞表的研究內容在時間上有明顯的分界線、研究趨勢展現了知識組織的演化過程、主題詞表基于語義描述語言的本體轉換是目前學界研究的熱點和未來研究的趨勢。
關鍵詞:主題詞表;詞頻統計;知識圖譜;研究熱點;研究趨勢
Abstract:Based on word frequency statistics and visualization of knowledge mapping and other methods of comparative analysis and research in two periods of 1980—2003 and 2004—2011, the article shows the areas of research focus and trends of Thesaurus in China. That is: there is a clear dividing line in two periods, and trends show that the evolution process of knowledge organization system, Thesaurus based on semantic description language ontology conversion is currently a focus of academic research and future research trends.
Keywords:Thesaurus; Word Frequency Statistics;Knowledge Mapping;Research Focus;Research Trends
1引言
主題詞表(敘詞表)是一種情報檢索語言,它在早期情報檢索和知識組織中發揮著非常重要的作用。早在1876年,美國圖書館學家卡特發表了他的《字典式目錄條例》 [1]。而隨著計算機技術的發展,主題詞表的功能也發生了相應的變化。另外,不斷更新的網絡技術,以及語義網等概念的技術實現,也為主題詞表的發展注入了活力。
國內主題詞表研究雖然起步較晚,但從《漢語主題詞表》的問世,到《中國分類主題詞表》的出版,均取得了卓越的成就。國內的研究主要集中在主題詞表的介紹、評價、編制、修訂、標引方法、應用及分類主題一體化等領域[2][3][4],另外,隨著計算機網絡技術的發展,各類詞表被大量應用到了信息檢索技術、知識組織與管理等領域之中[5][6]。
那么,這些年來國內對主題詞表的研究都觸及了哪些主題?其研究的趨勢和熱點又在哪里?本文試圖通過對發表在期刊上的學術論文進行研究,旨在為該領域同行了解和掌握研究方向提供些許幫助。
2樣本獲取與研究方法
2.1樣本獲取方法。本文獲取數據樣本的方法是:在 “中國學術期刊網絡出版總庫”中,用關鍵詞“主題詞表 OR 敘詞表”,檢索出1980年~2011年間發表在“核心期刊”上的論文,因為《中文核心期刊要目總覽》第一版在1992年才出版,上述檢索結果僅命中了1992年~2011年數據;因此,作者又補充了1980年~1991年的相關主題數據。經過人工篩選,最后,獲得樣本數為480篇(檢索日期:2012年2月12日)。
2.2研究方法。本文主要應用文獻計量學領域的詞頻統計方法和基于共詞的可視化知識圖譜方法。
通過關鍵詞詞頻的動態統計與分析,可以反映出某時間段內研究主題的動態變化過程,如高頻關鍵詞的發展期、高峰期及衰退期等。詞共現(共詞)分析方法最早是在1986年由法國文獻計量學家M.Callon等學者提出的[7]。在詞共現分析方法的基礎之上,我們可以運用社會網絡分析方法及軟件(如Pajek),繪制出各主題之間的相互聯系的學科知識圖譜。
3 研究結果
3.1歷年論文發表情況
對480篇論文進行按年度統計,見圖1。由圖1可以發現,論文數量基本上呈上升趨勢:1980年~2003年為緩慢上升階段,但1994年和1999年均有突出表現;2003年以后,呈現出了快速發展的態勢。究其原因,一方面,隨著計算機技術的發展,出現了諸如本體等語義網概念的應用研究,使得主題詞表研究重新得到了重視;另一方面,有關主題詞表的研究得到了更多的基金資助,2004年以前,僅有8篇資助論文,而2004年及以后,資助論文達113篇,尤其是近兩年,基金資助論文比例均達50%以上。
3.2基于關鍵詞詞頻統計。根據上述480篇論文的研究主題(關鍵詞),我們可以通過關鍵詞詞頻統計及共現計算來分析國內主題詞表研究的熱點與趨勢。由于有些論文發表年代尚早,作者沒有給出關鍵詞,因此筆者對這一部分關鍵詞進行了人工補充;同時,為了集中主題,對一些一義多詞的主要關鍵詞進行了修正,如將“《中國圖書館圖書分類法》”統一簡稱為“《中圖法》”,將“語義WEB”統一改為“語義網”,將“敘詞表”統稱為“主題詞表”,等。這樣,我們一共可以獲得893個(1827個次)關鍵詞,篇均關鍵詞約3.8個。
為了便于比較,本文擬把1980年~2011年劃分為兩個時段:1980年~2003年和2004年~2011年。之所以這么劃分,一方面,是因為從圖1中可以發現,2003年以后,研究“主題詞表”的論文數量增速較快;另一方面,“本體”、“語義網”、“知識組織系統”等新詞匯在樣本數據中均在2004年才出現;另外,兩時段的論文數量也大致相當(分別是220篇和260篇),更具有可比性。表1列出了1980年~2011年高頻關鍵詞;表2列出了2004年~2011年新出現的關鍵詞;表3列出了2004年~2011年消失最快的關鍵詞。
在表1中,可以發現,除“主題詞表”本身外,“本體”、“《中國分類主題詞表》”、“《漢語主題詞表》”、“主題標引”等關鍵詞是總頻次最多的,表明了國內對“主題詞表”研究的熱點所在。從關鍵詞數量上統計,1980年~2003年頻次在3次及以上的關鍵詞有41個,2004年~2011年有64個,增幅達56.1%,而兩時段論文數量增長僅為18%,這從某種意義上說明了后一時段比前一時段研究范圍的擴大和研究內容的深入。
表2中的新詞基本上屬于“語義網”的范疇:本體是語義網的核心概念[8];SKOS(簡約知識組織系統)、OWL、主題圖等都是語義描述語言;Protégé是用于構建本體的軟件工具;與“本體”直接相關的關鍵詞有4個(領域本體、本體構建、分布式本體、中文敘詞表本體)。
在表3中,還可以發現,某些主題的研究正在逐漸縮減,有的甚至已經消失了。如,“自動標引”、“主題法”、“文獻標引”、“檢索語言”、“情報檢索系統”、“情報檢索”、“信息檢索系統”等關鍵詞詞頻均出現了不同程度的下降。而像“分類主題一體化”研究,在后一時段內已經完全消失了。
3.3基于關鍵詞共現的可視化知識圖譜分析。為了與關鍵詞詞頻統計相一致,我們在這里也對兩個時間段進行對比分析,利用Pajek軟件分別繪制出了兩個時段的知識圖譜,見圖2、圖3。在圖中,頂點大小表示關鍵詞詞頻的高低,連線粗細表示兩個關鍵詞同時出現在一篇論文中(共現)次數的多少。
從圖2中可以看出,圍繞主題詞表的“詞表編制”是1998年~2003年研究的焦點(連線最粗);“分類主題一體化”研究及其成果《中國分類主題詞表》的修訂與主題標引,也是該段時間研究的熱點所在。在圖3中主題詞表轉換成本體的研究無疑是2004年~2011年研究的焦點(連線最粗);以本體為核心的語義網環境下的知識組織系統研究,特別是用語義描述語言SKOS(簡約知識組織系統)的應用研究,在圖中非常搶眼;盡管,在這個時段,“分類主題一體化”這個關鍵詞消失了,但有關分類法與主題法及《中國分類主題詞表》的研究還是吸引了不少學者。
除了有更多的熱點顯現外,圖3與圖2相比,各關鍵詞之間的關系更加緊密了,知識圖譜的網絡顯得更加復雜了。另外,從圖譜的結構上看,圖2僅有一個中心,而圖3已經形成了“雙輪驅動”模式[9]。
4結論
從上世紀七八十年代開始,國內圖書情報界及相關研究領域學者就進行了主題詞表的研制工作,從研究主題的知識圖譜來看,其研究熱點主要涉及“漢語主題詞表”、“分類主題一體化研究”、“中國分類主題詞表”、“分類敘詞表”、“語義描述語言”、“語義網”、“本體”等重要事物和概念。這些事物和概念把國內有關主題詞表研究的過程串聯在了一起。經過以上分析與研究,我們可以大致得出以下結論:在整個時間段上,其研究熱點有著明顯的分界線(2003年~2004年);其研究趨勢基本展現了知識組織由手工階段向自動化、網絡化階段的演化過程;主題詞表基于語義描述語言的本體轉換是未來研究的發展趨勢。
參考文獻:
[1] 戴淑娟.藝術科學領域的新型標識系統——《藝術科學敘詞表》[J].圖書館論壇,1993(6):56~68.
[2] 黎盛榮.《漢語主題詞表》評介[J]. 圖書館工作與研究,1981(1):17~21.
[3] 王源,陳長旭.《漢語主題詞表》簡評[J]. 情報學刊,1983(1):86~91.
[4] 王金夫.《漢語主題詞表》概說[J]. 圖書館雜志,1986(2):32~34.
[5] 劉春艷,曾錦丹,李佳軍.語義WEB環境下知識組織體系SKOS應用研究[J].圖書情報工作,2006,50(6):23~27.
[6] 段榮婷.基于簡約知識組織系統的主題詞表語義網絡化研究——以《中國檔案主題詞表》為例[J].中國圖書館學報,2011,37(3):54~65.
[7] Callon M, Law J, Rip A. Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World [M]. London: Macmillan, 1986: 225~226.
[8] 唐靜.敘詞表轉換為ontology的研究[J]信息系統,2004(6):642~645.
[9] 湯建民. 學術研究團隊的可視化識別及評估方法研究:以科學學研究領域為例[J].情報學報, 2010(2):323—330.
(作者單位:浙江樹人大學科學計量學研究中心來稿日期:2012—08—20)