[摘 要]利用文獻計量學方法,對關鍵詞檢索文獻出現的數量上特征,通過列表進行分析,得出關鍵詞檢索具有專指性#65380;結合性與層次性以及層次性分離的特性,形成對關鍵詞檢索的認識,對標引與檢索文獻以及日后的研究具有積極意義#65377;
[關鍵詞]關鍵詞;檢索特性;統計分析
[中圖分類號]G254.23 [文獻標識碼]A [文章編號]1008-0821(2010)03-0019-03
Keyword Retrieval Feature Analysis of MetrologyKong Li1 Ma Shasha2
(1.Library,Shandong University of Science Technology,Jinan 250031,China;
2.The Documentation and Information Search Instisute,Shandong University of Science Technology,
Qingdao 266510,China)
[Abstract]The use of bibliometric methods,the number of keyword search on the characteristics of literature emerged,through the analysis of the list obtained with the specificity of a keyword search,combined with special and hierarchy as well as the level of separation characteristics of the formation of pairs of keyword search of the understanding,indexing and retrieval of literature and future research has positive significance.
[Key words]keyword;retrieval feature;statistical analysis
當今,網絡檢索文獻最常用的檢索方式之一就是關鍵詞匹配檢索和內容分類檢索,關鍵詞檢索是一種直接使用自然語言的方法#65377;機檢中,關鍵詞對表征文獻的主題內容具有實質意義,但在處理的結果上沒有語義上的層次性,所以檢索結果的精度不高#65377;另外,由于文獻主題的構成及層次形成了關鍵詞標引及檢索呈現各種特點,檢索結果質量如何,與關鍵詞的選擇十分密切,從而對文獻檢索的效率產生影響,因此,研究關鍵詞檢索的特性,能幫助我們找出一種恰當的檢索方法檢索文獻,提高檢索效率具有積極的作用#65377;
本文利用計量學方法,對關鍵詞檢出的文獻所呈現的某些關鍵詞現象的數量為基礎,推斷出關鍵詞的檢索特性,使標引與檢索關鍵詞時具有針對性#65380;準確性#65377;
1 單個關鍵詞檢索的專指性特點
本文以《中國學術期刊網》為統計源,運用計量學的詞頻方法,以詞的檢索數量及詞頻分析其特性#65377;
檢索提問:噪聲 噪聲控制 有源噪聲控制
從這3個關鍵詞來看,在未偏離主題范圍基本方向的前提下,其專指度逐漸增強,對這3個關鍵詞分別進行檢索,時間為2006-2008年3年,由于“振動噪聲”屬于TB大類,分類上按照TB大類確定年文獻量#65377;
檢索結果如表1:(年代旁邊的數為TB大類1年的文獻量)
表1 檢索結果
關鍵詞2006(13 176)2007(15 378)2008(18 664)次數詞頻次數詞頻次數詞頻噪聲3 11923.673 537233 40418.23噪聲控制1861.42181.41730.93有源噪聲控制1290.981570.11300.7
從此表可看出:
(1)“噪聲”#65380;“噪聲控制”#65380;“有源噪聲控制”的專指度是逐漸遞增的,其檢索的結果是逐漸遞減的,說明關鍵詞的檢索與其專指度有關#65377;
(2)從有關噪聲的詞頻來看,專指度相對低的詞,詞頻越高#65377;說明其在文本中的出現的頻率越高,檢全率就高#65377;
以上分析可以得出:單個關鍵詞檢索,限定詞語越多,檢全率越低,增加和減少關鍵詞的限定,都會影響檢索的質量#65377;因此,專指性是關鍵詞的主要特性#65377;
2 多關鍵詞的結合性#65380;層次性特點
關鍵詞在標引與檢索時,在認知層次上存在著較大的差異,其思維最明顯的不同是,標引時對研究對象的認知是確定的,而檢索時,由于很多信息對檢索者來說是未知的,所以對研究對象的認知是不確定的,當檢索者確定的檢索提問是事物本身的方面或事物與其他事物的關系時,關鍵詞之間呈現出結合性#65380;層次性特點#65377;如:
[題 名]:基于重要句群檢索性能比較研究
[關鍵詞]:重要句群;檢索性能;檢索評價;文獻檢索;比較研究#65377;
重要句群為核心關鍵詞,檢索性能#65380;檢索評價則是重要句群這一核心關鍵詞的某一方面,它們之間存在著主從關系,性能具有結合性#65380;層次性#65377;這可從以下幾個方面進行具體分析#65377;
2.1 多關鍵詞涉及與事物的本身的各方面時體現出層次性特點由于詞與詞之間語義的差別,造成檢索結果存在差異,在多關鍵詞檢索中,每個詞之間存在語義上的層次性#65380;結合性,其排列順序并不是隨意安排的,而是有其內在規律的,詞的適當排列,對于表達思想#65380;傳遞信息,達到有效的交流至關重要,因此,在多關鍵詞的檢索中,詞之間的順序構成事物的諸方面或與事物的關系時呈現結合性#65380;層次性的特點,以機械#65380;電工#65380;電子#65380;計算機4個專業來統計分析,2個或2個以上關鍵詞需相互結合,才能完整表達檢索的需求#65377;
檢索提問:控制系統
[題 名]特高壓直流輸電控制系統結構配置分析
[關鍵詞]特高壓直流輸電;控制系統;結構配置;優化;可靠性
[題 名]電子駐車制動系統
[關鍵詞]汽車;駐車制動;控制系統;行星齒輪傳動
從上面的例子可以看出:控制系統在多關鍵詞中并不列在第一位,說明其并不是核心關鍵詞,是核心關鍵詞的另一個層次,兩者結合才能表達一個完整的主題#65377;
表2 數據統計分析
2010年3月第30卷第3期現?代?情?報Journal of Modern InformationMar.,2010Vol.30 No.32010年3月第30卷第3期關鍵詞檢索特性的計量學分析Mar.,2010Vol.30 No.3從表中可看出:
(1)“控制系統”一詞涉及了各個專業領域#65377;
(2)“控制系統”一詞不能單一作為關鍵詞檢索,只能與核心關鍵詞結合#65377;
(3)“控制系統”一詞,已成為目前研究的熱點,文獻量逐年增長,如2004年僅19 477條,至2008年已增長到28 259條,增長了68.9%,檢準率不能得到保證#65377;
(4)從表中可看出:在TM大類,“控制系統”所占的比例很大,在9%~10%左右,說明若檢索與控制系統相關的文獻,除與核心關鍵詞結合外,還可按分類檢索,準確檢出所需文獻#65377;
通過以上分析:在這一類詞的檢索中,關鍵詞體現了層次性的特點,若僅用單個關鍵詞檢索,檢全率#65380;檢準率不能得到保證#65377;
2.2 關鍵詞與其他事物的關系的檢索
關鍵詞涉及事物在其他事物方面的用途#65380;應用時,關鍵詞呈現出結合性特點#65377;如:
[題 名]:數控機床伺服系統中伺服電機的應用
[關鍵詞]:數控機床;伺服電機;應用技術
數控機床與應用技術體現的就是關鍵詞的結合性
檢索提問:數控 應用表3 統計分析
(1)“數控”一詞從2004-2008年檢出的文獻逐年遞增,也說明在這一行業已成為熱點,若僅用這一專指詞檢索文獻,已不能滿足檢索需求,必須與其他檢索詞結合#65377;
(2)“數控”與“應用”形成邏輯關系時,能滿足檢準率的要求,從所占比例來看,能大大提高檢索效率通過以上分析:兩個關鍵詞之間在語義上體現用途與應用時,它們之間具有結合性#65377;
2.3 關鍵詞與事物的研究#65380;修理#65380;改造的檢索呈現結合性通用性特點在這種類型中,多個關鍵詞不僅具有其結合性,更增加了通用詞的特征#65377;通用詞一般是那些不具有檢索意義的詞,如研究#65380;設計#65380;維修#65380;理論等的詞#65377;當通用因素與主體因素結合已構成復合主題詞時,具有檢索意義,否則就沒有意義#65377;比如以一個通用詞作為關鍵詞進行檢索,從5年來檢索結果的數量關系就可看出是否有意義#65377;
如檢索提問:數控機床維修
首先檢出每年的“數控機床”的文獻數,在此結果上再檢出含有“維修”關鍵詞的文獻數,查看“維修”一詞作為關鍵詞是否有意義#65377;表4 用“數控機床”和“維修”為關鍵詞的檢索結果
(1)“維修”一詞并不能作為關鍵詞進行檢索,只能起到輔助作用,詳細情況如:
[題 名]數控機床故障分類及維修實例
[關鍵詞]數控機床;故障;分類;維修
(2)從有檢索意義所占的百分比來看,每年所占的比例數較少,因此,當通用詞需作為關鍵詞用于檢索時,要與核心關鍵詞結合,才具有檢索意義#65377;
從以上兩點分析得出:通用詞必要時可以作為關鍵詞列出,但在多關鍵詞檢索時,只有與核心關鍵詞結合,才有檢索意義,否則沒有什么意義#65377;
3 關鍵詞語義的層次性分離特性
自然語言文本的語詞匹配檢索和字段檢索只能在數據庫中實現#65377;檢索時依據檢索者輸入的字詞,由計算機針對文本中的關鍵性字詞進行匹配檢索#65377;關鍵詞匹配檢索就會造成語義上的層次性分離#65377;如:
檢索提問:納米材料制備
[題 名]表面活性劑在納米材料科學中的應用
[關鍵詞]表面活性劑;納米材料;粉體制備;表面改性
[題 名]電弧等離子體法在納米材料制備中的應用
[關鍵詞]電弧等離子體法;納米材料;制備技術
從上兩例看出:“納米材料”與“制備”在檢索結果中出現了層次性分離#65377;檢出結果的意義是不一樣的#65377;表5 用“圖書館服務”為檢索詞的數據統計顯示
在檢出的結果中看到:在層次性分離的結果中,有些是與我們所需要的不相關的文獻,如何提高檢索結果的相關性,是我們目前急需解決的問題#65377;
4 結 語
隨著計算機信息處理#65380;人工智能#65380;知識工程等學科的發展與興起,原有的關鍵詞檢索的效率問題引起了更多的關注,開展了各個方面的研究,諸如關鍵詞加權檢索的方法#65380;基于本體的檢索系統等的研究等#65377;本文根據計量學方法,對關鍵詞檢索的特性進行了分析,其目的是通過對這些特性的分析,幫助我們認識到:①單關鍵詞的專指度直接影響檢索結果的檢全率和檢準率#65377;②多關鍵詞語義上的層次性特性,使得在標引與檢索文獻時要有的放矢使用關鍵詞,才能提高檢索效率#65377;③多關鍵詞檢索精度的局限,是與其檢索特性相關的,如何從語義上#65380;層次上提出合理的檢索方法,是我們需要研究的問題#65377;④在眾多的檢索結果中,核心關鍵詞是按時間序列排列的,并未按多關鍵詞重要性的排列順序,因此,這也是今后需研究的問題#65377;
參考文獻
[1]張琪玉.情報檢索語言實用教程[M].武漢:武漢大學出版社,2004.12.
[2]邱均平.信息計量學[M].武漢:武漢大學出版社,2007.1.
[3]馬莎莎.簡單型檢索關鍵詞性能及檢索功能[J].情報理論與實踐,2009,(9).
[4]李培.基于詞序的多關鍵詞加權檢索融合研究[J].現代圖書情報技術,2008,(10):32-37.
[5]張偉,黃奇.基于本體的信息檢索系統提高檢索結果相關性的研究[J].現代圖書情報技術,2007,(8):22-25.