999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術搜索引擎的優化策略

2015-05-30 05:42:35侯聰聰楊世光
科技創新導報 2015年18期

侯聰聰 楊世光

摘 要:該文介紹了一種新的檢索模型,提高學術搜索引擎的檢全率及檢索效率。該擴展模型的創新點在于引入檢索詞的下位詞構成新的檢索詞組,不再局限于檢索詞本身字面上的匹配;且文獻列表的排序將學術價值這一因素考慮在內,根據相關度及學術價值的綜合評分機制對檢索結果進行有序輸出。該模型具有一定的科學性和實用性,但是其排序的評分機制等需要在未來的研究中進一步細化,完善。該擴展模型主要適用于對檢全率要求較高的學術系統及網站。

關鍵詞:學術搜索引擎 擴展模型 檢索 文獻排名

中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2015)06(c)-0243-01

不同于普通網站或系統的搜索引擎,本文所研究的學術搜索引擎是專門針對于知識庫的一類搜索引擎,其檢索對象較為單一,為期刊、文獻等數字學術資源。該文以CNKI為例。當前學術搜索引擎檢索模型一般采用布爾模型、向量模型等傳統的檢索模型[1],這類檢索方式只能對檢索的關鍵詞進行字面上的匹配,而忽略了其內在含義的相似度,降低了學術搜索引擎的檢全率。該文淺談一種更加全面的檢索模型,以提高其檢索效率。在該文中此模型統一簡稱為擴展模型。

1 理論依據

當用戶輸入檢索詞后,返回具有相關信息的文獻排名列表。此列表的確定取決于文獻的關鍵詞或題目及其下位詞是否與檢索詞匹配。此列表的排序則取決于文獻與檢索詞的相關度及該文獻的學術價值。該文根據文獻所屬期刊的影響因子評定文獻的學術價值。

所以該模型獲取檢索詞后,首先,根據建好的學科專長詞表(表1)利用其下位詞進行擴展,擴展后成為擴展檢索詞組;其次,從文獻庫中抽取文獻題目或關鍵詞中含有擴展檢索詞組的文獻;但是檢索詞與其下位詞能提供的相關度權重不同,根據已確定的評分機制(第三部分將詳細給出)即可計算相關文獻的得分,按得分高低得出文獻列表。

2 模型介紹

該模型是為了提高文獻的查全率,借鑒了文獻[2]結合專長詞表的專家檢索方法,即用戶輸入檢索詞后,利用詞表對檢索詞進行擴展。具體設計如下。

2.1 構建主題詞表

專長詞表的一、二級詞匯由中國分類主題詞表中對應分類的主題詞經稍加改造得來。專長詞表分為三級,其中部分一、二級詞匯如表1所示。

對每一個二級詞還需建立相應的三級詞文檔,一個學術研究領域較長時間內的大量學術研究成果的關鍵詞的集合,可以揭示研究成果的總體內容特征、研究內容之間的內在聯系、學術研究的發展脈絡與發展方向[3],該文以中國知網CNKI數據庫2010—2014年核心期刊上相關文獻的所有關鍵詞作為三級詞匯來源。

2.2 確定文獻列表

用戶輸入檢索詞后,首先,利用該檢索詞的下位詞進行擴展。其次,根據CNKI數據庫文獻表中的文獻題目和關鍵詞,生成題目或關鍵詞中含有擴展檢索詞組中詞的文獻,此即符合查詢主題的專家文獻。

2.3 文獻排名的實現

文獻排名依據兩方面:一是依據文獻與檢索詞的相關度;二是依據該文獻的學術價值。在此基礎上,雖然文獻最終得分與文獻中含有檢索詞組中詞的數量有一定關系,但并不意味著二者成絕對的正相關,而是僅對同一篇文獻來說,隨著相關詞數量的增加,最終得分也增加。最后按文獻得分由高到低得出有序的文獻列表。

一般地,題目和關鍵詞能集中體現文章的主要內容,故取文獻的題目和關鍵詞衡量其相關度,按體現程度的不同,給二者賦予不同的系數,該文分別將其設定為0.6和0.4(式(2))。其次,在檢索詞組中,詞本體與其下位詞體現相關度也不同,將其權數分別設為0.7和0.3(式(4))。最后,由于期刊的級別不同,其權威性也不同,因此,可取期刊的影響因子衡量文獻的學術價值。相關度和學術價值的系數分別設為0.8和0.2(式(3))。

計分公式如下:

Wk=Skrel+Skval (1)

Wk為文獻k的得分;Skrel為文獻k的相關度得分;Skval為文獻k的學術價值得分。

Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)

Pktil為檢索詞組中詞在文獻k的題目中出現的頻數;Pkkey為檢索詞組中詞在文獻k的關鍵詞中出現的頻數。

Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)

Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)

Pkts與Pkte分別為檢索詞本體及其擴展詞在題目中出現的頻數;Pkks與Pkke則分別為檢索詞的本體及擴展詞在文獻關鍵詞中出現的頻數。

在計算出3.2節所得文獻列表中每篇文獻的分值后,按分值高低排序即可得出有序的文獻列表。

3 結語

該模型的創新點在于突破了布爾模型、向量模型等傳統模型的僵性匹配模式,通過下位詞匹配提高模型的檢全率,使檢索方式更加智能。同時在進行排序時,將學術價值這一因素考慮在內。該模型可用于對檢全率要求較高的系統。但是該模型也有一些缺陷,其評分標準有待進一步的細化、考證;同時檢準率有待提高。

參考文獻

[1] 王娟琴.三種檢索模型的比較研究-布爾、概率、向量空間模型[J].情報科學,1998(3):225-230,260.

[2] 陸偉,劉杰,秦喜艷.基于專長詞表的圖情領域專家檢索與評價[J].中國圖書館學報,2010(2):70-76.

[3] 李文蘭,楊祖國.中國情報學期刊文獻關鍵詞詞頻分析[J].情報科學,2005,23(1):68-70,143.

主站蜘蛛池模板: 五月丁香在线视频| 婷婷六月天激情| 欧美特级AAAAAA视频免费观看| 日本精品视频| 亚洲综合18p| 亚洲AV无码久久天堂| 久久成人国产精品免费软件| 欧美精品三级在线| 亚洲高清无码久久久| 好吊色国产欧美日韩免费观看| 麻豆精品在线视频| 亚洲色中色| 波多野结衣中文字幕久久| 国产精品一区二区无码免费看片| 青草视频网站在线观看| 午夜不卡视频| 五月婷婷综合色| 日本少妇又色又爽又高潮| 欧美国产日产一区二区| 国产麻豆另类AV| 精品国产欧美精品v| 国产肉感大码AV无码| 国产综合欧美| 亚洲综合香蕉| 免费毛片全部不收费的| 国产成人啪视频一区二区三区| 久久性妇女精品免费| 呦视频在线一区二区三区| 亚洲香蕉在线| 久久青草精品一区二区三区| 国产农村妇女精品一二区| 国产精欧美一区二区三区| 欧美午夜在线播放| 亚洲美女视频一区| 91黄视频在线观看| 日本亚洲最大的色成网站www| 亚洲—日韩aV在线| 国产成人精品高清不卡在线 | 99在线观看精品视频| 国产成人免费手机在线观看视频| 人妻91无码色偷偷色噜噜噜| 亚洲人成网站18禁动漫无码| 日韩国产欧美精品在线| 日韩大乳视频中文字幕| 日韩美女福利视频| 成人免费午夜视频| 国产区91| 又粗又大又爽又紧免费视频| 蜜桃臀无码内射一区二区三区| 热99精品视频| 亚洲av日韩av制服丝袜| 国产精品污污在线观看网站| 国产美女在线观看| 久久99国产乱子伦精品免| 欧美一级在线| 亚洲狼网站狼狼鲁亚洲下载| 國產尤物AV尤物在線觀看| 狠狠亚洲婷婷综合色香| 麻豆精品视频在线原创| 真人高潮娇喘嗯啊在线观看| 女人18一级毛片免费观看| 91色爱欧美精品www| 中文字幕av一区二区三区欲色| 久久精品最新免费国产成人| 成人毛片在线播放| 理论片一区| 国产欧美在线| 国产亚洲精品无码专| 91丨九色丨首页在线播放| 五月丁香在线视频| 在线欧美一区| www.亚洲一区| 91亚洲视频下载| 中文字幕人成乱码熟女免费| 99精品久久精品| 亚洲天堂啪啪| 亚洲精品黄| 香蕉99国内自产自拍视频| 极品国产一区二区三区| 免费网站成人亚洲| 色男人的天堂久久综合| 亚洲视频在线青青|