999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于科技文獻引用關系擴展的信念網絡模型

2013-10-28 05:12:26徐建民王丹青謝朋林
河北大學學報(自然科學版) 2013年1期
關鍵詞:信息檢索價值模型

徐建民,王丹青,謝朋林

(河北大學 數學與計算機學院,河北 保定 071002)

基于科技文獻引用關系擴展的信念網絡模型

徐建民,王丹青,謝朋林

(河北大學 數學與計算機學院,河北 保定 071002)

信念網絡信息檢索模型提供了一個可以組合不同證據的基本框架,通過組合證據可有效提高檢索效果.科技文獻之間的引用關系是一種有價值的信息.本文把這種引用關系量化為文獻關注度和文獻價值度,并將其作為證據擴展基本信念網絡模型.考慮到文檔內容證據、關注度和價值度對查詢結果排序的影響不同,引入了2個系數α和β來調整3種證據在排序中的作用大小.實驗通過樣本訓練確定了α和β的最優值,驗證了擴展模型的有效性,并分析了擴展模型用and和or方式組合證據的優劣.

信念網絡;信息檢索;引用關系

信念網絡模型[1](belief network model)是由Ribeiro和Muntz在1996年提出的信息檢索模型,該模型具有很大的靈活性,可用于表示任何經典的信息檢索模型,即布爾模型、向量模型和概率模型.此外,該模型可以方便地組合不同的證據信息,形成擴展模型.

提取并組合合理的證據信息是對基本信念網絡模型進行擴展的基本方法.文獻[1]將用戶過去的查詢結果作為證據擴展了基本信念網絡模型,得到了良好的檢索效果.Kleinberg的研究[2]定義了表示鏈接信息的網頁權威度和中心度概念,并提出了著名的HITS算法,這些信息已被Silva和Ribeiro應用于Web信息檢索[3-4],同樣得到了很好的效果.在信息檢索中,合理考慮術語之間的關系是一種有效地提高檢索性能的方法[5],如文獻[6]依據同義詞詞林得到術語的同義詞,并將其作為證據擴展基本信念網絡模型.文獻[7]依據領域本體得到了術語的本體關聯詞,將其作為證據對基本信念網絡模型進行擴展.

科技文獻的引用關系是一種類似于網頁間鏈接關系的有價值信息[8],這種信息應用于信息檢索同樣會起到積極作用.本文將量化的科技文獻引用關系作為證據擴展基本信念網絡模型,得到了基于科技文獻引用關系擴展的信念網絡模型,并通過實驗驗證了其有效性.

1 基本信念網絡模型

如圖1所示,基本信念網絡模型包括3類節點:查詢節點q、術語節點ki(1≤i≤t)和文檔節點dj(1≤j≤n).有向邊用于表示索引關系,如果從術語節點ki指向查詢節點q,則表明該用戶查詢中包含索引術語ki,從術語節點ki指向文檔節點dj表示術語ki是文檔dj的索引術語之一.

圖1 基本信念網絡模型

基本信念網絡模型的樣本空間由所有索引術語組成,即U={k1,k2,…,kt},其中t為U中術語的個數.每一個術語稱為一個基本概念,若干個術語的集合稱為概念.用戶查詢q和每個文檔dj都是由1個或多個術語構成的,都可以看作是U中的一個概念,因此U也被稱為概念空間.

信息檢索的過程可以看作是用戶查詢q與文檔概念dj的匹配過程,由式(1)可得查詢結果的排序依據.

(1)

在具體實施中,對P(dj|u)和P(q|u)的計算做出不同的規定將得到不同的經典信息檢索模型,如令

(2)

(3)

P(u)=(1/2)t,

(4)

其中,wi,d是術語ki在文檔d中的tf-idf權重,wi,u是術語ki在概念u中的權重.將公式(2),(3),(4)代入公式(1)即可得到向量模型的計算式.

2 科技文獻引用關系

2.1引用關系分析

科技文獻間的引用關系具有以下4個特點:

1)存在引用關系的科技文獻多數情況下屬于同一個主題,但也存在跨主題的情況;

2)科技文獻之間的引用關系是跨越一定時間段的,即一個文獻只能引用比它更早發表的文獻,該文獻和其引用的文獻在時間上跨越了一定時間段;

3)科技文獻發表后,它的內容是無法修改的,它的引用關系也就不能改變;

4)引用關系隱含著文獻的重要程度.如果一篇文獻被許多同領域的文獻引用說明該文獻受到了廣泛的關注,是該領域重要的文獻.如果一篇文獻引用了若干同領域的重要文獻,則通過它可以找到重要文獻,說明此文獻在該領域中也是有價值的.因此,通過引用關系可以知道一篇文獻在該領域中的重要程度.

圖2描述了科技文獻引用關系,圖中節點表示文獻,越靠上,發表時間越早.引用關系用帶權重的有向邊表示,例如文獻2指向了文獻1,說明文獻2引用了文獻1.邊的權重代表2篇文獻主題的緊密程度,權值越大,說明2篇文獻主題越緊密.

圖2 引用關系示意

2.2引用關系的定義

文獻[9]給出了關注度和價值度的定義,但不夠規范,下面重新給出二者的定義:

定義1 關注度:科技文獻D在其所屬領域的關注度定義為它被該領域其他文檔引用的程度,記為attention.

定義2 價值度: 科技文獻d在其所屬領域的價值度定義為它對該領域其他文檔的參考程度,記為value.

由引用關系的分析和關注度、價值度的定義可知,一篇文獻被同領域價值度高的文獻引用次數越多,則該文獻的關注度越大;一篇文獻引用的同領域關注度高的文獻數量越多,則該文獻的價值度越大.綜上,文獻的關注度受到3個因素的影響:1)文獻被引用的次數;2)引用該文獻的文獻的價值度;3)引用文獻和被引用文獻之間的主題緊密程度.同樣,文獻的價值度也受到3個因素的影響:1)文獻的引用文獻數量;2)該文獻引用文獻的關注度;3)引用文獻和被引用文獻之間的主題緊密程度.

每篇文獻都會引用其他文獻,也可能被其他文獻引用,所以每篇文獻都有一個關注度值和一個價值度值.本文將科技文獻的關注度和價值度作為證據對基本模型進行擴展,得到了擴展的信念網絡檢索模型.

3 基于引用關系擴展信念網絡模型

3.1拓撲結構

基于引用關系擴展的信念網絡模型拓撲結構如圖3所示,左側部分是基本信念網絡模型.文檔節點di改寫為dcj,表示以文檔內容為證據得到的查詢結果.右側增加了一組關注度節點daj和一組價值度節點dvj,它們組成的空間A和V分別代表文獻的關注度和價值度證據.

當用戶提出查詢時,依據拓撲結構將結合證據C、證據A和證據V計算每篇文檔和查詢的相關度,對于證據的結合可以采用析取、合取2種方法[10],后面的實驗將對2種方式的優劣進行驗證.

圖3 基于引用關系擴展的信念網絡模型

3.2概率推導

本文的擴展模型仍采用P(dj|q)作為最終排序依據.由于擴展模型的證據來自3方面,即基于文檔內容、基于文檔關注度和基于文檔價值度,因此公式(1)中的P(dj|u)在擴展模型中需要賦予新的含義.

在擴展模型中,令P(daj|u)表示關注度證據,取值為文獻dj的關注度值;令P(dvj|u)表示價值度證據,取值為文獻dj的價值度值;仍令P(dcj|u)表示基于文獻內容的證據,其計算方法同公式(3).3種證據均為0到1之間的數值,可以單獨作為排序依據,也可以將其進行組合.如果進行組合,組合方式有2種,即:合取和析取.合取用and表示,含義是集合求交;析取用or表示,含義是集合求并.采用不同的組合方式可以得到不同的排序計算式.

當使用and方式組合證據時,含義是如果一篇文獻的3種證據值都相對比較大,它的最終排序就應當更靠前.依據這個思想和條件概率可得以下公式:

P(dj|u)=P(dcj|u)×P(daj|u)×P(dvj|u).

(6)

代入公式(1)可得

P(dj|q)=η∑u[P(dcj|u)×P(daj|u)×P(dvj|u)]×P(q|u)×P(u).

(7)

此公式存在一個問題,即擴展進來的關注度證據和價值度證據如果有1個取值為0,即使文獻內容證據很大,P(dj|q)值也將為0,這明顯是不合理的.針對這個問題,對公式(7)進行如下修正:

(8)

當使用or方式組合證據時,含義是如果一篇文獻3種證據中有一種的值比較大,它的最終排序應當靠前些.此操作相當于求3個集合的并集,由條件概率可得公式

P(dj|u)=1-[(1-P(dcj|u))×(1-P(dcj|u))×(1-P(dvj|u))],

(9)

代入公式(1)可得

P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-P(daj|u))×(1-P(dvj|u))]}×P(q|u)×P(u).

(10)

信息檢索就是要查找同查詢術語匹配的文檔,內容的相似程度是最重要的因素,對最終排序起主要作用,文檔關注度和價值度只能作為輔助證據,對最終排序起次要作用.由關注度和價值度的定義可知,關注度高的文獻被廣泛引用,一定是重要的;價值度高的文獻引用了很多有重要的文獻,但它本身內容不一定很重要.因此,關注度所起的作用應當大于價值度.

考慮到文檔內容、關注度和價值度對查詢結果排序的影響大小不同,故增加了2個系數α和β來調整3種證據在排序中所起作用的大小.α代表關注度相對于內容證據作用的大小,β代表價值度相對于關注度證據作用的大小,其值均在0到1之間.由于公式(8)乘以任何系數都不會影響最終排序結果,因此and組合方式沒有辦法調整3種證據的作用大小.對于or組合方式,公式(10)加上調節系數后變為

P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-α×P(daj|u))×(1-α×β×P(dvj|u))]}×P(q|u)×P(u).

(11)

公式(8)和公式(11)中P(q|u),P(dcj|u),P(u)可分別由公式(2),(3),(4)計算.

4 實驗

4.1測試集

實驗采用的測試集是從中國知網下載的679篇科技文獻,其內容涉及計算機技術、數據挖掘、軟件工程、計算機網絡、信息檢索等領域.測試集中的文獻在邏輯上形成多個文獻簇,每個文獻簇內的所有文獻之間都存在著直接或間接的引用關系.在程序中每篇文獻以文檔向量的形式出現,即di={(ki1,wi1),(ki2,wi2),…,(kit,wit)}.文檔di的關注度和價值度表示為di(attentioni,valuei).

測試集還包括10個由自然語言構成的查詢,對于這些查詢分別構建了相關文檔集,即通過人工主觀判斷的方式為每個查詢找出相關文檔集合.程序通過對查詢結果文檔集中每篇文檔與相關文檔集進行對比,就可以判斷檢出的文檔是否為相關文檔,從而可以計算查準率/查全率[11].

4.2實驗過程

圖4 查準率/查全率曲線Fig.4 Precision/Recall curve

在實驗過程中,程序分別按基本模型、擴展模型的and和or組合方式進行.每種方式都輸入準備好的10個查詢,并將結果從大到小排序顯示到一個表格中,結合排序結果和該查詢的相關文檔集計算出對應的查準率/查全率.然后對這10個查詢的查準率/查全率求取平均值,該平均值連成的曲線即代表指定方式的檢索效果.圖4直觀地顯示出了3種方式的優劣.

對于or組合方式,需要找出其調節系數α和β的最優值.因此,在運用or組合方式進行計算時,實驗對α和β選取不同的值進行多次驗證,最終找出其最優值.

4.3實驗結果及分析

由于α和β不同值的組合方式非常多,依次測試每種組合不是科學的方法.本文考慮到關注度作用大于價值度,故先令β=0,α分別取值0.9到0.1,先找出關注度的最優系數.此時or組合方式的查準率/查全率值如表1.

表1 α不同取值情況下的查準率/查全率值

觀察可知,當α=0.5時,檢索效果最優.然后再令α=0.5,β分別取值0.8,0.6,0.5,0.4,0.2,0.1.由結果可知,當β=0.5時,檢索效果最好.因此選定α=0.5,β=0.5作為最優調節系數.

當α=0.5,β=0.5時,擴展模型同基礎模型的比較如圖4所示.

圖4顯示的and組合方式僅在查全率低的情況下具有比較高的查準率,其他情況下的查準率都比原始模型和or組合方式低.原因是由于它的計算方式沒有辦法調整3種證據影響作用的大小,無法使內容證據起主要作用,一些具有較高關注度或價值度而內容證據不高的文檔排到了前面,導致了整體查準率都比較低.

or組合方式在所有查全率情況下幾乎都具有比原始模型更高的查準率.or組合方式加上調節系數后,考慮了內容證據起主要作用,關注度和價值度證據起次要作用,并且關注度作用大于價值度作用,所以檢索性能最優.因此擴展模型的or組合方式在一定的調節參數范圍內檢索性能是優于原始模型的,調節參數的最優值為α=0.5,β=0.5.

5 結束語

將科技文獻的關注度和價值度作為證據應用到信念網絡模型的擴展中,分析了擴展模型的2種組合證據的方法,并通過實驗證明or組合方式在一定的調節系數作用下,可以有效提高檢索性能.但本文仍有一些不足之處需要在以后的研究中繼續完善,如實驗中使用的測試集規模不夠大、求取α和β的過程比較繁瑣等.

[1]BERTHIER RIBEIRO-NETO, RICHARD MUNTZR.A belief network model for IR[Z].Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,1996.

[2]KLEINBERG.Authoritative sources in a hyperlinked environment[Z].Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco, California, 1998.

[3]SILVA I,RIBEIRO B,CALADO P, et al.Link-based and content-based evidential information in a belief network Model[Z].Proceedings of 23rd annual international ACM SIGIR conference on Research and development in information retrieval, New York,USA,2000.

[4]CALADO P, ZIVIANI N.Local versus global Link information in the web[J].ACM Transactions on Information Systems, 2003(1):42-63.

[5]徐建民,唐萬生,陳振亞.貝葉斯網絡在信息檢索中的應用[J].河北大學學報:自然科學版,2007,27(1):93-98.

XU Jianmin,TANG Wansheng,CHEN Zhenya.Application of Bayesian network for information retrieval[J].Journal of Hebei University:Natural Science Edition,2007,27(1):93-98.

[6]徐建民,吳樹芳,白彥霞.一個基于同義詞證據擴展的信念網絡檢索模型[J].廣西師范大學學報:自然科學版,2006,24(4):9-13.

XU Jianmin,WU Shufang,BAI Yanxia.A belief network retrieval model expanded with Synonym-based evidence[J].Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):9-13.

[7]XU Jianmin, TIAN Jinkun, ZHANG Yanchun,et al.Using ontology evidences to extend belief network IR model[J].Proceedings of 10th Computer Application and System Modeling(ICCASM),2010,10:31-35.

[8]XU Jianmin, FU Tingting, LI Huan.Application of extended belief network model for scientific document retrieval[Z].Proceedings of 6th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD’09) , Tianjin,2009.

[9]付婷婷.用于科技文獻檢索的擴展信念網絡模型[D].保定:河北大學,2010.

FU Tingting.Application of extended belief network model for scientific document retrieval[D].Baoding: Hebei University ,2010.

[10]吳樹芳,劉永立,朱杰,等.信念網絡檢索模型擴展研究[J].計算機工程與應用,2009,45(10):151-153.

WU Shufang, LIU Yongli, ZHU Jie, et al.Extended research on belief network retrieval model[J].Computer Engineering and Applications,2009,45(10):151-153.

[11]RICARDO BAEZA-YATES,BERTHIER RIBEIRO-NETO,等.現代信息檢索[M].北京:機械工業出版社,2005.

Extendedbeliefnetworkmodelbasedonreferencerelationshipofscientificliteratures

XUJianmin,WANGDanqing,XIEPenglin

(College of Mathematics and Computer, Hebei University, Baoding 071002, China)

The belief network retrieval model which provides a framework for combining different evidences is advantageous to improve retrieval effectiveness.The reference relationship between scientific literatures is a kind of valuable information.This reference relationship was quantified as attention and value in this paper, and it was the evidence for extending the belief network model.Consider the affections of the document content, attention and value were different for the sort of query results, we introduced two coefficients and to adjust the role of the three kinds of evidence for the sort.In our experiments, we determined the optimal value of and through certain sample training, testified the effectiveness of our extending model, and we also analyzed the advantages and disadvantages of the evidences combined byandandor.

belief network; information retrieval; reference relationship

10.3969/j.issn.1000-1565.2013.01.015

2012-09-10

中國博士后科學基金資助項目(20070420700)

徐建民(1966-),男,河北館陶人,河北大學教授,主要從事信息檢索、不確定信息處理方向研究.

E-mail:hbuxjm@hbu.cn

TP391

A

1000-1565(2013)01-0077-07

(責任編輯孟素蘭)

猜你喜歡
信息檢索價值模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
一粒米的價值
“給”的價值
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 午夜国产不卡在线观看视频| 天天综合网色| 国产一区在线视频观看| 亚洲国产精品人久久电影| 亚洲a级毛片| 激情午夜婷婷| 欧美在线导航| 高清乱码精品福利在线视频| 91精品免费高清在线| 亚洲国产日韩在线观看| 国产日本欧美在线观看| 日韩国产另类| 亚洲精品无码久久毛片波多野吉| 亚洲免费福利视频| 国产三级国产精品国产普男人| 91色国产在线| 欧美一级在线| 粉嫩国产白浆在线观看| 黄色污网站在线观看| 香蕉eeww99国产在线观看| 免费观看无遮挡www的小视频| 欧亚日韩Av| 91福利免费视频| 久久semm亚洲国产| 亚洲日本精品一区二区| 九色视频线上播放| 一区二区三区高清视频国产女人| 中文字幕久久亚洲一区| 亚洲中字无码AV电影在线观看| 久久99国产精品成人欧美| 小蝌蚪亚洲精品国产| 97视频免费在线观看| 一级不卡毛片| 香蕉久久永久视频| 欧美日韩一区二区三区四区在线观看 | 一本大道在线一本久道| 精品国产免费观看一区| 久久久久亚洲精品无码网站| 免费一级无码在线网站| 1769国产精品视频免费观看| 久久国产拍爱| 亚洲 欧美 日韩综合一区| 国产女同自拍视频| 狠狠色成人综合首页| 国产青青操| 亚洲熟女中文字幕男人总站| 综合色88| 97亚洲色综久久精品| 亚洲人成在线免费观看| 欧美激情二区三区| 99视频免费观看| a级毛片毛片免费观看久潮| 成人综合网址| 国产在线第二页| 国产日韩欧美在线播放| 亚洲天堂2014| 中国黄色一级视频| AⅤ色综合久久天堂AV色综合| 亚洲成综合人影院在院播放| 免费人成在线观看视频色| 国产手机在线小视频免费观看| 久久久四虎成人永久免费网站| 国产真实乱子伦视频播放| 久久精品视频一| 免费人成网站在线高清| 国产综合精品一区二区| 91免费在线看| 国产成人三级| 欧美中文一区| 国产视频一二三区| 免费一级全黄少妇性色生活片| 欧美精品成人| 成人欧美在线观看| 1024你懂的国产精品| 免费在线a视频| 国产成人毛片| 亚洲首页在线观看| 91无码人妻精品一区二区蜜桃 | 无码人妻免费| 国产在线麻豆波多野结衣| 美女一区二区在线观看| 亚洲美女操|