999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用向量空間模型的個性化信息檢索方法

2016-04-05 08:20:27許建豪
關(guān)鍵詞:信息檢索

許建豪

(南寧職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 廣西 南寧 530008)

?

采用向量空間模型的個性化信息檢索方法

許建豪

(南寧職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 廣西 南寧 530008)

摘要:為了提升檢索結(jié)果與用戶個性化需求的符合程度,依托向量空間模型提出一種新的檢索方法.將用戶查詢關(guān)鍵詞和語料庫內(nèi)的文本信息都映射為向量,從而把檢索過程轉(zhuǎn)化為向量相似性的比對.在比對過程中,通過關(guān)鍵詞權(quán)重突出用戶個性化需求,通過余弦相似度判斷符合程度.實驗結(jié)果表明:文中方法的檢索結(jié)果與用戶需求的符合程度明顯提高.

關(guān)鍵詞:信息檢索; 向量空間模型; 個性化需求; 語料庫

目前,中國的互聯(lián)網(wǎng)用戶已近7億,占全國人口的50%[1].人們對互聯(lián)網(wǎng)日益依賴,需要從互聯(lián)網(wǎng)上瀏覽和搜索各類信息.如何使信息搜索結(jié)果盡可能臻善,已經(jīng)成為各大互聯(lián)網(wǎng)信息搜索引擎密切關(guān)注的重要課題[2].從目前的搜索引擎設(shè)置看,網(wǎng)絡(luò)用戶在信息搜索時,一般只能輸入幾個關(guān)鍵詞.但這些關(guān)鍵詞并不一定能夠準確地反映用戶的興趣和需求,加之很多搜索引擎就是通過詞語匹配完成查找,更削弱了關(guān)鍵詞豐富的自然語言特征,使檢索到的信息結(jié)果差強人意[3].為此,信息檢索領(lǐng)域的學(xué)者,致力于使搜索過程盡可能地符合用戶的興趣和需求,按照用戶的個性化要求實現(xiàn)信息檢索[4].國外學(xué)者在信息檢索領(lǐng)域開展的研究工作較早,已具有比較豐富的研究成果[5-11].本文構(gòu)建一個向量空間模型表達用戶的個性化需求,并通過實驗驗證此方法的檢索性能.

1個性化檢索方法設(shè)計

在信息檢索方法設(shè)計中,為了使檢索結(jié)果更符合用戶的個性化需求,要求抽象的檢索模型對用戶檢索需求有足夠的理解能力.基于此,文中選擇向量空間模型作為構(gòu)建個性化檢索方法的基礎(chǔ)模型.

1.1向量空間模型

向量空間模型(VSM)將要檢索的文本信息表征為向量空間上的向量,將文本檢索的過程映射為向量運算,進而通過向量空間上的待檢索文本向量和模板文本向量的相似性匹配獲得最終的檢索結(jié)果.向量空間模型在文本信息檢索中的應(yīng)用,涉及到關(guān)鍵詞、文件、相似性距離、向量空間模型等概念.

設(shè)向量空間是m維的,關(guān)鍵詞是整個向量空間上的一部分,待檢索文本信息用向量表示為Ti(ti,1,ti,2,…,ti,m),ti,j為第j個詞語的權(quán)重.K為待查詢的內(nèi)容,其在向量空間的表示為K(k1,k2,…,km),kj為查詢中第j個詞語的權(quán)重.

對于查詢向量和文本信息向量之間的相似度計算,可以采取很多種方法.文中采用兩個向量之間的余弦夾角進行判斷,即用余弦相似度方法判斷兩者之間的相似程度,即

(1)

用ft,k表示ti中關(guān)鍵詞ki出現(xiàn)的次數(shù),則ki在整個文本信息中出現(xiàn)的概率為

(2)

為了便于對詞頻概率的使用,一般需要執(zhí)行歸一化處理,即

(3)

在向量空間模型中,還要考慮每個詞匯在多少個文本中出現(xiàn),其反映了一個詞匯的區(qū)分度.區(qū)分度越低,表明這個詞匯被使用的越廣泛.對于這個特征,描述方法為

(4)

式(4)中:Num為此次查詢中文本的總數(shù);ft為詞匯出現(xiàn)的文本頻率.

至此,可以根據(jù)空間向量的常見方法,計算關(guān)鍵詞的權(quán)重,即

(5)

式(5)中:θi,j為關(guān)鍵詞的權(quán)重;pi,j為每個詞語出現(xiàn)的詞頻;Num為此次查詢中文本的總數(shù);ft為詞匯出現(xiàn)的文本頻率.

向量空間模型不僅可以實現(xiàn)查詢要求和文本信息之間的匹配,還從詞頻、文頻的角度增強關(guān)聯(lián)性分析,具有反饋能力和一定的自然語言理解能力.

1.2檢索方法設(shè)計

為了使檢索到的信息結(jié)果盡可能地滿足用戶的個性化需求,需要和用戶進行反饋.基于向量空間模型的經(jīng)典反饋查找最佳結(jié)果的方法為

(6)

式(6)為理論上的向量空間模型反饋查詢方法,為了簡化其在實際中的運用,改寫為

(7)

式(7)中:R0為用戶初始設(shè)置的個性化查詢向量;λ1,λ2,λ3分別為3個控制參數(shù),以調(diào)整3部分之間的平衡,例如,經(jīng)過反饋發(fā)現(xiàn)和用戶檢索需求不相關(guān)的文本數(shù)量更多,需要增大λ2以維持平衡.

2實驗結(jié)果與分析

計算機硬件配置:酷睿雙核、主頻2.0 GHz的CPU,8 GB內(nèi)存,500 GB硬盤.軟件配置:Windows 7操作系統(tǒng),Matlab程序設(shè)計語言及編譯平臺,Eviews統(tǒng)計分析軟件.采用的文本信息檢索對象為英國國家語料庫(BNC).該語料庫包含各種類型的文本信息子集,如經(jīng)濟領(lǐng)域、政治領(lǐng)域、軍事領(lǐng)域、科技領(lǐng)域、生活領(lǐng)域等.

在文本信息檢索的實驗中,根據(jù)提出的基于向量空間模型的個性化檢索方法,在BNC預(yù)料庫中按照用戶輸入的關(guān)鍵詞進行檢索.因為很多關(guān)鍵詞具有不同的領(lǐng)域特征,所以分別在一個領(lǐng)域和多個領(lǐng)域內(nèi)搜索文本信息.科技領(lǐng)域內(nèi)搜索文本信息的實驗結(jié)果,如表1所示.表1中:A20,A30,A50,A1 000分別為檢索結(jié)果中前20項,前30項,前50項和前1 000項的個性化符合程度的文獻數(shù). 由表1可知:當(dāng)λ1=30%,λ2=70%,λ3=1%的配置情況時,文中方法的檢索效果達到最佳.

選擇局部匹配檢索法(LM)、全局匹配檢索法(FM)、反饋檢索法(FD)作為比較方法,在BNC預(yù)料庫上開展個性化檢索實驗,4種方法的對比結(jié)果,如圖1(a)所示.由圖1(a)可知:LM方法檢索結(jié)果和用戶個性化需求的符合程度最低,文中方法檢索結(jié)果和用戶個性化需求的符合程度最高.

表1 科技領(lǐng)域內(nèi)文本信息的個性化檢索結(jié)果

在多個領(lǐng)域內(nèi)搜索文本信息的結(jié)果,如表2所示.由表2可知:當(dāng)λ1=20%,λ2=80%,λ3=25%的配置情況時,文中方法的檢索效果達到最佳.不同方法檢索結(jié)果的比較,如圖1(b)所示.由圖1(b)可知:文中方法檢索結(jié)果和用戶個性化需求的符合程度最高,且在多領(lǐng)域條件下,這種優(yōu)勢更加明顯.

(a) 單一領(lǐng)域                    (b) 多個領(lǐng)域圖1 4種方法的對比結(jié)果Fig.1 Comparison results of 4 methods

序號調(diào)整參數(shù)設(shè)置個性化需求符合程度A20A30A50A10001λ1=10%,λ2=90%,λ3=1%0.45360.43240.41700.30292λ1=20%,λ2=80%,λ3=1%0.45880.43390.41830.30443λ1=20%,λ2=80%,λ3=5%0.46290.43510.41920.30784λ1=20%,λ2=80%,λ3=15%0.46740.43860.42050.31025λ1=20%,λ2=80%,λ3=25%0.47090.44260.42330.31436λ1=30%,λ2=70%,λ3=1%0.46530.44070.42240.31257λ1=40%,λ2=60%,λ3=1%0.46120.43540.41780.31068λ1=50%,λ2=50%,λ3=1%0.45380.43290.41660.30839λ1=60%,λ2=40%,λ3=1%0.45110.42810.41170.302510λ1=70%,λ2=30%,λ3=1%0.44820.42660.40990.295811λ1=80%,λ2=20%,λ3=1%0.44530.42130.40580.294312λ1=90%,λ2=10%,λ3=1%0.44140.41720.39960.2910

3結(jié)束語

引入向量空間模型,將用戶的個性化搜索需求抽象為向量,并結(jié)合關(guān)鍵詞權(quán)重計算區(qū)分用戶在不同個性化需求方向上的強弱,采取余弦相似度判別方法執(zhí)行檢索工作,再根據(jù)反饋查找思想提升檢索結(jié)果與用戶檢索需求的符合程度.在BNC預(yù)料庫下的實驗結(jié)果表明:無論是單一領(lǐng)域限制下的檢索,還是多領(lǐng)域下的檢索,文中方法的檢索結(jié)果都更符合用戶的個性化需求,明顯優(yōu)于LM,GM,F(xiàn)D等方法.

參考文獻:

[1]鄒聰.淺析網(wǎng)絡(luò)免費學(xué)術(shù)資源在醫(yī)學(xué)信息檢索教學(xué)中的有效應(yīng)用[J].內(nèi)蒙古科技與經(jīng)濟,2014,316(18):74-76.

[2]MARS B,HERON J,BIDDLE L,et al.Exposure to, and searching for, information about suicide and self-harm on the Internet: Prevalence and predictors in a population based cohort of young adults[J].Journal of Affective Disorders,2015,185:239-245.

[3]陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(自然科學(xué)版),2011,32(4):401-404.

[4]DARABAD V P,VAKILIAN M,BLACKBURN T R.An efficient PD data mining method for power transformer defect models using SOM technique[J].International Journal of Electrical Power and Energy Systems,2015,71(4):373-382.

[5]MADISON A,BUETTI S,LLEARS A.Singleton search performance predicts performance on heterogeneous displays: Evidence in support of the information theory of vision[J].Journal of Vision,2015,15(12):12-14.

[6]MONCHAUX S,AMADIEU F,CHEVALIER A.Query strategies during information searching: Effects of prior domain knowledge and complexity of the information problems to be solved[J].Information Processing and Management,2015,51(5):557-569.

[7]TANG Yuzhe,LIU Ling.Privacy preserving multi-keyword search in information networks[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(9):2424-2437.

[8]鄒向坤.基于Delphi的病歷卡片信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].河北北方學(xué)院學(xué)報(自然科學(xué)版),2015,31(4):113-115.

[9]陳秀麗.基于信息需求下電子商務(wù)檔案信息檢索的智能化研究[J].檔案天地,2015(10):19-21.

[10]甘麗新,萬常選,王明文.基于層次依賴的Markov網(wǎng)絡(luò)信息檢索擴展模型[J].計算機科學(xué)與探索,2014,8(12):1485-1493.

[11]KUMAR A V,ALI R F M,CAO Yu.Application of data mining tools for classification of protein structural class from residue based averaged NMR chemical shifts[J].Biochimica Et Biophysica Acta,2015,1854(10):1545-1552.

(責(zé)任編輯: 錢筠英文審校: 吳逢鐵)

Research on Personalized Information Retrieval Method Using Vector Space Model

XU Jianhao

(School of Information Engineering, Nanning College for Vocational Technology, Nanning 530008, China)

Abstract:In order to improve matching degree between the retrieval results and of user′s personalized needs, a new method based on vector space model is proposed in this paper. Maps the user query keywords and the text information in the database to the many vectors, and then transforms the retrieval process to the comparison of the vector similarity. In the process, the user′s personalized needs are highlighted by the keyword weight, and the matching degree is determined by the cosine similarity. Experimental results show that the retrieval results of this method are significantly improved with the user′s requirements.

Keywords:information retrieval; vector space model; personalized needs; corpus

中圖分類號:TP 181

文獻標志碼:A

基金項目:廣西高校科研基金資助項目(YB2014495)

通信作者:許建豪(1977-),男,副教授,主要從事網(wǎng)絡(luò)技術(shù)及信息檢索的研究.E-mail:jianhaoxu@yeah.net.

收稿日期:2015-12-25

doi:10.11830/ISSN.1000-5013.2016.02.0175

文章編號:1000-5013(2016)02-0175-04

猜你喜歡
信息檢索
基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
基于信息檢索課的大學(xué)生信息檢索行為調(diào)查研究
高職院校圖書館開設(shè)信息檢索課的必要性探討
基于MOOC理念的“翻轉(zhuǎn)課堂”教學(xué)改革探索——以海南大學(xué)《文獻信息檢索與利用》課程為例
網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展
山西青年(2018年5期)2018-01-25 16:53:40
醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 欧美成人一级| 婷婷色狠狠干| 97视频精品全国免费观看| 香蕉99国内自产自拍视频| 久久久久无码精品国产免费| 日本影院一区| 国产内射在线观看| 国产黄网永久免费| 国内精品伊人久久久久7777人 | 欧美www在线观看| 精品伊人久久久大香线蕉欧美| 国产精品久久精品| 日韩精品一区二区三区大桥未久| 国国产a国产片免费麻豆| 國產尤物AV尤物在線觀看| аⅴ资源中文在线天堂| 毛片免费在线视频| 亚洲狼网站狼狼鲁亚洲下载| 欧美精品不卡| 国内精品手机在线观看视频| 亚洲美女AV免费一区| 国产精品13页| 国产一区二区色淫影院| 亚洲国产精品人久久电影| 午夜国产精品视频| 国产网友愉拍精品视频| 中文纯内无码H| 少妇高潮惨叫久久久久久| 日韩高清欧美| 伊人91在线| 狠狠久久综合伊人不卡| 亚洲精品国产精品乱码不卞| 成人久久精品一区二区三区 | 色噜噜狠狠色综合网图区| 白丝美女办公室高潮喷水视频| 无码内射中文字幕岛国片| 久996视频精品免费观看| 亚洲精品第一页不卡| 国产无码高清视频不卡| 亚洲人人视频| 日韩在线影院| 国产精品黄色片| 亚洲精品天堂自在久久77| 真实国产乱子伦视频| 国产日韩欧美在线视频免费观看 | 国产午夜福利亚洲第一| 亚洲女同一区二区| 午夜天堂视频| 国产爽爽视频| 超碰aⅴ人人做人人爽欧美| 伊人蕉久影院| 日韩国产精品无码一区二区三区| 精品视频第一页| 国产亚洲成AⅤ人片在线观看| 九九九久久国产精品| 啪啪永久免费av| 91视频99| 成年女人a毛片免费视频| 九九九久久国产精品| 国产成人午夜福利免费无码r| 无码日韩精品91超碰| 97精品伊人久久大香线蕉| 一本色道久久88| 亚洲国产综合自在线另类| 国产精品成人观看视频国产| 亚洲日韩精品无码专区| 91九色国产在线| 中文字幕啪啪| 国产尹人香蕉综合在线电影 | 久久99精品久久久久纯品| 亚洲男女在线| 国产成人精品亚洲日本对白优播| 国产女人在线视频| 国产性爱网站| 无码中文字幕加勒比高清| 亚洲国模精品一区| 色综合色国产热无码一| 国产办公室秘书无码精品| 亚洲成网站| 婷婷六月综合网| 九色视频一区| 色综合国产|