999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)于結(jié)構(gòu)化向量空間模型的研究

2017-03-17 08:36:30魏芊匯
電子技術(shù)與軟件工程 2016年16期
關(guān)鍵詞:信息檢索文本模型

摘 要

在我國(guó)當(dāng)下的網(wǎng)絡(luò)信息檢索中,傳統(tǒng)的向量空間模型因?yàn)椴荒茌^好的解決索引項(xiàng)之間的相互獨(dú)立型和Web文檔半結(jié)構(gòu)化之間的矛盾,已經(jīng)不能較好的滿足我國(guó)民眾對(duì)于網(wǎng)絡(luò)信息檢索的需求,在這種背景下,結(jié)構(gòu)化向量空間模型開始被用于網(wǎng)絡(luò)信息檢索之中,且發(fā)揮著不俗的應(yīng)用效果,在這種網(wǎng)絡(luò)信息檢索的發(fā)展現(xiàn)狀下,本文就結(jié)構(gòu)化向量空間模型進(jìn)行了具體研究,希望能夠進(jìn)一步推動(dòng)結(jié)構(gòu)化向量空間模型在網(wǎng)絡(luò)信息檢索中的應(yīng)用發(fā)展。

【關(guān)鍵詞】向量空間模型 結(jié)構(gòu)化

1 傳統(tǒng)向量空間模型

在Web信息檢索所使用的傳統(tǒng)向量模型中,傳統(tǒng)向量模型本身將文檔與用戶視為由相互獨(dú)立索引項(xiàng)組成的等長(zhǎng)向量。而在傳統(tǒng)向量模型的使用中,我們還可以通過對(duì)某索引項(xiàng)Tj在文檔集Dj中權(quán)重Wij,表示這一索引的重要程度,通過我國(guó)當(dāng)下流行的權(quán)重計(jì)算公式

,就可以計(jì)算得出某索引項(xiàng)Tj在文檔中的具體重要程度,也就是指Tj這一索引項(xiàng)的文檔集中比例,但這種計(jì)算方式不能夠很好地對(duì)索引項(xiàng)Tj在文檔中的分布差異性進(jìn)行較好而表現(xiàn)。在對(duì)文中分布差異性表現(xiàn)存在的問題中,半結(jié)構(gòu)化的Web文檔集合由于自身不同位置存在著不同的權(quán)重,這就使得這種文檔集合本身包含的信息量較大,而這種信息量較大的特點(diǎn)對(duì)于具體索引項(xiàng)在半結(jié)構(gòu)化的Web文檔集合中的分布差異性的表現(xiàn)也就變得更加困難。值得注意的是,傳統(tǒng)的向量空間模型每增加一個(gè)文檔都需要通過

公式進(jìn)行向量的重新計(jì)算,這種特點(diǎn)的存在客觀上降低了傳統(tǒng)向量模型的運(yùn)行效率,制約了傳統(tǒng)向量模型的發(fā)展。

2 結(jié)構(gòu)化向量空間模型的優(yōu)點(diǎn)

由于傳統(tǒng)的向量空間模型在應(yīng)用中存在著一些問題,制約著Web信息檢索效率的提升,這就催生了結(jié)構(gòu)化向量空間模型在Web信息檢索中的應(yīng)用。由于結(jié)構(gòu)化向量空間模型本身是從傳統(tǒng)向量空間模型發(fā)展而來的,這就使得結(jié)構(gòu)化向量空間模型既具有傳統(tǒng)向量空間模型的特點(diǎn),又能夠較好的對(duì)半結(jié)構(gòu)化的Web文檔集合中索引項(xiàng)的分布差異性進(jìn)行表現(xiàn),在實(shí)現(xiàn)這一功用中,結(jié)構(gòu)化向量空間模型會(huì)將具體的文檔按照一定策略進(jìn)行區(qū)域劃分,這種劃分會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段,這樣就可以較好的對(duì)不同文本段索引項(xiàng)的權(quán)值進(jìn)行較好的區(qū)分。在這種結(jié)構(gòu)化向量空間模型的應(yīng)用中,傳統(tǒng)向量模型所無法解決的運(yùn)行效率降低的問題,結(jié)構(gòu)化向量空間模型能夠予以輕松解決,而如果將兩種模型進(jìn)行具體對(duì)比,我們就能夠發(fā)現(xiàn)結(jié)構(gòu)化向量空間模型所具有的較高的查準(zhǔn)率。值得注意的是,在結(jié)構(gòu)化向量空間模型的應(yīng)用中,對(duì)于傳統(tǒng)向量空間模型沒有考慮過的索引項(xiàng)的具體出現(xiàn)位置與索引項(xiàng)的附加信息,其能夠通過自身功用較好的進(jìn)行解決,保證自身應(yīng)用對(duì)Web文檔中索引項(xiàng)權(quán)值頻度、位置、大小等信息的具體計(jì)算,最大程度上提高Web信息檢索中匹配結(jié)果的精確程度。

3 結(jié)構(gòu)化向量空間模型的應(yīng)用

結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用,能夠有效解決傳統(tǒng)向量空間模型在應(yīng)用中存在的問題,并會(huì)切實(shí)通過解決索引項(xiàng)之間的相互獨(dú)立和Web文檔半結(jié)構(gòu)化的矛盾,保證Web信息檢索效率與質(zhì)量的提高。在結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用,結(jié)構(gòu)化向量空間模型會(huì)通過自身邏輯將Web文檔分為文本段,通過對(duì)不同文本段的特征向量計(jì)算,組成具體的結(jié)構(gòu)化向量組,這就使得結(jié)構(gòu)化向量空間模型的具體應(yīng)用形式。筆者將在下文中對(duì)結(jié)構(gòu)化向量空間模型應(yīng)用中文檔索引項(xiàng)分段權(quán)值以及查詢向量與文檔向量的相似度這兩方面重點(diǎn)環(huán)節(jié)進(jìn)行詳細(xì)論述。

3.1 文檔索引項(xiàng)分段權(quán)值

結(jié)構(gòu)化向量空間模型在Web信息檢索的具體應(yīng)用中,我們提到了結(jié)構(gòu)化向量空間模型會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段,在這里我們將第k個(gè)文本段記錄為Sik,將文檔本身用Di表示,這樣我們就可以通過公式

,對(duì)結(jié)構(gòu)化向量空間模型中索引項(xiàng)Tj在文本段Sik中的分段權(quán)重進(jìn)行具體計(jì)算。在這一公式之中,λk代表位置加權(quán)系數(shù),這一系數(shù)主要對(duì)結(jié)構(gòu)化向量空間模型不同位置索引對(duì)文檔主題的貢獻(xiàn)大小進(jìn)行描述。

3.2 查詢向量與文檔向量的相似度

在結(jié)構(gòu)化向量空間模型的應(yīng)用中,對(duì)于查詢向量與文檔向量相似度的計(jì)算,也是結(jié)構(gòu)化向量空間模型能夠完成的任務(wù)之一,而為了完成這一計(jì)算,我們首先將詢串q的查詢向量設(shè)為Qq,這樣我們就可以利用公式1進(jìn)行具體的計(jì)算。

(1)

4 結(jié)構(gòu)化向量空間模型的應(yīng)用

通過結(jié)構(gòu)化向量空間模型的應(yīng)用,我們就能夠設(shè)計(jì)出較為優(yōu)秀的Web信息檢索系統(tǒng),這一系統(tǒng)的具體系統(tǒng)框架如圖1所示。

在這一框架中,其本身主要包括數(shù)據(jù)源處理模塊、頁(yè)面解析模塊、鏈接分析模塊、索引組織模塊、檢索模塊以及用戶接口模塊。在這些模塊組成的系統(tǒng)中,其通過PageRank和結(jié)構(gòu)化向量空間模型所組成的檢索系統(tǒng),就能夠很好地對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化解析,并通過開源系統(tǒng)ICTCLASS實(shí)現(xiàn)網(wǎng)頁(yè)的分詞,利用TFIDF實(shí)現(xiàn)文檔的相似度查詢,并通過兩者集合的方式實(shí)現(xiàn)網(wǎng)頁(yè)的排序。

5 結(jié)論

綜上所述,在我國(guó)當(dāng)下的Web信息檢索中,傳統(tǒng)的向量空間模型已經(jīng)不能滿足我國(guó)民眾的需要,而通過對(duì)傳統(tǒng)向量空間模型升級(jí)而得到的結(jié)構(gòu)化向量空間模型的應(yīng)用,卻能切實(shí)提高Web信息的檢索效率與質(zhì)量,因此本文對(duì)其進(jìn)行了具體研究。

參考文獻(xiàn)

[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist,2009(28):1-14.

[2]LyleM.Spencer,SigeM.Spencer.ComptenceatWork:ModelsforSuperiorPerformance[M].NewYork:JohnWiley&Sons,Inc,2013.

[3]李旭丹,吳文艷.結(jié)構(gòu)化向量空間模型的文本聚類算法研究[M].上海:華東理工大學(xué)出版,2013.

作者簡(jiǎn)介

魏芊匯(1996-),女,福建省福清市人。2013年起就讀于華南理工大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)工程專業(yè),研究方向?yàn)橛?jì)算機(jī)。

作者單位

華南理工大學(xué)計(jì)算機(jī)學(xué)院 廣東省廣州市 510006

猜你喜歡
信息檢索文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
主站蜘蛛池模板: 中文字幕有乳无码| 国产福利一区在线| 天堂成人在线视频| 热久久这里是精品6免费观看| 中文字幕在线视频免费| 久久久黄色片| 色偷偷一区二区三区| 成人免费黄色小视频| 国产成人精品视频一区二区电影| 欧美中文一区| 精品少妇人妻av无码久久| 亚欧成人无码AV在线播放| 热伊人99re久久精品最新地| 久久黄色影院| 2022国产无码在线| 免费观看国产小粉嫩喷水| 少妇精品在线| 狠狠色狠狠综合久久| 国产精品无码久久久久AV| 亚洲一区二区成人| 高清欧美性猛交XXXX黑人猛交| www.亚洲天堂| 久久99国产视频| 亚洲性一区| 一级成人a做片免费| 欧美人与动牲交a欧美精品| 国产精品污视频| 亚洲毛片一级带毛片基地| 久久久久久久97| 99久久亚洲精品影院| 久久婷婷五月综合97色| av在线无码浏览| 精品一区二区无码av| 久久a级片| 99热国产在线精品99| 狠狠操夜夜爽| 日韩美毛片| 亚洲天堂精品在线观看| 亚洲日韩高清在线亚洲专区| 激情综合激情| 成人无码区免费视频网站蜜臀| 99久久精品免费看国产免费软件| 97在线观看视频免费| …亚洲 欧洲 另类 春色| 91无码视频在线观看| 久久久久人妻一区精品色奶水| 色国产视频| 亚洲精品第五页| 久久精品中文字幕免费| 无码啪啪精品天堂浪潮av| 色视频国产| 天天色综网| 伊人中文网| 午夜福利网址| 国产日本欧美亚洲精品视| 欧美激情成人网| 福利国产在线| 另类综合视频| 99热这里只有精品在线播放| 精品国产Av电影无码久久久| 久久久国产精品免费视频| 东京热高清无码精品| 国产成人做受免费视频| 一本大道香蕉久中文在线播放 | 国产aⅴ无码专区亚洲av综合网| 久久99国产精品成人欧美| 亚洲欧美日韩视频一区| 亚洲成人网在线观看| 国产探花在线视频| 九色视频一区| 欧美成a人片在线观看| 亚洲国产欧美国产综合久久| av一区二区三区在线观看 | 亚洲精品老司机| 污视频日本| 萌白酱国产一区二区| 欧美伊人色综合久久天天| 色婷婷啪啪| 在线免费看片a| 久久无码高潮喷水| 在线欧美日韩| 99热这里只有精品免费国产|