999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web信息檢索中N層向量空間模型及特點分析

2019-12-21 08:50:14開磊
大眾投資指南 2019年7期
關鍵詞:信息檢索特征內容

開磊

(安徽省合肥市安徽新華學院國際教育學,安徽 合肥 230088)

處在當前互聯網信息時代的背景下,互聯網信息總量不僅種類增多,而且數量不斷增長,這就需要探索出精確、快速和高效提取信息的途徑,這同時也是研究核心所在,備受社會各界的關注。

一、傳統向量空間模型

隨著社會的逐步發展和進步,不同類型的信息檢索算法模型已經形成和應用。其中,Sallon等學者就對向量空間模型算法進行了構建,借助TFIDF對文檔進行了轉換,形成向量的形式,極大地簡化了運算過程,有著大規模的應用。基于典型向量空間檢索模型算法下,借助涵蓋特征項構成向量可以對查詢、文檔進行表示,同時借助查詢、文檔二者間的向量夾角余弦當成度量相似性的過程,并且隨著夾角的減小會使相似度逐漸增大。在對特定向量進行查詢的過程中,通常需要將其同全部文檔向量相似性進行比較,同時以相似度為標準,按照降序的規則來排列文檔,并對最終的檢索結果進行提交。上述方式具有多種優勢,例如:簡便化、處理速度較快和直觀化等。然而文檔集合下特征項總量比各篇查詢、文檔下特征項數量要大,所以查詢、文檔二者的向量代表形式下多數均是0。零項能夠基于運算特征項相似度、權重,從而在空間、實踐繁瑣性方面存在問題,影響數據稀疏的狀況。除此之外,抽取、查詢匹配特征項時,相同特征項可以在文檔各區域內出現,在顯示文檔內容能力方面有所差異。同時,相同區域內的文檔,如果特征項存在差異,則對文檔內容的表達能力也會有所不同。借助典型向量空間模型能夠視作上述特征項對文檔的表達能力相一致,不存在較大的差別。

推廣應用向量空間模型之后,其在信息檢索中發揮著非常重要的作用,然而在信息技術快速進步的同時,使用者的需求發生了很大的變化,這就導致向量空間模型的問題日益呈現出來,眾多研究人員對此進行了分析,同時構建了改進算法。

建立向量空間模型的根本就在于,各篇文檔、查詢均涵蓋了借助概念詞進行呈現和表示相關內容的獨立屬性,各屬性均能夠視作概念空間下維數。所以,查詢、文檔均能夠表達成不同屬性的集合,這就會對文本結構下的詞語、句子及段落的煩瑣聯系有所忽視。由此,就需要依次借助空間下獨立點來代表查詢、文檔,同時,查詢、文檔二者的矢量間相繼具有差異化的空間距離,此距離聯系呈現于信息檢索內,表示的即為查詢、文檔二者相似度。因此,在衡量查詢、文檔二者相似度的過程中,能夠借助矢量距離進行表達。相似度運算相似度的方式較多,本研究借助余弦系數法,將查詢、文檔相關度借助矢量間夾角余弦進行表達。夾角在增大的過程中,距離就會相繼拉遠,但是余弦和相關度均會變小,不然就會呈現相關度逐漸增大的結果。

二、N層向量空問模型

針對文檔進行N層組織結構分割,針對各層文本內容對特征項向量、權值進行構建,同典型空間模型相比,其運算權重及抽選特征項目相一致。由此,N層向量空問模型就是N層分割文檔所獲取向量空間模型。

本研究結合Web信息檢索開展分析工作,因為Web頁面的格式非常的特殊,規定各篇文檔應至少涵蓋三大部分,即為文檔正文、文檔標題及文檔鏈接。同時這些內容在表達文檔能力方面也存在一定的差異。吸引使用者進行閱覽文檔的直接途徑就是鏈接文字,因此必須要去報文檔表達能力最強的就是鏈接內容,之后才是標題,而文檔表達能力最差的就是正文內容。基于Web信息檢索的過程中,發揮N層向量空問模型的作用,能夠針對Web文檔,依據指向文檔鏈接、正文及標題進行三層結構劃分,集合具體情況也能夠形成四層向量空間模型。

三、N層向量空間模型特點

(一)N層向量空間模型下的信息檢索算法為:

1、對特征項庫進行構造。對文檔集合下特征項進行輸入,形成特征項庫;

2、對文檔信息進行構建。在數據庫內輸入文檔內容,形成文檔信息庫;

3、對文檔向量信息庫進行建立。針對各文檔信息對各特征項權值進行運算,形成文檔向量;

4、查詢文檔。對查詢條件進行輸入,借助布爾模型獲取查詢條件下文檔向量,同各文檔向量開展運算,獲取文檔、查詢條件相似度;

5、對輸出結果進行排序。根據相似度對查詢結果進行排序。

(二)向量空間模型下檢索信息方式的問題為:

1、運算文檔向量權值時,對反比文獻頻率idfk進行了運用,所以在對文檔進行增加時,應對向量進行再次運算;

2、借助鏈接能夠變遷不同 Web文檔信息,所以鏈接文本信息象征被鏈接Web文檔的關鍵內容,借助向量空間模型來查詢Web信息,不會對這些內容進行考慮。這就會使典型向量模型的查詢速率降低,影響精確程度。

索引項權重wik即為索引項針對文檔的關鍵性,也就是索引項能夠大致區分文檔。借助tf-idf法能夠加權索引項,能夠使索引項(較多不分文檔較少出現,而較少文檔經常出現)具有的權重增大。因為Web文檔具有半結構化特點,特殊位置形成超鏈接、標題等各類域下的索引項。特殊位置內容對Web文檔重要信息進行表示,所以索引項權重、位置存在緊密聯系。借助tfidf法,在向量空間模型下,對索引項權重進行運算過程中,能夠不考慮信息重要程度,導致Web信息檢索系統輸出結果順序排列能力不高。

猜你喜歡
信息檢索特征內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 九色免费视频| 亚洲二区视频| 日韩成人高清无码| av免费在线观看美女叉开腿| 精品丝袜美腿国产一区| 真实国产乱子伦高清| 国产特级毛片aaaaaa| 久久久久亚洲精品成人网| 亚洲国产理论片在线播放| 71pao成人国产永久免费视频| 青青网在线国产| 91蝌蚪视频在线观看| 91外围女在线观看| 欧美日本在线| 99久久精品久久久久久婷婷| jijzzizz老师出水喷水喷出| 在线观看国产精美视频| 免费毛片网站在线观看| 久久人搡人人玩人妻精品一| 亚洲日产2021三区在线| 欧美精品高清| 青青久视频| 久草视频中文| 91视频区| 午夜视频在线观看区二区| 国产精品无码久久久久久| 五月天综合网亚洲综合天堂网| 伊人色婷婷| 中文字幕永久视频| 国产精品深爱在线| 欧美中出一区二区| 亚洲资源站av无码网址| 国产国语一级毛片在线视频| 亚洲欧美h| 中文字幕日韩丝袜一区| 亚洲va欧美va国产综合下载| 一级香蕉人体视频| 夜精品a一区二区三区| 亚洲热线99精品视频| 免费在线看黄网址| 午夜视频日本| 54pao国产成人免费视频| 中文字幕在线看| 亚洲精品无码久久毛片波多野吉| 国产精品大白天新婚身材| 国产精品久久久久婷婷五月| 亚洲an第二区国产精品| 毛片免费在线| 日韩专区第一页| 久久综合九色综合97网| 制服丝袜在线视频香蕉| 精品無碼一區在線觀看 | 亚洲电影天堂在线国语对白| 日韩一区精品视频一区二区| 亚洲国产精品无码久久一线| 国产精品永久在线| 国产美女无遮挡免费视频网站| 久热re国产手机在线观看| 国产综合精品日本亚洲777| 日韩在线中文| 欧美一级高清片欧美国产欧美| 亚洲国产精品日韩欧美一区| 欧美精品1区| 日本成人在线不卡视频| 日本AⅤ精品一区二区三区日| 91午夜福利在线观看| 久久国产热| 国产夜色视频| 国产成人91精品| 日韩黄色精品| 亚洲人成网7777777国产| 激情六月丁香婷婷| 亚洲一级毛片免费看| 亚洲成人精品久久| 91精品啪在线观看国产60岁 | 亚洲婷婷六月| 综合色亚洲| 91欧洲国产日韩在线人成| 91无码视频在线观看| 成年免费在线观看| 国产精品手机在线播放| 国产一区在线视频观看|