999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于信息檢索方法的探討

2019-05-10 09:52:40李秋錦山東科技大學山東省濟南市250000
數碼世界 2019年4期
關鍵詞:信息檢索排序

李秋錦 山東科技大學 山東省 濟南市 250000

在大量的非結構化文檔集合當中搜集與期望內容相關的信息的過程就是信息檢索。與數據庫等軟件的查詢不同,數據庫中的表格等是結構化的數據,根據列名,關鍵字等等即可編寫查詢語句,實現搜索的過程。而所謂的信息檢索則是主要針對于非結構化的數據,一般指形如文章,歌詞等的自由文本。沒有特定的結構化模式,而是由各種字符自由組合而形成的信息文本。我們所使用的搜索引擎一般都是基于信息檢索開發實現的。與傳統信息檢索不同的是,現代的信息檢索技術也能夠處理結構化信息。

1 建立索引

在信息檢索之前首要工作是建立索引文件,建立索引前還需將單詞標準化,如英文單詞中的大寫字母統一為小寫,在進行檢索時,針對大小寫處理方法相同。在索引文件的基礎上再采取不同的方式對索引加以處理,完成檢索過程。

1.1 詞項——文檔關聯矩陣

給出搜索詞及多個文檔,以傳統思想進行思考,要得到索引文件,最直接的方即為枚舉法,對每個文檔進行遍歷只對文檔中是否存在某一詞項進行判斷,建立矩陣,以詞項為行,以文檔為列,記錄結果。若存在記為“1”,不存在記為“0”。

但詞項——文檔矩陣的不足之處也是顯而易見的,當遍歷文檔集規模過于龐大時,建立的矩陣可能已經超過所能承載的極限,這種方式顯然已經不合適再進行下一步的檢索。

1.2 倒排索引

那么當解決大容量文檔集時,需要用到的是倒排索引。提取文檔集中的所有詞項,以可變長順序表存儲每個詞項的倒排記錄,其中依次存儲詞項出項的文檔數和包含該詞項的文檔標號。以四個文檔為例,利用python語言編寫程序生成倒排索引,具體代碼如下:

該例的運行結果如下圖1,詞項的倒排記錄存儲在字典當中。

圖1

1.3 位置索引

在倒排索引的基礎上,進一步改進。倒排索引只能描述包含詞項的文檔,但忽略一個文檔中該詞的出現次數,這樣檢索出的結果容易出現誤差。為解決這一問題,可使用位置索引,在指出文檔標號的基礎上,更進一步的定位到該文檔內詞項所處的位置。仍以上述例子,編寫程序生成位置索引,具體代碼如下:

該例運行結果如圖2所示,以字典嵌套的方式表示索引。

圖2

2 布爾檢索

建立索引后,對索引記錄進行處理。布爾檢索就是根據查詢條件對詞項的索引表求其交集,并集,或補集的過程。這里以AND查詢和倒排索引為例,展示python語言中兩個索引記錄的合并過程。指針分別指向兩個索引記錄的第一個位置,比較其數值,若相等則記錄下來,兩個指針同時指向下一位置;若不相等,數值小的一行,指針向后移動一個位置,再進行比較,直至有一個指針到達記錄尾部,停止比較。得出合并結果。調用query()方法,參數為需要合并的兩個詞項。其結果顯示為同時包含這兩個詞項的文檔。

3 文檔評分

布爾檢索的結果集是所有含有查詢語句的文檔的集合,但搜索時,有許多文檔與查詢的語句的實際關聯度并不。所以需要對查詢的結果集進行排序,而排序的標準則通過對文檔評分實現。評分的方法也有很多,可以對文檔詞項進行權重計算,其權重值與某個詞項出現的頻率有關。權重的計算需要兩個值,tf為某一詞項在某一文檔中出現的次數,這個參數對于任一詞項在不同文檔中的值不同。df為在文檔集合中包含有該詞項的文檔數量,不考慮其出現頻率,對于依次權重的計算,d某一詞項的df值不會發生改變。當文檔集或頻率數值過大時,不易進行計算,故將兩個參數都進行標準化處理。tf取其以10為低的對數值加1,df則取其逆文檔頻率,即取倒數,并乘上一固定數值后取對數值。對于一個文檔的權重計算,查詢語句中的各個詞項在該文檔的tf值與對應詞項在整個文檔集中的df取值的乘積之和即為一個文檔的權重值。得出所有文檔的權重值后便可以進行排序。搜索引擎中的搜索結果一般只顯示權重值排序中的前若干位。所得結果為各個文檔的權重矩陣

4 總結

信息檢索在實際生活中應用廣泛,現代信息檢索技術也在飛速發展當中。從構建索引,詞項查詢,結果排序都有對應的方法實現,本文主要以python語言為例,編寫程序,描述信息檢索的過程。各種方法的應用都可以推廣至更深層次的應用當中。

猜你喜歡
信息檢索排序
基于同態加密支持模糊查詢的高效隱私信息檢索協議
排排序
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 福利视频久久| 久久久国产精品无码专区| 熟妇丰满人妻| 成人国产精品2021| 中文字幕永久视频| 久久亚洲AⅤ无码精品午夜麻豆| 在线无码av一区二区三区| 免费jizz在线播放| 久久国产成人精品国产成人亚洲| 亚洲欧美不卡| 国产精品冒白浆免费视频| 久久a级片| 中文字幕免费在线视频| 国产丝袜无码精品| 成人夜夜嗨| 亚洲一区二区日韩欧美gif| 黄色网在线| 国产一级在线播放| 露脸真实国语乱在线观看| 亚洲综合亚洲国产尤物| 免费无码在线观看| 国产视频资源在线观看| 亚洲精品成人片在线观看| 丝袜美女被出水视频一区| 免费在线a视频| 激情网址在线观看| 日本欧美在线观看| 青青青国产视频手机| 亚洲成在人线av品善网好看| 免费xxxxx在线观看网站| a欧美在线| 亚洲精品无码抽插日韩| 亚洲无码日韩一区| 亚洲嫩模喷白浆| 国产精品一区二区无码免费看片| 国产sm重味一区二区三区| 精品国产香蕉在线播出| 亚洲天堂免费观看| 日韩在线欧美在线| 国产精品香蕉| 91免费观看视频| 欧美视频免费一区二区三区| 久久毛片网| 91无码国产视频| 91久久国产热精品免费| 國產尤物AV尤物在線觀看| 自拍欧美亚洲| 国产视频一区二区在线观看| 91色爱欧美精品www| 欧美精品黑人粗大| 少妇人妻无码首页| 99精品影院| 亚洲欧美另类久久久精品播放的| 日韩人妻少妇一区二区| 亚洲天堂网在线视频| 国产成人亚洲精品无码电影| 国产成人高清在线精品| 好久久免费视频高清| 日韩成人在线视频| 日本精品影院| 婷婷五月在线| 伊人色天堂| 欧美日韩久久综合| 在线色综合| 久久综合AV免费观看| 亚洲精品欧美重口| 欧美成人精品在线| 国产精品专区第1页| 午夜激情福利视频| 国产在线自乱拍播放| 亚洲第一视频网站| 女人一级毛片| 女人av社区男人的天堂| 一区二区三区成人| 91精品久久久无码中文字幕vr| 国产日韩欧美一区二区三区在线| 精品视频一区在线观看| 亚洲国产精品久久久久秋霞影院| 欧洲高清无码在线| 99热国产这里只有精品无卡顿"| 欧美亚洲一二三区| 国产精品开放后亚洲|