999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機檢索技術的研究與分析

2018-07-23 08:09:32河北農業大學信息學院趙曉卓
電子世界 2018年13期
關鍵詞:搜索引擎信息模型

河北農業大學信息學院 徐 琳 尹 悅 趙曉卓

1.文獻檢索原理及技術

1.1 概述

隨著當今社會的發展,被計算機存儲設備攜帶的電子類的信息越來越多。專利文獻特征:1.明顯的知識產權特性2.實用性非常強3.著錄格式規范4.將科技與法律融為一體。5.有很多重復信息,而且數量巨大。

從狹義上理解信息檢索,就是說從信息集合中尋找所需信息的過程,即我們經常說的信息搜索。

檢索大致過程如下圖所示:

用戶任務——信息需求——問題——問題提煉——搜索引擎——結果——數據庫

1.2 原理

1.2.1 原理示意圖

為了滿足檢索的需要,需要收集大量的數據并對其進行處理,以滿足檢索者快速準確檢索的需要。下面是信息檢索原理的示意圖:

1.2.2 檢索模型

(1)檢索模型引出:

所有索引基本上分為三個部分:文檔表示部分、查詢表示部分和匹配功能部分。文獻表示部分體現的是文獻的存儲形式,文獻表示部分可以是一些關鍵詞或者標引詞,它也可以是一些數據;查詢表示部分是指用戶表達信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢表示部分放入系統中進行匹配,并通過使用不同的匹配函數獲得不同的輸出結果。

(2)標引詞權重

標引詞的權重,用于描述標引詞和文獻內容相關程度。

(3)三種模型及其簡單函數

A.布爾模型

檢索X由邏輯運算符和/或非邏輯運算組成。檢索系統的索引系統中的每個索引在文檔中只有兩種狀態:出現和不出現。索引字的權重是q_ij屬于{0,1}。

B.向量空間模型

對于向量空間模型,二元組(Di,Kj)的權值是正非二值數。文件Kj的向量可以表示為。其中,表示第i標引詞Di在文檔Kj中權重。的取值范圍是[0,1],這樣某文檔就可轉為高維空間中一點。

標引詞權值主要由于標引詞的頻率統計,即:局部權值和全局權值。

全局權值(IDFi):是指第i個標引詞在整個系統中文檔集的權值,IDFi=log(N / ni)。

N——系統中文檔總數;ni——系統含標引詞Ki的文檔數;FREqij為標引詞Ki在文檔Dj中的出現的次數; MAXTfj表示文檔Dj中所用標引詞出現次數最大的值。

C模糊模型

用模糊數學語言描述標引詞的權重和其他關系而建立的模型。

1.3 技術中文分詞技術

1.3.1 分詞意義

無論是文檔還是查詢,都要變成標引項的某種形式,文檔可以用多個標引項的集合來表示,一般用詞來表示,還可以用其他形式的語言單位表示,還有一種特殊的標引詞就是關鍵詞。這就需要我們將文檔進行分詞來找到標引詞及其數目來作為每篇文章的特性。

1.3.2 中文詞法分析

1.3.3 停用詞消除

1.3.4 中文重疊詞還原

1.4 使用方法

檢索的使用方法分成單項檢索和組合檢索兩種

1.4.1 單項檢索

單項檢索將需要檢索的檢索詞輸入即可

如:想了解金銀花,檢索“金銀花”

1.4.2 多項檢索技術

多個檢索技術有兩種方式,第一種是單個檢索中的一些單詞或單詞的組合,第二種是一些檢索點的組合檢索,也就是說在同一搜索點中設置多個檢索詞,或者同時設置多個不同的檢索點再加以不同的條件,在這之后再執行檢索。

如:關鍵詞=(磁流體and(密閉or泄露))not(華東理工大學or華東化工學院)

2.搜索引擎技術

搜索引擎。說起搜索引擎,都清楚它需要具備內容全面、查詢內容準確、查找速度快等作用。此外,搜索引擎需要對各種文本進行分類。

2.1 內容全面信息采集概述

信息采集。

下載從因特網收集的信息通常被稱為機器人、蜘蛛和爬蟲,它們被下載、預先組織和在線。

投入大規模硬件進行采集和存儲

2.2 保證準確性的技術

2.2.1 相似度計算

將查詢轉換為向量,將文檔轉換為向量,將其更改為向量,然后求向量的相似性。相似性的計算被認為是三個因素:文檔中出現的單詞的數量,出現在單詞中的文檔的數量,以及接近度的比較。

2.2.2 鏈接分析

被越多網頁指向,而且被越重要的網頁指向,它就越重要。PageRank較大的網頁才會被檢索,保證了結果。

2.3 保證速度快的技術

2.3.1 倒排索引

建立倒排文件、使用倒排表搜索,使檢索速度更快。

2.3.2 計算剪枝技術

由于很多用戶只會看前兩頁,所以并不是所有網頁都會參與運算,因此,根據某種規則預先刷掉很多網頁或者分級。通過減少數量來加快速度。

2.3.3 緩存技術

將常用的放在內存,如檢索結果、索引等,加快檢索速度。

3.文本分類技術

3.1 統計學習法的流程

大量的按人力分類的文件作為學習資料(稱為訓練集),由人力分類的一批文件的成本遠遠低于從這些文件中總結準確規則的成本。

計算機主動從原來給出的大量人力分類資料中(即訓練集),提取有效的分類規則。這個過程稱為訓練,而這個總結出來的規則集就叫做分類器。

訓練完成之后,用分類器對未知文檔進行分類。

3.2 統計學習法流程圖

猜你喜歡
搜索引擎信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 欧美精品二区| 日韩久草视频| 欧美午夜一区| 九色视频最新网址| 亚洲第一黄片大全| 欧美激情综合一区二区| 日本在线亚洲| 四虎永久免费在线| 国产麻豆另类AV| 久久黄色视频影| jizz在线观看| 日韩精品一区二区三区大桥未久| 成人在线天堂| 尤物成AV人片在线观看| 人妻精品全国免费视频| 精品人妻系列无码专区久久| 小说区 亚洲 自拍 另类| 亚洲三级色| 香蕉色综合| 尤物特级无码毛片免费| 国产成人精品第一区二区| 黄色片中文字幕| 19国产精品麻豆免费观看| 成人av手机在线观看| 青青草原国产av福利网站| www.99在线观看| 久久国产精品嫖妓| 国产尤物jk自慰制服喷水| 蝌蚪国产精品视频第一页| 囯产av无码片毛片一级| 国产在线第二页| 亚洲第一国产综合| 亚洲国产精品一区二区第一页免 | 亚洲国产天堂在线观看| 国产精品爆乳99久久| 中文字幕欧美日韩高清| 免费一级毛片在线播放傲雪网 | 国产国语一级毛片| 国产综合色在线视频播放线视| 国产区91| 99热这里只有精品久久免费| 国产欧美亚洲精品第3页在线| 黄色网址免费在线| 欧美一级特黄aaaaaa在线看片| 久久黄色影院| 亚洲视频欧美不卡| 色综合成人| 99热国产这里只有精品9九| 日韩免费视频播播| 欧美激情视频一区二区三区免费| 日韩毛片在线视频| 广东一级毛片| 久久精品娱乐亚洲领先| 国产久操视频| 婷婷色中文| 看国产毛片| 国产精品免费入口视频| 在线中文字幕网| 成年午夜精品久久精品| 麻豆国产原创视频在线播放| 欧美在线三级| 国产精品区视频中文字幕| 国内精品久久九九国产精品 | 国产精品福利一区二区久久| 香蕉久久国产超碰青草| 狠狠色婷婷丁香综合久久韩国| 欧美精品在线免费| 国产成人av一区二区三区| 欧美日韩精品综合在线一区| 人人看人人鲁狠狠高清| 视频二区中文无码| 日本一区二区不卡视频| 91av成人日本不卡三区| 一区二区三区四区在线| 18黑白丝水手服自慰喷水网站| 97se亚洲综合在线韩国专区福利| 欧美中文字幕一区| 伊人成人在线| 亚洲最新地址| 国内精品手机在线观看视频| 免费啪啪网址| 久久久久夜色精品波多野结衣|