999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情報檢索系統模型發展研究

2017-07-21 14:28:51朱秋霞
科教導刊·電子版 2017年16期
關鍵詞:信息檢索語義模型

朱秋霞

摘 要 信息檢索模型主要是對查詢和文檔進行相似度表示和計算的框架和方法。傳統檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現在已經發展到了新的階段,具有堅實理論基礎和明顯優勢的檢索模型是研究的熱點。

關鍵詞 信息檢索 檢索模型

中圖分類號:G354 文獻標識碼:A

信息檢索模型是運用數學或其它的語言和工具,對信息檢索的主要要素—查詢和文檔,及其之間的匹配程度—相似度進行表示和計算的框架和方法。它基于以下觀點: 文檔和查詢共有的詞項越多,則認為這篇文檔和該查詢越相關。

1布爾檢索模型→加權布爾檢索模型→擴展布爾檢索模型

布爾模型是信息檢索中第一個被提出的模型,其表達提問的方式與人們的思維方式相近,人們習慣于采用此種模式進行檢索查詢。它側重于結構化查詢表達式,即通過AND、OR 和NOT 構造查詢表達式,反映用戶需求,并通過精確匹配來返回文檔。布爾檢索實際是通過對若干個文獻集合的并、交、補運算回答用戶提問的。布爾模型最顯著的特點是將用戶查詢與文獻標引進行邏輯的、而非數值的比較而獲得檢索結果。這種模型把復雜的檢索過程簡單化,將復雜的情報提問按其概念組面的邏輯關系描述出來,使機器根據事先確定的程序進行自動匹配,簡化了運算。

但是,布爾邏輯式的構造不易全面反映用戶的需求,匹配標準存在某些不合理的地方,檢索結果不能按照用戶定義的重要性排序輸出。針對這些缺陷,提出加權布爾模型,通過對標引詞進行加權,解決了傳統布爾檢索的一些缺點,比如傳統布爾模型的運算符在加權布爾模型中無法使用,為解決此問題,提出了擴展布爾模型,該模型通過對標引詞加權值,同時將向量檢索模型與布爾檢索模型融為一體,克服了傳統與加權布爾邏輯模型的缺陷。其擴展規模是傳統布爾檢索模型完全匹配的嚴格性和向量模型提問的無結構性的折中,在保持布爾邏輯檢索的結構式提問的同時,吸納了模糊檢索和向量檢索模型的長處。

2概率模型→貝葉斯網絡檢索模型

概率論可以用來計算查詢和文檔的相關性,概率模型通過計算文檔與查詢相關的概率作為相似度。這就使相關性排序問題降為概率論應用問題。概率模型基于以下論點: 基于一個詞項分別在相關文檔和不相關文檔中出現的頻率來估計該詞項的權重。概率模型完全基于概率論,采用嚴格的數學理論為依據和基礎來進行檢索決策,具有堅實的理論基礎。它的主要缺點是增加存貯和計算資源的開銷、參數估計難度較大、系統的檢索性能提高不明顯。

貝葉斯網絡檢索模型是從傳統的概率理論中分離出來的,以概率理論為基礎,是概率檢索模型的擴展。貝葉斯網絡是一個帶有概率注釋的有向無環圖,圖中的點表示所要解決的問題中的變量。這種概率圖模型能表示變量之間的聯合概率分布,分析變量之間的相互關系,因而貝葉斯網絡模型可以用來表示術語間的條件概率和概念語義,并對查詢與文檔間的相似度進行預測,從而實現基于語義概念的查詢。盡管關于貝葉斯網的理論研究還很不完善,應用研究還處于起步階段,但已通過不同的方式應用到了信息檢索領域,隨著技術的進步,貝葉斯網模型將發揮越來越重要的作用。

3向量空間模型→隱性語義檢索模型→本體向量空間模型

向量空間模型是目前最為流行的信息檢索模型之一。其通過使用空間的相似性來解決語義上的相似性,把文檔和查詢在高維空間中用向量表示出來,每一個維對應著文檔集合中的一個詞。

向量空間模型最顯著的缺陷是基于關鍵詞的向量空間模型無法反應術語間的語義關系,為使處理水平從離散的關鍵詞匹配深入到概念匹配的層次上,提出了隱性語義檢索( LSI)。

LSI 可以看作是擴展的向量空間模型,其簡化了計算的復雜性,但語義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細的概念空間,涵蓋了領域內的所有知識及關系。在本體的支持下,文檔中語義相關的術語彼此間有了豐富的語義聯系,如上下位關系,同義、近義、成員、屬性等內在聯系,每種關系的關聯程度也不同。

在獲得豐富而詳細的本體的前提下,對基于本體的向量空間模型定義如下: 所有的文檔組成信息對象集合D = { di | 1≤i≤M} ,M 為信息對象的總數。根據向量空間模型,每條信息di都可以用一個特征向量v( s) =[s1,s2,…,sN]來表示。si對應于本體中的實體ei,表示某個信息對象中術語ei的權重。本體向量空間模型有著良好的前景,但由于構建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。

4模糊集檢索模型→粗糙集檢索模型

模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數和集中的元素結合在一起。該函數的取值在區間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來定義查詢語詞和文獻之間的模糊關系。每一個查詢語詞定義了一個模糊集合,每個文獻在相應的語詞集合中有一個隸屬度,取值通常小于1。

模糊檢索主要是建立隸屬函數,即為查詢條件使用的模糊語言定制適當的函數,用于計算數據庫中各記錄相應字段的匹配度。合適的隸屬函數則能準確把握用戶的意愿,滿足用戶的檢索需求。傳統的模糊集合模型只考慮利用語詞共現關系來進行模糊檢索,給出了文獻隸屬度的計算。由于它沒有考慮語詞與整個查詢概念的相似性,模糊程度有限。

粗糙集理論由波蘭數學家Z.Pawlak 于1982 年提出,建立在分類的基礎上。它將分類理解為在特定空間上的等價關系,而等價關系則構成對該空間的分類,且每個分類后的集合稱為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側重集合中的元素,而粗糙集側重于集合與集合之間。粗糙集理論應用于信息檢索是利用粗糙集的上下近似函數設置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級標準,提出一種擴充和優化用戶查詢的新方法,此方法可根據用戶查詢和等級匹配標準實現檢索,從而得到檢索結果的排序輸出。基于粗糙集的檢索模型目前還在研究階段尚無大范圍應用。

參考文獻

[1] 孫坦,周靜怡.近幾年來國外信息檢索模型研究進展[J].圖書館建設,2008(3):82-85.

[2] 王娟琴.三種檢索模型的比較分析研究[J].情報科學,1998(3):225-230,260.

猜你喜歡
信息檢索語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 久久国产黑丝袜视频| 国产网友愉拍精品视频| 国产又粗又爽视频| 国产一区二区三区视频| 午夜日本永久乱码免费播放片| 国产精品免费入口视频| 在线中文字幕网| 青青草一区| 亚洲精品无码抽插日韩| 久久精品亚洲热综合一区二区| 国产精品浪潮Av| 欧美www在线观看| 日韩欧美国产综合| 青青青视频91在线 | 亚洲国产精品美女| 97精品伊人久久大香线蕉| 国产成人综合久久精品尤物| 不卡无码网| 日韩欧美一区在线观看| 欧美性久久久久| 毛片在线看网站| 免费啪啪网址| 国产一级α片| 毛片免费在线视频| 国产精品亚洲综合久久小说| 亚洲自偷自拍另类小说| 色婷婷久久| 国产理论一区| 国产最新无码专区在线| 国产剧情国内精品原创| 国产一级视频在线观看网站| 久久永久视频| 无码AV高清毛片中国一级毛片| h视频在线观看网站| 亚洲精品无码久久久久苍井空| 成人午夜视频网站| 青青国产视频| 毛片手机在线看| 国产精品一区二区无码免费看片| 亚洲综合色区在线播放2019| 玩两个丰满老熟女久久网| 免费看a级毛片| 欧美成人精品在线| 欧美国产精品不卡在线观看| 国产精品理论片| 亚洲人在线| 中文字幕佐山爱一区二区免费| 992tv国产人成在线观看| 亚洲swag精品自拍一区| 国产亚洲精品在天天在线麻豆| 无码人妻热线精品视频| 国产亚洲精品在天天在线麻豆 | 91青青在线视频| 福利在线不卡| 激情国产精品一区| 国产又粗又猛又爽| 日本成人在线不卡视频| 国产99视频在线| 成年人午夜免费视频| 中国一级特黄大片在线观看| 国产日韩欧美在线播放| 日本影院一区| 亚洲乱强伦| 婷婷色中文网| 国产aⅴ无码专区亚洲av综合网| 亚洲国产日韩在线观看| 亚洲成a人片7777| 日韩资源站| 国产精品欧美激情| 亚洲aⅴ天堂| 高清精品美女在线播放| 8090成人午夜精品| 毛片国产精品完整版| 国产精品浪潮Av| 91免费在线看| 久久毛片网| 亚洲精品爱草草视频在线| 99这里只有精品免费视频| 亚洲乱码在线播放| 国产嫖妓91东北老熟女久久一| 岛国精品一区免费视频在线观看| 亚洲综合色婷婷|