999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情報檢索系統模型發展研究

2017-07-21 14:28:51朱秋霞
科教導刊·電子版 2017年16期
關鍵詞:信息檢索語義模型

朱秋霞

摘 要 信息檢索模型主要是對查詢和文檔進行相似度表示和計算的框架和方法。傳統檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現在已經發展到了新的階段,具有堅實理論基礎和明顯優勢的檢索模型是研究的熱點。

關鍵詞 信息檢索 檢索模型

中圖分類號:G354 文獻標識碼:A

信息檢索模型是運用數學或其它的語言和工具,對信息檢索的主要要素—查詢和文檔,及其之間的匹配程度—相似度進行表示和計算的框架和方法。它基于以下觀點: 文檔和查詢共有的詞項越多,則認為這篇文檔和該查詢越相關。

1布爾檢索模型→加權布爾檢索模型→擴展布爾檢索模型

布爾模型是信息檢索中第一個被提出的模型,其表達提問的方式與人們的思維方式相近,人們習慣于采用此種模式進行檢索查詢。它側重于結構化查詢表達式,即通過AND、OR 和NOT 構造查詢表達式,反映用戶需求,并通過精確匹配來返回文檔。布爾檢索實際是通過對若干個文獻集合的并、交、補運算回答用戶提問的。布爾模型最顯著的特點是將用戶查詢與文獻標引進行邏輯的、而非數值的比較而獲得檢索結果。這種模型把復雜的檢索過程簡單化,將復雜的情報提問按其概念組面的邏輯關系描述出來,使機器根據事先確定的程序進行自動匹配,簡化了運算。

但是,布爾邏輯式的構造不易全面反映用戶的需求,匹配標準存在某些不合理的地方,檢索結果不能按照用戶定義的重要性排序輸出。針對這些缺陷,提出加權布爾模型,通過對標引詞進行加權,解決了傳統布爾檢索的一些缺點,比如傳統布爾模型的運算符在加權布爾模型中無法使用,為解決此問題,提出了擴展布爾模型,該模型通過對標引詞加權值,同時將向量檢索模型與布爾檢索模型融為一體,克服了傳統與加權布爾邏輯模型的缺陷。其擴展規模是傳統布爾檢索模型完全匹配的嚴格性和向量模型提問的無結構性的折中,在保持布爾邏輯檢索的結構式提問的同時,吸納了模糊檢索和向量檢索模型的長處。

2概率模型→貝葉斯網絡檢索模型

概率論可以用來計算查詢和文檔的相關性,概率模型通過計算文檔與查詢相關的概率作為相似度。這就使相關性排序問題降為概率論應用問題。概率模型基于以下論點: 基于一個詞項分別在相關文檔和不相關文檔中出現的頻率來估計該詞項的權重。概率模型完全基于概率論,采用嚴格的數學理論為依據和基礎來進行檢索決策,具有堅實的理論基礎。它的主要缺點是增加存貯和計算資源的開銷、參數估計難度較大、系統的檢索性能提高不明顯。

貝葉斯網絡檢索模型是從傳統的概率理論中分離出來的,以概率理論為基礎,是概率檢索模型的擴展。貝葉斯網絡是一個帶有概率注釋的有向無環圖,圖中的點表示所要解決的問題中的變量。這種概率圖模型能表示變量之間的聯合概率分布,分析變量之間的相互關系,因而貝葉斯網絡模型可以用來表示術語間的條件概率和概念語義,并對查詢與文檔間的相似度進行預測,從而實現基于語義概念的查詢。盡管關于貝葉斯網的理論研究還很不完善,應用研究還處于起步階段,但已通過不同的方式應用到了信息檢索領域,隨著技術的進步,貝葉斯網模型將發揮越來越重要的作用。

3向量空間模型→隱性語義檢索模型→本體向量空間模型

向量空間模型是目前最為流行的信息檢索模型之一。其通過使用空間的相似性來解決語義上的相似性,把文檔和查詢在高維空間中用向量表示出來,每一個維對應著文檔集合中的一個詞。

向量空間模型最顯著的缺陷是基于關鍵詞的向量空間模型無法反應術語間的語義關系,為使處理水平從離散的關鍵詞匹配深入到概念匹配的層次上,提出了隱性語義檢索( LSI)。

LSI 可以看作是擴展的向量空間模型,其簡化了計算的復雜性,但語義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細的概念空間,涵蓋了領域內的所有知識及關系。在本體的支持下,文檔中語義相關的術語彼此間有了豐富的語義聯系,如上下位關系,同義、近義、成員、屬性等內在聯系,每種關系的關聯程度也不同。

在獲得豐富而詳細的本體的前提下,對基于本體的向量空間模型定義如下: 所有的文檔組成信息對象集合D = { di | 1≤i≤M} ,M 為信息對象的總數。根據向量空間模型,每條信息di都可以用一個特征向量v( s) =[s1,s2,…,sN]來表示。si對應于本體中的實體ei,表示某個信息對象中術語ei的權重。本體向量空間模型有著良好的前景,但由于構建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。

4模糊集檢索模型→粗糙集檢索模型

模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數和集中的元素結合在一起。該函數的取值在區間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來定義查詢語詞和文獻之間的模糊關系。每一個查詢語詞定義了一個模糊集合,每個文獻在相應的語詞集合中有一個隸屬度,取值通常小于1。

模糊檢索主要是建立隸屬函數,即為查詢條件使用的模糊語言定制適當的函數,用于計算數據庫中各記錄相應字段的匹配度。合適的隸屬函數則能準確把握用戶的意愿,滿足用戶的檢索需求。傳統的模糊集合模型只考慮利用語詞共現關系來進行模糊檢索,給出了文獻隸屬度的計算。由于它沒有考慮語詞與整個查詢概念的相似性,模糊程度有限。

粗糙集理論由波蘭數學家Z.Pawlak 于1982 年提出,建立在分類的基礎上。它將分類理解為在特定空間上的等價關系,而等價關系則構成對該空間的分類,且每個分類后的集合稱為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側重集合中的元素,而粗糙集側重于集合與集合之間。粗糙集理論應用于信息檢索是利用粗糙集的上下近似函數設置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級標準,提出一種擴充和優化用戶查詢的新方法,此方法可根據用戶查詢和等級匹配標準實現檢索,從而得到檢索結果的排序輸出。基于粗糙集的檢索模型目前還在研究階段尚無大范圍應用。

參考文獻

[1] 孫坦,周靜怡.近幾年來國外信息檢索模型研究進展[J].圖書館建設,2008(3):82-85.

[2] 王娟琴.三種檢索模型的比較分析研究[J].情報科學,1998(3):225-230,260.

猜你喜歡
信息檢索語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 欧美成人综合视频| 手机精品视频在线观看免费| 国产成人亚洲综合a∨婷婷| 午夜精品区| 国产裸舞福利在线视频合集| 欧美一级高清视频在线播放| 久久视精品| 试看120秒男女啪啪免费| 人妻中文久热无码丝袜| 日韩无码视频专区| 亚洲综合二区| 白浆免费视频国产精品视频 | 99re热精品视频国产免费| 精品国产Av电影无码久久久| 国产午夜看片| 国产成人精品亚洲日本对白优播| 亚洲成a人片| 日韩毛片基地| 无码综合天天久久综合网| 精品国产福利在线| 国产探花在线视频| 98超碰在线观看| 九色最新网址| 91久久大香线蕉| 九九九九热精品视频| 国模极品一区二区三区| 国产精品久久久久久影院| 亚洲最黄视频| 亚洲精品爱草草视频在线| 黄网站欧美内射| 丁香婷婷久久| 成年看免费观看视频拍拍| 91探花国产综合在线精品| 日韩成人免费网站| 亚洲成人黄色网址| 永久在线精品免费视频观看| 国产95在线 | 国产精品欧美在线观看| 国产成人精品无码一区二| 男女性色大片免费网站| 国产成人艳妇AA视频在线| 久久伊人操| 99re热精品视频中文字幕不卡| 最近最新中文字幕免费的一页| 无码专区在线观看| 亚洲福利片无码最新在线播放| 97视频免费在线观看| 欧美午夜视频在线| 亚洲无线国产观看| 亚洲日韩国产精品综合在线观看| 亚洲色图在线观看| 国产激情无码一区二区三区免费| 国产成人亚洲综合a∨婷婷| 8090成人午夜精品| 免费播放毛片| 黄色网址手机国内免费在线观看| 国产第四页| 97成人在线视频| 亚洲精品不卡午夜精品| 久久久噜噜噜| 国产精品jizz在线观看软件| 青青草国产免费国产| 国产精品区视频中文字幕| 久久伊人操| 亚洲日韩AV无码一区二区三区人| 激情无码视频在线看| 欧美啪啪网| 欧美怡红院视频一区二区三区| 在线无码av一区二区三区| 亚洲欧美另类视频| 精品国产香蕉在线播出| 四虎精品国产永久在线观看| 欧美一级大片在线观看| 免费人成视网站在线不卡| 亚洲全网成人资源在线观看| 欧美色图第一页| 大陆国产精品视频| 亚洲狠狠婷婷综合久久久久| 国产97区一区二区三区无码| 日韩色图区| 992tv国产人成在线观看| 亚洲色图欧美激情|