999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情報檢索系統模型發展研究

2017-07-21 14:28:51朱秋霞
科教導刊·電子版 2017年16期
關鍵詞:信息檢索語義模型

朱秋霞

摘 要 信息檢索模型主要是對查詢和文檔進行相似度表示和計算的框架和方法。傳統檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現在已經發展到了新的階段,具有堅實理論基礎和明顯優勢的檢索模型是研究的熱點。

關鍵詞 信息檢索 檢索模型

中圖分類號:G354 文獻標識碼:A

信息檢索模型是運用數學或其它的語言和工具,對信息檢索的主要要素—查詢和文檔,及其之間的匹配程度—相似度進行表示和計算的框架和方法。它基于以下觀點: 文檔和查詢共有的詞項越多,則認為這篇文檔和該查詢越相關。

1布爾檢索模型→加權布爾檢索模型→擴展布爾檢索模型

布爾模型是信息檢索中第一個被提出的模型,其表達提問的方式與人們的思維方式相近,人們習慣于采用此種模式進行檢索查詢。它側重于結構化查詢表達式,即通過AND、OR 和NOT 構造查詢表達式,反映用戶需求,并通過精確匹配來返回文檔。布爾檢索實際是通過對若干個文獻集合的并、交、補運算回答用戶提問的。布爾模型最顯著的特點是將用戶查詢與文獻標引進行邏輯的、而非數值的比較而獲得檢索結果。這種模型把復雜的檢索過程簡單化,將復雜的情報提問按其概念組面的邏輯關系描述出來,使機器根據事先確定的程序進行自動匹配,簡化了運算。

但是,布爾邏輯式的構造不易全面反映用戶的需求,匹配標準存在某些不合理的地方,檢索結果不能按照用戶定義的重要性排序輸出。針對這些缺陷,提出加權布爾模型,通過對標引詞進行加權,解決了傳統布爾檢索的一些缺點,比如傳統布爾模型的運算符在加權布爾模型中無法使用,為解決此問題,提出了擴展布爾模型,該模型通過對標引詞加權值,同時將向量檢索模型與布爾檢索模型融為一體,克服了傳統與加權布爾邏輯模型的缺陷。其擴展規模是傳統布爾檢索模型完全匹配的嚴格性和向量模型提問的無結構性的折中,在保持布爾邏輯檢索的結構式提問的同時,吸納了模糊檢索和向量檢索模型的長處。

2概率模型→貝葉斯網絡檢索模型

概率論可以用來計算查詢和文檔的相關性,概率模型通過計算文檔與查詢相關的概率作為相似度。這就使相關性排序問題降為概率論應用問題。概率模型基于以下論點: 基于一個詞項分別在相關文檔和不相關文檔中出現的頻率來估計該詞項的權重。概率模型完全基于概率論,采用嚴格的數學理論為依據和基礎來進行檢索決策,具有堅實的理論基礎。它的主要缺點是增加存貯和計算資源的開銷、參數估計難度較大、系統的檢索性能提高不明顯。

貝葉斯網絡檢索模型是從傳統的概率理論中分離出來的,以概率理論為基礎,是概率檢索模型的擴展。貝葉斯網絡是一個帶有概率注釋的有向無環圖,圖中的點表示所要解決的問題中的變量。這種概率圖模型能表示變量之間的聯合概率分布,分析變量之間的相互關系,因而貝葉斯網絡模型可以用來表示術語間的條件概率和概念語義,并對查詢與文檔間的相似度進行預測,從而實現基于語義概念的查詢。盡管關于貝葉斯網的理論研究還很不完善,應用研究還處于起步階段,但已通過不同的方式應用到了信息檢索領域,隨著技術的進步,貝葉斯網模型將發揮越來越重要的作用。

3向量空間模型→隱性語義檢索模型→本體向量空間模型

向量空間模型是目前最為流行的信息檢索模型之一。其通過使用空間的相似性來解決語義上的相似性,把文檔和查詢在高維空間中用向量表示出來,每一個維對應著文檔集合中的一個詞。

向量空間模型最顯著的缺陷是基于關鍵詞的向量空間模型無法反應術語間的語義關系,為使處理水平從離散的關鍵詞匹配深入到概念匹配的層次上,提出了隱性語義檢索( LSI)。

LSI 可以看作是擴展的向量空間模型,其簡化了計算的復雜性,但語義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細的概念空間,涵蓋了領域內的所有知識及關系。在本體的支持下,文檔中語義相關的術語彼此間有了豐富的語義聯系,如上下位關系,同義、近義、成員、屬性等內在聯系,每種關系的關聯程度也不同。

在獲得豐富而詳細的本體的前提下,對基于本體的向量空間模型定義如下: 所有的文檔組成信息對象集合D = { di | 1≤i≤M} ,M 為信息對象的總數。根據向量空間模型,每條信息di都可以用一個特征向量v( s) =[s1,s2,…,sN]來表示。si對應于本體中的實體ei,表示某個信息對象中術語ei的權重。本體向量空間模型有著良好的前景,但由于構建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。

4模糊集檢索模型→粗糙集檢索模型

模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數和集中的元素結合在一起。該函數的取值在區間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來定義查詢語詞和文獻之間的模糊關系。每一個查詢語詞定義了一個模糊集合,每個文獻在相應的語詞集合中有一個隸屬度,取值通常小于1。

模糊檢索主要是建立隸屬函數,即為查詢條件使用的模糊語言定制適當的函數,用于計算數據庫中各記錄相應字段的匹配度。合適的隸屬函數則能準確把握用戶的意愿,滿足用戶的檢索需求。傳統的模糊集合模型只考慮利用語詞共現關系來進行模糊檢索,給出了文獻隸屬度的計算。由于它沒有考慮語詞與整個查詢概念的相似性,模糊程度有限。

粗糙集理論由波蘭數學家Z.Pawlak 于1982 年提出,建立在分類的基礎上。它將分類理解為在特定空間上的等價關系,而等價關系則構成對該空間的分類,且每個分類后的集合稱為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側重集合中的元素,而粗糙集側重于集合與集合之間。粗糙集理論應用于信息檢索是利用粗糙集的上下近似函數設置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級標準,提出一種擴充和優化用戶查詢的新方法,此方法可根據用戶查詢和等級匹配標準實現檢索,從而得到檢索結果的排序輸出。基于粗糙集的檢索模型目前還在研究階段尚無大范圍應用。

參考文獻

[1] 孫坦,周靜怡.近幾年來國外信息檢索模型研究進展[J].圖書館建設,2008(3):82-85.

[2] 王娟琴.三種檢索模型的比較分析研究[J].情報科學,1998(3):225-230,260.

猜你喜歡
信息檢索語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产精品专区第一页在线观看| 国产视频一区二区在线观看| 午夜影院a级片| 国产女人爽到高潮的免费视频| 欧美精品另类| AV片亚洲国产男人的天堂| 全部免费毛片免费播放 | 性做久久久久久久免费看| 精品国产成人三级在线观看| 亚洲色图在线观看| 久久精品亚洲专区| 久久午夜夜伦鲁鲁片无码免费| 园内精品自拍视频在线播放| 91精品aⅴ无码中文字字幕蜜桃| 日韩免费毛片| 日本福利视频网站| 精品伊人久久大香线蕉网站| 99热这里只有精品免费| 亚洲色图欧美视频| 99精品伊人久久久大香线蕉| 国产亚洲视频中文字幕视频| 日韩一级二级三级| 亚洲日韩久久综合中文字幕| 国产福利微拍精品一区二区| 国产免费a级片| 一本大道香蕉中文日本不卡高清二区| 91免费国产高清观看| 日韩精品成人在线| 毛片免费试看| 成人午夜天| 999国产精品| 国产AV无码专区亚洲精品网站| 日本AⅤ精品一区二区三区日| 欧洲一区二区三区无码| 成·人免费午夜无码视频在线观看| 国产综合色在线视频播放线视| 国产成人精彩在线视频50| 日韩成人午夜| 激情六月丁香婷婷| 久996视频精品免费观看| 99久久精品免费看国产免费软件| 国产欧美视频在线| 国产jizz| 国产免费久久精品99re丫丫一| 成人伊人色一区二区三区| 日韩无码真实干出血视频| 五月婷婷丁香色| 国产91线观看| 成人va亚洲va欧美天堂| 国产欧美综合在线观看第七页| 国产精品久线在线观看| 最新日本中文字幕| 欧美性精品不卡在线观看| 国产乱人伦偷精品视频AAA| 日韩欧美国产中文| 亚洲精品你懂的| 刘亦菲一区二区在线观看| 人妻免费无码不卡视频| 综合亚洲色图| 91娇喘视频| 波多野结衣一区二区三区四区| 国产真实自在自线免费精品| 美女国内精品自产拍在线播放| 不卡午夜视频| 国产黄在线观看| 亚洲精品国产首次亮相| 亚洲床戏一区| 久久人体视频| 亚洲aaa视频| 99精品在线看| 国产午夜福利在线小视频| 综合网久久| 亚洲精品日产AⅤ| 五月婷婷中文字幕| 国产一区二区网站| 亚洲精品在线观看91| 国产精品视频免费网站| 9999在线视频| 亚洲色偷偷偷鲁综合| www.日韩三级| 精品无码国产一区二区三区AV| 免费毛片全部不收费的|