999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體知識庫的語義檢索研究

2018-02-07 09:51:05楊清琳錢文標楊曉雷
山東工業技術 2018年4期
關鍵詞:語義概念用戶

楊清琳+錢文標+楊曉雷

摘 要:通過建立領域本體知識庫,改進傳統檢索系統基于關鍵詞匹配存在的缺陷,將用戶輸入的自然語言查詢經分析推理后上升到語義層面,構建了一個基于領域本體知識庫的語義檢索模型,提高了檢索性能。

關鍵詞:本體;知識庫;語義檢索

DOI:10.16640/j.cnki.37-1222/t.2018.04.196

0 引言

傳統的搜索引擎技術雖然日趨成熟,但其主要是通過關鍵詞機械式的匹配進行檢索,存在如下問題:返回大量與檢索主題無關或關聯很小的結果,用戶還需要二次篩選才能獲得所需信息;用戶需要的重要信息被漏檢;跟檢索主題無關的信息卻被作為結果檢索出來。本文結合領域本體知識庫,設計一個面向特定領域的語義檢索模型,將用戶輸入的自然語言查詢語句上升到語義層面,把握用戶真正的檢索意圖,提高檢索性能。

1 語義檢索的研究現狀

語義檢索技術為訪問Web信息提供了有效思路,關于該技術近幾年的研究工作,大致有基于本體的語義檢索、自然語言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關系對查詢擴展進行探索[1];Fernández利用本體層次結構進行語義相似度的計算,并對文檔使用本體概念進行標注后建立索引,實現了增強式的語義檢索。國內的相關研究如宋俊峰[2]提出的基于本體的信息檢索模型;武成崗在本體技術的基礎上建立的多主體信息檢索服務器。自然語言處理和基于概念的方法是另外兩種常用的語義檢索方法。分詞、短語識別和詞義消歧是自然語言處理中最為主要的技術[3]。

2 基于領域本體知識庫的語義檢索研究

2.1 本體知識庫

本體作為一種概念建模的手段,能夠利用本體節點中概念之間的關系描述出概念語義,而且還能實現邏輯推理。領域本體知識庫是通過將特定領域中的概念和關系進行抽象提取,作為一種領域信息資源有效的組織框架。基于本體技術來構建領域知識庫,通過邏輯推理可以發掘概念之間不明確的信息和隱含語義關聯。將本體知識庫引入到信息檢索中,使用推理機制來擴展用戶查詢,實現從語義層面把握用戶輸入的查詢語言,通過推理理解用戶真正的檢索意圖,以排除自然語言表達描述存在的歧義,獲得用戶真正需要的有用信息,實現信息的智能語義檢索。

本文采用本體編輯工具Protege手動建立本體。抽取特定領域的概念來設計本體模型,編輯本體中的元素,包括類、屬性、實例,其中概念之間的主要關系為“同位”和“下位”。對構建好的領域本體利用Jena進行相應的推理操作。

2.2 語義檢索模型設計

本文設計的語義檢索模型,主要由四大關鍵模塊組成,分別為:查詢自然語言預分析處理、本體知識推理、語料文檔前期處理和檢索結果排序,本體知識庫語義檢索模型如圖1所示。

2.2.1 查詢自然語言預分析處理

查詢自然語言預分析處理模塊接收用戶輸入的自然語言,采用ICTCLAS漢語分詞系統對用戶查詢語句請求進行分詞,并過濾查詢語句中的停用詞、特殊字符和無意義的詞,將用戶查詢語句分解為獨立的詞匯集合。

2.2.2 本體知識推理

具有語義推理能力是基于本體知識庫的語義檢索系統較基于關鍵字的檢索系統的最大優勢,也是語義檢索系統模型的核心。推理系統通過將推理規則、策略編寫成程序代碼,實現語義自動推理。推理系統接收前期經過查詢自然語言預分析處理的關鍵字后,結合本體知識庫中的推理策略實現語義推理。在本文的檢索模型中,由于所建立概念之間的主要關系為“同位”和“下位”,所以本文檢索模型只能實現這兩種邏輯關系的推理。原始檢索關鍵字經過推理機進行語義推理后可以將本體知識庫中與概念相關的類、對應的實例及關系加入到檢索關鍵詞中,擴展原始查詢,再提交給檢索引擎進行檢索。

2.2.3 語料文檔前期處理

建立語義索引庫是語料文檔前期處理的最終目的。本文利用網絡爬蟲工具Crawler從互聯網上收集到近萬個Web文檔,存入檢索信息庫中作為測試語料,其處理過程如下:預處理web文檔,然后去除HTML標簽、停用詞等,提取存儲文檔中的文本信息;對文本信息進行分詞,并將特征信息作為特征詞提取出來;然后將特征詞比較匹配知識庫中的概念節點,并將概念的同義詞添加到文檔概念集中,形成文檔概念集;文檔概念集的權重利用TF-IDF算法來進行計算,在一定閾值內的概念才作為文檔的語義向量;構建倒排索引,其中概念列表存儲在內存,而倒排列表和文檔集則存在磁盤。

2.2.4 檢索結果排序

檢索系統檢索出來的大量結果,用戶通常只關注排在前面的那些檢索結果,因此如何將用戶最關心的返回結果排在前面關系到檢索系統性能好壞。本文利用查詢與文檔之間的相關度(即文檔得分)來對結果進行排序,并采用TF-IDF特征項權重計算方法來計算文檔得分,其核心思想是:不同的概念在查詢和文檔中的重要程度是不一樣的,因此如何給查詢中的概念分配權重是文檔得分計算的基礎。最終進入到檢索系統的查詢向量由用戶原始查詢概念和經過推理系統推理后的擴展查詢概念組成,本文分別計算原始查詢概念和擴展后查詢概念的權重,后對查詢向量中每個概念的權重進行求和得到文檔得分。

3 結束語

本文對傳統的信息檢索系統進行了改進,引入了本體知識庫,建立了一種基于領域本體知識庫的語義檢索模型。后續的研究工作是如何完善本體知識庫,實現對查詢關鍵詞更好更優的語義查詢擴展,提高檢索系統性能;并對檢索到的文檔的排序算法進行深入研究,結合用戶的喜好,返回相關度高的結果文檔。

參考文獻:

[1]王旭陽,尉醒醒.基于本體的語義檢索方法[J].計算機工程與設計,2016,37(09):2538-2542.

[2]宋峻峰,張維明,肖衛東等.基于本體的信息檢索模型研究[J].南京大學學報,2005,41(02):189-197.

[3]陳振標.基于本體的語義檢索技術研究[J].情報探索,2011(166):96-98.

作者簡介:楊清琳,工程師,研究方向:知識庫、本體論。endprint

猜你喜歡
語義概念用戶
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产成人av一区二区三区| 中文字幕精品一区二区三区视频| 亚洲成人www| 国产成人区在线观看视频| 亚洲第一黄色网址| 欧美另类第一页| 波多野结衣在线一区二区| 香蕉视频在线观看www| 视频二区国产精品职场同事| 欧美国产视频| 国产精品成人第一区| 婷婷色中文| 看国产毛片| 毛片免费试看| 在线观看精品自拍视频| 亚洲国产系列| 国产网站一区二区三区| 青青草一区| 男人天堂伊人网| 色综合狠狠操| 日本亚洲国产一区二区三区| 国产精品冒白浆免费视频| 色综合天天娱乐综合网| 免费无码又爽又黄又刺激网站| 国产真实乱子伦精品视手机观看 | 国产精品高清国产三级囯产AV | 国产成人禁片在线观看| 亚洲第一视频网站| 欧美性久久久久| 国产一区二区三区在线无码| 一级毛片在线播放免费| 国产精品三级专区| 日韩欧美中文字幕一本| 88av在线| 欧美日一级片| 婷婷色一二三区波多野衣| 亚洲国产综合精品一区| 91美女视频在线| 二级特黄绝大片免费视频大片| 青青青视频蜜桃一区二区| 欧美第九页| 成人字幕网视频在线观看| 亚洲男人的天堂在线观看| 99在线视频免费| yjizz视频最新网站在线| 少妇极品熟妇人妻专区视频| 亚洲欧美日韩久久精品| 国产打屁股免费区网站| 99热最新网址| 伊人丁香五月天久久综合 | 欧洲免费精品视频在线| 澳门av无码| 美女裸体18禁网站| 人人澡人人爽欧美一区| 欧美午夜一区| 免费一级毛片在线观看| 国产精品第5页| 欧美区日韩区| 亚洲免费福利视频| 亚欧乱色视频网站大全| 26uuu国产精品视频| 992tv国产人成在线观看| 色婷婷视频在线| 五月天在线网站| 毛片在线看网站| 亚洲无码91视频| 国产中文在线亚洲精品官网| 日韩在线观看网站| 超清人妻系列无码专区| 91欧美亚洲国产五月天| 秘书高跟黑色丝袜国产91在线| 色综合五月| 日本免费新一区视频| 中文字幕人成人乱码亚洲电影| 久久精品最新免费国产成人| 欧美a级在线| 欧美天天干| 日韩成人在线网站| 丝袜高跟美脚国产1区| 亚洲欧美人成人让影院| 欧美一级黄色影院| 国产经典在线观看一区|