999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體知識庫的語義檢索研究

2018-02-07 09:51:05楊清琳錢文標楊曉雷
山東工業技術 2018年4期
關鍵詞:語義概念用戶

楊清琳+錢文標+楊曉雷

摘 要:通過建立領域本體知識庫,改進傳統檢索系統基于關鍵詞匹配存在的缺陷,將用戶輸入的自然語言查詢經分析推理后上升到語義層面,構建了一個基于領域本體知識庫的語義檢索模型,提高了檢索性能。

關鍵詞:本體;知識庫;語義檢索

DOI:10.16640/j.cnki.37-1222/t.2018.04.196

0 引言

傳統的搜索引擎技術雖然日趨成熟,但其主要是通過關鍵詞機械式的匹配進行檢索,存在如下問題:返回大量與檢索主題無關或關聯很小的結果,用戶還需要二次篩選才能獲得所需信息;用戶需要的重要信息被漏檢;跟檢索主題無關的信息卻被作為結果檢索出來。本文結合領域本體知識庫,設計一個面向特定領域的語義檢索模型,將用戶輸入的自然語言查詢語句上升到語義層面,把握用戶真正的檢索意圖,提高檢索性能。

1 語義檢索的研究現狀

語義檢索技術為訪問Web信息提供了有效思路,關于該技術近幾年的研究工作,大致有基于本體的語義檢索、自然語言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關系對查詢擴展進行探索[1];Fernández利用本體層次結構進行語義相似度的計算,并對文檔使用本體概念進行標注后建立索引,實現了增強式的語義檢索。國內的相關研究如宋俊峰[2]提出的基于本體的信息檢索模型;武成崗在本體技術的基礎上建立的多主體信息檢索服務器。自然語言處理和基于概念的方法是另外兩種常用的語義檢索方法。分詞、短語識別和詞義消歧是自然語言處理中最為主要的技術[3]。

2 基于領域本體知識庫的語義檢索研究

2.1 本體知識庫

本體作為一種概念建模的手段,能夠利用本體節點中概念之間的關系描述出概念語義,而且還能實現邏輯推理。領域本體知識庫是通過將特定領域中的概念和關系進行抽象提取,作為一種領域信息資源有效的組織框架。基于本體技術來構建領域知識庫,通過邏輯推理可以發掘概念之間不明確的信息和隱含語義關聯。將本體知識庫引入到信息檢索中,使用推理機制來擴展用戶查詢,實現從語義層面把握用戶輸入的查詢語言,通過推理理解用戶真正的檢索意圖,以排除自然語言表達描述存在的歧義,獲得用戶真正需要的有用信息,實現信息的智能語義檢索。

本文采用本體編輯工具Protege手動建立本體。抽取特定領域的概念來設計本體模型,編輯本體中的元素,包括類、屬性、實例,其中概念之間的主要關系為“同位”和“下位”。對構建好的領域本體利用Jena進行相應的推理操作。

2.2 語義檢索模型設計

本文設計的語義檢索模型,主要由四大關鍵模塊組成,分別為:查詢自然語言預分析處理、本體知識推理、語料文檔前期處理和檢索結果排序,本體知識庫語義檢索模型如圖1所示。

2.2.1 查詢自然語言預分析處理

查詢自然語言預分析處理模塊接收用戶輸入的自然語言,采用ICTCLAS漢語分詞系統對用戶查詢語句請求進行分詞,并過濾查詢語句中的停用詞、特殊字符和無意義的詞,將用戶查詢語句分解為獨立的詞匯集合。

2.2.2 本體知識推理

具有語義推理能力是基于本體知識庫的語義檢索系統較基于關鍵字的檢索系統的最大優勢,也是語義檢索系統模型的核心。推理系統通過將推理規則、策略編寫成程序代碼,實現語義自動推理。推理系統接收前期經過查詢自然語言預分析處理的關鍵字后,結合本體知識庫中的推理策略實現語義推理。在本文的檢索模型中,由于所建立概念之間的主要關系為“同位”和“下位”,所以本文檢索模型只能實現這兩種邏輯關系的推理。原始檢索關鍵字經過推理機進行語義推理后可以將本體知識庫中與概念相關的類、對應的實例及關系加入到檢索關鍵詞中,擴展原始查詢,再提交給檢索引擎進行檢索。

2.2.3 語料文檔前期處理

建立語義索引庫是語料文檔前期處理的最終目的。本文利用網絡爬蟲工具Crawler從互聯網上收集到近萬個Web文檔,存入檢索信息庫中作為測試語料,其處理過程如下:預處理web文檔,然后去除HTML標簽、停用詞等,提取存儲文檔中的文本信息;對文本信息進行分詞,并將特征信息作為特征詞提取出來;然后將特征詞比較匹配知識庫中的概念節點,并將概念的同義詞添加到文檔概念集中,形成文檔概念集;文檔概念集的權重利用TF-IDF算法來進行計算,在一定閾值內的概念才作為文檔的語義向量;構建倒排索引,其中概念列表存儲在內存,而倒排列表和文檔集則存在磁盤。

2.2.4 檢索結果排序

檢索系統檢索出來的大量結果,用戶通常只關注排在前面的那些檢索結果,因此如何將用戶最關心的返回結果排在前面關系到檢索系統性能好壞。本文利用查詢與文檔之間的相關度(即文檔得分)來對結果進行排序,并采用TF-IDF特征項權重計算方法來計算文檔得分,其核心思想是:不同的概念在查詢和文檔中的重要程度是不一樣的,因此如何給查詢中的概念分配權重是文檔得分計算的基礎。最終進入到檢索系統的查詢向量由用戶原始查詢概念和經過推理系統推理后的擴展查詢概念組成,本文分別計算原始查詢概念和擴展后查詢概念的權重,后對查詢向量中每個概念的權重進行求和得到文檔得分。

3 結束語

本文對傳統的信息檢索系統進行了改進,引入了本體知識庫,建立了一種基于領域本體知識庫的語義檢索模型。后續的研究工作是如何完善本體知識庫,實現對查詢關鍵詞更好更優的語義查詢擴展,提高檢索系統性能;并對檢索到的文檔的排序算法進行深入研究,結合用戶的喜好,返回相關度高的結果文檔。

參考文獻:

[1]王旭陽,尉醒醒.基于本體的語義檢索方法[J].計算機工程與設計,2016,37(09):2538-2542.

[2]宋峻峰,張維明,肖衛東等.基于本體的信息檢索模型研究[J].南京大學學報,2005,41(02):189-197.

[3]陳振標.基于本體的語義檢索技術研究[J].情報探索,2011(166):96-98.

作者簡介:楊清琳,工程師,研究方向:知識庫、本體論。endprint

猜你喜歡
語義概念用戶
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
主站蜘蛛池模板: 成人欧美日韩| 91久久夜色精品国产网站| 亚洲一级无毛片无码在线免费视频 | 久久久精品国产SM调教网站| 99re这里只有国产中文精品国产精品| 欧美国产成人在线| 日韩精品一区二区三区swag| 国产精品jizz在线观看软件| 国产精品一区在线麻豆| 国产成人AV综合久久| 精品视频第一页| 蜜桃视频一区| 欧美日韩成人在线观看| 亚洲欧洲日本在线| 久久久久亚洲AV成人人电影软件| 伊人色综合久久天天| 亚洲欧洲日韩久久狠狠爱| 高清无码不卡视频| 国产精品视屏| 91精品日韩人妻无码久久| 久久免费精品琪琪| 亚洲五月激情网| 538精品在线观看| 99精品伊人久久久大香线蕉| 国产精品尤物在线| 国产一级小视频| 国模视频一区二区| aⅴ免费在线观看| 亚洲资源站av无码网址| 在线a网站| 手机成人午夜在线视频| 制服丝袜一区二区三区在线| 国产高清又黄又嫩的免费视频网站| 人妻丝袜无码视频| 久久一色本道亚洲| 精品一区国产精品| 色综合久久久久8天国| 久久婷婷五月综合97色| 狠狠色香婷婷久久亚洲精品| 欧美福利在线播放| 热久久综合这里只有精品电影| 久久伊人久久亚洲综合| 91精品啪在线观看国产91| 在线无码九区| 国模沟沟一区二区三区| 国产内射一区亚洲| 91久久精品日日躁夜夜躁欧美| 喷潮白浆直流在线播放| 欧美、日韩、国产综合一区| 国产成人亚洲精品无码电影| 99精品国产电影| 97无码免费人妻超级碰碰碰| 国产精品高清国产三级囯产AV| 男人的天堂久久精品激情| 伊人久久综在合线亚洲2019| 一级全黄毛片| 丰满少妇αⅴ无码区| 色综合婷婷| 国产精品入口麻豆| 亚洲三级网站| 日韩欧美中文字幕在线精品| 亚洲男女天堂| 亚洲青涩在线| 国产色婷婷| 99久久精品视香蕉蕉| 无码AV日韩一二三区| 婷婷色中文| 精品无码一区二区三区电影| 国产欧美日韩另类| 国产成人精品日本亚洲| 午夜综合网| 日韩欧美高清视频| 亚洲中字无码AV电影在线观看| 亚洲一区二区无码视频| 久久精品人妻中文系列| 欧美日韩国产成人在线观看| 久久精品这里只有国产中文精品| 亚洲无卡视频| 欧美区一区二区三| 欧美19综合中文字幕| 国产主播在线一区| 中文字幕首页系列人妻|