999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的局部文檔分析查詢擴展方法研究

2011-09-23 03:43:32周劍烽
科技傳播 2011年3期
關鍵詞:語義分析方法

周劍烽

中國人民銀行杭州中心支行,浙江杭州 310001

基于本體的局部文檔分析查詢擴展方法研究

周劍烽

中國人民銀行杭州中心支行,浙江杭州 310001

檢索技術已經成為信息領域的重要技術之一,查詢擴展技術是信息檢索技術的一個關鍵技術,對提高檢索結果的準確性和完整性有重要作用。為提高檢索的查全率,本文在分析了傳統查詢擴展方法的基礎上,結合語義檢索技術的發展趨勢,將語義模型中的本體概念融合到查詢擴展技術中,提出了基于本體的局部文檔分析查詢擴展方法。實驗結果顯示,該方法的檢索結果與人們的認識比較接近,達到了較好的語義檢索效果。

本體 語義檢索 查詢擴展 局部文檔分析

0 引言

目前的信息檢索系統以關鍵詞匹配為技術基礎,檢索結果的優劣依賴于用戶給出的檢索關鍵詞。Furnas第一個發現了“詞典問題”(dictionary problem)[1],即兩個人使用同樣關鍵詞描述同一事物的幾率小于20%。同時Xu Jx和Croft WB等人發現,49%的用戶僅用一個關鍵詞表達自己的查詢請求,33%的用戶使用兩個單詞進行查詢,用戶平均只使用1.4個單詞描述他們的查詢[2]。使用的查詢詞越少,結果命中率就越低,查詢擴展技術由此產生,逐漸發展成了信息檢索領域的一個重要研究方向,并已經向語義擴展方向發展。

本文將語義本體技術融合到基于局部文檔分析的查詢擴展方法中,得到了一種改進的基于本體的局部文檔分析查詢擴展方法,從語義角度擴展關鍵詞,從而提高檢索的質量。

1 相關理論

1.1 查詢擴展定義

查詢擴展就是指利用計算機語言學、信息學等多種技術,把與初始查詢相關的詞或概念以邏輯“或”的方式添加到初始查詢中,得到比初始查詢更長的新查詢,然后再次檢索文檔,以改善信息檢索的查全率和查準率,從而解決 “詞不匹配”問題[3]。查詢擴展技術大致可以分為3類:1)基于用戶相關反饋的方法[4];2)基于全局文檔集分析的方法[5];3)基于局部文檔集分析的方法[3]。

1.2 基于局部文檔集分析的方法

基于局部文檔集分析的方法是在基于全局文檔集分析的方法基礎上提出來的,克服了全局分析方法構建全局敘詞表計算量大的問題,同時也解決了基于用戶相關反饋方法需要用戶干預查詢擴展的不足。但是該方法的效率取決于參與分析的文檔數及文檔的大?。ㄔ~量),文檔量大、文檔體積大仍然會給局部文檔分析帶來巨大的計算量。同時由于難以保證待分析文檔的相關性,造成擴展后查詢表達式相關性的不確定,影響檢索結果質量。

1.3 本體

本體是共享概念模型的明確的形式化規范說明[6]。從知識共享的角度來說,本體是通用意義上的概念定義集合,以分層次的形式化模式定義領域內術語間的相互關系,提供對這個領域知識的共同理解。實質上本體是一個領域的抽象知識化表示形式,具有良好的層次結構,以概念、實例以及各種關系表示領域中的信息。通過對本體中的關系進行推理,可以發掘隱含信息,實現語義上的關聯。

2 基于本體的局部文檔分析查詢擴展方法

為了更好的發揮基于局部文檔分析的方法優勢,同時實現語義支持,本文將本體技術應用到基于局部文檔分析的方法中,提出了基于本體的局部文檔分析查詢擴展方法。改進后的方法充分利用了本體的優良特性,以本體指導整個查詢擴展過程,實現了對語義的支持,基本原理為:1)初始查詢請求提交;2)本體化初始查詢請求的關鍵詞,并利用本體對關鍵詞進行同義、近義擴展;3)進行一次檢索;4)從檢索結果中取N(N取值可以節)個文檔進行分析,利用文檔矢量(由文檔特征詞權重構成,特征詞權重根據出現頻率計算得到)提取文檔中的特征詞。文檔矢量在對文檔進行預處理時形成,重復使用;5)一次擴展后的關鍵詞集通過本體進行二次語義擴展。通過本體對關鍵詞逐個進行相似度值查詢,根據相似度值的高低來決定新擴展詞的取舍。向一次擴展關鍵詞集合中添加語義相關的概念、實例,提高了檢索詞的語義完備性;6)對步驟4)和5)得到的關鍵詞集合進行交運算,得到最終的擴展結果。這一步操作得到的關鍵詞,既滿足了傳統方法的共現頻率統計,也滿足了語義相關性的描述,丟棄了兩種方法產生的不一致的詞,保證了語義相關性。

圖1 基于本體的局部文檔分析查詢擴展方法

擴展過程由兩條路,一條為本體擴展過程,即步驟5);一條是傳統的文檔分析過程,即步驟3)和4)。最終通過步驟6)合為一條路,產生最終的檢索詞集合。本體技術的使用,實現了對語義的支持,使擴展結果語義上更加明確,避免二義性。

3 實驗及結果分析

本文以田徑項目作為領域,構建了一個簡單的實驗本體。概念:田徑項目,跳躍,徑賽,投擲,接力,公路賽,障礙賽,短跑,長跑;實例:競走,馬拉松,女子100m欄,男子110m欄, 5000m,10 000m ,4×100m,4×400m,100m,400m,200m,標槍,鐵餅,鉛球,鏈球,跳高,跳遠,三級跳遠,撐桿跳高。

本文從網絡上摘取了60個與田徑項目相關的新聞作為實驗文檔,采用分層向量空間模型[7]進行文檔的矢量化,得到對應的文檔矢量。

以檢索 “短跑”為例,使用傳統方法和本文方法進行對比實驗,使用查全率和查準率兩個指標來衡量檢索質量。60個樣本文檔中與“短跑”相關的文檔總共是16個。

1)使用本文基于本體的局部文檔分析查詢擴展方法,最終檢索結果如表1所示。

表1 檢索文檔相似度值(其余文檔為零)

根據文檔相似度值對結果進行相關性排序,以一定的閾值獲取最終結果返回給用戶。相似度閾值分別取0.3,0.4,0.5時,對應的查全率分別為:100%,87.5%,25%,查準率相同為:100%。

2)使用傳統局部文檔分析查詢擴展方法,最終檢索結果如表2所示。取同樣的閾值0.3,0.4,0.5,對應的查全率分別為:62.5%,37.5%,37.5%,查準率相同為100%。

表2 檢索文檔相似度值(其余文檔為零)

圖2 本文方法與傳統方法檢索查全率對比

兩種方法的查全率對比如圖2所示。對文檔相似度的要求也提高,符合的文檔數量減少,查全率自然降低,閾值為0.3、0.4的時候,本文的方法對用戶檢索詞的擴展效果更好,相關性更大,查全率高于原方法。為了使最終結果文檔數在一個合適的范圍內,需要在查全率和查準率之間選擇一個平衡點,也就是選擇一個合適的閾值來進行控制,實驗中閾值取0.3和0.4都可以,在這個前提下,本文提出的方法能保證檢索詞的有效性和相關性,大大提高查全率,并保證查準率。

4 結論

對比結果,兩種方法查準率一樣,但查全率差別較大。閾值為0.3、0.4時,本文方法的查全率遠高于原方法;閾值為0.5時,兩種方法查全率差不多,但都比較低。原因為:隨著閾值的提高,

本文針對基于局部分析的查詢擴展不支持語義的弱點,通過融合本體技術于其中,得到了一個改進的方法。通過實驗結果數據的對比分析,驗證了本文提出的方法的有效性。

[1]Furnas GW,Landauer TK,Gomez LM,Dumais ST. The vocabulary problem in human-system communication. Communication of ACM,1987,30(11):964-971.

[2]崔航,文繼榮,李敏.基于用戶日志的查詢擴展統計模型[J].軟件學報,2003,14(9):1593-1599.

[3]黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,24(11):1-4.

[4]宋玲麗,成穎,單啟成.信息檢索系統中的相關反饋技術[J].情報學報,2005,24(1):34-41.

[5]TA Runkler, JC Bezdek. Automatic keyword extraction with relational clustering and Levenshtein distances,9th IEEE International Conference on Fuzzy Systems,IEEE,2000:636-640.

[6]陳泳,林世平.基于本體的語義檢索技術[J].計算機工程與應用,2006(S1):78-80.

[7]高珊.信息檢索中的查詢擴展及相關技術研究[D].湖北:華中師范大學,2008:20-21.

G252.7

A

1674-6708(2011)36-0054-02

猜你喜歡
語義分析方法
隱蔽失效適航要求符合性驗證分析
語言與語義
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲欧美h| 国产精品成| 国产专区综合另类日韩一区| 久久精品波多野结衣| 亚洲天堂区| 日韩精品毛片人妻AV不卡| 青青草欧美| 精品国产免费第一区二区三区日韩| 精品欧美一区二区三区久久久| 日本a级免费| 国产99久久亚洲综合精品西瓜tv| 大陆国产精品视频| 亚洲青涩在线| 久精品色妇丰满人妻| 亚洲国产日韩一区| 免费久久一级欧美特大黄| igao国产精品| 亚洲一道AV无码午夜福利| 一区二区三区成人| 日本不卡视频在线| 99尹人香蕉国产免费天天拍| AV天堂资源福利在线观看| 国产精品9| 久久精品国产精品一区二区| 无码'专区第一页| 先锋资源久久| 中文字幕第1页在线播| 另类专区亚洲| 国产手机在线小视频免费观看| 亚洲伊人电影| 99re免费视频| 99久久成人国产精品免费| 久久香蕉国产线看观看式| 77777亚洲午夜久久多人| 国产在线观看第二页| 精品一区二区三区四区五区| 91丝袜乱伦| 欧美激情伊人| 欧美a在线视频| 久久人人爽人人爽人人片aV东京热| 精品一区二区久久久久网站| 免费观看无遮挡www的小视频| 国产一区二区三区精品久久呦| 丝袜美女被出水视频一区| 在线看片中文字幕| 在线免费观看a视频| 国产精品一区在线麻豆| 国产欧美日韩在线在线不卡视频| 亚洲综合网在线观看| 综合人妻久久一区二区精品| 不卡午夜视频| 新SSS无码手机在线观看| 国产一级二级在线观看| 五月天丁香婷婷综合久久| 无码精品国产dvd在线观看9久| 久久久久无码精品国产免费| 久久精品这里只有国产中文精品| 国产国模一区二区三区四区| 久久99国产综合精品1| 亚洲人精品亚洲人成在线| 在线精品亚洲一区二区古装| 国产综合色在线视频播放线视| 91伊人国产| 日韩毛片免费观看| 国产剧情伊人| 国产成人福利在线视老湿机| 香蕉精品在线| 黄色网在线| 国产国产人免费视频成18| 粉嫩国产白浆在线观看| 欧美亚洲欧美区| 亚洲成人黄色在线| 欧美日韩激情在线| 国产精彩视频在线观看| 免费毛片网站在线观看| 国产福利小视频在线播放观看| 亚洲国产AV无码综合原创| 亚洲日本一本dvd高清| 中文字幕va| 欧美精品H在线播放| 欧美精品xx| 国产97公开成人免费视频|