999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于農業領域本體的語義檢索模型

2012-12-27 06:54:42陳葉旺李海波余金山
華僑大學學報(自然科學版) 2012年1期
關鍵詞:語義詞匯

陳葉旺,李海波,余金山

(華僑大學 計算機科學與技術學院,福建 廈門 361021)

一種基于農業領域本體的語義檢索模型

陳葉旺,李海波,余金山

(華僑大學 計算機科學與技術學院,福建 廈門 361021)

基于農業領域本體和詞匯,給出一個針對農業領域的語義檢索改進模型.該模型接受用戶自然語言輸入,通過計算詞語與本體知識之間的相關度和相似度,來實現詞匯到知識的映射.針對農業領域本體特點,給出相應的語義擴展規則,把檢索結果從本體知識擴展到與之相關的資源文檔,并對檢索結果進行排序.

本體;語義擴展;語義檢索模型;農業領域

語義檢索是提供信息服務的重要組成部分,是當前的一個研究熱點[1-9].然而,目前大部分的基于本體的語檢索方法只是用本體來提供一些表達能力較淺的信息空間,或者只是在本體表達的知識中做是非判斷,存在著很大的局限性.在過去的一段時期內,在語義檢索這個方面上取得的成果,僅僅是在基于本體的知識系統中使用部分本體的表達能力[10],或是采用基于布爾檢索模型[9].這使得被檢索的對象要么符合條件,要么不符合條件.對于第1種模型而言,它使用部分本體的表達能力,而本體只是用來提供一些表達能力較淺的信息空間,本質上等同于詞匯分類和詞匯表.對于第2種模型而言,它存在一個很大的局限性,即很難把目前存在的海量非結構化知識完全用本體形式化地表示[8].在自然語言詞匯到本體知識映射方面,這兩種模型多是以字符串匹配方式簡單而直接地完成映射,使得映射成功率相對較低.另外,這兩個模型都沒有提供一個有效的檢索結果排序,使得最終用戶很難區分結果好壞.對于用戶來說,能否方便地實現檢索語句的構造,準確地表達出自己的檢索需求,關系到能否檢索到相關的結果.采用自然語言問句的形式,是目前表達檢索意圖的最好形式.本文給出一個基于農業領域本體與詞匯的改進檢索模型,并進行相應的實驗.

1 用戶輸入自然語言處理

系統的自然語言處理,包括用戶查詢預處理、問題分類、去除無意義字和詞、中文分詞等主要功能.

1)預處理.去除需求文本中不能被識別的成分,包括空白字符、空格、TAB和特殊字符.

2)問題分類.系統對每個領域知識的查詢都定義了一系列查詢關鍵詞,根據這些關鍵詞,可以從用戶的輸入中辨別出查詢領域.

3)去除無意義字和詞.屬于經驗處理,主要是去除平凡詞,如“是”、“應該”、“可以”,以及“的”、“地”、“得”等.平凡詞所在的語義表達的正確性和重要性較小,可以去除.平凡詞列表是根據經驗知識得到的,可以不斷提煉修改.

4)中文分詞.這一步主要基于兩個詞庫,一個是中文基本詞庫,其詞匯數量有119 850個;另一個是聯合國糧食及農業組織(Food and Agriculture Organization,簡稱FAO)提供的中文農業詞庫,其詞匯數量有37 060個.在分詞過程中,FAO提供中文農業詞庫優先級比中文基本詞庫高,即先以FAO中文農業詞庫為準.

2 詞匯-本體知識映射

在經過自然語言分詞之后,得到的是詞匯集合,須把這些詞匯轉化為本體知識庫中對應的知識點上,這就需要所謂的映射工作.映射結果通常有如下3種情況:1)所有關鍵詞是領域本體知識庫中的元素;2)部分關鍵詞是領域本體知識庫中的元素;3)沒有關鍵詞是領域本體知識庫中的元素.

對于本體知識庫中不存在的詞匯,可以通過詞匯的相似度計算,匹配相關的詞匯形成映射關系.文中采用的映射方法,是從兩個角度來考查自然詞匯-本體知識之間映射的關系,即一方面從詞匯-標注文檔-本體知識相關程度來看詞匯-本體知識的聯系緊密程度;另一方面基于知識關系詞典考查詞匯-本體知識兩者之間的相似程度.

2.1 基于詞匯-標注文檔-本體知識的相關關系

在詞匯-標注文檔-本體知識的相關關系中,一個詞匯可能被包含在多個文檔中,而每個文檔又可被一個或多個本體知識標注.通過統計包含詞匯的文檔所屬的本體知識,可以統計出這個詞匯對不同本體知識的相關程度.這種相關程度說明了詞語-本體知識間的聯系緊密程度.為計算這種相關關系,通過以下幾個假設來說明一個自然語言詞匯對一個本體知識的相關關系.

假設1 一個詞匯w通過文檔映射到的本體知識個數越多,它對單個本體知識的相關度越低.

假設2 一個詞匯w在一個受本體知識e標注過的文檔中的詞頻越高,w與e的相關程度越高.

假設3 若一個詞匯w與文檔d相關,則標注文檔d的本體知識e與文檔d的相關度越高,w與e之間的相關程度也就越高.

假設4 一個詞匯w在越多的受本體知識e標注過的文檔中存在,w與e之間的相關程度越高.

假設5 出現過詞匯w的文檔與受本體知識e標注過的文檔交集越大,w與e的相關程度越高.

假設1從詞匯在知識空間的分布情況來分析,一個詞語與越多的知識關聯,它對概念的區分性就越不明顯,與單個知識的相關程度也就越低.假設2在與某個本體知識相關的文檔空間中,對詞匯進行詞頻統計.這樣統計粒度細,區分性強,則可以更準確地刻畫這個詞對概念的所屬程度.假設5與假設2的細粒度角度不同,假設3與假設4考慮的角度是粗粒度的相關文檔數目.這樣從粗細不同的角度能更全面地考查詞匯與本體知識之間的相關度.據以上假設給出詞匯w和本體知識e的相關程度計算方法.

設DS={d1,d2,…,dm}表示一個文檔庫;?ed表示知識e標注了文檔d,NPRO(e,d)表示知識e標注文檔d的相關度,則有

算法1的詞匯-文檔-本體知識相關度計算偽代碼,如表1所示.

2.2 基于知識關系詞典的詞匯-本體知識相似度

在語義信息缺乏的情況下,知識詞典只能實現詞匯到本體知識的多對一映射,從而解決自然語言中的多詞同義現象.例如,將電腦和計算機都映射到本體概念“computer”上,再比如“葉子”和“葉片”都映射到本體知識的“leaf”上.然而,自然語義的一詞多義問題就比較難解決了,如蘋果一詞可以同時表示蘋果計算機和一種植物.概念映射的另一個困難是概念詞典常常無法覆蓋所有的用戶詞匯,用戶可能會使用生僻的詞匯來表示心目中的概念,由此可能產生無法被概念詞典識別的“孤兒詞匯”.

因此,基于知識關系詞典的映射應該取決于如下兩點:1)字符串匹配,若詞匯與領域本體中的某個實體的標簽及擴展表示字符串相似,則將這個本體實體作為候選映射元素;2)自然語言上下文與本體語義上下文之間的關系.如果候選映射元素集合之間存在著領域本體中所定義的語義關系,那么可以認為映射成功可信度高;而如果它們之間相互孤立,則認為成功可信度低.

定義1 知識關系詞典.一個本體實體e的知識關系詞典Le是由一個詞匯集合Te和一個語義環境Contexte組成,即Le=Te∪Contexte.一個詞匯t出現Contexte中,則記為t∠Contexte.

定義2 詞匯-知識相似度.詞匯-知識相似度函數SIM∶w→e,計算詞匯集合Γ中一個詞匯w∈Γ與本體實體e相似度,有

其中:MAXSTRSIM(w,e)=Max(SrtSim(w,w′1),SrtSim(w,w′2),…,SrtSim(w,w′|Te|));w′,…,w′|Te|∈Te;λ=|Φ|/|Γ|,而Φ={w′|w′∠Contexte,w′≠w}.

依據以上工作,得出算法2的詞匯-本體知識相似度計算偽代碼,如表1所示.

表1 算法的詞匯-文檔-本體知識相關度計算偽代碼Tab.1 Pseudocode of algorithm of calculating word-document-ontoloy relation

2.3 詞匯-本體知識映射相關度

詞匯-標注文檔-本體知識相關關系體現的是詞匯與本體知識之間的聯系緊密程度,而基于知識關系詞典的詞匯-本體知識相似度體現的是兩者之間的相似程度.二者分別從不同的角度考查兩者之間的關系.在這里,可以認為兩者對詞語-本體知識映射相關度具有相同的影響力,兩種因素相互作用的結果更能有效說明詞匯映射相關度的強弱.因此,采用兩種因素直接相乘的方式來定義詞語-本體知識映射相關度,即

3 基于領域本體的語義擴展

根據疑問對象和疑問焦點在本體知識庫中映射的距離,可分為直接關系檢索和間接關系檢索.在檢索處理中,兩種關系檢索方式的難度和實現策略不同.直接檢索的實現較為簡單,可通過相似度計算將疑問對象和疑問焦點映射為三元組的主體和謂詞結構進而生成檢索表達式.有時直接檢索結果不能滿足用戶需求,就需要根據領域本體中知識關系進行語義擴展,然后提交給檢索表達式生成模塊,組成SPARQL表達式進行檢索,即擴展檢索.文中的工作是把兩者合并在一塊,通過相關度體現出不同.

本體實體分為類、屬性、實例3種,其擴展方式和擴展假設有所不同.

1)類(概念)擴展.對一個概念實體e,可以從知識庫中選取與之相關的概念作為e的擴展,如上下位概念、等同概念(包括owl:sameAs和owl:equivalentTo)、參照概念(owl:seeAlso)等.

2)屬性擴展.與類的擴展類似,對一個屬性實體e,可以從知識庫中選取與之相關的屬性作為e的擴展,如上下位屬性、等同屬性(包括owl:sameAs和owl:equivalentTo)、參照屬性(owl:seeAlso)等.

3)實例擴展.除了可以通過等同關系、參照關系實現擴展外,還可以通過一些特殊屬性關系推導出與其有等同關系的實體.

在農業領域本體中常用到這些特殊屬性,主要有FunctionalObjectProperty,SymmetricObject-Property和Transtivity Property.

1)FunctionalObjectProperty(功能性屬性):對于一個owl:FunctionalObjectProperty P而言,如果P(X,Y)與P(X,Z)都成立,Y=Z.那么,根據這種邏輯關系,可以把使用owl:FunctionalObjecproperty關系可以推導出與實體e等同的其他實體作為e的擴展集.

2)SymmetricObjectProperty(對稱性屬性):與FunctionalObjectProperty類似,可以把使用owl:SymmetricObjectProperty關系可以推導出與實體e等同的其他實體作為e的擴展集.

3)Transtivity Property(傳播性屬性):對于一個owl:TranstivityProperty ObjectProperty P而言,如果P(X,Y)與P(Y,Z)都成立,則P(Y,Z)成立.根據這種邏輯關系,可以把使用owl:TranstivityProperty關系可以推導出與實體e相關的其他實體作為e的擴展集.

4 生成SPARQL形式化查詢語句

SPARQL現在已成為W3C的推薦標準,文中方法的查詢最終都轉化成SPARQL.因為用戶的提問方式多種多樣,不同的問題也會有不同的檢索策略.問句中的關鍵詞可能是本體中類、屬性、實例中任何一種.問句(關鍵詞)提交后,將啟動問句解析模塊分析問句,過濾無意義詞匯,分解成詞匯集合,進行詞匯-本體知識映射,確定知識關系;然后,根據問句的疑問詞及句法和語法特征對問題進行分類,確定問題檢索策略和答案的組織方式.最后,系統訪問領域本體庫,判定哪些關鍵詞是本體庫中包含的類、屬性、個體,進而對用戶提問概念進行規范化.

標準的中文問句結構有一定的規則,而本體中三元組〈Subject,Predicate,Object〉的形式化表示正好符合問句的表達順序.這就為問句成分映射成本體知識庫的詞匯提供了條件.在SPARQL的檢索表達式中,三元組處在后方順次排列,其中的未知變量就是問題所在的位置.

疑問對象是問題的主體,一般問句的提問針對的是主體的某個屬性.盡管用戶提問的方式多種多樣,但歸納起來主要有兩種排列句型:一種是疑問對象位于句子的前部,疑問焦點排列在疑問對象的后面,句子的尾部是疑問詞,問題的答案就是疑問詞所指代的信息,如白斑病怎么治;另外一種問句的提問方式與此相反,疑問詞位于句子的前部充當疑問對象,疑問焦點位于疑問詞的后方,句子的尾部為疑問對象的相關信息,如什么藥能治白斑病.雖然兩種句型的排列順序不同,但其疑問的意向是相同的,句中的疑問成分也一致,經過問句解析后形成的結果,如表2所示.

表2 解析示例Tab.2 Examples

在進行三元組元素的映射時,疑問對象放置在三元組主體的位置,中間的謂詞由疑問焦點充當,客體的位置是未知變量,也就是問題的所在之處.當用戶從接口輸入檢索關鍵詞時,可以直接將輸入的關鍵詞與本體中的詞匯進行相似度計算.

如果依據用戶輸入的內容找不到結果,則按前述的方式進行語義擴展,對每一個實體擴展的集合取笛卡爾乘積,即M1×M2×…×Mn.其中Mi為第i個實體的擴展集合.對乘積結果中的每組元素,重新按上述方法創建查詢語句,并根據擴展實體與原實體的相似度計算新生成的查詢語句與原始查詢語句相似度.

5 擴展查詢結果

如前所述,過去的一段時期內語義檢索方法的檢索結果缺乏合適的排序,不存在那種可以用百分比來表示檢索結果可信度的答案.文中的檢索模型與布爾語義檢索系統不同之處在于,返回排序的結果不僅僅是知識庫中用本體所描述的相關知識,還有與知識相關信息資源,排序過程以每條結果項的綜合相關度為基準.每個結果項的綜合相關度包含兩部分,即

式(4)中:resultind,d表示結果項,包含知識ind與文檔d;SIMSPARQLind為生成的SPARQL的查詢語句與原始查詢的相似度,該查詢語句的執行結果中包含實例ind;NPROR(ind,d)為文檔d與實例ind之間的相關度;W 為權重.

6 實測評價

根據前面的工作,實現一個現向農業領域的語義檢索系統.開發工具是MyEclipse 6.0,本體知識用OWL表達,資源標結果存儲于MySQL數據庫中.目前,在語義搜索領域還沒有一個公認的測設數據集和評價方法,而文中的工作也只是針對特定的農業領域.因而,測試時使用的數據都是自己建立的農業相關領域本體知識及農業相關的資源,而這些資源都經過語義標注工具或手工方式標注過.

本體知識使用的農業病蟲害本體,#Concept和#Individual的數量分別為274,3 730;而資源是相對應的農作物病蟲害知識文檔,其數量為1 119.使用Precision@(n,k)和Recall@(n,t)作為主要的評價方法和指標,其計算式為

其中:Precision@(n,k)表示前n個結果中相似度大于k的查準率,Recall@(n,t)表示前n個結果中相似度大于k的查全率;α為語義檢索的前n個結果中相似度大于k的集合;β為人工判斷的檢索結果中前n個結果.

表3為查詢實驗數據.由表3可以看出,檢索方法取得了一定的效果,當查詢語句比較簡單且能按查詢示例結構輸入時,查詢結果比較準確.

表3 查詢實驗數據Tab.3 Query data

7 結論

目前,大部分的基于本體的語檢索方法很難把存在的海量非結構化知識完全用本體形式化地表示.同時,在自然語言詞匯到本體知識映射方面,現有的方法多是以字符串匹配方式簡單而直接地完成映射,使得映射成功率相對較低.此外,對于檢索結果也都沒有提供一個有效的排序,使得最終用戶很難區分結果好壞.針對這些問題,文中給出一個基于農業領域本體和詞匯的改進檢索模型.

該模型接受用戶自然語言輸入,通過計算詞語與本體知識之間的相關度和相似度,來實現詞匯到知識的映射;針對農業領域本體特點,給出相應的語義擴展規則;把檢索結果從本體知識擴展到與之相關的資源文檔,并對檢索結果進行了排序.基于這個模型,實現一個針對農業領域的檢索系統,并進行一些小規模的實驗,取得了良好的效果.

[1]HEFLIN J,HENDLER J.Searching the web with SHOE[C]∥Proc of AAAI 2000Workshop on AI for Web Search.Austin:AAAI Press,2000:35-40.

[2]SHAH U,FININ T,JOSHI A,et al.Information retrievalon the semantic web[C]∥Proc of the 11th International Conference on Information and Knowledge Management.New York:ACM Press,2000:461-468.

[3]GUHA R,Mc COOL R,MILLER E.Semantic search[C]∥Proc of the 12th international conference on World Wide Web.New York:ACM Press,2003:700-709.

[4]PICARD J,SAVOY J.Enhancing retrieval with hyperlinks:A general model based on propositional argumentation systems[J].Journal of the American Society for Information Science and Technology,2003,54(4):347-355.

[5]LOSADA D E,BARREIRO A.A logical model for information retrieval based on propositional logic and belief revision[J].The Computer Journal,2001,44(5):410-424.

[6]POPOV B,KIRYAKOV A,OGNYANOFF D,et al.KIM:A semantic platform for information extaction and retrieval[J].Journal of Natural Language Engineering,2004,10(3/4):375-392.

[7]BERNERS-LEE T,HENDLER J,LASSILA O.The semantic web[J].Scientific American,2001,284(5):34-43.

[8]VALLET D,FERNáNDEZ M,CASTELLS P.An ontology-based in-formation retrieval model[J].ESWC,2005,3532:455-470.

[9]DAVIES J,FENSEL D,BUSSLER C,et al.The semantic web:Research and applications[M].Berlin:Springer-Verlag,2004:473-487.

[10]CHRISTOPHIDES V,KARVOUNARAKIS G,PLEXOUSAKIS D,et al.Optimizing taxonomic semantic web queries using labeling schemes[J].Journal of Web Sematics,2004,1(2):207-228.

A Semantic Retrieval Model Based on Agricultural Field Ontology

CHEN Ye-wang,LI Hai-bo,YU Jin-shan

(College of Computer Science and Technology,Huaqiao University,Xiamen 361021,China)

A semantic retrieval model is proposed based on the ontology and vocabulary of agriculture domain.This model provides an interface for user to input natural language,then it maps identified keywords to ontology entities by calculating the correlation and similarity between them;furthermore,we give a set of rules for semantic extension based on the features of agricultural ontology;and we extend and order the result got from the ontology to the annotated documents.

ontology;semantic extension;semantic retrieval model;agricultural domain

陳志賢 英文審校:吳逢鐵)

TP 391.3

A

1000-5013(2012)01-0027-06

2011-07-03

陳葉旺(1978-),男,講師,主要從事語義檢索與數據挖掘的研究.E-mail:ywchen@hqu.edu.cn.

福建省自然科學基金資助項目(A0810013);福建省農業科技重大項目(2010N5008);華僑大學高層次人才科研啟動項目(09BS619)

猜你喜歡
語義詞匯
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
本刊可直接用縮寫的常用詞匯
本刊一些常用詞匯可直接用縮寫
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 亚洲天堂首页| 国产91色在线| 国产精品伦视频观看免费| 996免费视频国产在线播放| 真人高潮娇喘嗯啊在线观看| 91欧洲国产日韩在线人成| 亚洲视频欧美不卡| 日韩欧美国产精品| 欧美精品H在线播放| 亚洲色欲色欲www网| a级毛片毛片免费观看久潮| 免费黄色国产视频| 午夜少妇精品视频小电影| 亚洲人成日本在线观看| 国产黑丝视频在线观看| 久久久久久久蜜桃| 国产在线拍偷自揄拍精品| 欧洲在线免费视频| 欧美日韩高清| 久久综合结合久久狠狠狠97色| 日本高清免费一本在线观看| 精品国产免费第一区二区三区日韩| 亚洲an第二区国产精品| 国产一级在线播放| 一级毛片免费的| 亚洲精品福利网站| 欧美一级特黄aaaaaa在线看片| 丁香婷婷久久| 久夜色精品国产噜噜| 午夜国产小视频| 欧美综合一区二区三区| 国产精品13页| 国产视频a| 亚洲第一天堂无码专区| 欧美笫一页| 日韩欧美色综合| 乱人伦中文视频在线观看免费| 国产丝袜丝视频在线观看| 色爽网免费视频| 99re热精品视频中文字幕不卡| 中文字幕久久波多野结衣| 亚洲高清无码久久久| 日韩毛片在线播放| 狠狠色丁香婷婷| 国产欧美日韩精品第二区| 999在线免费视频| 中文一区二区视频| 色综合热无码热国产| 国产乱码精品一区二区三区中文 | 亚洲国产成人久久77| 亚洲第一页在线观看| 亚洲国产黄色| 高清无码手机在线观看| 制服丝袜在线视频香蕉| 亚洲无码视频图片| 久久亚洲黄色视频| 久久久久免费看成人影片| 国内黄色精品| 国产在线视频福利资源站| 久久久久中文字幕精品视频| 伦精品一区二区三区视频| 亚洲免费毛片| 成年人国产网站| 成人一级免费视频| 99在线视频免费| 亚洲午夜片| jizz国产在线| 伊人91在线| 国产精品自在线天天看片| 91极品美女高潮叫床在线观看| 欧美成人综合视频| 亚洲人免费视频| 亚洲二区视频| 欧美一区二区人人喊爽| 亚洲中文字幕在线精品一区| 亚洲人成电影在线播放| 综合久久久久久久综合网| 亚洲欧美综合在线观看| 亚洲最黄视频| 久久国产拍爱| 久久久久久高潮白浆| 国产精品自拍合集|