999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粗糙本體支持的信息語義檢索

2012-05-04 08:05:52黃映輝
計算機工程與設計 2012年12期
關鍵詞:語義概念信息

樊 皓,黃映輝

(大連海事大學 信息科學技術學院,遼寧 大連116026)

0 引 言

G.Salton作為信息檢索領域的先驅,最早提出基于關鍵字的向量空間檢索方法,自此信息檢索被默認為是信息語法檢索,一般多采用改進匹配算法的方式提高 “串匹配”的效率。語義Web概念的提出為信息語義檢索提供了解決方案和技術支持,從而推動信息檢索從基于關鍵字的語法檢索邁向基于標注的語義檢索[1]。主要的改進為:引入哲學術語 “本體”,期望通過對概念及概念之間關系的定義,實現知識層次的檢索,突破傳統基于關鍵字檢索時語言表達形式的局限實現語義檢索。然而,本體在被引入信息科學領域時就已被界定為 “概念模型的明確規范說明”[2],被默認為是精確本體。該模型的精確性假設與人類認知客觀世界過程的不精確性特征并不相符,表現為不精確的信息檢索請求 (用戶對所要檢索的領域知識的不精確認知)與精確的信息表達 (精確本體對概念及概念之間關系的明確性定義)之間存在著矛盾。

S.Ishizu[3]將粗糙集理論引入本體,提出了粗糙本體的概念,使其具有了對不精確信息的表達能力。本文引入粗糙本體支持的信息語義檢索,以求在概念匹配的基礎上,解決概念表達的不精確影響檢索結果的問題。通過分析信息語義檢索的過程和特點并結合粗糙本體的定義,確定了粗糙本體的表示形式,建立了粗糙本體支持的信息語義檢索模型,探討了作為該模型最主要環節的語義相似度計算的核心算法,提出了該模型的實現方法并進行了實例驗證。

1 信息語義檢索

信息語義檢索是一種基于概念及其相互關系的檢索匹配機制[4],要求從語義理解的角度分析信息對象與檢索請求。信息語義檢索的一種重要應用是對語義Web上的文檔進行的檢索。語義Web文檔是用語義Web語言描述的可供用戶訪問的文檔[5],對此類信息進行語義檢索的關鍵是找出不同概念之間的相似映射關系,實現基于本體的檢索[6]。

信息語義檢索相對于信息語法檢索的優勢主要體現在:

(1)信息組織方面。信息語義檢索大多采用基于語義Web信息組織的有序化結構[7],信息之間的關系通過術語來表達,信息資源得到有效整合,易于信息的存取。

(2)信息理解方面。信息語義檢索的概念級別匹配機制使機器充分 “理解”檢索請求,能夠完成在不同語義環境下詞語含義與精確概念的匹配。

(3)概念推理方面。通常本體是用某種基于描述邏輯的語言表示的,例如RDF(S)、SHOE、OWL等,一些常用的本體工具如Protégé、Jena等可以據此進行自動推理,滿足信息智能檢索的需要。

單純依靠精確本體并不能在有限表達中窮盡詞語的語義,即精確本體的知識是不完備的,因此引入粗糙本體的支持。粗糙本體是精確本體在粗糙集理論上的擴充[8],能夠基于已有的精確概念衍生出粗糙概念,同時又具有本體的結構可伸縮性的特點,因此可以用來解決粗糙概念的表示問題。粗糙本體與精確本體相比其主要優勢在于:

(1)概念分類。粗糙本體引入粗糙集的不可分辨關系,可以在信息不完備的基礎上揭示出領域知識的粒狀結構,可作為定義其他概念的基礎。

(2)概念的含糊性和邊界的表示。自然語言使用的概念幾乎都是含糊的,例如 “美麗的照片”,照片不能簡單地分為 “美麗”或 “不美麗”,因此往往有很多對象會處于粗糙概念的邊界上,粗糙本體可將含糊的邊界表示出來。

(3)不確定性問題。某概念是否符合檢索請求是屬于不確定性問題的研究范疇,粗糙本體可定義所需概念的近似邊界,將粗糙概念邊界域明確化,把結果的不確定性問題變成邊界的確定性問題,將粗糙性與不確定性聯系起來。

2 粗糙本體

2.1 粗糙本體

粗糙本體可用三元組O=<C,P,R>表示,其中C為粗糙概念集,P為屬性集,R為粗糙概念之間關系集。為刻畫概念的粗糙性,引入了粗糙集理論中的上近似、下近似來進行概念邊界的粗糙性表示,由此彌補了精確本體對不精確信息描述的缺失。粗糙概念c是一個三元組,其形式為c= (U,L,Y),含義為,對于給定的內涵Y,“可能”被Y中所有屬性涵蓋的對象組成的集合U為此內涵對應概念的上近似外延,“肯定”被Y中所有屬性涵蓋的對象所組成的集合L為此內涵對應概念的下近似外延。

粗糙概念c的近似精度定義為aR(c)=card (R*(c))/card (R*(c)),用來表示概念的不精確程度,以反映人們了解概念c的完全程度。其中,c≠,card (X)表示X的基數。R*(c)為概念c關于Y的下近似,R*(c)為概念c關于Y的上近似。當近似精度為1時,說明此概念的上近似和下近似基數相同,可將其視為精確概念,由此可知精確本體是粗糙本體的子集。由于繼承了粗糙集的不精確信息表示和決策支持的特性,使粗糙本體具有了對不精確概念的形式表示和語義挖掘的能力,所以,它不僅能完成精確概念對現實世界中的精確信息的表示,同時也可以從中挖掘出隱含的不精確信息。

粗糙關系R是粗糙元組的有窮集合,它是叉集P (D1)×P (D2)×…×P (Dm)的一個子集。其中,Di是屬性域,P(Di)表示Di的冪集。

目前的研究已經實現了粗糙本體的構建,實施路徑主要分為兩種:一是基于粗糙集理論,二是基于現有的本體構建方法。現多采用屬于第二種路徑的形式概念分析法[9],這種方法的實現主要依靠粗糙集近似[10]或屬性集冪集[11],前者需要用到粗糙集理論中下近似、上近似和不可分辨的原理,能夠較好地實現粗糙概念的邊界描述,后者重點關注面向計算機的程序實現,能夠方便地完成粗糙概念的抽取。

2.2 粗糙本體的表示

要將粗糙本體引入信息語義檢索,首先需要解決其形式化表示的問題。粗糙本體是精確本體在粗糙集上的擴充,由于粗糙本體的特殊性,利用OWL[12]代碼化粗糙本體時需在對象屬性中加入粗糙性描述語句,即上近似外延和下近似外延,與此同時,為便于區分精確本體與粗糙本體、表示粗糙概念的不精確程度,還需引入近似精度的概念(其定義見2.1節)。粗糙本體的OWL表示為:定義PreciseClass為精確類、RoughClass為粗糙類;定義accuracy為該對象的近似精度;定義subClassOf為粗糙概念之間的繼承關系表示基于內涵的包含關系;定義low_extent為粗糙概念的下近似外延、up_extent為粗糙概念的上近似外延,定義域為粗糙類,值域為精確類。表示模型如圖1所示。

圖1 粗糙本體的OWL表示

現舉例說明:對海事領域粗糙本體進行OWL描述。對粗糙概念 “載駁船”而言,其下近似外延為 {貨船,母船}、上近似外延為 {貨船,母船,駁船},OWL描述片段如圖2所示。

圖2 粗糙本體的OWL文檔 (片段)

粗糙概念到精確概念的聯系由上近似外延、下近似外延表示。在利用粗糙集理論對精確本體信息構成的形式背景抽取規則后,獲得的置信度為1的規則為精確規則,對應著該粗糙概念節點的下近似外延;其余置信度大于閾值且小于1的規則,對應著該粗糙概念節點的上近似外延,由此完成精確本體到粗糙本體的聯系。當精確概念的結構越來越復雜,精確概念之間關系越來越多,粗糙概念就可以很好地成為實際距離較遠的兩個精確概念的 “捷徑”。由此,在信息語義檢索中對概念集擴展的過程有了根本的變化,引入粗糙本體的信息語義檢索充分挖掘出了精確概念之間關系的隱含信息,而并不只是關注精確本體概念的單一結構特性 (如層次結構、二元關系等)。

3 粗糙本體支持的信息語義檢索

3.1 理論模型

粗糙本體支持的信息語義檢索模型如圖3所示。用戶通過人機交互接口提交檢索請求,經過語法分析、格式轉換得到檢索語句的規范化邏輯表示,提取出關鍵字的集合,得到初始概念集。通過粗糙本體支持的語義相似度計算,找到滿足閾值的相關精確概念和粗糙概念以對初始概念集進行語義擴展,得到擴展概念集。已擴展的概念集與索引庫中已經標注的文檔進行匹配,對結果排序后將結果文檔集返回給用戶。

圖3 粗糙本體支持的信息語義檢索模型

圖3所示模型共有4個關鍵性操作:

(1)關鍵字提取。關鍵字提取是對用戶所提交檢索請求的處理模塊,主要完成對檢索語句的處理使其轉化成能夠完成機器推理的形式化語法格式,如OWL-QL等。提取過程需要進行語法分析、句法分析、格式轉換等操作,最后獲得滿足檢索請求的初始概念集。

(2)語義標注。語義標注過程是將需要檢索的文檔中涉及的實例與抽象的本體中的概念相關聯的過程。從本體構建的角度看,語義標注是將文本信息轉化為本體數據并存儲到索引庫的過程。基于粗糙本體的語義標注需要同時以精確本體和粗糙本體的實例為切入點,將文檔形式化為一系列本體實例的向量,并對其進行索引。

(3)語義相似度計算。語義相似度計算是用來完成對概念集擴展的過程,是區別于精確本體支持的信息語義檢索的關鍵,它主要是通過初始概念集借助本體推理得到相關概念,通過對擴展概念的語義相似度計算,選擇概念之間語義相似度大于閾值的作為擴展概念加入概念的擴展集合,使檢索結果更符合用戶需求。

(4)結果獲取與排序。獲取包含擴展所得的概念集中的本體實例的文檔,并根據文檔中所有實例相對于概念集的相似度向量和權重對結果文檔集排序。

3.2 語義相似度計算

基于本體的信息語義檢索是利用本體中的精確概念來表達用戶的檢索請求,而對檢索請求的分析則要求盡可能準確地判斷其與本體中概念的相似程度,這就需要分析概念之間的語義相似度。語義相似度的計算決定概念匹配的精確度,是區別于語法檢索的基礎和關鍵。目前對精確本體支持的語義相似度的研究通常分為3類[13]。基于概念名稱,即根據英語詞法構造,認為兩個相近的詞在詞義上是相似的,代表算法有編輯距離法、基于詞典處理法。這種算法簡單快捷,但是沒有考慮使用環境對概念的語義信息的影響因素。基于概念實例,即基于統計概率計算概念之間共有實例的聯合分布,代表算法有GLUE法、Jaccard法。這種算法對特定系統適應度高,只是過分依賴訓練集的質量。基于概念結構,即抽取概念的屬性與規則關系圖,分配權重,計算語義距離,代表算法有Rada法、Sycara法。這種算法面向概念的聯通性,應用廣泛,但是未涉及與現實世界粗糙概念的隱含聯系。由于概念節點層次關系中有大量的語義信息,基于概念結構的語義相似度算法被廣為關注并設法改進。

然而,三類算法都無法適用于引入粗糙概念后的語義相似度計算,已有的語義相似度計算歸根結底還是基于精確概念和精確實例的。例如,海事領域精確本體的日趨完善為海事領域信息檢索提供有效支持,三類算法都可以完成海事領域精確的概念 (如貨船、港口、航線等)的語義相似度計算,然而用戶對檢索關鍵詞的描述和分類往往并不能從海事領域的專業術語出發,從而會產生許多海事領域的粗糙概念,比如 “擁擠港口”、“熱門航線”、“事故海域”等,它們的外延的不精確性致使海事領域精確本體無法對其進行顯式地描述,更無法通過精確概念到粗糙概念的內在聯系實現包含概念之間隱含關系的相似度計算。以第2.2節給出的粗糙本體的表示為基礎,探討粗糙本體支持的語義相似度計算方法,根據概念節點的類型應分為三種情況處理:粗糙—精確、粗糙—粗糙、精確—精確,通過調節因子確定3種情況下語義相似度的比重。具體計算方法如下:

(1)粗糙—精確:粗糙概念X與精確概念x之間的語義相似度simrp計算主要考慮的是精確概念隸屬于粗糙概念的確定程度

(2)粗糙—粗糙:兩個粗糙概念X1、X2的語義相似度simrr需要同時考慮到它們的下近似和上近似的相似程度。對于給定粗糙概念X1(U1,L1,Y1)和X2(U2,L2,Y2),定義下近似相似度siml(X1,X2)和上近似相似度simu(X1,X2),相似度是兩者之和,β為調節因子

(3)精確—精確:精確概念x1、x2之間的語義相似度需要考慮到粗糙本體進行擴展后兩個概念的距離,因此在語義距離的基礎上,考慮到邊的方向問題,給出表1所示的距離權重。其中Φ代表空操作,G為泛化操作,包括子節點向父節點的邊和由精確規則連接的精確概念向粗糙概念的邊;S為細化操作包括父節點指向子節點的邊和有下近似外延連接的粗糙概念到精確概念的邊;P為正聯系,用來表示同位關系的邊;Gr和Sr分別表示由不精確規則和上近似外延聯系的精確概念之間的邊;“—”代表無意義操作。比如對于路徑G→S→P→Gr→Sr,其語義距離為2+3.5+4+5=14.5。

表1 擴展后的語義距離權重表

引入最低共同祖先后,給出語義距離計算方法和語義相似度計算方法

語義距離distx1x2中為概念之間各邊的加權距離之和,Nxi代表節點i到最低共同祖先的距離,Nh代表最低共同祖先到根節點的距離,θ和γ是調節因子。

3.3 實現方法

根據對現有工具的比較,給出圖3所示模型在技術上的實現方法。

首先,參照相關領域的術語標準完成精確概念、精確概念屬性和精確概念之間關系的提取,粗糙概念可以由精確概念實例離散化后所生成的形式背景通過粗糙形式概念抽取的方式直接獲得;其次,利用本體編輯工具Protégé進行粗糙本體的創建和維護,完成OWL粗糙本體在關系數據庫中的結構化存儲[14];再次,利用Jena API完成概念之間關系的推理,獲得相關概念和屬性,計算語義相似度;然后,使用標注工具對檢索資源文檔完成半自動標注,利用Lucene開源工具包中IndexWriter建立索引庫,以實現擴展概念集與標注文檔的匹配和排序;最后,通過Java和Eclipse搭建軟件開發平臺和人機交互界面,完成模型在技術上的具體實現。

3.4 驗證實例

基于 《交通漢語主題詞表》與 《中國分類主題詞表》中 “水路運輸”類目下的概念及概念關系,構建海事領域精確本體并進行擴充,同時通過粗糙形式概念抽取方法獲得粗糙概念,添加適當的類和屬性。選擇中國國際海運網(http://www.shippingchina.com/)的信息為數據源,由于數據量巨大,只抽取其中10129條網頁新聞信息 (截至到2011年12月)中的2000條與 “港口”有關的網頁作為驗證數據,將網頁信息轉化為文本文檔,采用半自動機器輔助標注方式,并將實例和文檔的關系存入索引庫,完成被檢信息的語義標注和索引。

將粗糙本體支持的信息語義檢索與未進行粗糙擴展前的精確本體支持的信息語義檢索和基于關鍵字的信息語法檢索進行效果比較。考慮到比較條件的一致性原則,用戶輸入采用相同關鍵詞,結果發現在用戶可接受的檢索時間范圍內,粗糙本體支持的信息語義檢索的查全率和查準率都有很大程度上的提高。例如檢索 “擁擠港口”,語法檢索、精確本體支持的語義檢索、粗糙本體支持的語義檢索所獲得的前5條結果見表2。

表2 驗證實例:“擁擠港口”的檢索結果

可以明顯看出,語法檢索時由于被檢信息中沒有 “擁擠”只能部分匹配到帶有 “港口”的信息,而精確本體支持的信息語義檢索可以將 “擁擠”與 “港口”拆分, “擁擠”同義于 “擁堵”,并由 “港口”聯系到 “散貨港口”、“航運”和 “船舶”等,完成概念級別的匹配;而只有引入粗糙本體后,才能在精確本體概念匹配的基礎上將用戶檢索請求中所真正關注的 “擁擠港口”(如上海港、美東線港口、廣西防城港)的信息檢索出來。

4 結束語

信息語義檢索是信息智能化檢索領域一個重要應用方向,在知識不完備的條件下實現信息的語義檢索是研究立足點。將粗糙本體應用于信息語義檢索,提出了粗糙本體支持的信息語義檢索模型,探討了具體的技術實現方案。下一步工作將從兩個方面展開:由于粗糙本體的標注主要采取的是半自動方法,還需完成從文檔中識別出粗糙本體中類的實例,實現準確的全自動標注;由于粗糙本體支持的語義擴展有可能造成檢索結果的急速膨脹,語義相似度閾值及其他參數的選取規則需要從領域專家獲得并在試用中進行調整。

[1]Cathal G,Yulan H,Gabriella K,et al.Recent developments in information retrieval[C].Milton Keynes:Proceedings of 32nd European Conference on IR Research,2010:1-9.

[2]Fensel D,Facca F M,Simperl E,et al.semantic web services[M].Berlin:Springer,2011:87-102.

[3]Ishizu S,Gehrmann A,Nagai Y.Rough ontology:Extension of ontologies by rough sets [J].Human Interface,2007,45(57):56-62.

[4]Egozi O,Markovitch S,Gabrilovich E.Concept-based information retrieval using explicit semantic analysis [J].ACM Transactions on Information Systems,2011,29 (2):1-34.

[5]DAI Weimin.Semantic web information organization technology and method [M].Shanghai:Academia Press,2008:38-41 (in Chinese).[戴維民.語義網信息組織技術與方法 [M].上海:學林出版社,2008:38-41.]

[6]Vallet D,Fernández M,Castells P.An ontology based information retrieval model[C].Heraklion:Proceedings of the Second European Semantic Web Conference,2005:455-470.

[7]WANG Zhihua,ZHAO Wei.Research on semantic web retrieval model based on ontology and key technologies [J].Computer Engineering and Design,2011,32 (1):145-148 (in Chinese).[王志華,趙偉.基于本體的語義網檢索模型及關鍵技術研究 [J].計算機工程與設計,2011,32 (1):145-148.]

[8] WANG Dongyan.A method for building semantic web rough ontology [D].Dalian:Dalian Maritime University,2011 (in Chinese).[王棟艷.語義網粗糙本體的構建方法 [D].大連:大連海事大學,2011.]

[9]ZHANG Yunzhong,XU Baoxiang.Research on the optimization of domain ontology construction method based on FCA [J].Library and Information Service,2009,54 (8):112-115 (in Chinese).[張云中,徐寶祥.基于形式概念分析的領域本體構建方法優化研究[J].圖書情報工作,2009,54 (8):112-115.]

[10]YANG Xiaoping,LU Xianqing.Comparing rough approximation of formal concept [J].Journal of Guangxi Normal University,2008,26 (3):96-99 (in Chinese). [楊曉平,盧獻慶.形式概念粗糙近似比較研究 [J].廣西師范大學學報,2008,26 (3):96-99.]

[11]HUANG Dongmei,ZHU Hui.The application of rough formal concept analysis in ocean ontology construction [J].Computer Science,2008,35 (4):6-8 (in Chinese).[黃冬梅,朱慧.粗糙形式概念分析在海洋本體構建中的應用 [J].計算機科學,2008,35 (4):6-8.]

[12]HUANG Yinghui,LI Guanyu.Imprecise semantic web ontology:Meaning,model and representation [J].Computer Engineering and Design,2011,32 (3):1103-1107 (in Chinese).[黃映輝,李冠宇.不精確性語義網本體:語義、模型與表示 [J].計算機工程與設計,2011,32 (3):1103-1107.]

[13]SONG Ling.Research on semantic similarity computation and application[D].Jinan:Shandong University,2010 (in Chinese).[宋玲.語義相似度計算及其應用研究 [D].濟南:山東大學,2010.]

[14]CHANG Wanjun,REN Guangwei.Study on storage technique of OWL ontology [J].Computer Engineering and Design,2011,32 (8):2893-2896 (in Chinese). [常萬軍,任廣偉.OWL本體存儲技術研究 [J].計算機工程與設計,2011,32(8):2893-2896.]

猜你喜歡
語義概念信息
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 欧洲欧美人成免费全部视频| av手机版在线播放| 91毛片网| 亚洲人成影视在线观看| 国国产a国产片免费麻豆| 日韩毛片免费视频| 成人欧美日韩| 国产成人区在线观看视频| 天天色综网| 2022国产无码在线| 国产h视频免费观看| 日韩精品中文字幕一区三区| 一级做a爰片久久免费| 情侣午夜国产在线一区无码| 欧美在线观看不卡| 日本精品αv中文字幕| 中文字幕资源站| 欧美日韩一区二区在线免费观看 | 亚洲精品在线影院| 亚洲黄网在线| 日韩黄色精品| 久久国产高清视频| 成人国产精品一级毛片天堂| 国产成人91精品| 欧美三级自拍| 四虎影视国产精品| 成·人免费午夜无码视频在线观看 | 久久综合成人| 亚洲视屏在线观看| 精品人妻系列无码专区久久| 亚洲人成色在线观看| 人妻无码一区二区视频| 精品成人一区二区三区电影| 亚洲大学生视频在线播放| 毛片久久久| 欧美、日韩、国产综合一区| 全免费a级毛片免费看不卡| 国产第三区| 免费va国产在线观看| 国产超薄肉色丝袜网站| 亚洲制服中文字幕一区二区| 一级毛片在线播放| 无码'专区第一页| 久久五月天综合| 欧美精品在线免费| 国产午夜一级毛片| 色综合手机在线| 久久毛片网| 久久香蕉国产线看观看式| 丝袜久久剧情精品国产| 在线色国产| 亚洲精品人成网线在线| 91视频国产高清| 黄网站欧美内射| 日韩国产黄色网站| 日本黄网在线观看| 国产v精品成人免费视频71pao| 亚洲成人黄色网址| 亚洲九九视频| 免费人成在线观看成人片| 无码精品国产VA在线观看DVD| 日本国产精品| 婷婷色中文| 五月综合色婷婷| 青青操国产| 国产精品成人一区二区不卡| 先锋资源久久| 免费看美女毛片| 视频国产精品丝袜第一页| 一本一道波多野结衣av黑人在线| 国产成人精品男人的天堂| 亚洲成人网在线观看| 青草视频免费在线观看| 伊人久久婷婷五月综合97色| 国产99在线观看| 国产一级在线观看www色 | 五月天在线网站| 性69交片免费看| 中字无码av在线电影| 日韩毛片免费观看| 国产精品久久久久久久伊一| 最新无码专区超级碰碰碰|