摘 要 隨著信息社會的飛速發(fā)展,如何準確、全面的在大量信息中獲取用戶所需的信息成為研究熱點。傳統(tǒng)檢索是基于關(guān)鍵字匹配,這種方式只涉及了字符匹配,并沒有達到語義匹配的目的,導(dǎo)致檢索結(jié)果或者龐大或者漏檢。本文借助本體,將簡單的字符匹配提升為語義性強的概念匹配,基于OWL-S服務(wù)描述框架,對服務(wù)進行分級匹配,最后將結(jié)果返回給用戶,使得檢索結(jié)果更加準確和全面,更能滿足用戶的檢索需求。
關(guān)鍵詞 語義檢索;領(lǐng)域本體;OWL-S
引言
傳統(tǒng)的檢索基本上是基于關(guān)鍵字的信息檢索,利用分詞工具將用戶輸入的檢索信息抽取出關(guān)鍵詞,采用匹配算法在數(shù)據(jù)庫中查找與該關(guān)鍵詞相匹配的文檔,返回給用戶。這種檢索方法缺乏語義上的處理,使得檢索結(jié)果可能會不全面。針對這種不足,本文提出了基于領(lǐng)域本體的語義檢索技術(shù)研究,通過本體所構(gòu)建的語義關(guān)系的應(yīng)用,提高了檢索的查全率和查準率[1]。
1語義檢索技術(shù)
本文研究的語義檢索的關(guān)鍵技術(shù)主要包括領(lǐng)域本體構(gòu)建模塊、查詢擴展模塊和服務(wù)匹配模塊。各模塊協(xié)同完成用戶檢索任務(wù)。
1.1 本體理論
本體是概念模型的形式化的規(guī)范說明,具有概念性,明確性,形式性和共享性。本文通過七步法的思想構(gòu)建交通領(lǐng)域本體,由Protege來實現(xiàn)。
1.2 查詢擴展
由于用戶輸入的查詢語句很難反映具體的查詢需求,因此需對其做查詢擴展。將查詢語句分解為關(guān)鍵詞匯集合,依次抽取集合中的關(guān)鍵詞與本體概念做資源映射得到同義本體概念集合,根據(jù)本體結(jié)構(gòu)對新得到的同義本體概念擴展,得到擴展后的查詢概念集合。
1.3 服務(wù)匹配
本文借助OWL-S服務(wù)描述框架進行服務(wù)匹配。OWL-S是一種具有語義的描述Web服務(wù)屬性和功能的標記語言。OWL-S從服務(wù)概況、服務(wù)模型和服務(wù)基礎(chǔ)三方面定義了Web服務(wù)的語義信息。對于服務(wù)匹配過程通過服務(wù)概況來實現(xiàn)。服務(wù)概況從服務(wù)的非功能信息和功能信息描述Web服務(wù)。非功能信息提供了面向用戶的可讀信息。功能性信息主要是指服務(wù)的輸入、輸出、前提和效果,簡稱IOPE。
(1)非功能信息匹配算法。用戶在查詢時會提供一個OWL-S文檔,對所需服務(wù)進行描述,服務(wù)發(fā)布者也會向注冊中心提供一個OWL-S文檔,對所提供服務(wù)進行描述,非功能信息匹配即為短文本匹配通過詞語間相似度進行計算。先對注冊服務(wù)進行聚類處理,將類別一致的服務(wù)聚類到一起,這樣請求服務(wù)只需與各簇的代表服務(wù)進行匹配,達到設(shè)定閾值后則與該簇內(nèi)的所有服務(wù)進行匹配,若未達到設(shè)定閾值則無須與該簇內(nèi)的服務(wù)進行匹配,這樣大大提高了檢索效率[2]。
①根據(jù)經(jīng)典K-means算法對注冊服務(wù)進行服務(wù)聚類,得到各簇的代表服務(wù)。②對服務(wù)請求文檔R和各簇代表服務(wù)文檔A進行預(yù)處理,得到兩個詞語集合R1和A1。③依次取R1和A1中的元素通過詞向量按位累加的方式,計算兩個詞語的向量表示,利用余弦相似度計算兩個向量的相似度。④利用詞向量相似度代表文檔相似度,設(shè)置相應(yīng)的閾值,超過該閾值的進行下一步的功能匹配,未超過的則舍棄。最終得到非功能信息相似度S1
(2)IOPE功能信息匹配算法。注冊服務(wù)在非功能信息匹配符合設(shè)定的閾值后進行IOPE功能信息匹配。定義一個請求服務(wù)Wr,輸出滿足功能的服務(wù)集Ws。
①將Ws 置空。②對于符合設(shè)定閾值要求的服務(wù)聚類,假設(shè)該聚類中有k個服務(wù),將請求服務(wù)Wr依次與中的注冊服務(wù)進行基于PE參數(shù)的匹配,匹配成功進行3,否則執(zhí)行第6步。③將請求服務(wù)Wr依次與中的注冊服務(wù)進行IO參數(shù)匹配,匹配成功進行第4步,否則執(zhí)行第6步。④根據(jù)IOPE匹配的結(jié)果及其權(quán)重計算總體匹配度T,設(shè)定一個匹配閾值x,若T>=x則將此服務(wù)添加到匹配結(jié)果集Ws中,若T (3)基于PE參數(shù)的匹配。定義Pa、Ea表示服務(wù)提供者的PE描述信息,Pr、Er表示服務(wù)請求者的PE描述信息,發(fā)布服務(wù)Wa(Pa,Ea)與請求服務(wù)Wr(Pr,Er)關(guān)于PE參數(shù)的匹配方式如下:①匹配:若Pr∈Pa,Er∈Ea,即Wr∈Wa,表示服務(wù)提供者描述的前提和效果包含服務(wù)請求者的描述,此時完全匹配。②不匹配:Pr≠Pa,Er≠Er,即Wa≠Wr,表示服務(wù)提供者與服務(wù)請求者的前提和效果描述完全不一致,匹配失敗 (4)基于IO參數(shù)的匹配。對于web服務(wù)一般具有多個輸入輸出參數(shù),進行IO參數(shù)匹配時: ①對請求的輸入概念集與服務(wù)的輸入概念集進行兩兩匹配,根據(jù)本體概念相似度計算每個請求輸入概念與注冊服務(wù)的輸入概念的相似度,對所有的相似度求平均值作為概念集合的相似度In。②同理得到輸出概念集的匹配相似度On。③設(shè)置相應(yīng)的閾值Im和Om,若In>=Im且On>=Om,則將該服務(wù)添加至相應(yīng)的匹配隊列里,否則過濾掉。④基于IO參數(shù)的服務(wù)相似度即為輸入概念集相似度和輸出概念集相似度的綜合。 綜合的服務(wù)匹配相似度為: Match(SA,SB)=α*S1+ β*S2 其中α與β和為1,α和β可根據(jù)要求賦值以調(diào)節(jié)非功能信息和功能信息的權(quán)重大小。根據(jù)上述算法計算服務(wù)匹配的相似度大小并排序,最后將檢索結(jié)果返回給用戶,完成語義檢索[3]。 2結(jié)束語 本文提出的基于領(lǐng)域本體的語義檢索技術(shù),借助本體使得關(guān)鍵詞所包含的語義信息更明確,增強了用戶的檢索需求表達,提高了查全率和查準率。對請求服務(wù)和注冊服務(wù)在進行分級匹配時融合了聚類的思想,極大地提高了服務(wù)匹配的效率,彌補了傳統(tǒng)檢索的不足。 參考文獻 [1] 王李冬,張慧熙.基于HowNet的微博文本語義檢索研究[J].情報科學(xué),2016,34(9):134-137. [2] 溫有奎.信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦研究[J].數(shù)字圖書館論壇,2016(4):11-14. [3] 楊月華,杜軍平,平源.基于本體的智能信息檢索系統(tǒng)[J].軟件學(xué)報,2015,26(7):1675-1687. 作者簡介 張秀麗(1994-),女;碩士研究生在讀,研究方向:網(wǎng)絡(luò)服務(wù)與信息安全。