999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義的地球物理信息檢索模型研究

2014-06-27 01:38:50楊妮妮李文超劉海軍
物探化探計(jì)算技術(shù) 2014年4期
關(guān)鍵詞:信息檢索頁面語義

楊妮妮,李文超,劉海軍,2,3

(1.遼寧石油化工大學(xué),撫順 113001;2.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,南京 210023;3.北京市輕紡機(jī)械機(jī)器視覺工程技術(shù)研究中心, 北京 100176)

0 前言

隨著科學(xué)技術(shù)的不斷發(fā)展,計(jì)算機(jī)技術(shù)和通信技術(shù)在地球物理領(lǐng)域中得到廣泛和深入的應(yīng)用,物探技術(shù)方法也不斷改善和更新。及時(shí)了解國內(nèi)、外物探方法理論和勘查技術(shù)的最新進(jìn)展,可以為礦產(chǎn)勘查和開發(fā)工作提供參考。目前因特網(wǎng)已經(jīng)成為全球最大的信息庫,包含著豐富的地球物理信息資源,是物探工作者跟蹤物探技術(shù)發(fā)展方向的重要途徑,但是現(xiàn)有的檢索系統(tǒng)大都采用基于全文檢索或是基于主題匹配的檢索方式[1],并不清楚用戶給出的檢索關(guān)鍵字所表達(dá)的真正含義是什么,缺乏對(duì)地球物理領(lǐng)域知識(shí)體系的理解,檢索結(jié)果片面不準(zhǔn)確[2]。

針對(duì)通用信息檢索系統(tǒng)存在的缺點(diǎn),將語義網(wǎng)、信息檢索技術(shù)和地球物理領(lǐng)域知識(shí)有效結(jié)合,提出了基于語義的地球物理信息檢索模型。實(shí)現(xiàn)了對(duì)地球物理領(lǐng)域的智能信息檢索,可以在網(wǎng)絡(luò)環(huán)境下進(jìn)行有效的語義推理,就像一個(gè)地球物理領(lǐng)域的專家一樣對(duì)用戶的檢索過程做出指導(dǎo),不但能夠給出類似于傳統(tǒng)搜索引擎提供的符合字面的檢索結(jié)果,更能夠挖掘出地球物理領(lǐng)域信息較深層次的關(guān)系,實(shí)現(xiàn)對(duì)地球物理領(lǐng)域信息更準(zhǔn)確、更全面地檢索,從而提高信息的查全率和準(zhǔn)確率。

1 地球物理本體

1.1 地球物理本體的概念

本體[3]是某領(lǐng)域內(nèi)的知識(shí)體系中概念及其關(guān)系的集合,通過本體,計(jì)算機(jī)能夠從語義角度對(duì)信息進(jìn)行處理。地球物理本體描述了地球物理領(lǐng)域的知識(shí)概念及其之間的關(guān)系,包括元知識(shí)和知識(shí)實(shí)例。地球物理元知識(shí)用于描述地球物理領(lǐng)域內(nèi)常用的一些概念以及這些概念之間的關(guān)系。地球物理知識(shí)實(shí)例描述的是一個(gè)真實(shí)存在的具體的領(lǐng)域知識(shí)或關(guān)系,地球物理本體是實(shí)現(xiàn)地球物理專業(yè)信息檢索和信息集成的基礎(chǔ)。

1.2 地球物理本體庫的建立

本體的建模和語義描述是檢索系統(tǒng)的重要物質(zhì)基礎(chǔ),是進(jìn)行語義相似性計(jì)算的前提。通用本體之間的相似性可以通過知網(wǎng)HowNet來完成,HowNet是由董振東和董強(qiáng)先生研發(fā)的一個(gè)知識(shí)庫,采用中文和英文兩種方式,它描述了概念,概念所具備的屬性,概念與概念之間的關(guān)系和屬性與屬性之間的關(guān)系[4]。

然而大多數(shù)地球物理領(lǐng)域的專業(yè)詞匯,例如“測(cè)井”,“電法”等,都無法在HowNet中直接查到,因而就無法去計(jì)算這些詞匯之間的相似程度。為了完成地球物理信息領(lǐng)域的本體相似性計(jì)算,需要根據(jù)該領(lǐng)域中的術(shù)語詞典,創(chuàng)建本領(lǐng)域的本體庫。為此采用了斯坦福大學(xué)開發(fā)的Protégé 4.1.0作為本體設(shè)計(jì)工具,按照構(gòu)建本體的一般步驟,對(duì)地球物理領(lǐng)域中常用的術(shù)語[5-7]進(jìn)行了分析:

1)列出地球物理領(lǐng)域涉及到的詞匯(terms)。從信息檢索的角度出發(fā),摒棄了地球物理領(lǐng)域中一些細(xì)小的詞匯,例如“電壓”、“計(jì)數(shù)率”等。

2)對(duì)地球物理領(lǐng)域的詞匯分類、歸納,建立類(class)及其子類。在建立本體庫時(shí),依據(jù)地球物理的方法及原理,將一級(jí)本體分為電法、測(cè)井、磁法、重力、彈性波法、熱法、核法;然后在一級(jí)本體的基礎(chǔ)上,按照概念間的包含關(guān)系劃分出二級(jí)本體、三級(jí)本體和四級(jí)本體等。

例如,將測(cè)井技術(shù)的概念分成三大類:測(cè)井方法、測(cè)井儀器和測(cè)井曲線,其中測(cè)井方法按所探測(cè)的巖石物理性質(zhì)或探測(cè)目的分為電測(cè)井、聲波測(cè)井、核測(cè)井、地層傾角測(cè)井、氣測(cè)井、地層測(cè)試測(cè)井、隨鉆測(cè)井、生產(chǎn)測(cè)井等幾個(gè)類別,每個(gè)類別繼續(xù)劃分,測(cè)井儀器分為電測(cè)井儀、磁法測(cè)井儀、聲波測(cè)井儀、核測(cè)井儀、重力測(cè)井儀、地震測(cè)井儀等,每種儀器繼續(xù)劃分。測(cè)井曲線分為國產(chǎn)測(cè)井和3700測(cè)井兩個(gè)系列,每個(gè)系列包含若干類別的測(cè)井曲線。圖1是在Protégé中建立的地球物理領(lǐng)域本體層次圖。

3)分析概念之間的知識(shí)聯(lián)系,為步驟2)中獲得的類添加part of、kind of、instance of和attribute of關(guān)系。根據(jù)實(shí)際需要,為詞匯添加實(shí)例,例如為“核測(cè)井儀”添加“CNLT5420補(bǔ)償中子測(cè)井儀”和“SNGR5410自然伽瑪能譜測(cè)井儀”等實(shí)例。

4)定義兩個(gè)對(duì)象屬性(Object Properties):“use”和“is-used-by”,來表示地球物理方法與地球物理儀器之間的使用關(guān)系,這兩個(gè)對(duì)象屬性互為逆屬性(Inverse properties)。例如對(duì)于電測(cè)井本體來說,“use”的Domain為“電測(cè)井”,“is-used-by”的Domain屬性值為“電測(cè)井儀器”,這樣就構(gòu)建了“電測(cè)井”和“電測(cè)井儀器”兩個(gè)類別之間的關(guān)系。

5)為本體類添加等價(jià)類(Equivalent Classes)即創(chuàng)建synonyms-of同義詞關(guān)系。某些詞匯是等價(jià)的,例如“電法測(cè)井”和“電測(cè)井”。表1給出了地球物理本體庫中抽象出的各種本體關(guān)系。

(6)將設(shè)計(jì)好的本體庫保存成RDF/XML格式文件。

圖1 Protégé中建立的本體層次圖(部分)Fig.1 Part of the ontology hierarchy diagram created in Protégé

關(guān)系含義示例part-of表示本體的整體與部分關(guān)系例如微電極測(cè)井曲線包括微梯度和微電位兩條曲線kind-of表示本體的上下位關(guān)系例如電測(cè)井與自然電位測(cè)井instance-of表示本體類與對(duì)象之間的實(shí)例關(guān)系例如ELOG測(cè)井儀是電測(cè)井儀器的一種attribute-of表示本體之間的描述關(guān)系例如視電阻率測(cè)井與電位差use 和is-used-by表示本體間使用和被使用關(guān)系例如核測(cè)井與核測(cè)井儀器synonyms-of表示本體之間的同義詞關(guān)系例如側(cè)向測(cè)井與屏蔽接地電阻法測(cè)井

2 地球物理語義相似性計(jì)算

計(jì)算本體之間的語義相似性是實(shí)現(xiàn)基于語義的地球物理檢索模型的關(guān)鍵技術(shù)之一。

根據(jù)研究發(fā)現(xiàn),影響兩個(gè)本體相似性的因素主要是兩個(gè)本體在本體樹中的語義距離,通常來說語義距離越小,其語義相似程度越高;相反語義相似程度低。另外,本體在本體樹中的層次,以及本體所在區(qū)域中本體的密集程度等也會(huì)影響到本體之間的相似程度。綜合這些因素,設(shè)計(jì)出地球物理本體相似性計(jì)算公式(1):

(1)

其中w1、w2為兩個(gè)本體;f(wi) =(wi的孩子數(shù)+1)/本體樹中的結(jié)點(diǎn)數(shù),表示wi所在區(qū)域的概念密度;CNL(w1,w2)為w1和w2的公共路徑長度;α∈(0,1)為調(diào)節(jié)因子,用于調(diào)節(jié)語義距離和區(qū)域密度對(duì)本體相似性的影響程度。

另外,本體之間的關(guān)系,part of、kind of、instance of和attribute of等也對(duì)本體之間的相似度具有影響,本體之間的關(guān)系稱為本體的語義相關(guān)性。如果兩個(gè)本體關(guān)系中包括上面的某種關(guān)系,則兩個(gè)本體的語義相關(guān)性為“1”,否則為“0”,由此得到地球物理本體的語義相關(guān)性計(jì)算公式(2):

(2)

在計(jì)算地球物理本體的相似性時(shí),綜合考慮了本體的語義相似性和語義相關(guān)性兩方面,最終得到本體的相似性計(jì)算公式(3),其中β為調(diào)節(jié)因子:

sim(w1,w2)=isim(w1,w2)×β+rsim(w1,w2)×(1-β)

(3)

表2 部分本體相似性計(jì)算結(jié)果

為了測(cè)試地球物理本體相似性算法的有效性,設(shè)計(jì)了一個(gè)實(shí)驗(yàn)。在Redhat Linux Enterprise 5.3操作系統(tǒng)下,采用JDK 1.6.0語言,選取地球物理中常用的術(shù)語和儀器設(shè)備,計(jì)算它們的相似性,結(jié)果如表2所示。因?yàn)椤皽y(cè)井”與“電測(cè)井”、“電測(cè)井”與“自然電位測(cè)井”之間具有概念上的上下位關(guān)系,因而計(jì)算所得的相似性比較高。而“ELOG測(cè)井儀”與“1239型雙側(cè)向測(cè)井儀”都是電測(cè)井儀器的具體實(shí)例,因而它們之間的相似性,以及它們與“電測(cè)井”的相似性都比較高。“核測(cè)井”與“ELOG測(cè)井儀”之間的相似性要比“電測(cè)井”與“ELOG測(cè)井儀”之間的相似性低得多。另外,“磁法”和“電測(cè)井”,“電測(cè)井”與“航空磁力儀”,“ELOG測(cè)井儀”與“航空磁力儀”,“ELOG測(cè)井儀”與“場(chǎng)強(qiáng)”等概念在本體層次樹上的語義距離比較遠(yuǎn),所以獲得的相似性也相對(duì)要小一些。

3 地球物理語義爬行

為了使用戶通過檢索系統(tǒng)查詢到所需要的信息,檢索系統(tǒng)首先要通過一個(gè)叫做網(wǎng)絡(luò)爬蟲的程序到Internet上去自動(dòng)將與地球物理信息相關(guān)的頁面爬行到本地,形成網(wǎng)頁信息鏡像。

與通用的檢索系統(tǒng)不同,地球物理檢索系統(tǒng)查詢的主要是與本領(lǐng)域相關(guān)的信息集合,因此爬蟲在爬行頁面時(shí)需要對(duì)頁面中的內(nèi)容進(jìn)行語義分析,僅獲取與本領(lǐng)域相關(guān)的頁面。當(dāng)給定爬蟲一個(gè)初始種子頁面S={S0}之后,爬蟲首先要對(duì)種子頁面進(jìn)行分析,從中找出所有的鏈接L={L1,L2,…,Ln},然后去分析每一個(gè)鏈接Li(i=1,2,…,n)的內(nèi)容是否與地球物理信息相關(guān),如果不相關(guān),則從L中去掉Li,即L=L-Li。如若相關(guān),就需要將頁面Li中對(duì)應(yīng)的鏈接Lij(j=1,2,…,m)加入到集合L中,如此往復(fù),直到L中的每一個(gè)頁面都被分析完。地球物理語義爬行的流程如圖2所示:

1)首先給出一組種子頁面S。

2)分析頁面結(jié)構(gòu)。

3)提取頁面中的鏈接路徑,放入待抓取URL隊(duì)列L中。

4)根據(jù)領(lǐng)域本體庫,分析待抓取URL是否與地球物理專業(yè)相關(guān),如果無關(guān)丟去該URL,否則交給網(wǎng)絡(luò)爬蟲。

5)網(wǎng)絡(luò)爬蟲將頁面爬行到本地。

6)爬行到本地的頁面被保存到網(wǎng)頁鏡像庫中,并對(duì)該頁面進(jìn)行分析。

循環(huán)步驟1)至步驟6),直到待抓取URL隊(duì)列為空。

4 基于語義的地球物理信息檢索模型

4.1 模型的建立

基于語義的地球物理信息檢索系統(tǒng)由語義爬行、網(wǎng)頁預(yù)處理、查詢擴(kuò)展處理、信息檢索處理和查詢關(guān)鍵字推薦等幾個(gè)部分組成。語義爬蟲在本體庫的指導(dǎo)下將Internet上的網(wǎng)頁下載到網(wǎng)頁庫中,形成本地鏡像;網(wǎng)頁預(yù)處理模塊完成頁面清洗、計(jì)算PageRank、全文索引和索引倒排等工作;查詢處理模塊為用戶提供檢索接口,完成用戶輸入信息的分詞和獲取本體關(guān)鍵字等工作;信息檢索處理檢索網(wǎng)頁數(shù)據(jù)庫和對(duì)頁面排序;查詢關(guān)鍵字推薦模塊完成基于語義和數(shù)據(jù)挖掘的關(guān)鍵字推薦工作。地球物理信息語義檢索模型如圖3所示。

4.2 模型的實(shí)現(xiàn)

在Redhat Linux Enterprise 5.3平臺(tái)上,利用Tomcat 7作為Web服務(wù)器,Java為開發(fā)語言,實(shí)現(xiàn)了基于語義的地球物理信息檢索系統(tǒng)的主體功能。在文本框中輸入檢索關(guān)鍵字,點(diǎn)擊“搜索”按鈕后,檢索請(qǐng)求將會(huì)調(diào)用服務(wù)器端的腳本語言,對(duì)輸入的檢索信息進(jìn)行過濾,將一些非法詞匯和標(biāo)點(diǎn)符號(hào)等濾掉,然后進(jìn)行分詞、同義詞匹配和檢索網(wǎng)頁鏡像數(shù)據(jù)庫等操作,最后將檢索結(jié)果排序后返回給用戶,系統(tǒng)檢索結(jié)果如圖4所示。頁面的最上方和最下方為搜索接口,方便用戶進(jìn)一步檢索信息;頁面的中部是符合檢索條件的頁面鏈接,在排序后每10個(gè)為一組,顯示在一頁中,從結(jié)果中可以看到每個(gè)鏈接的Title、URL,檢索結(jié)果下方是由系統(tǒng)推薦給用戶的檢索關(guān)鍵字,最多10個(gè)。

圖2 地球物理語義爬行流程圖Fig.2 Geophysical semantic crawling process

為了對(duì)比本系統(tǒng)模型與通用搜索引擎檢索地球物理信息的不同效果,在Google搜索引擎中輸入與圖4相同的檢索關(guān)鍵字“電測(cè)井”,得到如圖5所示的檢索結(jié)果。對(duì)比圖4與圖5可以看出,由于通用搜索引擎進(jìn)行信息檢索時(shí)采用基于關(guān)鍵字的匹配方式,也就是說搜索的信息中只要包含“電測(cè)井”中的全部或部分文字即可,不會(huì)對(duì)檢索關(guān)鍵字進(jìn)行語義分析。雖然“電阻率測(cè)井”,“感應(yīng)測(cè)井”和“自然電位測(cè)井”等都是電測(cè)井的方法,但是因?yàn)樵谧置嫔虾汀半姕y(cè)井”不匹配,所以檢索結(jié)果中不會(huì)包含與之相關(guān)的鏈接,而本模型在進(jìn)行信息檢索時(shí),首先要根據(jù)建立的地球物理本體庫,對(duì)輸入的檢索關(guān)鍵字進(jìn)行查詢擴(kuò)展,將檢索關(guān)鍵字轉(zhuǎn)換為與“電測(cè)井”語義相關(guān)的本體后再進(jìn)行查詢,所以從圖4中可以看到檢索結(jié)果中不但可以檢索出包含了“電測(cè)井”的信息,也可以找到包含“視電阻率法測(cè)井”,“雙感應(yīng)測(cè)井”和“普通電極系電阻率測(cè)井”等,在字面上不匹配,但語義相關(guān)的信息。

圖3 基于語義的地球物理信息檢索模型Fig.3 Semantic retrieval model for geophysical information

圖4 基于語義的地球物理信息檢索系統(tǒng)檢索結(jié)果頁面Fig.4 The retrieval results of semantic retrieval system for geophysical information

圖5 Google搜索引擎檢索結(jié)果頁面Fig.5 The retrieval results of google

5 結(jié)論

為了解決通用信息檢索系統(tǒng)存在的缺點(diǎn),在分析了地球物理領(lǐng)域信息特點(diǎn)的基礎(chǔ)上,建立了地球物理本體庫,并綜合考慮了本體語義距離和本體密集度等影響因素,提出了地球物理本體相似性計(jì)算方法,通過語義爬蟲將與地球物理信息相關(guān)的頁面爬行到本地,形成網(wǎng)頁信息鏡像,最終建立了一個(gè)基于語義的地球物理信息檢索系統(tǒng)模型。實(shí)現(xiàn)了對(duì)地球物理領(lǐng)域的智能信息檢索,在網(wǎng)絡(luò)環(huán)境下進(jìn)行有效的語義推理,挖掘出地球物理領(lǐng)域信息深層次的關(guān)系,檢索結(jié)果更符合用戶心理預(yù)期。

參考文獻(xiàn):

[1] 中國互聯(lián)網(wǎng)絡(luò)中心.第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. http://www.cnnic.net.cn/gywm/xwzx/rdxw/rdxx/201307/W020130717431425500791.pdf (2013/12/28).

[2] 李彥,賈愛軍,占向輝,等.面向創(chuàng)新設(shè)計(jì)的多層次Web信息檢索研究[J]. 工程設(shè)計(jì)學(xué)報(bào),2005,6(3):1-6.

[3] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002,38(5):730-738.

[4] 董振東,董強(qiáng).知網(wǎng)[EB/OL].http://www.keenage.com/zhiwang/c_zhiwang.html(2013/12/28)

[5] SYT 6139-2005.石油測(cè)井專業(yè)詞匯[S].北京:石油工業(yè)出版社,2005.

[6] 邵廣周.勘探地球物理專業(yè)英語術(shù)語匯編[M].西安:長安大學(xué)地測(cè)學(xué)院,2003.

[7] 陳俊生.英漢石油勘探詞典[M].北京:地質(zhì)出版社,1999.

猜你喜歡
信息檢索頁面語義
大狗熊在睡覺
刷新生活的頁面
語言與語義
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
認(rèn)知范疇模糊與語義模糊
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 午夜国产精品视频黄 | 久久精品国产电影| 日韩在线永久免费播放| 久久人人97超碰人人澡爱香蕉| a级毛片在线免费| 色丁丁毛片在线观看| 老司国产精品视频91| 99久久无色码中文字幕| 国产另类乱子伦精品免费女| 无码又爽又刺激的高潮视频| 国产成人区在线观看视频| 亚洲色无码专线精品观看| 中文字幕日韩久久综合影院| 欧美午夜性视频| 日本久久网站| 国产玖玖视频| 国产95在线 | 成人日韩欧美| 久热这里只有精品6| 国产精品丝袜在线| 最新国产网站| 99视频在线看| 日韩精品亚洲一区中文字幕| 日韩色图在线观看| 欧美日韩在线成人| 久久精品国产精品青草app| 91午夜福利在线观看| 国产手机在线小视频免费观看| 91欧美在线| 91精品啪在线观看国产91九色| 亚洲久悠悠色悠在线播放| 亚洲一区国色天香| 日韩一二三区视频精品| 精品国产三级在线观看| 欧美精品亚洲精品日韩专区| 国产天天射| 亚洲精品色AV无码看| 波多野结衣第一页| 亚洲第一天堂无码专区| 九九线精品视频在线观看| 无码精品福利一区二区三区| 精品超清无码视频在线观看| 婷婷综合亚洲| 五月婷婷伊人网| 国模粉嫩小泬视频在线观看 | 香蕉久久国产精品免| 这里只有精品国产| 一本大道香蕉久中文在线播放| 国内精品视频在线| 精品成人一区二区三区电影| 无码一区中文字幕| 亚洲国产天堂久久综合226114| 亚洲天堂777| 亚洲精品国产日韩无码AV永久免费网| 国产91无码福利在线| 久久精品中文无码资源站| 成人精品免费视频| 午夜国产大片免费观看| 国产日本视频91| 国产a v无码专区亚洲av| 九九久久99精品| 国产成年无码AⅤ片在线| 看你懂的巨臀中文字幕一区二区 | 久久精品人人做人人爽电影蜜月 | 国产精品第一区| 欧美视频在线播放观看免费福利资源 | 亚洲成人在线免费| 激情综合网址| 精品人妻一区无码视频| 亚洲欧美国产高清va在线播放| 亚洲女同一区二区| 免费看黄片一区二区三区| 亚洲无码精品在线播放| 欧美精品在线观看视频| 国产资源免费观看| 蜜臀AV在线播放| 日韩精品免费在线视频| 99久久国产综合精品女同| 国产夜色视频| 亚洲欧美精品一中文字幕| 91啦中文字幕| 久久精品国产免费观看频道|