999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體和語義標引的地質(zhì)資料服務(wù)與管理研究

2018-03-02 19:45:14閆東王誠
軟件 2017年9期
關(guān)鍵詞:關(guān)聯(lián)語義文本

閆東+王誠

摘要:在信息化時代,高效地組織管理大量地質(zhì)領(lǐng)域數(shù)據(jù)成為實現(xiàn)良好的地質(zhì)資料服務(wù)與管理的關(guān)鍵所在。為解決我國地質(zhì)資料標準化程度低及應(yīng)用難度大等問題,本文提出了一種基于本體和語義標引的地質(zhì)資料服務(wù)與管理方法。首先建立地質(zhì)領(lǐng)域信息資源元數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系模型;并根據(jù)關(guān)聯(lián)模型自動化構(gòu)建計算機可讀的地質(zhì)本體;采用基于地質(zhì)本體的語義概念映射的方法將高維的詞語向量轉(zhuǎn)換到低維語義空間,加之詞頻、詞位置和詞跨度等權(quán)重因子的綜合作用,對地質(zhì)資料文本進行精準快速有效的分類,實現(xiàn)文本的語義標引;最后根據(jù)地質(zhì)本體和語義標引開展地質(zhì)資料檢索試驗,試驗結(jié)果表明,查全率和查準率分別從75.7%和81.2%提高到80.7%和84.8%,檢索效果得到了明顯提升。因此,本文為地質(zhì)資料的服務(wù)與管理模型設(shè)計與實現(xiàn)奠定了良好的基礎(chǔ)。

關(guān)鍵詞:計算機應(yīng)用技術(shù);知識服務(wù);本體;語義標引理的趨勢。利用本體方法可以建立地質(zhì)領(lǐng)域的知識脈絡(luò),可以更好地繼承共享已有的知識;利用自動化標引可以有效組織地質(zhì)專業(yè)資源,可以更有效地管理資源。因此,根據(jù)本體和文本自動標引技術(shù)可以實現(xiàn)良好的地質(zhì)資料服務(wù)與管理,在此基礎(chǔ)上可進一步優(yōu)化地質(zhì)資料檢索服務(wù)。本文提出的地質(zhì)資料服務(wù)與管理框架主要包含四部分。

元數(shù)據(jù)關(guān)聯(lián)模型:元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),根據(jù)文檔的元數(shù)據(jù)標簽,可建立資源之間的關(guān)聯(lián)關(guān)系模型。元數(shù)據(jù)的關(guān)聯(lián)關(guān)系可以是指同一文檔兩主體之間的“關(guān)聯(lián)關(guān)系”,也可以代表不同文檔的“關(guān)聯(lián)關(guān)系”,元數(shù)據(jù)關(guān)聯(lián)模型的設(shè)計是實現(xiàn)本體構(gòu)建以及文本關(guān)聯(lián)關(guān)系的重要保障。

基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建:在本體中有等級、等同、相關(guān)等關(guān)系。而元數(shù)據(jù)模型的關(guān)聯(lián)關(guān)系恰好可以在文檔之間也建立起相應(yīng)的關(guān)聯(lián)關(guān)系。而對于在同一元數(shù)據(jù)項有相同值的文檔,可以直接建立關(guān)聯(lián)關(guān)系,因此,基于元數(shù)據(jù)模型可以實現(xiàn)準確而快速的本體自動化構(gòu)建。

基于本體映射的語義標引:利用面向自動標引應(yīng)用的地質(zhì)本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性,降低特征詞之間的冗余度,實現(xiàn)地質(zhì)資料分本的正確分類,為地質(zhì)資料服務(wù)與管理奠定基礎(chǔ)。

基于本體和語義標引的服務(wù)與管理:地質(zhì)資料服務(wù)的主要是依賴于語義網(wǎng)技術(shù)實現(xiàn)的各種服務(wù),如檢索、關(guān)聯(lián)、推薦等;地質(zhì)資料管理的則是實現(xiàn)知識的搜集、存儲和組織。通過本體與語義標引技術(shù)可有效提高地質(zhì)資料的服務(wù)效果和管理效率。

2 地質(zhì)資料服務(wù)與管理設(shè)計與實現(xiàn)

2.1 元數(shù)據(jù)關(guān)聯(lián)模型

針對地質(zhì)資料中的文檔資源建立元數(shù)據(jù)模型,通過元數(shù)據(jù)描述文本信息,并根據(jù)文檔的元數(shù)據(jù)標簽,建立資源之間的關(guān)聯(lián)關(guān)系模型。見表1。

2.2 基于元數(shù)據(jù)模型構(gòu)建本體

自動構(gòu)建本體是基于自然語言分析和基于統(tǒng)計的機器學習方法抽取文檔中的概念和關(guān)系,自動本體。自動構(gòu)建本體的方法是當前的研究熱點和難點。確定資源本體庫的結(jié)構(gòu)、概念、概念間關(guān)系、實例關(guān)系。在這里概念實際上是指館藏目錄資源和用戶信息的元數(shù)據(jù),而關(guān)系就是通過計量學方法得到的各個字段間關(guān)系。但由于在元數(shù)據(jù)庫中的所有概念和概念關(guān)系都是已經(jīng)確定好的,無需專家再進行人工干預,完全可以計算機自動操作。

本文使用OWL(Web Ontology Language)進行本體的白動化描述,OWL是從RDF(ResourceDescription Framework)上發(fā)展起來的本體描述語言,是一種標準的描述本體的類、概念及概念間關(guān)系的描述語言,也是目前應(yīng)用最多的本體語義化描述方式‘5]。

在本體描述中,存在一定量的同義詞或等價詞,即等同關(guān)系。用“”標簽來描述這種關(guān)系。所以在對OWL文件進行解析推理時,就可以首先鎖定關(guān)鍵詞“”,然后再根據(jù)具體的進行具體等同關(guān)系的解析及推理;等級關(guān)系指的是概念之間的上下位關(guān)系,并且是廣義的上下位關(guān)系,可以包含多層次的層級關(guān)系。在OWL中,用標簽“”來表示等級關(guān)系。同時值得說明的是,在本體中等級關(guān)系具有傳遞性,如果A是B的父類,B又是C的父子類,則A也是C的父類;相關(guān)關(guān)系是一種比較籠統(tǒng)的說法,相關(guān)關(guān)系可以細化為很多種,可以是屬性相關(guān)、物理相關(guān)、空間相關(guān)等。可以使用標簽“” 或者“”進行相關(guān)關(guān)系描述。

最終,使用OWL將元數(shù)據(jù)關(guān)聯(lián)模型中的數(shù)據(jù)轉(zhuǎn)化為本體,含有概念4651個,概念間的關(guān)系25527條,其中等同關(guān)系4943條,等級關(guān)系13786條和相關(guān)關(guān)系6798條。

2.3基于本體映射的語義標引

影響地質(zhì)資料檢索服務(wù)效果的主要原因有兩個:第一,檢索詞單一,僅僅依靠關(guān)鍵詞的匹配大大降低了檢索效果;第二,地質(zhì)資料分類不準確,單一的使用題目中的主題詞作為分類標準,無法實現(xiàn)真正的本文分類。2.2節(jié)所述的本體能夠很好的解決檢索詞單一問題。接下來本文提出一種基于本體映射的文本語義標引技術(shù),能夠很好的解決地質(zhì)資料分類不準確問題。

(1)文本預處理

本文使用的是中科院的開源分詞系統(tǒng)實現(xiàn)的文本預處理,去除停用詞、時間、副詞等無用詞匯,預處理過程中盡量保留能夠顯示文本特征的詞匯。

(2)基于詞權(quán)重的文本特征選擇

通常的文本特征選擇使用的是公式TF*IDF,TF是詞語在文檔中出現(xiàn)的頻率,IDF是出現(xiàn)該詞的文檔的倒頻率。本研究使用TW方法代替TF計算文本特征權(quán)重,詞Vi-文檔Dj權(quán)重Wi,j的計算公式為:

其中,Ni是與詞Vi相關(guān)的文檔的個數(shù);/D/是全部文檔數(shù)。

TW對詞頻、詞位置和詞跨進行綜合評估,比單純的詞頻TF更能反映詞對文本主題的重要性。TW的計算公式為:

TW=TF×LOC×SPAN

TF為詞頻因子,詞i在文檔d中的TFi,d,計算公式為:

Fre是詞i在文檔d中出現(xiàn)的頻數(shù),MAXj(Frejd)是文檔d中jL}{現(xiàn)頻數(shù)最高的詞的頻數(shù)。

LOC為位置因子,出現(xiàn)在標題、摘要的詞一般更能反映文本的主題,將不同位置出現(xiàn)的詞賦予不同的權(quán)重值。出現(xiàn)在標題、摘要、正文三處不同區(qū)域的詞語,其位置值分別設(shè)為60、30和10。

SPAN為詞跨因子,詞跨度是指詞在文中首次出現(xiàn)和末次出現(xiàn)之間的距離,一般詞跨度越大(即在開篇和結(jié)論都使用該詞)對文本的主題就越重要。

其中,las為詞Vi在文中最后一次出現(xiàn)的序號,fir為詞Vi在文中首次出現(xiàn)的序號,sum為經(jīng)分詞計算后的文本分詞總數(shù)。

(3)基于本體映射的語義標引

利用面向自動標引應(yīng)用的地質(zhì)本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性。這里的降維主要使用本體的層級關(guān)系和等同關(guān)系。例如:“頁巖氣、致密氣層氣、Shale gas”都可以用“頁巖氣”代替,這屬于同等詞的映射降維;“伴生氣、低硫氣、火山氣”都可以用“天然氣”代替,這屬于等級詞的映射降維;語義映射增大了與類別的語義關(guān)聯(lián)強的詞匯的權(quán)重;將同義詞、近義詞、相關(guān)詞用一個詞語表示,同時累積權(quán)重;將分散的底層概念映射到較高層概念,權(quán)重累加到高層概念詞匯,高層概念能概括文本主題。

2.4 基于本體和文本標引的地質(zhì)資料服務(wù)與管理

2.4.1 本體的解析與推理

為了完成基于本體的地質(zhì)資料服務(wù)與管理,必須實現(xiàn)基于本體的推理解析工作。OWL是一種很好的描述本體語言,但本身并不具備任何推理和計算能力,因此,為實現(xiàn)基于本體的語義檢索,必須對OWL文件進行相應(yīng)的推理解析,導出本體中存在的知識,滿足對檢索條件的擴展和推送。本文采用的方法是將OWL解析為XML文件,由于OWL是在XML基礎(chǔ)上發(fā)展而來,因此轉(zhuǎn)換起來相對方便,且方便保留原始特性。

圖1所展示的是將OWL文件解析為XML文件之后,將其發(fā)布為Web Service。發(fā)布后,可以通過訪問服務(wù)地址發(fā)出查詢請求,在輸入?yún)?shù),完成查詢偏好設(shè)置。參數(shù)的主要作用是提供多種查詢條件,即不同參數(shù)值表示返回等同詞、上位詞、下位詞、相關(guān)詞等內(nèi)容,能夠保障用戶按照自己的偏好進行檢索。

2.4.2 基于本體和語義標引的檢索原型

如圖2所示,當用戶輸入檢索詞后,推理引擎根據(jù)本體對檢索詞進行擴展,檢索詞擴展的方式非常靈活,可以選擇等同詞與原來的檢索詞組合成新的查詢條件,或者將原檢索詞的等級詞或者相關(guān)詞一并解析出來組合新的查詢條件,并且與已經(jīng)被語義標引過的地質(zhì)資料庫進行匹配,匹配成功后完成一次完整的語義檢索。與此同時,推理引擎還將與檢索詞有關(guān)的詞動態(tài)地生成一組超鏈接,這種超鏈接能夠為用戶提供更多感興趣的檢索推薦。同時,為了提高系統(tǒng)的靈活性,用戶還可以在Web Service接口服務(wù)中根據(jù)自己的檢索習慣來輸入相應(yīng)參數(shù),如是否返回檢索詞的英文詞、等級詞和相關(guān)詞等,從而方便用戶更快速地獲取檢索結(jié)果。

通過對于同義詞(等同關(guān)系)的返回,能夠提高檢索的命中率,即實現(xiàn)了檢索詞的有效擴展,相比于模糊匹配,又能夠有效控制擴展詞的數(shù)量,達到最高效的檢索模式。

對于智能導航的生成(等級關(guān)系和相關(guān)關(guān)系),能夠有針對性的給出用戶分類推送列表,可以使用戶快速的獲取檢索資源的相關(guān)知識。

對于Web Service參數(shù)設(shè)置,可以滿足用戶根據(jù)自己的檢索習慣和檢索需要進行個性化的設(shè)置,以更適合的方式進行檢索。

3 實驗分析

本次基于本體和語義標引的檢索試驗采用查準率(P)、查全率(R)和F值作為評測標準。使用1000檔地質(zhì)資料進行測試。評測標準計算公式如下。

由表2可以看出,在使用本體和語義標引后,查全率和查準率得到了明顯提升。同時值得提出的是,檢索結(jié)果受檢索系統(tǒng)的檢索方式影響,本文主要是借助現(xiàn)有的檢索系統(tǒng)實現(xiàn)的檢索試驗,因此在檢索結(jié)果上會收到諸多限制。

4 總結(jié)

基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建既能夠使人從繁重的本體手工構(gòu)建中解脫出來,又能夠提高本體構(gòu)建質(zhì)量和效率;而基于本體映射的文本自動標引方法,利用本體概念的層級關(guān)系映射,有效降低了文本的特征數(shù)量,快速準確地為文本標注了語義標簽。由試驗結(jié)果可知,結(jié)合本體和語義標引后的檢索系統(tǒng)所能夠提供的服務(wù)與管理明顯優(yōu)于傳統(tǒng)系統(tǒng)。因此,本文為地質(zhì)資料的服務(wù)與管理模型奠定了良好的基礎(chǔ)。endprint

猜你喜歡
關(guān)聯(lián)語義文本
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美一级专区免费大片| 国产永久无码观看在线| 成人综合网址| 波多野结衣视频一区二区| 国产视频你懂得| 伊人久久精品无码麻豆精品| 久久美女精品国产精品亚洲| 久热中文字幕在线| 久久久久亚洲av成人网人人软件| 久久精品亚洲热综合一区二区| 久久久久国产一区二区| 综合成人国产| 日本午夜影院| AV老司机AV天堂| 国产主播在线一区| 少妇露出福利视频| 国产精品网址在线观看你懂的| 成人免费视频一区二区三区| 久久黄色影院| 国产在线自乱拍播放| 丁香亚洲综合五月天婷婷| 亚洲日产2021三区在线| 精品精品国产高清A毛片| 亚洲AV无码一二区三区在线播放| 精品国产自在在线在线观看| 色窝窝免费一区二区三区| 东京热高清无码精品| 亚洲第一色网站| 精品国产中文一级毛片在线看| 国产成本人片免费a∨短片| 无码专区在线观看| 久久天天躁夜夜躁狠狠| 国产精品不卡片视频免费观看| 久久青草视频| 污污网站在线观看| 亚洲欧美不卡| 亚洲综合片| 久久国产香蕉| 久久国产免费观看| 亚洲精品久综合蜜| 久久精品国产电影| 色首页AV在线| 亚洲一区国色天香| 97se亚洲综合不卡| 天天摸夜夜操| 免费A∨中文乱码专区| 91久久国产热精品免费| 国产免费久久精品99re不卡| 欧美黄网在线| 欧美日韩国产综合视频在线观看 | 野花国产精品入口| 91美女视频在线| 91福利国产成人精品导航| 高清色本在线www| 国产中文一区二区苍井空| 一级成人a做片免费| 亚洲AV无码久久天堂| 99久久精品免费观看国产| 在线国产毛片| 国产精品永久免费嫩草研究院| 亚洲第七页| 日韩天堂视频| 天天做天天爱夜夜爽毛片毛片| 色网站在线免费观看| 国内精品久久人妻无码大片高| 亚洲国产成人无码AV在线影院L| 国产欧美视频在线| 亚洲av片在线免费观看| 亚洲欧洲日产国产无码AV| 国产jizz| 免费人成网站在线观看欧美| 久久99热66这里只有精品一| 色久综合在线| 国产一区二区三区在线观看视频| 国产福利不卡视频| 性欧美在线| 亚洲va欧美ⅴa国产va影院| 在线观看视频99| 久草青青在线视频| 午夜国产不卡在线观看视频| 欧美精品亚洲精品日韩专区va| 精品超清无码视频在线观看|