999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體和語義標引的地質(zhì)資料服務(wù)與管理研究

2018-03-02 19:45:14閆東王誠
軟件 2017年9期
關(guān)鍵詞:關(guān)聯(lián)語義文本

閆東+王誠

摘要:在信息化時代,高效地組織管理大量地質(zhì)領(lǐng)域數(shù)據(jù)成為實現(xiàn)良好的地質(zhì)資料服務(wù)與管理的關(guān)鍵所在。為解決我國地質(zhì)資料標準化程度低及應(yīng)用難度大等問題,本文提出了一種基于本體和語義標引的地質(zhì)資料服務(wù)與管理方法。首先建立地質(zhì)領(lǐng)域信息資源元數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系模型;并根據(jù)關(guān)聯(lián)模型自動化構(gòu)建計算機可讀的地質(zhì)本體;采用基于地質(zhì)本體的語義概念映射的方法將高維的詞語向量轉(zhuǎn)換到低維語義空間,加之詞頻、詞位置和詞跨度等權(quán)重因子的綜合作用,對地質(zhì)資料文本進行精準快速有效的分類,實現(xiàn)文本的語義標引;最后根據(jù)地質(zhì)本體和語義標引開展地質(zhì)資料檢索試驗,試驗結(jié)果表明,查全率和查準率分別從75.7%和81.2%提高到80.7%和84.8%,檢索效果得到了明顯提升。因此,本文為地質(zhì)資料的服務(wù)與管理模型設(shè)計與實現(xiàn)奠定了良好的基礎(chǔ)。

關(guān)鍵詞:計算機應(yīng)用技術(shù);知識服務(wù);本體;語義標引理的趨勢。利用本體方法可以建立地質(zhì)領(lǐng)域的知識脈絡(luò),可以更好地繼承共享已有的知識;利用自動化標引可以有效組織地質(zhì)專業(yè)資源,可以更有效地管理資源。因此,根據(jù)本體和文本自動標引技術(shù)可以實現(xiàn)良好的地質(zhì)資料服務(wù)與管理,在此基礎(chǔ)上可進一步優(yōu)化地質(zhì)資料檢索服務(wù)。本文提出的地質(zhì)資料服務(wù)與管理框架主要包含四部分。

元數(shù)據(jù)關(guān)聯(lián)模型:元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),根據(jù)文檔的元數(shù)據(jù)標簽,可建立資源之間的關(guān)聯(lián)關(guān)系模型。元數(shù)據(jù)的關(guān)聯(lián)關(guān)系可以是指同一文檔兩主體之間的“關(guān)聯(lián)關(guān)系”,也可以代表不同文檔的“關(guān)聯(lián)關(guān)系”,元數(shù)據(jù)關(guān)聯(lián)模型的設(shè)計是實現(xiàn)本體構(gòu)建以及文本關(guān)聯(lián)關(guān)系的重要保障。

基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建:在本體中有等級、等同、相關(guān)等關(guān)系。而元數(shù)據(jù)模型的關(guān)聯(lián)關(guān)系恰好可以在文檔之間也建立起相應(yīng)的關(guān)聯(lián)關(guān)系。而對于在同一元數(shù)據(jù)項有相同值的文檔,可以直接建立關(guān)聯(lián)關(guān)系,因此,基于元數(shù)據(jù)模型可以實現(xiàn)準確而快速的本體自動化構(gòu)建。

基于本體映射的語義標引:利用面向自動標引應(yīng)用的地質(zhì)本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性,降低特征詞之間的冗余度,實現(xiàn)地質(zhì)資料分本的正確分類,為地質(zhì)資料服務(wù)與管理奠定基礎(chǔ)。

基于本體和語義標引的服務(wù)與管理:地質(zhì)資料服務(wù)的主要是依賴于語義網(wǎng)技術(shù)實現(xiàn)的各種服務(wù),如檢索、關(guān)聯(lián)、推薦等;地質(zhì)資料管理的則是實現(xiàn)知識的搜集、存儲和組織。通過本體與語義標引技術(shù)可有效提高地質(zhì)資料的服務(wù)效果和管理效率。

2 地質(zhì)資料服務(wù)與管理設(shè)計與實現(xiàn)

2.1 元數(shù)據(jù)關(guān)聯(lián)模型

針對地質(zhì)資料中的文檔資源建立元數(shù)據(jù)模型,通過元數(shù)據(jù)描述文本信息,并根據(jù)文檔的元數(shù)據(jù)標簽,建立資源之間的關(guān)聯(lián)關(guān)系模型。見表1。

2.2 基于元數(shù)據(jù)模型構(gòu)建本體

自動構(gòu)建本體是基于自然語言分析和基于統(tǒng)計的機器學習方法抽取文檔中的概念和關(guān)系,自動本體。自動構(gòu)建本體的方法是當前的研究熱點和難點。確定資源本體庫的結(jié)構(gòu)、概念、概念間關(guān)系、實例關(guān)系。在這里概念實際上是指館藏目錄資源和用戶信息的元數(shù)據(jù),而關(guān)系就是通過計量學方法得到的各個字段間關(guān)系。但由于在元數(shù)據(jù)庫中的所有概念和概念關(guān)系都是已經(jīng)確定好的,無需專家再進行人工干預,完全可以計算機自動操作。

本文使用OWL(Web Ontology Language)進行本體的白動化描述,OWL是從RDF(ResourceDescription Framework)上發(fā)展起來的本體描述語言,是一種標準的描述本體的類、概念及概念間關(guān)系的描述語言,也是目前應(yīng)用最多的本體語義化描述方式‘5]。

在本體描述中,存在一定量的同義詞或等價詞,即等同關(guān)系。用“”標簽來描述這種關(guān)系。所以在對OWL文件進行解析推理時,就可以首先鎖定關(guān)鍵詞“”,然后再根據(jù)具體的進行具體等同關(guān)系的解析及推理;等級關(guān)系指的是概念之間的上下位關(guān)系,并且是廣義的上下位關(guān)系,可以包含多層次的層級關(guān)系。在OWL中,用標簽“”來表示等級關(guān)系。同時值得說明的是,在本體中等級關(guān)系具有傳遞性,如果A是B的父類,B又是C的父子類,則A也是C的父類;相關(guān)關(guān)系是一種比較籠統(tǒng)的說法,相關(guān)關(guān)系可以細化為很多種,可以是屬性相關(guān)、物理相關(guān)、空間相關(guān)等。可以使用標簽“” 或者“”進行相關(guān)關(guān)系描述。

最終,使用OWL將元數(shù)據(jù)關(guān)聯(lián)模型中的數(shù)據(jù)轉(zhuǎn)化為本體,含有概念4651個,概念間的關(guān)系25527條,其中等同關(guān)系4943條,等級關(guān)系13786條和相關(guān)關(guān)系6798條。

2.3基于本體映射的語義標引

影響地質(zhì)資料檢索服務(wù)效果的主要原因有兩個:第一,檢索詞單一,僅僅依靠關(guān)鍵詞的匹配大大降低了檢索效果;第二,地質(zhì)資料分類不準確,單一的使用題目中的主題詞作為分類標準,無法實現(xiàn)真正的本文分類。2.2節(jié)所述的本體能夠很好的解決檢索詞單一問題。接下來本文提出一種基于本體映射的文本語義標引技術(shù),能夠很好的解決地質(zhì)資料分類不準確問題。

(1)文本預處理

本文使用的是中科院的開源分詞系統(tǒng)實現(xiàn)的文本預處理,去除停用詞、時間、副詞等無用詞匯,預處理過程中盡量保留能夠顯示文本特征的詞匯。

(2)基于詞權(quán)重的文本特征選擇

通常的文本特征選擇使用的是公式TF*IDF,TF是詞語在文檔中出現(xiàn)的頻率,IDF是出現(xiàn)該詞的文檔的倒頻率。本研究使用TW方法代替TF計算文本特征權(quán)重,詞Vi-文檔Dj權(quán)重Wi,j的計算公式為:

其中,Ni是與詞Vi相關(guān)的文檔的個數(shù);/D/是全部文檔數(shù)。

TW對詞頻、詞位置和詞跨進行綜合評估,比單純的詞頻TF更能反映詞對文本主題的重要性。TW的計算公式為:

TW=TF×LOC×SPAN

TF為詞頻因子,詞i在文檔d中的TFi,d,計算公式為:

Fre是詞i在文檔d中出現(xiàn)的頻數(shù),MAXj(Frejd)是文檔d中jL}{現(xiàn)頻數(shù)最高的詞的頻數(shù)。

LOC為位置因子,出現(xiàn)在標題、摘要的詞一般更能反映文本的主題,將不同位置出現(xiàn)的詞賦予不同的權(quán)重值。出現(xiàn)在標題、摘要、正文三處不同區(qū)域的詞語,其位置值分別設(shè)為60、30和10。

SPAN為詞跨因子,詞跨度是指詞在文中首次出現(xiàn)和末次出現(xiàn)之間的距離,一般詞跨度越大(即在開篇和結(jié)論都使用該詞)對文本的主題就越重要。

其中,las為詞Vi在文中最后一次出現(xiàn)的序號,fir為詞Vi在文中首次出現(xiàn)的序號,sum為經(jīng)分詞計算后的文本分詞總數(shù)。

(3)基于本體映射的語義標引

利用面向自動標引應(yīng)用的地質(zhì)本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性。這里的降維主要使用本體的層級關(guān)系和等同關(guān)系。例如:“頁巖氣、致密氣層氣、Shale gas”都可以用“頁巖氣”代替,這屬于同等詞的映射降維;“伴生氣、低硫氣、火山氣”都可以用“天然氣”代替,這屬于等級詞的映射降維;語義映射增大了與類別的語義關(guān)聯(lián)強的詞匯的權(quán)重;將同義詞、近義詞、相關(guān)詞用一個詞語表示,同時累積權(quán)重;將分散的底層概念映射到較高層概念,權(quán)重累加到高層概念詞匯,高層概念能概括文本主題。

2.4 基于本體和文本標引的地質(zhì)資料服務(wù)與管理

2.4.1 本體的解析與推理

為了完成基于本體的地質(zhì)資料服務(wù)與管理,必須實現(xiàn)基于本體的推理解析工作。OWL是一種很好的描述本體語言,但本身并不具備任何推理和計算能力,因此,為實現(xiàn)基于本體的語義檢索,必須對OWL文件進行相應(yīng)的推理解析,導出本體中存在的知識,滿足對檢索條件的擴展和推送。本文采用的方法是將OWL解析為XML文件,由于OWL是在XML基礎(chǔ)上發(fā)展而來,因此轉(zhuǎn)換起來相對方便,且方便保留原始特性。

圖1所展示的是將OWL文件解析為XML文件之后,將其發(fā)布為Web Service。發(fā)布后,可以通過訪問服務(wù)地址發(fā)出查詢請求,在輸入?yún)?shù),完成查詢偏好設(shè)置。參數(shù)的主要作用是提供多種查詢條件,即不同參數(shù)值表示返回等同詞、上位詞、下位詞、相關(guān)詞等內(nèi)容,能夠保障用戶按照自己的偏好進行檢索。

2.4.2 基于本體和語義標引的檢索原型

如圖2所示,當用戶輸入檢索詞后,推理引擎根據(jù)本體對檢索詞進行擴展,檢索詞擴展的方式非常靈活,可以選擇等同詞與原來的檢索詞組合成新的查詢條件,或者將原檢索詞的等級詞或者相關(guān)詞一并解析出來組合新的查詢條件,并且與已經(jīng)被語義標引過的地質(zhì)資料庫進行匹配,匹配成功后完成一次完整的語義檢索。與此同時,推理引擎還將與檢索詞有關(guān)的詞動態(tài)地生成一組超鏈接,這種超鏈接能夠為用戶提供更多感興趣的檢索推薦。同時,為了提高系統(tǒng)的靈活性,用戶還可以在Web Service接口服務(wù)中根據(jù)自己的檢索習慣來輸入相應(yīng)參數(shù),如是否返回檢索詞的英文詞、等級詞和相關(guān)詞等,從而方便用戶更快速地獲取檢索結(jié)果。

通過對于同義詞(等同關(guān)系)的返回,能夠提高檢索的命中率,即實現(xiàn)了檢索詞的有效擴展,相比于模糊匹配,又能夠有效控制擴展詞的數(shù)量,達到最高效的檢索模式。

對于智能導航的生成(等級關(guān)系和相關(guān)關(guān)系),能夠有針對性的給出用戶分類推送列表,可以使用戶快速的獲取檢索資源的相關(guān)知識。

對于Web Service參數(shù)設(shè)置,可以滿足用戶根據(jù)自己的檢索習慣和檢索需要進行個性化的設(shè)置,以更適合的方式進行檢索。

3 實驗分析

本次基于本體和語義標引的檢索試驗采用查準率(P)、查全率(R)和F值作為評測標準。使用1000檔地質(zhì)資料進行測試。評測標準計算公式如下。

由表2可以看出,在使用本體和語義標引后,查全率和查準率得到了明顯提升。同時值得提出的是,檢索結(jié)果受檢索系統(tǒng)的檢索方式影響,本文主要是借助現(xiàn)有的檢索系統(tǒng)實現(xiàn)的檢索試驗,因此在檢索結(jié)果上會收到諸多限制。

4 總結(jié)

基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建既能夠使人從繁重的本體手工構(gòu)建中解脫出來,又能夠提高本體構(gòu)建質(zhì)量和效率;而基于本體映射的文本自動標引方法,利用本體概念的層級關(guān)系映射,有效降低了文本的特征數(shù)量,快速準確地為文本標注了語義標簽。由試驗結(jié)果可知,結(jié)合本體和語義標引后的檢索系統(tǒng)所能夠提供的服務(wù)與管理明顯優(yōu)于傳統(tǒng)系統(tǒng)。因此,本文為地質(zhì)資料的服務(wù)與管理模型奠定了良好的基礎(chǔ)。endprint

猜你喜歡
關(guān)聯(lián)語義文本
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 中文字幕一区二区人妻电影| 国产一区在线视频观看| 宅男噜噜噜66国产在线观看| 亚洲国产成人综合精品2020| 国产亚洲精| 欧美成人一级| 一级毛片高清| 无码一区中文字幕| www亚洲精品| 亚洲综合18p| 成人久久精品一区二区三区| 欧美中文字幕在线播放| 亚洲第一黄色网| 欧美一级大片在线观看| 精品视频在线观看你懂的一区| 在线无码av一区二区三区| 97国产成人无码精品久久久| 欧美亚洲国产视频| 偷拍久久网| 国产精品视屏| 国产第一页亚洲| 亚洲浓毛av| 色综合天天操| 精久久久久无码区中文字幕| 久久视精品| 婷婷五月在线视频| 日韩免费成人| 国产亚洲视频在线观看| 亚洲日韩精品综合在线一区二区 | 国产全黄a一级毛片| 欧美亚洲国产精品久久蜜芽| 国产在线视频福利资源站| AV天堂资源福利在线观看| 午夜一区二区三区| 国产全黄a一级毛片| 在线看免费无码av天堂的| 日日拍夜夜操| 国产91特黄特色A级毛片| 国产欧美日韩在线在线不卡视频| 亚洲中文字幕av无码区| 99re这里只有国产中文精品国产精品 | 精品三级网站| 国产va在线| 伊人久久精品无码麻豆精品 | 国产精品无码AⅤ在线观看播放| 国产区91| 欧美特黄一级大黄录像| 亚洲国产欧美国产综合久久 | 在线观看91精品国产剧情免费| 凹凸国产熟女精品视频| 国产白浆视频| 72种姿势欧美久久久久大黄蕉| 无码有码中文字幕| 五月激激激综合网色播免费| 99热国产这里只有精品9九 | 欧美激情第一欧美在线| 亚洲综合激情另类专区| 日韩 欧美 国产 精品 综合| 五月天综合网亚洲综合天堂网| 久久精品无码专区免费| 亚洲欧洲国产成人综合不卡| 欧美一级色视频| 九色在线视频导航91| 一级成人a做片免费| 国产精品一区在线观看你懂的| 国产喷水视频| 在线观看av永久| 日韩成人在线视频| 国产乱子伦一区二区=| 色综合国产| 天天爽免费视频| 人妻无码中文字幕第一区| 日韩高清中文字幕| 婷婷五月在线| 国产免费看久久久| 久久综合色视频| 人人爽人人爽人人片| av午夜福利一片免费看| 成年人免费国产视频| aaa国产一级毛片| 色亚洲成人| 日本三级欧美三级|