999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據元關鍵字的數據模型映射技術研究?

2023-10-20 08:24:32高俊濤
計算機與數字工程 2023年7期
關鍵詞:語義深度

高俊濤 侯 寧

(東北石油大學計算機與信息技術學院 大慶 163318)

1 引言

現階段,各個油田企業布署和運行了大量信息系統,各個系統之間獨立開發與發布,形成眾多的信息孤島。由于缺少對數據資源的統一標準描述和信息服務,導致各系統間協同難、數據開發應用效率低,無法形成高效的公共數據服務產品[1]。

為屏蔽這些信息孤島,各個油田開始進行數據集成,將各個獨立開發的信息系統相互關聯起來,使得用戶可以透明的訪問這些數據。而數據集成中數據映射是重要的一個步驟[2]。目前許多數據集成的方法用于解決數據結構上的異構,卻沒有較好的解決數據語義上的異構,這一直以來也都是一個難點[3]。

文獻[4]提出了數據元在國內外標準化信息術語中的作用,說明了數據元在數據集成中的重要性。文獻[5]為了表達數據元的語義,用了語義樹,采取了數據元表達數據模型的語義。但是通過語義樹的方式過于復雜,提高了前期工作的門檻。文獻[6]以數據元為中介實現數據映射,采取數據元的方法對數據映射。

因此正文引出數據模型的映射,用數據元關鍵字的方式,用數據模型里的數據項與數據元與配對,然后對數據模型中數據項用數據元表達。通過關鍵字描述數據元的語義,避免構建語義樹、本體等帶來的麻煩,降低了前期工作的門檻和映射的復雜性。通過兩個模型中的數據項所配對的數據元的聯系,構建兩個數據模型中的數據項的匹配,從而構建兩個模型的映射,以更好地做數據服務。

2 數據元簡介

基本的、不可分割的數據單元是數據元,它用屬性表達其標識、定義、允許值和表示[7]。

數據元語義可以看作由以下三個部分組成[8]。

對象詞:它具有清晰的概念,可以定義其屬性和行為,是對現實世界事物的抽象描述,可以作為面向對象編程中的對象來理解,在數據模型中類似于實體名稱。例如:尾管、生產井、水管、設備、管柱。

特性詞:特性詞表示對對象的一種性質描述,它在數據模型中類似于實體屬性,例如:長度、深度、外徑、內徑、尺寸、壓力、產量。

限定詞:它主要包含對象詞的限定詞和特性詞的限定詞,它是用來修飾對象詞和特性詞的,它可以有零個。如:懸掛、回接、下入、年。

設數據元關鍵字表為K:

其中pty 為特性詞,obj 為對象詞,Qobj 為對象詞的限定詞集合,Qpty 為特性詞的限定詞集合,C 為約束條件中的常數值集合。

進一步簡化:把C 中的常數值作為相應的限定詞,劃分到Qobj與Qpty中,得出:

通過以上三個部分實現對數據元語義的表達。表1展示了數據元語義的組成成分。

表1 數據元的組成成分

3 語義描述

數據特征的抽象表示是數據模型,包含數據結構、數據約束和數據操作[9],因為數據操作是在數據庫上操作,所以這里不探討它。結合它的特征,用數據模型里的表和數據項表達數據模型。模型里表的表達基于數據項的表達。根據上述的表述,數據元作為數據的規范,可以用來描述數據項。

這里先構建數據項與數據元的配對表達數據項的語義。

目前有許多相似度算法,廣義上大體分成基于序列的相似度度量、基于集合的相似度度量[10]。編輯距離算法是基于序列的相似度度量,它具有可行性高效果好的優點[11],這里采用編輯距離算法度量數據項和數據元,它是基于字面進行相似度度量。

設編輯距離算法用dsim(x,y)表達,用來計算x轉變到y 的最低成本。字符串轉換通過以下方式實現,刪去、插入和替換字符串。例如,將x=“累積油產量”變為字符串y=“累積地層油產量”的代價是dsim(x,y)=2,需要執行的操作依次是在“累積”后面插入一個字符“地”,在“累積地”后面插入一個字符“層”。

編輯距離直觀上反映的是人們犯得一些編輯錯誤,比如插入了一個額外的字符(如“累積油產量”少寫了一個“產”字,變成了“累積油量”),或者兩個字符順序反了(如“累積油產量”錯寫成了“積累油產量”)等。編輯距離dsim(x,y)可用以下公式轉為相像度度量函數sim(x,y):

例如,“累積油產量”轉換為“累積地層油產量”的相似度度量結果為

下面以一個數據項“尾管懸掛下深”為例,與數據元字典里的數據元進行相似度度量,表2 中得到相像度較高的數據元配對結果。

表2 數據項與數據元相像度結果[12]

從以上結果得知,匹配的數據元中“尾管懸掛下入深度”相似度較高,“下入深度”的縮寫是“下深”,確實能表達數據項“尾管懸掛下深”的語義。因此,數據項“尾管懸掛下深”與數據元“尾管懸掛下入深度”匹配。

通過以上相似度度量方法,可以得出與數據模型中數據項匹配的數據元。當匹配數據元不唯一時,按相似度進行排序,并進行人工確認。由于表名、業務域、主鍵字段名中隱含數據項的上下文語義信息,這些信息可以作為數據元關鍵匹配的依據。

4 數據模型映射

在上文定義了模型之后,即通過數據元對源模型和目標模型都完成了數據項的語義表達后,就可以進行數據模型映射。在目標數據模型中指定一個目標數據表,從源數據模型找出與此表對應的多個源表,并建立從源表到目標表的各字段的對應關系。

不同的實體間的某屬性可以使用同個數據元表達,同實體中的屬性可以逐個與數據元配對,見圖1。

圖1 數據元與數據模型關系圖

4.1 數據項與數據項相似計算

針對目標表的每個數據項匹配如下:

DE1(key11,key12,…key1m)DE2(key21,key22,…key2n),keyij 是數據元DEi 的關鍵字。當相似度SIM12=1時,兩個數據項對應的數據元名稱相等。如果數據元名稱不相等,則按以下方法:

其中,DSIM(DE1,DE1)為雙方數據元名稱的編輯距離算法相像度。而KSIM是兩個數據元的關鍵字集合之間的項集相像度:KSIM=交集項個數/并集項個數,得出的結果是杰卡德系數,它是雙方集合A和B的交集元素在并集A和B中的比[13],用符號J(A,B)表示,用下面的公式表達:

通過不同的系數值選取和大量的實驗,確定系數WD 和WK 的值,其中系數WD 和WK 的和為1。WD、WK 分別為兩個相似度的權重,對系數WD 和WK 按照表的取值進行計算,發現表3 在A=0.3,b=0.7的時候效果最好。

表3 系數選取

為了構建兩個模型的映射,用數據元作為中介,用雙方數據元匹配。不能完全配對,但有較高相像度的,作為可能映射[14]。這里以數據元“尾管懸掛下入深度”為例,按照關鍵詞分類,對象詞是“尾管”,它的限定詞是“懸掛”,特性詞是“深度”,它的限定詞是“下入”[15],在表4 中得出數據元字典中匹配到的前幾個數據元以及相似度結果。

表4 數據元與數據元相像度結果

通過上表得出“試油”數據模型中數據元“尾管懸掛下入深度”與“試油試采”數據模型中數據元“尾管懸掛下入深度”相似度為1,直接匹配。因此,它們所對應的數據項“尾管懸掛下深”和“尾管懸掛下入深度”也能直接匹配。這兩個數據項所對應的表“地質設計鉆井及套管基礎數據表”和“套管基礎數據表”也匹配。

4.2 映射字典設計

通過數據元、數據項和實體對兩個模型表達之后,為數據映射字典打下了基礎,基于XML 的映射字典的設計,用于表達兩個模型的映射聯系[16]。

1)xml:表示xml文件版本號和編碼。

2)MapDocument:表示映射字典的根節點,此節點有一個子節點Mapping表示映射關系[17]。

3)Mapping:表示映射關系節點,此節點有三個屬性,user表示公司,name 表示映射名稱,type 表示映射類型,主要根據平臺使用者進行劃分。此節點有三個子節點,DRDModel,RDLModel,Entities。

4)DRDModel:表示源數據模型。

5)RDLModel:表示目標數據模型。

6)Entities:表示實體,RDL_Entity 是它的一個子節點。

7)RDL_Entity:表示目標數據模型實體,name、code 是它的兩個屬性,分別表示實體名、實體代碼。Source,Row是它的兩個子節點。

8)Source:表示數據來源(源數據模型),此節點有一個子節點DM_Entity。

9)DM_Entity:表示源數據模型,有兩個屬性name表示實體名,code表示實體代碼[18]。

10)Row:表示行,Attribute是它的一個子節點。

11)Attribute:表示屬性,其中它有6 個屬性,RDL_name 表示目標數據模型屬性。RDL_code 表示目標數據模型屬性代碼,element_name 表示數據元名稱,element_code 表示數據元代碼,DM_name表示源數據模型屬性,DM_code表示源數據模型屬性代碼[19]。

映射字典結構如下所示。

<?xml version=“”encoding=“”?>

5 結語

本文通過數據元來表達數據模型中的數據項,并通過關鍵詞來表達數據元的語義。利用編輯距離算法和杰卡德算法的思想,對數據項與數據元進行配對,對數據元與數據元之間的相像性進行配對,間接定位數據項的語義映射聯系,從而得出數據表的映射聯系。最終為表達異構模型的映射引出一個映射文件。將中國石油企業的數據元為試驗數據,對中石油數據模型中的數據項進行了標準化,以保證研究的實用性。

猜你喜歡
語義深度
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 久久性妇女精品免费| 成人一区专区在线观看| 国产精品天干天干在线观看| 伊人网址在线| 98精品全国免费观看视频| 成人精品午夜福利在线播放| 中文字幕丝袜一区二区| 亚洲性日韩精品一区二区| 欧美第二区| 一级片一区| a毛片在线播放| 欧美在线综合视频| 久久国产精品国产自线拍| 又大又硬又爽免费视频| 伦伦影院精品一区| 国产综合在线观看视频| 日韩午夜福利在线观看| 91九色国产porny| 黄网站欧美内射| 日韩精品一区二区三区免费在线观看| 国产xx在线观看| 国产香蕉97碰碰视频VA碰碰看| 国产乱子伦视频在线播放| 亚洲色图欧美激情| 欧美精品xx| 广东一级毛片| 久久成人18免费| 国产在线精品美女观看| 国产原创演绎剧情有字幕的| 国产日韩丝袜一二三区| 国产精品jizz在线观看软件| 欧美在线三级| 91热爆在线| 91丝袜美腿高跟国产极品老师| 日韩欧美国产另类| 亚洲精品免费网站| 国产白浆一区二区三区视频在线| 久久特级毛片| 青草视频网站在线观看| 丁香婷婷激情综合激情| 乱人伦99久久| 国产免费怡红院视频| 国产精选自拍| 国产一级特黄aa级特黄裸毛片| 国产二级毛片| 日韩A∨精品日韩精品无码| 亚欧美国产综合| 97国产精品视频自在拍| 欧美一区二区三区香蕉视| 欧美日韩中文国产va另类| 亚洲最大综合网| 久久精品无码一区二区国产区 | 午夜天堂视频| 亚洲天堂网在线视频| 四虎国产精品永久在线网址| 波多野结衣无码中文字幕在线观看一区二区| 在线观看精品自拍视频| 久久久久人妻一区精品| 一区二区三区精品视频在线观看| 国产在线欧美| 久久毛片基地| 无码国产伊人| 99精品在线看| 久久国产亚洲偷自| 热久久综合这里只有精品电影| 国产亚洲美日韩AV中文字幕无码成人| 精品一区二区三区四区五区| 亚洲第一区精品日韩在线播放| 天天摸夜夜操| 国产精品第页| 成人午夜久久| 国产成人在线无码免费视频| 国产一区二区精品福利| 亚洲av无码专区久久蜜芽| 精品久久蜜桃| 国产凹凸视频在线观看| 国产精品福利尤物youwu| 激情无码字幕综合| 麻豆精品久久久久久久99蜜桃| 亚洲日韩欧美在线观看| 精品三级在线| 国产成人精品视频一区视频二区|