999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種標準數據元與數據項匹配算法

2016-03-22 13:29:29李敏
電腦知識與技術 2016年1期

李敏

摘要:目前的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。該文提出一種數據元與數據項匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據特征等多個角度設計算法,有較強的通用性,能夠在數據項名稱不規范或無中文名的情況下實現有效匹配。

關鍵詞: 數據元;數據項;匹配;特征詞

中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2016)01-0005-02

An Algorithm of Matching Data Elements and Data Items

LI Min

(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

Key words: data element; data items; matching; feature words

隨著數據元標準的建立,數據元在各行各業的數據集成過程中擔任著重要角色,用于規范數據庫、報表中的數據項。目前數據元標準多以文檔形式出現,主要依靠研發人員自覺遵守數據元標準進行系統設計。在數據大集中體系下,業務系統彼此之間的數據依賴關系日益提高,數據質量關系到業務系統能否正常運行。依據標準數據元對數據質量進行有效核查,能進一步保障數據質量。標準數據元與數據項建立匹配映射關系是數據核查的前提。手工匹配費時費力,采用自動匹配算法可有效提高工作效率。目前的數據元與數據項的匹配算法主要利用字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。

現有的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構的規范化有較強依賴,另外大多業務數據庫中數據項沒有加入中文名,故采用現有算法無法實現匹配。

現提出一種三級匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據值特征等多個角度進行比對,對數據項命名是否規范性沒有嚴格要求,在數據項無中文名稱的情況下,根據數據特征也可實現有效匹配,通用性較強。

1 類型匹配

從數據類型轉換表中讀取數據元和數據項類型映射信息,在數據項信息上打上數據元類型標識,數據類型匹配運算主要為了縮小運算范圍,提高運算效率,在進行第二級、第三級匹配運算時,只針對某種類型的數據項進行運算處理。數據類型轉換表主要存放了標準數據元與數據項的類型映射關系。數據元一般表示為字符、數字、日期等,數據項表達的是數據庫系統的數據類型,包括varchar、char、int、float等多種類型。

2 語義匹配

語義匹配運算主要從數據元和數據項的語義層進行匹配處理。數據元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數據項語義層包括數據項名稱(M)、歸屬實體名稱(T)。在這些信息完整的情況下,本級運算可實現較高比率的匹配效果。未實現匹配的數據項將放入第三級運算中。

公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運算中,如果匹配值Probability大于0.5,可達到很高的有效匹配率。

3 數據特征匹配

第三級運算是針對第二級運算中匹配值小于0.5的數據項。本級運算的主要思想是實現以標準數據元為中心的聚類分析,能夠適用算法的數據元其數值必定是有一定特征的,特征包括:

1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現一些常見姓氏。

2) 是否枚舉值,獲取具體枚舉項。一般引用數據字典的數據項其 值必定是枚舉值。

3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

4) 是否定長值、定長值是什么。

5) 數值是否有取值范圍,最大值、最小值分別是什么。

6) 數據是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

參見表2,數據元信息表。本步驟對數據元的信息完整性有較高要求,但考慮到如果使用數據元作為標準檢測數據質量,對其約束信息的全面性完整性原本就會提出較高要求。

參見表3,數據項信息處理后如表所示。需要按照以上特征屬性對于已有數據進行預處理,得到數據項信息,標識出其具有的特征和特征值。待處理的數據質量應盡量準確,可以采取異常點檢測和平滑處理方法對數據進行清洗,目前已有很多此類算法,本專利不再贅述。數據項的特征詞不在數據預處理階段檢測,只在與標準數據元進行聚類分析時按照數據元的特征詞進行檢索。

計算方法主要是對特征屬性進行比對,如果數據項特征屬性值在數據元特征屬性值的取值范圍內,則為1,否則為0。公式如下:

[Probability=0.2L+j=160.4Pj]

在數據元信息完整的情況下,匹配值大于0.6的數據項可到達到較高的有效匹配率。

4 總結

本算法通過對數據元類型長度、語義說明、數據特征等信息的充分利用,實現了數據元與數據項的有效匹配;且三級運算架構中每級運算縮小數據范圍,提高運算效率;算法有較強的適用性,對于命名不規范或無中文名的數據項也可實現與數據元的有效匹配。

參考文獻:

[1] 冉婕,孫瑜. 語義檢索中的詞語相似度計算研究[J]. 計算機技術與發展,2011(4).

[2] 文必龍, 任秀英,李乃峰,等. 基于數據元的數據模型語義映射技術研究[J]. 計算機技術與發展,2014(11).

[3] 文必龍,付玥. 數據集成中數據項與數據元匹配算法[J]. 計算機系統應用,2012(3).

[4] 時貴英,文必龍,王志寶. 基于數據元的數據集成技術研究[J]. 科學技術與工程,2011(18).

[5] 文必龍,史春波,關翔瑞. 一種數據元語義描述方法[J]. 哈爾濱商業大學學報:自然科學版,2010(1).

[6] 秦善華,史春波,邵慶. 基于數據元的數據模型語義描述[J]. 大慶石油學院學報,2009(3).

[7] 劉敏超,劉衛東. 數據集成系統關鍵問題研究[J]. 計算機應用,2006(7).

[8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關系數據庫的查詢方法[J]. 大慶石油學院學報,2004(2).

[9]尚云云. IT運維服務管理支撐系統的設計與實現[D].北京:北京交通大學,2009.

[10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學院學報,2004(1).

[11] 魏宏,章建方. 數據元在電子政務標準體系中的概念與實踐[J]. 信息技術與標準化,2004(5).

[12] 王斌君,孫丕龍. 數據元標準在信息化中作用的再認識——標準在信息化中的作用之二[J]. 中國人民公安大學學報:自然科學版,2005(3).

[13] 劉羽飛,李健. 電子政務體系中數據元標準的概念與應用[J]. 微計算機信息,2008(15).

[14] 高貴錦,龍翔. 基于數據元的交換數據標準維護[J]. 吉林大學學報:信息科學版,2005(1).

[15] 劉慶河,郝文寧,韓憲勇,等. 基于數據元的數據交換規范研究[J]. 電腦知識與技術,2010(10).

[16] 趙作鵬,尹志民,王潛平,等. 一種改進的編輯距離算法及其在數據處理中的應用[J]. 計算機應用,2009(2).

[17] 姚遠,李林,馮丹. 數據元管理及其網絡化管理平臺的設計[J]. 中國衛生信息管理雜志,2012(1).

[18] 袁滿,陳永恒. 一種新型的面向信息化應用的數據元支撐元模型[J]. 計算機應用研究,2008(7).

主站蜘蛛池模板: 久久国产亚洲偷自| 亚洲色图欧美| 久久亚洲国产视频| 成年人久久黄色网站| 亚洲国产成人麻豆精品| 久草青青在线视频| 亚洲综合香蕉| 久热这里只有精品6| 久草热视频在线| 精品人妻无码区在线视频| 国产成人综合亚洲欧洲色就色| 广东一级毛片| 天天综合网色| 国产剧情一区二区| 国产精品一区二区不卡的视频| 国产成人狂喷潮在线观看2345| 亚洲—日韩aV在线| 久久久久亚洲Av片无码观看| 亚洲黄网在线| 老色鬼久久亚洲AV综合| 国产精品区视频中文字幕| 福利视频一区| 华人在线亚洲欧美精品| 亚洲中文在线视频| 四虎亚洲国产成人久久精品| 久久国产免费观看| 欧美日本激情| 亚洲第一成年人网站| 内射人妻无码色AV天堂| 国产在线观看91精品亚瑟| 无码日韩精品91超碰| 亚洲无线一二三四区男男| 国产成人综合久久精品尤物| 欧美成人精品高清在线下载| 香蕉伊思人视频| 91精品国产福利| 亚洲不卡网| 欧美精品不卡| 无码免费试看| 久久久久国产精品熟女影院| 中文字幕无码av专区久久| 亚洲第一网站男人都懂| 18禁影院亚洲专区| 亚洲精品无码AⅤ片青青在线观看| 亚洲无码高清免费视频亚洲 | 欧美劲爆第一页| 中文无码精品a∨在线观看| 制服丝袜一区二区三区在线| 欧美精品在线看| 日韩免费中文字幕| 在线亚洲精品福利网址导航| 亚洲免费三区| 亚洲欧美成人在线视频| 日本国产一区在线观看| 免费在线视频a| 国产成人av一区二区三区| 免费国产一级 片内射老| 极品尤物av美乳在线观看| 国产免费怡红院视频| 欧美日韩国产精品综合| 亚洲综合色婷婷| 久久天天躁狠狠躁夜夜躁| 欧美激情第一欧美在线| 亚洲男人天堂2018| 国产玖玖视频| 国产精品视频第一专区| 国产美女无遮挡免费视频网站 | JIZZ亚洲国产| 伊人网址在线| 久久永久视频| 国产一区亚洲一区| 97视频精品全国免费观看| 日韩精品亚洲一区中文字幕| 超清无码熟妇人妻AV在线绿巨人| 五月婷婷综合网| 国产呦精品一区二区三区下载| 国产午夜无码专区喷水| 日韩成人在线一区二区| 54pao国产成人免费视频| 91麻豆国产在线| 欧美一级片在线| 亚洲综合久久成人AV|