999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種標準數據元與數據項匹配算法

2016-03-22 13:29:29李敏
電腦知識與技術 2016年1期

李敏

摘要:目前的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。該文提出一種數據元與數據項匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據特征等多個角度設計算法,有較強的通用性,能夠在數據項名稱不規范或無中文名的情況下實現有效匹配。

關鍵詞: 數據元;數據項;匹配;特征詞

中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2016)01-0005-02

An Algorithm of Matching Data Elements and Data Items

LI Min

(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

Key words: data element; data items; matching; feature words

隨著數據元標準的建立,數據元在各行各業的數據集成過程中擔任著重要角色,用于規范數據庫、報表中的數據項。目前數據元標準多以文檔形式出現,主要依靠研發人員自覺遵守數據元標準進行系統設計。在數據大集中體系下,業務系統彼此之間的數據依賴關系日益提高,數據質量關系到業務系統能否正常運行。依據標準數據元對數據質量進行有效核查,能進一步保障數據質量。標準數據元與數據項建立匹配映射關系是數據核查的前提。手工匹配費時費力,采用自動匹配算法可有效提高工作效率。目前的數據元與數據項的匹配算法主要利用字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。

現有的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構的規范化有較強依賴,另外大多業務數據庫中數據項沒有加入中文名,故采用現有算法無法實現匹配。

現提出一種三級匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據值特征等多個角度進行比對,對數據項命名是否規范性沒有嚴格要求,在數據項無中文名稱的情況下,根據數據特征也可實現有效匹配,通用性較強。

1 類型匹配

從數據類型轉換表中讀取數據元和數據項類型映射信息,在數據項信息上打上數據元類型標識,數據類型匹配運算主要為了縮小運算范圍,提高運算效率,在進行第二級、第三級匹配運算時,只針對某種類型的數據項進行運算處理。數據類型轉換表主要存放了標準數據元與數據項的類型映射關系。數據元一般表示為字符、數字、日期等,數據項表達的是數據庫系統的數據類型,包括varchar、char、int、float等多種類型。

2 語義匹配

語義匹配運算主要從數據元和數據項的語義層進行匹配處理。數據元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數據項語義層包括數據項名稱(M)、歸屬實體名稱(T)。在這些信息完整的情況下,本級運算可實現較高比率的匹配效果。未實現匹配的數據項將放入第三級運算中。

公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運算中,如果匹配值Probability大于0.5,可達到很高的有效匹配率。

3 數據特征匹配

第三級運算是針對第二級運算中匹配值小于0.5的數據項。本級運算的主要思想是實現以標準數據元為中心的聚類分析,能夠適用算法的數據元其數值必定是有一定特征的,特征包括:

1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現一些常見姓氏。

2) 是否枚舉值,獲取具體枚舉項。一般引用數據字典的數據項其 值必定是枚舉值。

3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

4) 是否定長值、定長值是什么。

5) 數值是否有取值范圍,最大值、最小值分別是什么。

6) 數據是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

參見表2,數據元信息表。本步驟對數據元的信息完整性有較高要求,但考慮到如果使用數據元作為標準檢測數據質量,對其約束信息的全面性完整性原本就會提出較高要求。

參見表3,數據項信息處理后如表所示。需要按照以上特征屬性對于已有數據進行預處理,得到數據項信息,標識出其具有的特征和特征值。待處理的數據質量應盡量準確,可以采取異常點檢測和平滑處理方法對數據進行清洗,目前已有很多此類算法,本專利不再贅述。數據項的特征詞不在數據預處理階段檢測,只在與標準數據元進行聚類分析時按照數據元的特征詞進行檢索。

計算方法主要是對特征屬性進行比對,如果數據項特征屬性值在數據元特征屬性值的取值范圍內,則為1,否則為0。公式如下:

[Probability=0.2L+j=160.4Pj]

在數據元信息完整的情況下,匹配值大于0.6的數據項可到達到較高的有效匹配率。

4 總結

本算法通過對數據元類型長度、語義說明、數據特征等信息的充分利用,實現了數據元與數據項的有效匹配;且三級運算架構中每級運算縮小數據范圍,提高運算效率;算法有較強的適用性,對于命名不規范或無中文名的數據項也可實現與數據元的有效匹配。

參考文獻:

[1] 冉婕,孫瑜. 語義檢索中的詞語相似度計算研究[J]. 計算機技術與發展,2011(4).

[2] 文必龍, 任秀英,李乃峰,等. 基于數據元的數據模型語義映射技術研究[J]. 計算機技術與發展,2014(11).

[3] 文必龍,付玥. 數據集成中數據項與數據元匹配算法[J]. 計算機系統應用,2012(3).

[4] 時貴英,文必龍,王志寶. 基于數據元的數據集成技術研究[J]. 科學技術與工程,2011(18).

[5] 文必龍,史春波,關翔瑞. 一種數據元語義描述方法[J]. 哈爾濱商業大學學報:自然科學版,2010(1).

[6] 秦善華,史春波,邵慶. 基于數據元的數據模型語義描述[J]. 大慶石油學院學報,2009(3).

[7] 劉敏超,劉衛東. 數據集成系統關鍵問題研究[J]. 計算機應用,2006(7).

[8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關系數據庫的查詢方法[J]. 大慶石油學院學報,2004(2).

[9]尚云云. IT運維服務管理支撐系統的設計與實現[D].北京:北京交通大學,2009.

[10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學院學報,2004(1).

[11] 魏宏,章建方. 數據元在電子政務標準體系中的概念與實踐[J]. 信息技術與標準化,2004(5).

[12] 王斌君,孫丕龍. 數據元標準在信息化中作用的再認識——標準在信息化中的作用之二[J]. 中國人民公安大學學報:自然科學版,2005(3).

[13] 劉羽飛,李健. 電子政務體系中數據元標準的概念與應用[J]. 微計算機信息,2008(15).

[14] 高貴錦,龍翔. 基于數據元的交換數據標準維護[J]. 吉林大學學報:信息科學版,2005(1).

[15] 劉慶河,郝文寧,韓憲勇,等. 基于數據元的數據交換規范研究[J]. 電腦知識與技術,2010(10).

[16] 趙作鵬,尹志民,王潛平,等. 一種改進的編輯距離算法及其在數據處理中的應用[J]. 計算機應用,2009(2).

[17] 姚遠,李林,馮丹. 數據元管理及其網絡化管理平臺的設計[J]. 中國衛生信息管理雜志,2012(1).

[18] 袁滿,陳永恒. 一種新型的面向信息化應用的數據元支撐元模型[J]. 計算機應用研究,2008(7).

主站蜘蛛池模板: 免费中文字幕在在线不卡| 91久久国产综合精品女同我| jizz在线观看| 久久人搡人人玩人妻精品一| 久久精品最新免费国产成人| 免费在线成人网| 日韩小视频在线播放| 精品欧美视频| 好吊妞欧美视频免费| 亚洲天堂视频在线观看| 成人无码一区二区三区视频在线观看 | 91麻豆精品视频| 国产成人精品三级| 久热99这里只有精品视频6| 喷潮白浆直流在线播放| 天天躁狠狠躁| 国产精彩视频在线观看| 四虎精品免费久久| 中文字幕人妻无码系列第三区| 亚洲AV免费一区二区三区| 天堂成人在线| 欧洲亚洲欧美国产日本高清| 色天堂无毒不卡| 久久精品66| 欧美三级日韩三级| 国产黑丝一区| 91在线视频福利| 欧美一区二区三区国产精品| 国产精品免费久久久久影院无码| 无码人妻免费| 久久99国产精品成人欧美| 亚洲va在线观看| 国产18在线播放| 成人福利视频网| 国产99视频精品免费视频7| 国产成人AV大片大片在线播放 | 爆操波多野结衣| 日韩资源站| 又爽又大又黄a级毛片在线视频| 国产精品无码AⅤ在线观看播放| 亚洲欧美综合另类图片小说区| 亚洲AⅤ永久无码精品毛片| 成人伊人色一区二区三区| 国产在线八区| 亚洲色图在线观看| 午夜毛片免费观看视频 | 国产精品护士| 国产区在线观看视频| 久久久久久高潮白浆| 久久无码av三级| 免费全部高H视频无码无遮掩| 女人一级毛片| 欧美成人手机在线视频| 国产亚洲视频中文字幕视频 | 色噜噜在线观看| 日本不卡视频在线| 欧美国产菊爆免费观看 | 国产精品林美惠子在线播放| 五月天久久婷婷| 91人妻在线视频| 国产欧美日韩一区二区视频在线| 麻豆国产原创视频在线播放| 久久精品人妻中文系列| 免费xxxxx在线观看网站| 国产在线91在线电影| 三级毛片在线播放| 国产亚洲欧美在线中文bt天堂| 免费一极毛片| 欧美日韩专区| 成人福利在线视频免费观看| 在线观看欧美精品二区| 欧美亚洲综合免费精品高清在线观看| 国产福利2021最新在线观看| 国产手机在线小视频免费观看| 极品尤物av美乳在线观看| 中文字幕第4页| 欧美在线伊人| 日韩av高清无码一区二区三区| 亚洲第一区精品日韩在线播放| 国产91视频免费| 人妻无码AⅤ中文字| 国产三级视频网站|