李敏
摘要:目前的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。該文提出一種數據元與數據項匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據特征等多個角度設計算法,有較強的通用性,能夠在數據項名稱不規范或無中文名的情況下實現有效匹配。
關鍵詞: 數據元;數據項;匹配;特征詞
中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2016)01-0005-02
An Algorithm of Matching Data Elements and Data Items
LI Min
(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)
Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.
Key words: data element; data items; matching; feature words
隨著數據元標準的建立,數據元在各行各業的數據集成過程中擔任著重要角色,用于規范數據庫、報表中的數據項。目前數據元標準多以文檔形式出現,主要依靠研發人員自覺遵守數據元標準進行系統設計。在數據大集中體系下,業務系統彼此之間的數據依賴關系日益提高,數據質量關系到業務系統能否正常運行。依據標準數據元對數據質量進行有效核查,能進一步保障數據質量。標準數據元與數據項建立匹配映射關系是數據核查的前提。手工匹配費時費力,采用自動匹配算法可有效提高工作效率。目前的數據元與數據項的匹配算法主要利用字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。
現有的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構的規范化有較強依賴,另外大多業務數據庫中數據項沒有加入中文名,故采用現有算法無法實現匹配。
現提出一種三級匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據值特征等多個角度進行比對,對數據項命名是否規范性沒有嚴格要求,在數據項無中文名稱的情況下,根據數據特征也可實現有效匹配,通用性較強。
1 類型匹配
從數據類型轉換表中讀取數據元和數據項類型映射信息,在數據項信息上打上數據元類型標識,數據類型匹配運算主要為了縮小運算范圍,提高運算效率,在進行第二級、第三級匹配運算時,只針對某種類型的數據項進行運算處理。數據類型轉換表主要存放了標準數據元與數據項的類型映射關系。數據元一般表示為字符、數字、日期等,數據項表達的是數據庫系統的數據類型,包括varchar、char、int、float等多種類型。
2 語義匹配
語義匹配運算主要從數據元和數據項的語義層進行匹配處理。數據元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數據項語義層包括數據項名稱(M)、歸屬實體名稱(T)。在這些信息完整的情況下,本級運算可實現較高比率的匹配效果。未實現匹配的數據項將放入第三級運算中。
公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運算中,如果匹配值Probability大于0.5,可達到很高的有效匹配率。
3 數據特征匹配
第三級運算是針對第二級運算中匹配值小于0.5的數據項。本級運算的主要思想是實現以標準數據元為中心的聚類分析,能夠適用算法的數據元其數值必定是有一定特征的,特征包括:
1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現一些常見姓氏。
2) 是否枚舉值,獲取具體枚舉項。一般引用數據字典的數據項其 值必定是枚舉值。
3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。
4) 是否定長值、定長值是什么。
5) 數值是否有取值范圍,最大值、最小值分別是什么。
6) 數據是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。
參見表2,數據元信息表。本步驟對數據元的信息完整性有較高要求,但考慮到如果使用數據元作為標準檢測數據質量,對其約束信息的全面性完整性原本就會提出較高要求。
參見表3,數據項信息處理后如表所示。需要按照以上特征屬性對于已有數據進行預處理,得到數據項信息,標識出其具有的特征和特征值。待處理的數據質量應盡量準確,可以采取異常點檢測和平滑處理方法對數據進行清洗,目前已有很多此類算法,本專利不再贅述。數據項的特征詞不在數據預處理階段檢測,只在與標準數據元進行聚類分析時按照數據元的特征詞進行檢索。
計算方法主要是對特征屬性進行比對,如果數據項特征屬性值在數據元特征屬性值的取值范圍內,則為1,否則為0。公式如下:
[Probability=0.2L+j=160.4Pj]
在數據元信息完整的情況下,匹配值大于0.6的數據項可到達到較高的有效匹配率。
4 總結
本算法通過對數據元類型長度、語義說明、數據特征等信息的充分利用,實現了數據元與數據項的有效匹配;且三級運算架構中每級運算縮小數據范圍,提高運算效率;算法有較強的適用性,對于命名不規范或無中文名的數據項也可實現與數據元的有效匹配。
參考文獻:
[1] 冉婕,孫瑜. 語義檢索中的詞語相似度計算研究[J]. 計算機技術與發展,2011(4).
[2] 文必龍, 任秀英,李乃峰,等. 基于數據元的數據模型語義映射技術研究[J]. 計算機技術與發展,2014(11).
[3] 文必龍,付玥. 數據集成中數據項與數據元匹配算法[J]. 計算機系統應用,2012(3).
[4] 時貴英,文必龍,王志寶. 基于數據元的數據集成技術研究[J]. 科學技術與工程,2011(18).
[5] 文必龍,史春波,關翔瑞. 一種數據元語義描述方法[J]. 哈爾濱商業大學學報:自然科學版,2010(1).
[6] 秦善華,史春波,邵慶. 基于數據元的數據模型語義描述[J]. 大慶石油學院學報,2009(3).
[7] 劉敏超,劉衛東. 數據集成系統關鍵問題研究[J]. 計算機應用,2006(7).
[8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關系數據庫的查詢方法[J]. 大慶石油學院學報,2004(2).
[9]尚云云. IT運維服務管理支撐系統的設計與實現[D].北京:北京交通大學,2009.
[10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學院學報,2004(1).
[11] 魏宏,章建方. 數據元在電子政務標準體系中的概念與實踐[J]. 信息技術與標準化,2004(5).
[12] 王斌君,孫丕龍. 數據元標準在信息化中作用的再認識——標準在信息化中的作用之二[J]. 中國人民公安大學學報:自然科學版,2005(3).
[13] 劉羽飛,李健. 電子政務體系中數據元標準的概念與應用[J]. 微計算機信息,2008(15).
[14] 高貴錦,龍翔. 基于數據元的交換數據標準維護[J]. 吉林大學學報:信息科學版,2005(1).
[15] 劉慶河,郝文寧,韓憲勇,等. 基于數據元的數據交換規范研究[J]. 電腦知識與技術,2010(10).
[16] 趙作鵬,尹志民,王潛平,等. 一種改進的編輯距離算法及其在數據處理中的應用[J]. 計算機應用,2009(2).
[17] 姚遠,李林,馮丹. 數據元管理及其網絡化管理平臺的設計[J]. 中國衛生信息管理雜志,2012(1).
[18] 袁滿,陳永恒. 一種新型的面向信息化應用的數據元支撐元模型[J]. 計算機應用研究,2008(7).