楊向榮 王希武 王涌鑫
(軍械工程學(xué)院信息工程系 石家莊 050003)
?
基于特征值的標(biāo)稱數(shù)據(jù)相關(guān)分析*
楊向榮王希武王涌鑫
(軍械工程學(xué)院信息工程系石家莊050003)
摘要標(biāo)稱數(shù)據(jù)中經(jīng)常出現(xiàn)屬性描述不一致的問題,針對(duì)這種問題,通常使用數(shù)據(jù)集成中的相關(guān)分析方法。但是在實(shí)際應(yīng)用中發(fā)現(xiàn),這種方法在處理標(biāo)稱數(shù)據(jù)時(shí)效率比較低,在數(shù)據(jù)量比較大的情況下顯然不適用。因此,在現(xiàn)有研究的基礎(chǔ)上,提出了一種基于特征值的標(biāo)稱數(shù)據(jù)相關(guān)分析方法。
關(guān)鍵詞數(shù)據(jù)集成; 標(biāo)稱數(shù)據(jù); 相關(guān)分析; 特征值
Class NumberTP333
1引言
相關(guān)分析是當(dāng)前處理數(shù)據(jù)不一致問題的主要方法,該方法主要包括兩方面內(nèi)容:對(duì)于標(biāo)稱數(shù)據(jù),使用卡方檢驗(yàn)技術(shù);對(duì)于數(shù)值屬性,使用相關(guān)系數(shù)和協(xié)方差。在處理標(biāo)稱數(shù)據(jù)中出現(xiàn)的屬性描述不一致的問題時(shí),通常使用卡方檢驗(yàn)技術(shù)。然而,卡法檢驗(yàn)技術(shù)在分析數(shù)據(jù)屬性的相關(guān)性需要經(jīng)過比較繁瑣的計(jì)算,效率不高。
因此,根據(jù)標(biāo)稱數(shù)據(jù)各屬性值域間互斥的特征,在原有方法的基礎(chǔ)上得到了一種改進(jìn)的相關(guān)分析的方法,即基于屬性值域特征值的相關(guān)分析方法。
2相關(guān)概念
2.1卡方檢驗(yàn)
1) 卡方檢驗(yàn)
由于裝備維修數(shù)據(jù)主要以標(biāo)稱數(shù)據(jù)為主,因此在對(duì)其進(jìn)行相關(guān)分析是選用卡方檢驗(yàn)的方法。假設(shè)A,B為兩個(gè)屬性,其取值如表1所示。

表1 屬性示例
其相依表如表2:表中空白處的值為(A=ai,B=bj)的聯(lián)合事件的觀測(cè)頻度即實(shí)際計(jì)數(shù)oij,括號(hào)內(nèi)為期望頻度eij。

表2 相依表
由上表可得卡方值:

2) 實(shí)例分析
假設(shè)有兩組疑似相似的數(shù)據(jù)fault_phenomenon和fault_appearance,通過人工觀察發(fā)現(xiàn)它們都是對(duì)故障現(xiàn)象的描述,其取值分別為fault_phenomenon={P1,P2,P4},fault_appearance={P1,P2,P3}。這兩組數(shù)據(jù)的具體情況如表3所示。

表3 屬性值
為驗(yàn)證這兩組數(shù)據(jù)的一致性,先假設(shè)fault_phenomenon和fault_appearance是獨(dú)立的,則其相依表如表4所示。

表4 相依表示例
由公式可得卡方值:

χ2= (2-2.5)22.5+(2-1.5)21.5+(1-1)21
=0.1+0.167+0+0.167+0.011
+0.167+1+0.6+0.4=2.612
由卡方計(jì)算的結(jié)果可以得知fault_phenomenon和fault_appearance的相關(guān)系數(shù)為2.612,不為零,之前的假設(shè)是不成立的。因此,可以認(rèn)為這兩個(gè)屬性之間是相關(guān)的,再結(jié)合裝備維修數(shù)據(jù)的特點(diǎn),可以進(jìn)一步認(rèn)為這兩個(gè)屬性描述的是同一裝備的同一個(gè)屬性。
2.2裝備維修數(shù)據(jù)中屬性值域的特征值
1) 特征值的定義

2) 特征值的求解
對(duì)屬性A進(jìn)行掃描并對(duì)每個(gè)值進(jìn)行計(jì)數(shù),出現(xiàn)次數(shù)最多的值即為屬性A的特征值。假設(shè)有一組數(shù)據(jù)fault_phenomenon(P2,P1,P4,P1,P2,P4,P1,P1,P2,P1),經(jīng)過掃描可以得到各個(gè)值出現(xiàn)的頻率,記為L(zhǎng)={{P1:5},{P2:3},{P4:2}}。由于MAX(L)=P1,則P1為屬性A的特征值。
3) 相關(guān)性的判定
假設(shè)裝備維修數(shù)據(jù)中屬性A的特征值為x,屬性B的特征值為y,對(duì)A和B進(jìn)行相關(guān)性判定的條件為
(1)x與y是否相等;
(2)x是否屬于屬性B的值域;
(3)y是否屬于屬性A的值域。
兩個(gè)屬性滿足其中一個(gè)或多個(gè)條件,則說明這兩個(gè)屬性是相關(guān)的。
3改進(jìn)的方法
3.1原理描述
假設(shè)車輛維修數(shù)據(jù)中屬性A的特征值為x,屬性B的特征值為y,對(duì)A和B進(jìn)行相關(guān)性進(jìn)行分析。首先對(duì)數(shù)據(jù)集進(jìn)行掃描,得到屬性A和屬性B的值域,并計(jì)算其特征值,然后對(duì)特征值進(jìn)行比較,若滿足判定條件中的一個(gè)或多個(gè),則說明這兩個(gè)屬性是相關(guān)的。具體判定條件為:x與y是否相等;x是否屬于屬性B的值域;y是否屬于屬性A的值域。然后,用卡方檢驗(yàn)的方法對(duì)判定結(jié)果進(jìn)行檢驗(yàn)。在此基礎(chǔ)上,得到了一個(gè)關(guān)于該方法的算法模型(如圖1)。

圖1 基于特征值的方法模型
3.2具體步驟
輸入:車輛維修數(shù)據(jù)集D:D1,D2
輸出:車輛維修事物數(shù)據(jù)集D′
步驟:
1) Scan(D)?屬性集A={a1,a2,…ai},D1、D2的屬性集分別為X(A1,A2),值域集合R={a1{x1,x2…xj},a2{y1,y2,…yk},…ai{z1,z2,…,zn}};
2) 專家SelectA′ fromA,A′?A;
3) Then if (X∩A′=X)X=Xelse if (X∩A′≠X) 對(duì)X與A′中不相同的元素的屬性分別使用相關(guān)分析函數(shù)Analyse(Y,A′)。
4實(shí)驗(yàn)分析
4.1實(shí)驗(yàn)設(shè)計(jì)
1) 實(shí)驗(yàn)環(huán)境
程序設(shè)計(jì)語(yǔ)言:C++,編程軟件環(huán)境為:VC++6.0、WinXP操作系統(tǒng)。
編程硬件環(huán)境為:Pentium四核3.06GHZ處理器、2G內(nèi)存。
2) 算法實(shí)驗(yàn)細(xì)節(jié)
車輛維修數(shù)據(jù)集的控制,該算法的實(shí)驗(yàn)主要是在車輛維修數(shù)據(jù)集上進(jìn)行,主要目的是驗(yàn)證該算法是否能正確地對(duì)數(shù)據(jù)集進(jìn)相關(guān)分析,分析的結(jié)果是否滿足預(yù)期的要求。因此,對(duì)數(shù)據(jù)集的選取做以下幾點(diǎn)要求:
(1)對(duì)于不同車輛的維修數(shù)據(jù)相關(guān),維修數(shù)據(jù)集最好使用相同的類型
(2)對(duì)于選取的每個(gè)數(shù)據(jù)集中的數(shù)據(jù)數(shù)量最好保持一致
3) 數(shù)據(jù)準(zhǔn)備
為了對(duì)該算法進(jìn)行分析驗(yàn)證,實(shí)驗(yàn)所用的數(shù)據(jù)集為Equipment,其中收集了兩個(gè)與裝備維修相關(guān)的數(shù)據(jù)集,包含了某型運(yùn)輸車的維修數(shù)據(jù),每個(gè)數(shù)據(jù)集包含大約100條數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集的記錄較為規(guī)范,信息比較完整,對(duì)于驗(yàn)證該算法的正確性有很好的幫助。這些數(shù)據(jù)集的內(nèi)容如下:
某型運(yùn)輸車的維修數(shù)據(jù),數(shù)據(jù)集一來源于C單位,數(shù)據(jù)集二來源于D單位。具體內(nèi)容如表5所示。

表5 數(shù)據(jù)集內(nèi)容
4) 任務(wù)想定
假設(shè)某單位數(shù)據(jù)庫(kù)中已經(jīng)積累了不少標(biāo)稱數(shù)據(jù),單位的領(lǐng)導(dǎo)想要對(duì)這些數(shù)據(jù)中涉及的車輛故障現(xiàn)象與故障原因的情況進(jìn)行詳細(xì)了解。車輛的使用人員需要根據(jù)這些數(shù)據(jù)向領(lǐng)導(dǎo)做出書面報(bào)告,詳細(xì)介紹分析故障現(xiàn)象與故障原因之間的因果關(guān)系,但是,由于數(shù)據(jù)繁多,如果由人工進(jìn)行分析會(huì)非常繁瑣而且效率極低。因此,工作人員需要借助數(shù)據(jù)分析工具對(duì)這些數(shù)據(jù)進(jìn)行分析處理。用工具進(jìn)行處理的第一步就是對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,使這些數(shù)據(jù)中屬性的描述基本一致。
4.2結(jié)果分析
由于文章限制列舉部分實(shí)驗(yàn)結(jié)果,具體情況如下。
在數(shù)據(jù)集成時(shí)發(fā)現(xiàn)數(shù)據(jù)集中對(duì)故障現(xiàn)象這一屬性的描述不同,進(jìn)過集成得到如表6中的結(jié)果,程序截圖如圖2所示,此外還發(fā)現(xiàn)用基于特征值的相關(guān)分析的效率要比基于卡方檢驗(yàn)的相關(guān)分析的效率高,其時(shí)間復(fù)雜度分別為T(n)和T(n2),實(shí)驗(yàn)結(jié)果如圖3所示。

圖2 數(shù)據(jù)集成結(jié)果

數(shù)據(jù)集一數(shù)據(jù)集二故障原因故障現(xiàn)象故障原因故障現(xiàn)象原因5現(xiàn)象6原因6現(xiàn)象2原因2現(xiàn)象3原因1現(xiàn)象5原因1現(xiàn)象5原因9現(xiàn)象7原因3現(xiàn)象8原因5現(xiàn)象6

圖3 數(shù)據(jù)規(guī)模-時(shí)間
從上述結(jié)果可以看出,基于特征值的相關(guān)分析
方法可以正確地從兩個(gè)數(shù)據(jù)集中找出描述不一致的屬性,并對(duì)其進(jìn)行相關(guān)分析,此外,從圖中可以看出基于特征值的方法在處理數(shù)據(jù)時(shí)的效率要比基于卡方的方法高。
5結(jié)語(yǔ)
本文在標(biāo)稱數(shù)據(jù)的具體環(huán)境中對(duì)數(shù)據(jù)集成中的相關(guān)分析進(jìn)行了探索研究,在卡方檢驗(yàn)方法的基礎(chǔ)上,提出一種針對(duì)標(biāo)稱數(shù)據(jù)的關(guān)分析方法,即基于特征值的相關(guān)分析。通過實(shí)驗(yàn)的驗(yàn)證,該算法達(dá)到了預(yù)期的目標(biāo),能夠正確、迅速地找出兩個(gè)數(shù)據(jù)集中相似的屬性。
參 考 文 獻(xiàn)
[1] 韓家煒(美).數(shù)據(jù)挖掘:概念與技術(shù)(原書第三版)[M].范明,等譯.北京:機(jī)械工業(yè)出版社,2012.
HAN Jiawei(US). Data Mining: Concepts and Techniques (third edition of the original book)[M]. Fan Ming, translated. Beijing: Mechanical Industry Press,2012.
[2] 趙飛國(guó).面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2011.
ZHAO Feiguo. Data preprocessing for data mining system design and implementation[D]. Beijing: Beijing Jiaotong University,2011.
[3] 王正元.裝備維修保障輔助決策方法[M].北京:國(guó)防工業(yè)出版社,2014.
WANG Zhengyuan. Equipment Maintenance Support Assistant Decision Method[M]. Beijing: National Defense Industry Press,2014.
[4] 華銓平.面向數(shù)據(jù)特征的分布式數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(6):1313-1315.
HUA Quanping. Research on distributed data mining for feature[J]. Computer Engineering and Design,2010,31(6):1313-1315.
[5] 陳國(guó)良.并行算法的設(shè)計(jì)與分析[M].北京:高等教育出版社,2011.
CHEN Guoliang. Parallel algorithm design and analysis[M]. Beijing: Higher Education Press,2011.
[6] Anany Levitin.算法設(shè)計(jì)與分析基礎(chǔ)[M].潘彥,譯.北京:清華大學(xué)出版社,2015.
Anany Levitin. Introduction to The Design and Analysis of Algorithms[M]. Pan Yan translated. Beijing: Tsinghua University Press,2015.
[7] 黃文.數(shù)據(jù)挖掘:R語(yǔ)言實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社,2014.
HUANG Wen. Data Mining: R Language combat[M]. Beijing: Electronic Industry Press,2014.
[8] 廖芹.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社,2010.
LIAO Qin. Mining and mathematical modeling[M]. Beijing: National Defense Industry Press,2010.
[9] 徐永成.裝備保障工程學(xué)[M].北京:國(guó)防工業(yè)出版社,2013.
XU Yongcheng. Equipment Support Engineering[M]. Beijing: National Defense Industry Press,2013.
[10] 陸筱霞.虛擬作戰(zhàn)空間環(huán)境及其數(shù)據(jù)描述與交換方法研究[J].系統(tǒng)仿真學(xué)報(bào),2008,20:141-146.
LU Xiaoxia. Research on virtual battle space environment and its data description and exchange methods[J]. Journal of System Simulation,2008,20:141-146.
A Correlation Analysis Method for Nominal Data Based on Feature Values
YANG XiangrongWANG XiwuWANG Yongxin
(Information Engineering Department, Ordnance Engineering College, Shijiazhuang050003)
AbstractIn nominal data, some problems about inconsistent describes of attribute often occurs. For this problem, correlation analysis of data integration is usually associated. However, in practice this method in dealing with nominal maintenance data is inefficient and useless for large amount of data. Therefore, based on existing research, a correlation analysis method for nominal maintenance data is presented based on feature values.
Key Wordsdata integration, nominal data, correlation analysis, feature value
* 收稿日期:2015年11月9日,修回日期:2015年12月28日
作者簡(jiǎn)介:楊向榮,男,碩士研究生,研究方向:數(shù)據(jù)挖掘。王希武,男,副教授,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。王涌鑫,男,碩士,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。
中圖分類號(hào)TP333
DOI:10.3969/j.issn.1672-9722.2016.05.010