李金武
(鄭州科技學院信息工程學院,河南 鄭州 450064)
多元數據由多維不同類型的數據組成,數據形式多種多樣,且具有多種不同特點.多元數據存在多個影響因素,不同影響因素融合為多元[1-2].近年來,隨著大數據和網絡信息技術的飛速發展,各種各樣的數據呈指數形式增長,同時,數據在社會經濟發展中的作用也越來越突出.如何在海量數據中提取重要信息,將多元數據進行有效融合,對多元數據進行綜合評價,提高人們決策有效性,已成為人工智能、知識發現、自動控制、圖像處理等領域研究的熱點問題[3].現有的數據融合算法主要有D-S 證據理論、貝葉斯理論、模糊理論和神經網絡等[4-8],每種算法都有其自身優缺點.
目前針對信息的不確定性,常采用多元數據融合方法進行處理,首先建立數據評價指標體系,并對各個指標進行賦權,最后對各指標數據進行融合評價.但是,指標權重的確定主觀性較強,定性和定量指標的統一問題少有解決.徐衛亞等[4]將D-S 證據理論與云模型相結合,引入權重系數對D-S 證據理論進行改進,將多元數據進行融合,實現對滑坡安全性的綜合評價.陳雍君等[5]在模糊評價基礎上,引入貝葉斯理論,構建城市地下綜合管廊運維風險指標體系,對其進行綜合評價,并推理各風險指標之間因果概率關系.張武毅等[6]將灰色關聯度和模糊層次分析法相結合,構建智慧工程實驗室評價指標體系,對智慧工程實驗室進行綜合評價.米慶等[7]整合單一神經網絡優勢,采用混合神經網絡,從不同維度構建源代碼可讀性信息評價指標,對代碼可讀性進行量化評估.張明旺等[8]將云模型不確定性理論引入水庫泥沙淤積影響的評價中,通過主客觀組合賦權法確定影響因素指標權重,給出定性評價結論.
傳統的多元數據融合方法,在精確數據與區間數據的統一表示上,在定性與定量指標的統一表示上,還存在缺陷.同時,在進行數據融合處理和綜合評價時,不能很好反映數據信息的不確定性,沒有給出有效的定性與定量相結合的綜合評價結論.本文針對多元數據的統一表示問題,引入云模型理論,將不同屬性指標統一用云模型表示,使用云模型對屬性指標進行賦權,完成多元數據定性與定量評價,驗證評價方法的合理性.
設U 是用精確數值表示的定量論域,C 是該定量論域上的一個定性概念, 對于x∈U,x 是C 上的一次隨機實現,x 關于C 的確定度μ(x)∈[0,1]是具有穩定傾向的隨機數,則x 在U 上的分布稱為云,x 稱為云滴.
云模型[9]使用3 個參數來描述其定性概念,即期望Ex,熵En 和超熵He.3 個參數稱為云模型的數字特征,記為C(Ex,En,He).其中期望Ex 是論域的正中心,反映了論域空間最能夠代表定性概念的點,熵En是定性概念的不確定性度量,反映了概念隨機性和模糊性之間的關聯度,超熵Ee 是熵的不確定性度量,反映了云滴的厚度.
由于正態分布的普適性,云模型云滴的分布符合正態分布.對于云滴x,若滿足x~(Ex,En′),且En′~(En,He),即x 和En′均服從正態分布,則曲線y(x)=exp[-(x-Ex)2/2En2],稱為云模型期望曲線[9],該期望曲線貫穿整個云滴,直觀反映了云模型幾何特征,如圖1 所示.在云模型中,不同云滴對概念貢獻度不同,對概念有貢獻的云滴大多落在[Ex-3En,Ex+3En]區間內,稱為“3En”規則.

圖1 云模型示意圖Fig.1 Diagram of cloud model
相似度度量,即利用數學理論綜合評定兩事物之間相似性,常應用于數據挖掘,圖像處理和評估決策等領域.云模型相似度,即計算待測評對象云和評價等級云之間的相似度,尋求相似度最大的某個等級云,作為定性評價結論.云模型相似度度量方法主要有:云滴距離法(SCM),向量夾角余弦法(LICM),期望曲線法(ECM),最大邊界曲線法(MCM)等.張勇等[10]提出了云滴距離法,通過計算兩云模型云滴之間距離來衡量其相似度,該方法計算量較大,且相似度閾值難以確定.張光衛等[11]提出了向量夾角余弦法,以云模型數字特征構造兩個特征向量,計算特征向量夾角余弦值,將其作為云模型相似度,該方法存在一定局限性,在特殊情況下,給出的相似度與實際不符.李海林等[12]提出了一種期望曲線法,將兩云模型期望曲線與軸所圍面積交集作為計算依據,給出云模型相似度,該方法計算復雜度較高,且沒有考慮超熵對相似度的影響.同時,在文獻[12]還提出了一種最大邊界曲線法,考慮云模型厚度,以兩邊界曲線重疊面積為依據,計算云模型相似度.
多元數據云模型評價方法,基于多元屬性指標,綜合考慮實數型,區間型和模糊型屬性數據特性[13],對不同屬性數據進行歸一化處理,并使用云模型統一表示.考慮人們主觀因素對權重的影響,依據層次分析法,確定各屬性云模型權重,即各屬性權重同樣使用云模型表示.然后利用云模型計算規則生成待評測綜合云,并建立五等級隸屬云標尺,采用基于隸屬度的云模型相似度評價方法進行定性評價,并依據云模型定性與定量的不確定性轉換關系,給出定量評價結論,最終完成多屬性數據定性與定量相結合的綜合評價.評價模型如圖2 所示.

圖2 多元數據綜合評價模型Fig.2 Multivariate data comprehensive evaluation model
2.2.1 數據歸一化處理 本文將多元數據劃分為實數型,區間型和模糊型3 種類型,并將各類型數據區分為正屬性和負屬性.正屬性即期望其數值越大,負屬性即期望其數值越小.例如,計算機網絡性能指標,網絡帶寬屬于正屬性,網絡時延和網絡丟包率等屬于負屬性.pi表示實數型屬性數據,[pLi,pRi]表示區間型屬性數據,“優,良,中,差,特差”5 個等級表示模糊型屬性數據.
對于實數型屬性數據,對其進行歸一化處理如下

對于區間型屬性數據,對其進行歸一化處理如下

式中,maxpi和minpi為實數型數據理論最大值和最小值,maxpLi和minpLi為區間型數據左端理論最大值和最小值,maxpRi和minpRi為區間型數據右端理論最大值和最小值.
對于模糊型屬性數據,其歸一化處理與云化處理同步實現.
2.2.2 數據云化處理 數據云化處理是將各屬性數據統一用云模型Ci(Ex,En,He)表示,方便對其進行不確定性評價.對于實數型屬性數據,利用逆向云算法計算云模型參數,n 個抽樣樣本pi(i=1,2,3,…,n),計算則Ex=p,En=(π/2)1/2×B,He=|S2-En2|1/2.對于區間型屬性數據,利用指標近似法計算云模型參數,區間則根據評價數據隨機性和模型性確定.對于模糊型屬性數據,使用“優,良,中,差,特差”5 個模糊評價值,根據專家經驗和基于黃金分割率模型驅動法[14],給出云模型如表1 所示,“優”采用半升云描述,“特差”采用半降云描述,其他模糊評價值采用完整云描述.

表1 模糊評價值云模型Tab.1 Cloud model of fuzzy evaluation
2.2.3 屬性權重確定 屬性權重采用層次分析法進行確定,傳統層次分析法AHP,是一種系統性的模糊綜合評價方法,通過判斷低層指標相較于高層指標的重要程度,使用1~9 的數值標度構造兩兩比較判斷矩陣,進而確定指標權重,該方法容易受到人為主觀因素的影響,導致權重確定不夠合理[15].本文對傳統層次分析法進行改進,使用云模型權重,即對屬性權重使用云模型進行標度,考慮隨機性和模型性及其之間關聯性,主要改進方法在于兩兩比較判斷矩陣的構造,屬性權重云模型期望依然使用1~9 的標度方法,熵和超熵的標度方法重新進行定義,改進后層次分析法云模型標度如表2 所示.利用表2 的標度方法構造兩兩比較判斷矩陣,進行一致性校驗,確定屬性云模型權重wi(Ex,en,He).

表2 云模型標度含義Tab.2 The scale with cloud model
2.2.4 生成待評價對象云 對多元屬性數據云進行一維線性加權計算,利用公式(1)生成待評價對象云.

由于采用云模型權重,待評價對象云三個數字特征均采用加權平均計算求得.按照以下規則進行云模型乘法和加法運算,對于權重云W1(Exw1,Enw1,Hew1)和屬性云C1(Ex1,En1,He1)乘法運算運用公式(2),對于Cz1(Exz1,Enz1,Hez1)和Cz2(Exz2,Enz2,Hez2)兩個云的加法運算運用公式(3)

2.2.5 構建隸屬云標尺 多元屬性數據評價云標尺分為“優,良,中,差,特差”5 個等級,云標尺各等級依舊采用表1 中云模型表示方法,其云標尺如圖3 所示.

圖3 多元數據評價云標尺Fig.3 Cloud scale of multivariate data evaluation
2.2.6 定性評價 多元數據定性評價,需要計算待評價對象云與各等級云相似度,并進行比較,找出與待評價對象云相似度最大的等級云作為定性評價結論.文獻[12]直接基于云模型相交面積計算其相似度,僅考慮低層次云模型的不確定性,且算法復雜度較高.本文將相交面積躍升至更高層次,基于基礎云和綜合云的相交面積計算相似度,綜合云利用基礎云截斷熵計算得出,文獻[16]給出了詳細計算方法,本文不再贅述.假設云C1和云為C2待計算相似度基礎云,云Cz為基礎云對應的綜合云,基礎云與綜合云相交面積越大,說明基礎云對綜合云的貢獻度越高,云C1和C2云越接近.以此定義云C1和云C2的相似度為

式(4)中:S1為云C1和云Cz的相交面積,S2為云C2和云Cz的相交面積,Sz為云Cz的面積,S1、S2和Sz
均采用云期望曲線積分計算給出,方法見文獻[16],不再贅述.
本文將云模型相似度計算躍升至更高層次,更加注重評價過程的不確定性,體現了云模型亦此亦彼的特性,評價結論合理穩定.依據公式(4)分別計算待評價對象云與五等級云相似度,Di(i=1,2,…,5)通過比較,將與待評價對象云相似度最大的等級云作為定性評價結論.
2.2.7 定量評價 定性評價反映了多元數據整體特征,而定量評價可以用精確數值表示多元數據評價結果,有利于比對分析.云模型本身可以實現定性與定量的不確定性轉化,本文考慮云模型相似度,提出一種由定性評價到定量評價轉換的方法,給出定量評價值,從而實現多元數據定量評價.在定性評價中,找出與待評價對象云相似度較大的兩個等級云C1和C2(此處假設Ex1<Ex2),相似度分別為D1和D2.令則多元數據定量評價值定義為

以上方式依據云模型相似度,并考慮“3En”規則和超熵的影響,待評價對象云與等級云相似度越大,定量評價值越接近該等級云期望值,傳統方法直接將待評價對象云期望Ex 作為定量評價值,本文采用間接方式,保留了多元數據評價中的不確定性,將計算方式轉換至與評價對象云相似度較大的兩個等級云上,并采用均值計算,減小計算誤差.
通過分析某校園網絡安全態勢,驗證本文多元數據融合評價方法的有效性.從網絡運行狀態、脆弱性、風險指數三方面分析,影響該校園網絡安全態勢的屬性因素有峰值流量、帶寬利用率、CPU 利用率等12 個屬性指標,包含實數型、區間型和模糊型三種,同時又區分正屬性指標和負屬性指標.各屬性指標數據的處理及云模型表示如表3 所示.對于實數型數據取多次測量的平均值;在數據歸一化處理時,對于正屬性數據,maxpi=1,[maxpLi,maxpRi]=[0.95];對于負屬性數據,minpi=0.1,[minpLi,minpRi]=[0.05,0.30];對于區間型數據,數據云模型表示時,He 取0.01.

表3 屬性指標數據及云模型表示Tab.3 Attribute data and cloud model representation
利用改進層次分析法得出表3 中各屬性指標的云模型權重wi=[C(0.1370,0.1641,0.1641),C(0.1381,0.1722,0.1722),C(0.0139,0.0303,0.0303),C(0.0429,0.0580,0.0580),C(0.0219,0.0394,0.0394),C(0.0737,0.0394,0.0394),C(0.0840,0.0576,0.0576),C(0.0226,0.0649,0.0649),C(0.0819,0.0510,0.0510),C(0.0515,0.0877,0.0877),C(0.1490,0.1177,0.1177),C(0.1836,0.1177,0.1177)].利用公式1~3,計算待評價對象云C(0.6020,0.0892,0.0120), 通過正向云發生器算法生成待評價對象云和隸屬云標尺,如圖4 所示.

圖4 基于云模型網絡安全態勢Fig.4 Network security situation based on cloud model
利用相似度計算公式(4),計算待評價對象云C(0.6020,0.0892,0.0120)與各等級云“優,良,中,差,特差”相似度分別為(0.2791,0.4003,0.6037,0.6613,0.3990).由相似度分析,待評價對象云與等級云“良”的相似度最大,相似度值為0.6613,該網絡安全態勢定性評價結論為“良”.與待評價對象云相似度較大的兩個等級云為“良”和“中”,相似度分別為0.6613 和0.6037,“良”的云模型表示C(0.7000,0.0809,0.0162),“中”的云模型表示C(0.5000,0.0500,0.0100),計算T1=0.7838,T2=0.5606,依據定量評價計算公式(5),均值計算該網絡安全態勢定量評價值為0.6722,相較直接采用定性評價結論“良”的期望值0.7000 作為定量評價結論,本文的方法更加合理,考慮了評價的不確定性.
針對多元數據的融合評價問題,本文將實數型、區間型和模糊型數據統一用云模型表示,提出了基于云模型的多元數據評價方法.通過云模型研究各屬性指標權重,改進主客觀賦權法,構建各屬性指標云模型權重.利用云模相似度理論對多元數據進行定性定量評價,并實現定性定量評價的不確定性轉換.通過實例驗證分析,該評價方法合理有效,優化了多元數據的融合問題.另外,如何將云模型權重與主客觀賦權法相結合,如何優化不同屬性指標的量化標準,還需做進一步研究.