張燕
(新疆師范大學,新疆 烏魯木齊 830017)
信息化時代下,大數據挖掘和利用覆蓋了金融行業、醫療保健、交通運輸、電力行業等領域。在大數據挖掘過程中,由于數據模態、來源、屬性不同,數據混合后會得到多模態異構大數據。相比其他類型單一的數據,多模態異構大數據具有數據挖掘難度較大、數據清理和預處理較復雜、數據計算效率較低的特點。因此,多模態異構大數據雖然具有較高的研究價值,但是利用率較低[1]。混合屬性特征匹配與篩選是多模態異構大數據處理中一項不可缺少的工作,該工作旨在對多模態異構大數據進行縮減,降低數據維度,排除冗余數據干擾,以此提高數據挖掘精度、降低數據處理復雜度、提高計算算力[2]。
不同領域的專家和學者都提出了關于多模態異構大數據解決方法。文獻[3]計算了特征的信息增益比,并以此為基礎對特征進行排序,對排序后的特征進行分組,采用二進制編碼方法對排序的特征進行編碼,利用遺傳算法通過不斷迭代篩選出最優特征組合。但是該方法在迭代過程中容易陷入局部最優解。文獻[4]利用FAST 算法將特征點描述成特征描述子,通過改進人工魚群算法進行特征點選取和匹配。但是該方法在特征篩選時沒有考慮到不同特征之間的重要性差異,導致后期特征匹配存在一定誤差。文獻[5]對待研究數據進行預處理,利用核主成分方法降低數據維度并進行特征融合,通過RSP 方法完成特征匹配。但是該方法計算效率有待進一步提高。
基于此,本文提出多模態異構大數據混合屬性特征匹配篩選算法,降維多模態異構大數據實施混合屬性,提取多模態異構大數據混合屬性備選特征,實現混合屬性特征篩選與匹配。通過本文研究以期提高混合數據的利用率,提高多模態異構大數據挖掘精度。
多模態異構大數據中混合了多種屬性,其維度較大,因此需要對其進行降維處理[6]。輸入待處理的多模態異構大數據,根據屬性不同,將多模態異構大數據劃分為數值型數據和分類型數據,并組成兩個集合,記為A、B。
計算A中數值型數據之間的距離:
式中:cij代表第i個數值型數據和第j個數值型數據之間的距離;aik代表第i個第k個屬性的數值型數據;ajk代表第j個第k個屬性的數值型數據;N代表混合數據集合數量[7]。
建立距離矩陣:
式中C代表距離矩陣。
根據距離矩陣計算分類型數據相異度:
式中:wk代表第k個分類屬性的權重;bik代表第i個第k個屬性的分類型數據;bjk代表第j個第k個屬性的分類型數據;M'代表分類型數據數量。
根據dij構建相異度矩陣D:
計算混合屬性數據點之間的距離e:
結合條件概率,利用梯度下降法最小化混合屬性數據點之間的距離數據,將混合數據映射到低維度[8],完成多模態異構大數據混合屬性降維。
基于降維后的多模態異構大數據,本節提取多模態異構大數據混合屬性特征[9]。假設降維后的多模態異構大數據是一個具有n個屬性的樣本F,將F進行轉置:
式中m代表多模態異構大數據樣本數量。
對F進行規范化處理,得到規范化后的F':
式中:F'代表規范化后的多模態異構大數據;fij代表原始多模態異構大數據分別代表最大、最小值。
計算F'中每列的均值,記為fˉ,完成均值化處理。
式中代表數據偏離值。利用主成分分析法計算多模態異構大數據樣本的特征值:
計算特征值vi的累積貢獻率:
式中di代表方差解釋率。當ζ≥8.5時,表明主成分為多模態異構大數據樣本濃縮,將這個主成分看作多模態異構大數據樣本的備選特征[10-11]。
在完成特征提取的基礎上,還需要進一步篩選特征,完成特征匹配。計算主成分之間的互信息[12-13],互信息數值越大,證明該主成分包含的數據信息量越多。互信息計算公式為:
式中:Q代表主成分的數量;p(ri)代表主成分ri的信息熵;R代表主成分集合;p(ri,rj)代表第i個主成分ri與主成分rj之間的聯合概率分布函數;p(ri)代表主成分ri的信息熵;p(rj)代表主成分rj的信息熵。
將J(ri,rj)>1.0 以上的主成分作為多模態異構大數據混合屬性特征,完成特征篩選。將互信息作為權重賦值給每個樣本的特征,記為Y(J1r1,J2r2,…,Jlrl)。計算每個多模態異構大數據樣本特征的平均差異度h(Li)和總體差異度H:
式中:l代表特征數量;T(Li,Lj)代表特征Li與特征Lj之間的距離。
對h(Li)進行從大到小排序,選出其中最大值對應的特征作為第1 個初始匹配中心hi1,將該特征從Y中刪除。從剩余特征中找出h(Li)最大值對應的特征作為第2 個匹配中心hi2,h(Li)的歐氏距離為:
當d≥H時,將特征入選為匹配中心,計算匹配中心余弦相似度,完成混合屬性特征匹配:
至此完成多模態異構大數據混合屬性特征匹配篩選算法的研究。
為測試所研究算法在多模態異構大數據混合屬性特征匹配篩選中的應用效果,將UCI 機器學習數據庫中的4 個真實數據集作為測試樣本。多模態異構大數據集基本情況如表1 所示。

表1 多模態異構大數據集描述
針對4 個多模態異構大數據集,在降維的基礎上提取每個集合的主成分作為其特征,計算每個特征的互信息完成特征篩選,結果如表2 所示。

表2 數據特征提取與篩選結果
從表2 中可以看出:集合1 篩選出7 個特征;集合2篩選出8 個特征;集合3 篩選出7 個特征;集合4 篩選出9 個特征。
基于篩選特征進行每個數據集合中每條數據的特征匹配,根據匹配結果計算特征類中特征之間的緊密度,緊密度越大,代表匹配結果越準確。計算公式如下:
式中:xi、xj代表兩個特征;γ(xi-xj)代表特征之間的相似度。
相同測試數據集合下,選擇文獻[3]方法(融合信息增益比和遺傳算法的混合式特征選擇算法)、文獻[4]方法(改進人工魚群的ORB 特征匹配算法)和文獻[5]方法(一種多特征融合的特征匹配算法)作為對比方法,獲取不同方法下的緊密度結果,如圖1 所示。

圖1 匹配緊密度結果
從圖1 中可以看出,與文獻[3]方法、文獻[4]方法和文獻[5]方法相比,所提算法的匹配緊密度較高,集合1、集合2、集合3、集合4 的匹配緊密度均高于0.8。這是因為所提算法不僅考慮了數據的維度和異構,還考慮了數據屬性之間的互信關系,從而能夠更加準確地進行特征匹配,提高多模態異構大數據混合屬性特征匹配的效果。
大數據中隱藏著較多具有價值屬性的信息,這些信息對于決策的制定和規劃具有重要作用。但是面對多模態異構大數據挖掘時,由于混合多種屬性數據的特點,提高了數據挖掘難度。為此,本文提出一種多模態異構大數據混合屬性特征匹配篩選算法,該算法在特征提取、篩選基礎上,將相似屬性的特征匹配,提高數據挖掘效果。在算法實現過程中,由于數據集的規模較大,計算復雜度較高,容易導致算法運行效率較低。因此,在之后的研究中將結合本文研究結果,采用分布式計算方式進一步優化算法的計算效率,提高算法的魯棒性。