







摘" 要: 為提升數據的完整性,保證數據的效用程度,提出一種基于概率相似度的不完備數據填補方法。量化計算不完備數據的概率相似度矩陣,將計算結果和ROUSTIDA算法相結合進行不完備數據填補,獲取完備數據集。在此基礎上,構建決策規則,保證多屬性缺失數據的填補性能,并且設定可辨識矩陣優化算法的不完備數據填補效果。測試結果顯示,所提方法能夠計算不同數據對象之間的相似度值,可有效完成數據填補,填補后數據的完備程度均在95%以上,填補數據的填補值誤差均在0.17以下,填補效果良好。
關鍵詞: 概率相似度; 不完備數據; 數據填補; ROUSTIDA算法; 相似度矩陣; 可辨識矩陣; 決策規則
中圖分類號: TN919?34; TP301" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)04?0079?04
Research on filling incomplete data based on probability similarity
TONG Lihong, SUN Shibao
(Henan University of Science and Technology, Luoyang 471000, China)
Abstract: In order to improve the integrity of data and ensure the utility level of data, a method for filling incomplete data based on probability similarity is proposed. The probabilistic similarity matrix of incomplete data is calculated quantitatively, and the calculated results are combined with ROUSTIDA algorithm to fill the incomplete data, so as to obtain the complete data set. On this basis, the decision rules are constructed to ensure the filling performance of missing data with multiple attributes, and the incomplete data filling effect of identifiable matrix optimization algorithm is set. The testing results show that the proposed method can calculate the similarity values between different data objects and effectively complete data fill. The completeness of the filled data is above 95%, and the filling error of the filled data is below 0.17, indicating good filling effect.
Keywords: probability similarity; incomplete data; data fill; ROUSTIDA algorithm; similarity matrix; discernible matrix; decision rule
0" 引" 言
在實際應用和研究中,由于各種原因,數據往往會存在缺失或不完整的情況,這給數據分析和建模帶來了挑戰[1]。因此,研究不完備數據填補方法旨在發展有效的技術和算法,能夠利用已有數據的信息填補缺失部分,提高數據處理和分析的準確性和效率,從而更好地支持決策制定和問題解決[2?3],為各行業提供更可靠的數據處理方案,推動數據科學和人工智能技術的發展和應用。
文獻[4]為實現數據的有效填補,采用稀疏向量描述缺失數據,通過構建稀疏矩陣進行數據的稀疏化處理,再利用迭代加權閾值算法完成數據填補。在應用過程中,如果數據屬性差異較大,該方法的填補效果不理想。文獻[5]為保證數據填補效果,依據不完整數據屬性之間的關聯復雜程度構建數據填補模型,選擇學習能力較好的單輸出子網完成填補。但在應用過程中,當屬性值存在不唯一填補對象時,該方法的填補效果較差。文獻[6]首先提取數據特征,并利用KPCA進行降維,再設計改進的GAN結構實現對低維向量的數據填補。這一研究使得數據處理更高效,但是其填補誤差較大。文獻[7]提出了基于強化學習的多變量時序數據補全方法,引入圖神經網絡模塊預測缺失值,并為強化學習提供狀態向量和獎勵,指導選擇相似節點和建立時序關系,降低誤差率。然而該方法無法準確捕捉屬性之間的復雜關系和非線性模式,忽略了特征之間的潛在依賴關系,導致填補結果準確性較低。
概率相似度是用于衡量兩個概率分布結果之間相似程度的一種方法,該算法在填補過程中可通過選擇合理的決策規則進行填補數據的選擇,保證不完備數據的填補效果。因此,文中提出一種基于概率相似度的不完備數據填補方法。
1" 不完備數據填補算法設計
1.1" 不完備數據的概率相似性量化計算
概率相似性算法是依據對象之間的相似關系完成不完備數據的填補,并且該關系為定性關系,在不完備數據填補之前,首先對對象之間的概率相似性進行量化計算。
用[I=X,A,V,f]表示不完備數據集,其中:[X=x1,x2,…,xn]、[A=a1,a2,…,am]分別表示對象和對象屬性兩種集合;[V]表示值域;[f]表示映射函數,其主要作用是實現各個屬性的賦值。依據決策屬性值對[I]進行劃分,形成不同的子系統,即[I=I1?I2?…?In];如果兩個給定對象分別用[xi]和[xj]表示,且滿足[xi,xj∈In],則在相同的決策子系統中,[xi]和[xj]之間的相似度計算公式為:
[μ+xi,xj=ek∈EP+ekxi,xj] (1)
式中:[P+ekxi,xj]表示相似概率;[E]表示值域;[ek]表示值域中的第[k]個屬性。進行條件屬性填補時,當[μ+xi,xj]的值較高時,可提升數據填補效果[8]。但是僅依據相同決策子系統中對象的相似度進行填補,不考慮不同決策子系統中[xi]和[xj]之間的相似度,[xi]和[xj]在條件屬性上的取值會相同,進而引發規則沖突。因此,為保證填補效果,文中對上述兩種情況下[xi]和[xj]之間的[μ+xi,xj]結果進行考慮,不同決策子系統中[xi]和[xj]之間的相似度計算公式為:
[μ-xi,xj=i,j=1Inxi,xj2] (2)
依據公式(1)和公式(2)計算雙概率相似度矩陣,其計算公式為:
[μi,j=μ+xi,xj," xi,xj∈In,i≠jμ-xi,xj," xi∈In,xj?In,i≠j1," i=j] (3)
1.2" 數據填補方法
傳統方法往往基于簡單的插值算法或統計方法來填補缺失值,無法準確捕捉屬性之間的復雜關系和非線性模式,并且獨立地處理每個特征的缺失值,忽略了特征之間的潛在依賴關系,導致填補結果缺乏一致性和準確性。針對該問題,本文在完成不完備數據的概率相似性量化計算后,采用ROUSTIDA(Robust Spline?based Imputation for Data Augmentation)算法進行不完備數據填補。ROUSTIDA算法利用樣條插值方法對缺失值進行填補,可以更準確地建模數據的非線性關系和變化趨勢,提高填補結果的準確性。
1.2.1" 不完備數據填補流程
依據1.1節中獲取的[μi,j]結果,結合ROUSTIDA算法進行不完備數據填補,詳細步驟如下。
輸入:不完備數據[I=X,A,V,f];
輸出:完備數據[I=X,A,V,f]。
步驟1:依據決策屬性值對[I]進行劃分,形成不同的子系統,即[I=I1?I2?…?In],計算各個子系統的可辨識性。
步驟2:計算與[xi]相似度最大的對象,構成集合。
步驟3:重復循環上述步驟,獲取各個子系統的完備數據集。
步驟4:如果[I=I1?I2?…?In],停止循環,生成完備數據集。
1.2.2" 決策規則構建
決策規則的確定對于數據填補效果有直接影響,因此為保證填補效果,進行決策規則構建,詳細步驟如下。
步驟1:依據1.2.1節的處理流程對不完備數據進行處理后[9?10],獲取完備后的全部決策屬性表。
步驟2:構建根節點[N],計算決策屬性對于樣本集的劃分結果,如果所有屬性值一致,將其標記為[J],進入步驟4;反之,進入下一步。
步驟3:計算近似分類質量,同時計算各個屬性的[μi,j]結果。將其中[μi,j]的最大值對應的決策屬性作為測試屬性,計算該屬性結果的數量[n],依據數量結果對數據集進行劃分。
步驟4:計算各個子集的抑制因子[λekxi],并將計算結果和閾值[κ]進行對比,如果[λek≥κ],則將[ek]上[xi]的取值[hek,xi]定義為條件屬性結果,葉節點則直接采用[A0]表示,完成該子集計算,所有子集完成計算后停止算法[11?13];如果[λeklt;κ],將當前[hek,xi]值定義為當前對象集,并重新回轉至步驟3。
依據上述步驟即可獲取決策規則,依據該規則實現不完備數據的處理,保證多屬性缺失數據的填補性能。
1.2.3" 算法優化
ROUSTIDA算法在應用過程中,如果多個對象之間相似度較高,該算法無法實現不完備數據填補,因此,文中為有效解決該問題,對ROUSTIDA算法進行優化。
該優化算法主要是設定可辨識矩陣[R],對各個屬性級別之間的差值進行辨識,保證總差值最小。如果該矩陣中第[i]行第[j]列元素用[Ri,j]表示,其計算公式為:
[Ri,j=i,j=1nXi-Xj] (4)
式中[Xi]和[Xj]分別表示第[i]行的對象屬性和第[j]列的對象屬性。各個屬性級別之間的差值計算公式為:
[dj=i,j∈nRi,j?akxi-akxj] (5)
依據公式(5)的計算確定屬性類別,該值越小表明兩個屬性之間的相似度越高。本文依據該結果調整無差別對象的選擇標準,并且依據差值最小的對象進行對應的屬性填充。
2" 測試分析
為測試文中方法的應用效果,在測試數據庫中隨機選擇3種數據集進行測試,分別用Y1(該數據集中共包含155個對象,5個對象屬性,3種類別的植物)、Y2(該數據集中共包含300個對象,30個對象屬性,7種類別的動物)、Y3(該數據集中共包含225個對象,10個對象屬性,4種類機器故障)表示。文中方法在進行不完備數據填補時,需計算[μi,j]的結果,依據該結果進行數據填補。為驗證文中方法的應用效果,隨機在3種數據集中選擇10組給定對象,計算各組對象的[μi,j]結果,如表1所示。
文中方法通過量化計算不完備數據的概率相似度矩陣,以概率的角度衡量數據對象之間的相似度,為后續數據填補提供了準確的依據。對表1計算結果進行分析后得出:采用文中方法進行3種數據集中10組對象之間相似度的計算后,可判斷對象之間的相似程度,為不完備數據填補提供可靠依據。
為驗證文中方法對于不完備數據的填補效果,采用該方法進行數據填補,獲取的數據填補前后的結果如圖1所示。
對圖1進行分析后得出:原始數據中存在明顯的數據缺失現象,通過文中方法進行數據填補后,能夠有效完成缺失數據的填補,并且填補效果較好;填補后數據的整體性較好,不存在明顯數據缺失分布。
為驗證文中方法對于不完備數據的填補效果,測試該方法在不同的樣本數量下,隨著缺失數據比例的逐漸增加,對不完備數據進行填補后數據的完備程度,結果如圖2所示。
對圖2進行分析后得出:在不同的樣本數量下,隨著缺失數據比例的逐漸增加,采用文中方法進行不完備數據填補后,數據的完備程度均在95%以上,能夠完成不完備數據的填補,應用效果良好。
為進一步驗證文中方法對于不完備數據的填補效果,選擇填補值誤差[εFVE]作為評價指標,該值主要用于衡量填補數據的有效性,取值在0~1之間,其值越大表明填補的數據有效性越差,其值越小則說明填補的數據有效性越佳。該指標的計算公式為:
[εFVE=1Ni=1NOi-Oi2] (6)
式中:[N]表示缺失的數據數量;[Oi]和[Oi]分別表示實際數據值和填補數據值。
依據公式(6)計算文中方法在不同的缺失比例下,對3種數據進行填補后的[εFVE],結果見表2。
對表2計算結果進行分析后得出:3種數據集在發生不同比例的缺失后,采用文中方法對其進行填補,填補數據的填補值誤差均在0.17以下,說明本文方法的填補效果良好,能夠保證填補后數據的有效性。這是因為本文方法將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法可以更準確地建模數據的非線性關系和變化趨勢的優勢進行不完備數據填補,從而獲取完備數據集。
3" 結" 論
本文提出一種基于概率相似度的不完備數據填補方法,主要研究內容如下。
1) 通過量化計算不完備數據的概率相似度矩陣,以概率的角度衡量數據對象之間的相似度,為后續數據填補提供準確的依據。
2) 將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法的優勢進行不完備數據填補,從而獲取完備數據集。
3) 針對多屬性缺失數據建立相應的決策規則,以保證數據填補的性能和準確性。
4) 設計了可辨識矩陣優化算法,進一步提升不完備數據填補效果,提高填補后數據的完備程度和準確性。
5) 經過測試驗證,本文方法能夠有效計算數據對象間的相似度值,實現數據的填補,填補后數據的完備度達到95%以上,填補值誤差在0.17以下,填補效果顯著。
綜上所述,本文方法結合概率相似度計算、ROUSTIDA算法和決策規則,在不完備數據填補領域取得了良好的填補效果和創新突破??紤]到實際數據中的不確定性和噪聲,未來將嘗試建立更健壯的模型來處理不完備數據,在數據填補過程中量化和管理不確定性信息。
參考文獻
[1] 孫林,李夢夢,徐久成.基于鄰域區分度的不完備混合數據屬性約簡方法[J].江蘇科技大學學報(自然科學版),2022,36(1):82?89.
[2] 劉恒孜,呂寧,姜侯,等.基于DCT?PLS算法的MODIS LST缺值填補方法研究[J].地球信息科學學報,2022,24(2):378?390.
[3] 盧繼哲,劉宣,唐悅,等.基于聚類和LSTM的電力分鐘凍結數據缺失值填充方法[J].控制工程,2022,29(4):611?616.
[4] 任兵,郭艷,李寧,等.基于壓縮感知的相關性數據填補方法[J].計算機科學,2023,50(7):82?88.
[5] 關李晶,何潔帆,張立勇,等.基于單輸出子網迭代學習的缺失值填補方法[J].大連理工大學學報,2022,62(4):427?432.
[6] 蔡榕,楊雪,田江,等.基于相關性分析和生成對抗網絡的電網缺失數據填補方法[J].電力工程技術,2024,43(1):229?237.
[7] 陳俊揚,戴志江,李雪亮,等.基于強化學習的多變量時序數據缺失值補全方法[J].中國科技論文,2023,18(11):1205?1212.
[8] 詹康,王逸文,何熊熊.基于數據相似度和引力理論的密度峰聚類算法[J].高技術通訊,2023,33(1):88?96.
[9] 董云薪,林耿,張清偉,等.基于Apriori算法填充數據及改進相似度的推薦算法[J].計算機科學,2022,49(2):307?311.
[10] 黃清浩,甘世林,仲子航,等.假想策略下處理缺失數據的參照填補法[J].中國衛生統計,2023,40(3):331?334.
[11] 喬非,翟曉東,王巧玲.面向多維特性數據的缺失值檢測及填補方法對比[J].同濟大學學報(自然科學版),2023,51(12):1972?1982.
[12] 鄭智泉,陳妍,王孟孟,等.不同缺失率下的數據填補算法穩定性研究[J].統計與決策,2023,39(8):12?17.
[13] 王一棠,龐勇,張立勇,等.基于TS建模的不完整盾構機數據填補算法[J].機械設計,2022,39(3):26?31.
作者簡介:仝利紅(1978—),女,河南洛陽人,碩士研究生,實驗師,研究方向為大數據分析、軟件工程。
孫士保(1970—),男,河南信陽人,博士研究生,教授,研究方向為智能信息處理、機器學習、數據挖掘。