999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概率相似度的不完備數據填補研究

2025-02-28 00:00:00仝利紅孫士保
現代電子技術 2025年4期

摘" 要: 為提升數據的完整性,保證數據的效用程度,提出一種基于概率相似度的不完備數據填補方法。量化計算不完備數據的概率相似度矩陣,將計算結果和ROUSTIDA算法相結合進行不完備數據填補,獲取完備數據集。在此基礎上,構建決策規則,保證多屬性缺失數據的填補性能,并且設定可辨識矩陣優化算法的不完備數據填補效果。測試結果顯示,所提方法能夠計算不同數據對象之間的相似度值,可有效完成數據填補,填補后數據的完備程度均在95%以上,填補數據的填補值誤差均在0.17以下,填補效果良好。

關鍵詞: 概率相似度; 不完備數據; 數據填補; ROUSTIDA算法; 相似度矩陣; 可辨識矩陣; 決策規則

中圖分類號: TN919?34; TP301" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)04?0079?04

Research on filling incomplete data based on probability similarity

TONG Lihong, SUN Shibao

(Henan University of Science and Technology, Luoyang 471000, China)

Abstract: In order to improve the integrity of data and ensure the utility level of data, a method for filling incomplete data based on probability similarity is proposed. The probabilistic similarity matrix of incomplete data is calculated quantitatively, and the calculated results are combined with ROUSTIDA algorithm to fill the incomplete data, so as to obtain the complete data set. On this basis, the decision rules are constructed to ensure the filling performance of missing data with multiple attributes, and the incomplete data filling effect of identifiable matrix optimization algorithm is set. The testing results show that the proposed method can calculate the similarity values between different data objects and effectively complete data fill. The completeness of the filled data is above 95%, and the filling error of the filled data is below 0.17, indicating good filling effect.

Keywords: probability similarity; incomplete data; data fill; ROUSTIDA algorithm; similarity matrix; discernible matrix; decision rule

0" 引" 言

在實際應用和研究中,由于各種原因,數據往往會存在缺失或不完整的情況,這給數據分析和建模帶來了挑戰[1]。因此,研究不完備數據填補方法旨在發展有效的技術和算法,能夠利用已有數據的信息填補缺失部分,提高數據處理和分析的準確性和效率,從而更好地支持決策制定和問題解決[2?3],為各行業提供更可靠的數據處理方案,推動數據科學和人工智能技術的發展和應用。

文獻[4]為實現數據的有效填補,采用稀疏向量描述缺失數據,通過構建稀疏矩陣進行數據的稀疏化處理,再利用迭代加權閾值算法完成數據填補。在應用過程中,如果數據屬性差異較大,該方法的填補效果不理想。文獻[5]為保證數據填補效果,依據不完整數據屬性之間的關聯復雜程度構建數據填補模型,選擇學習能力較好的單輸出子網完成填補。但在應用過程中,當屬性值存在不唯一填補對象時,該方法的填補效果較差。文獻[6]首先提取數據特征,并利用KPCA進行降維,再設計改進的GAN結構實現對低維向量的數據填補。這一研究使得數據處理更高效,但是其填補誤差較大。文獻[7]提出了基于強化學習的多變量時序數據補全方法,引入圖神經網絡模塊預測缺失值,并為強化學習提供狀態向量和獎勵,指導選擇相似節點和建立時序關系,降低誤差率。然而該方法無法準確捕捉屬性之間的復雜關系和非線性模式,忽略了特征之間的潛在依賴關系,導致填補結果準確性較低。

概率相似度是用于衡量兩個概率分布結果之間相似程度的一種方法,該算法在填補過程中可通過選擇合理的決策規則進行填補數據的選擇,保證不完備數據的填補效果。因此,文中提出一種基于概率相似度的不完備數據填補方法。

1" 不完備數據填補算法設計

1.1" 不完備數據的概率相似性量化計算

概率相似性算法是依據對象之間的相似關系完成不完備數據的填補,并且該關系為定性關系,在不完備數據填補之前,首先對對象之間的概率相似性進行量化計算。

用[I=X,A,V,f]表示不完備數據集,其中:[X=x1,x2,…,xn]、[A=a1,a2,…,am]分別表示對象和對象屬性兩種集合;[V]表示值域;[f]表示映射函數,其主要作用是實現各個屬性的賦值。依據決策屬性值對[I]進行劃分,形成不同的子系統,即[I=I1?I2?…?In];如果兩個給定對象分別用[xi]和[xj]表示,且滿足[xi,xj∈In],則在相同的決策子系統中,[xi]和[xj]之間的相似度計算公式為:

[μ+xi,xj=ek∈EP+ekxi,xj] (1)

式中:[P+ekxi,xj]表示相似概率;[E]表示值域;[ek]表示值域中的第[k]個屬性。進行條件屬性填補時,當[μ+xi,xj]的值較高時,可提升數據填補效果[8]。但是僅依據相同決策子系統中對象的相似度進行填補,不考慮不同決策子系統中[xi]和[xj]之間的相似度,[xi]和[xj]在條件屬性上的取值會相同,進而引發規則沖突。因此,為保證填補效果,文中對上述兩種情況下[xi]和[xj]之間的[μ+xi,xj]結果進行考慮,不同決策子系統中[xi]和[xj]之間的相似度計算公式為:

[μ-xi,xj=i,j=1Inxi,xj2] (2)

依據公式(1)和公式(2)計算雙概率相似度矩陣,其計算公式為:

[μi,j=μ+xi,xj," xi,xj∈In,i≠jμ-xi,xj," xi∈In,xj?In,i≠j1," i=j] (3)

1.2" 數據填補方法

傳統方法往往基于簡單的插值算法或統計方法來填補缺失值,無法準確捕捉屬性之間的復雜關系和非線性模式,并且獨立地處理每個特征的缺失值,忽略了特征之間的潛在依賴關系,導致填補結果缺乏一致性和準確性。針對該問題,本文在完成不完備數據的概率相似性量化計算后,采用ROUSTIDA(Robust Spline?based Imputation for Data Augmentation)算法進行不完備數據填補。ROUSTIDA算法利用樣條插值方法對缺失值進行填補,可以更準確地建模數據的非線性關系和變化趨勢,提高填補結果的準確性。

1.2.1" 不完備數據填補流程

依據1.1節中獲取的[μi,j]結果,結合ROUSTIDA算法進行不完備數據填補,詳細步驟如下。

輸入:不完備數據[I=X,A,V,f];

輸出:完備數據[I=X,A,V,f]。

步驟1:依據決策屬性值對[I]進行劃分,形成不同的子系統,即[I=I1?I2?…?In],計算各個子系統的可辨識性。

步驟2:計算與[xi]相似度最大的對象,構成集合。

步驟3:重復循環上述步驟,獲取各個子系統的完備數據集。

步驟4:如果[I=I1?I2?…?In],停止循環,生成完備數據集。

1.2.2" 決策規則構建

決策規則的確定對于數據填補效果有直接影響,因此為保證填補效果,進行決策規則構建,詳細步驟如下。

步驟1:依據1.2.1節的處理流程對不完備數據進行處理后[9?10],獲取完備后的全部決策屬性表。

步驟2:構建根節點[N],計算決策屬性對于樣本集的劃分結果,如果所有屬性值一致,將其標記為[J],進入步驟4;反之,進入下一步。

步驟3:計算近似分類質量,同時計算各個屬性的[μi,j]結果。將其中[μi,j]的最大值對應的決策屬性作為測試屬性,計算該屬性結果的數量[n],依據數量結果對數據集進行劃分。

步驟4:計算各個子集的抑制因子[λekxi],并將計算結果和閾值[κ]進行對比,如果[λek≥κ],則將[ek]上[xi]的取值[hek,xi]定義為條件屬性結果,葉節點則直接采用[A0]表示,完成該子集計算,所有子集完成計算后停止算法[11?13];如果[λeklt;κ],將當前[hek,xi]值定義為當前對象集,并重新回轉至步驟3。

依據上述步驟即可獲取決策規則,依據該規則實現不完備數據的處理,保證多屬性缺失數據的填補性能。

1.2.3" 算法優化

ROUSTIDA算法在應用過程中,如果多個對象之間相似度較高,該算法無法實現不完備數據填補,因此,文中為有效解決該問題,對ROUSTIDA算法進行優化。

該優化算法主要是設定可辨識矩陣[R],對各個屬性級別之間的差值進行辨識,保證總差值最小。如果該矩陣中第[i]行第[j]列元素用[Ri,j]表示,其計算公式為:

[Ri,j=i,j=1nXi-Xj] (4)

式中[Xi]和[Xj]分別表示第[i]行的對象屬性和第[j]列的對象屬性。各個屬性級別之間的差值計算公式為:

[dj=i,j∈nRi,j?akxi-akxj] (5)

依據公式(5)的計算確定屬性類別,該值越小表明兩個屬性之間的相似度越高。本文依據該結果調整無差別對象的選擇標準,并且依據差值最小的對象進行對應的屬性填充。

2" 測試分析

為測試文中方法的應用效果,在測試數據庫中隨機選擇3種數據集進行測試,分別用Y1(該數據集中共包含155個對象,5個對象屬性,3種類別的植物)、Y2(該數據集中共包含300個對象,30個對象屬性,7種類別的動物)、Y3(該數據集中共包含225個對象,10個對象屬性,4種類機器故障)表示。文中方法在進行不完備數據填補時,需計算[μi,j]的結果,依據該結果進行數據填補。為驗證文中方法的應用效果,隨機在3種數據集中選擇10組給定對象,計算各組對象的[μi,j]結果,如表1所示。

文中方法通過量化計算不完備數據的概率相似度矩陣,以概率的角度衡量數據對象之間的相似度,為后續數據填補提供了準確的依據。對表1計算結果進行分析后得出:采用文中方法進行3種數據集中10組對象之間相似度的計算后,可判斷對象之間的相似程度,為不完備數據填補提供可靠依據。

為驗證文中方法對于不完備數據的填補效果,采用該方法進行數據填補,獲取的數據填補前后的結果如圖1所示。

對圖1進行分析后得出:原始數據中存在明顯的數據缺失現象,通過文中方法進行數據填補后,能夠有效完成缺失數據的填補,并且填補效果較好;填補后數據的整體性較好,不存在明顯數據缺失分布。

為驗證文中方法對于不完備數據的填補效果,測試該方法在不同的樣本數量下,隨著缺失數據比例的逐漸增加,對不完備數據進行填補后數據的完備程度,結果如圖2所示。

對圖2進行分析后得出:在不同的樣本數量下,隨著缺失數據比例的逐漸增加,采用文中方法進行不完備數據填補后,數據的完備程度均在95%以上,能夠完成不完備數據的填補,應用效果良好。

為進一步驗證文中方法對于不完備數據的填補效果,選擇填補值誤差[εFVE]作為評價指標,該值主要用于衡量填補數據的有效性,取值在0~1之間,其值越大表明填補的數據有效性越差,其值越小則說明填補的數據有效性越佳。該指標的計算公式為:

[εFVE=1Ni=1NOi-Oi2] (6)

式中:[N]表示缺失的數據數量;[Oi]和[Oi]分別表示實際數據值和填補數據值。

依據公式(6)計算文中方法在不同的缺失比例下,對3種數據進行填補后的[εFVE],結果見表2。

對表2計算結果進行分析后得出:3種數據集在發生不同比例的缺失后,采用文中方法對其進行填補,填補數據的填補值誤差均在0.17以下,說明本文方法的填補效果良好,能夠保證填補后數據的有效性。這是因為本文方法將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法可以更準確地建模數據的非線性關系和變化趨勢的優勢進行不完備數據填補,從而獲取完備數據集。

3" 結" 論

本文提出一種基于概率相似度的不完備數據填補方法,主要研究內容如下。

1) 通過量化計算不完備數據的概率相似度矩陣,以概率的角度衡量數據對象之間的相似度,為后續數據填補提供準確的依據。

2) 將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法的優勢進行不完備數據填補,從而獲取完備數據集。

3) 針對多屬性缺失數據建立相應的決策規則,以保證數據填補的性能和準確性。

4) 設計了可辨識矩陣優化算法,進一步提升不完備數據填補效果,提高填補后數據的完備程度和準確性。

5) 經過測試驗證,本文方法能夠有效計算數據對象間的相似度值,實現數據的填補,填補后數據的完備度達到95%以上,填補值誤差在0.17以下,填補效果顯著。

綜上所述,本文方法結合概率相似度計算、ROUSTIDA算法和決策規則,在不完備數據填補領域取得了良好的填補效果和創新突破??紤]到實際數據中的不確定性和噪聲,未來將嘗試建立更健壯的模型來處理不完備數據,在數據填補過程中量化和管理不確定性信息。

參考文獻

[1] 孫林,李夢夢,徐久成.基于鄰域區分度的不完備混合數據屬性約簡方法[J].江蘇科技大學學報(自然科學版),2022,36(1):82?89.

[2] 劉恒孜,呂寧,姜侯,等.基于DCT?PLS算法的MODIS LST缺值填補方法研究[J].地球信息科學學報,2022,24(2):378?390.

[3] 盧繼哲,劉宣,唐悅,等.基于聚類和LSTM的電力分鐘凍結數據缺失值填充方法[J].控制工程,2022,29(4):611?616.

[4] 任兵,郭艷,李寧,等.基于壓縮感知的相關性數據填補方法[J].計算機科學,2023,50(7):82?88.

[5] 關李晶,何潔帆,張立勇,等.基于單輸出子網迭代學習的缺失值填補方法[J].大連理工大學學報,2022,62(4):427?432.

[6] 蔡榕,楊雪,田江,等.基于相關性分析和生成對抗網絡的電網缺失數據填補方法[J].電力工程技術,2024,43(1):229?237.

[7] 陳俊揚,戴志江,李雪亮,等.基于強化學習的多變量時序數據缺失值補全方法[J].中國科技論文,2023,18(11):1205?1212.

[8] 詹康,王逸文,何熊熊.基于數據相似度和引力理論的密度峰聚類算法[J].高技術通訊,2023,33(1):88?96.

[9] 董云薪,林耿,張清偉,等.基于Apriori算法填充數據及改進相似度的推薦算法[J].計算機科學,2022,49(2):307?311.

[10] 黃清浩,甘世林,仲子航,等.假想策略下處理缺失數據的參照填補法[J].中國衛生統計,2023,40(3):331?334.

[11] 喬非,翟曉東,王巧玲.面向多維特性數據的缺失值檢測及填補方法對比[J].同濟大學學報(自然科學版),2023,51(12):1972?1982.

[12] 鄭智泉,陳妍,王孟孟,等.不同缺失率下的數據填補算法穩定性研究[J].統計與決策,2023,39(8):12?17.

[13] 王一棠,龐勇,張立勇,等.基于TS建模的不完整盾構機數據填補算法[J].機械設計,2022,39(3):26?31.

作者簡介:仝利紅(1978—),女,河南洛陽人,碩士研究生,實驗師,研究方向為大數據分析、軟件工程。

孫士保(1970—),男,河南信陽人,博士研究生,教授,研究方向為智能信息處理、機器學習、數據挖掘。

主站蜘蛛池模板: 国产精品亚洲片在线va| 亚洲日韩欧美在线观看| 亚洲精品va| 国产成人综合网在线观看| 国产成人乱码一区二区三区在线| 欧美狠狠干| 先锋资源久久| 日韩在线成年视频人网站观看| 91丝袜美腿高跟国产极品老师| 妇女自拍偷自拍亚洲精品| 国产精品自在线拍国产电影| 亚洲无码四虎黄色网站| 91精品国产丝袜| 一级毛片免费观看久| 日韩国产一区二区三区无码| 中文字幕不卡免费高清视频| 免费观看精品视频999| 最新国产高清在线| 97精品久久久大香线焦| 色婷婷综合在线| 久久久久久久久久国产精品| 热伊人99re久久精品最新地| 国产精品露脸视频| 伊人天堂网| 亚洲第一天堂无码专区| 国产丝袜精品| 国产成人精品男人的天堂下载 | 国产av无码日韩av无码网站| 91偷拍一区| 国产精品3p视频| 亚洲嫩模喷白浆| 天天色天天综合| 澳门av无码| 青草91视频免费观看| 偷拍久久网| 久久久久亚洲精品成人网| 亚洲一欧洲中文字幕在线| 国产一级在线播放| 色视频国产| 国产麻豆另类AV| 9999在线视频| 亚洲一级无毛片无码在线免费视频 | 国产拍揄自揄精品视频网站| 国产成人h在线观看网站站| 日本五区在线不卡精品| 国产黑丝一区| 91在线视频福利| 欧美一区二区三区国产精品| 成人午夜亚洲影视在线观看| 国产va欧美va在线观看| 麻豆精品久久久久久久99蜜桃| 成人精品午夜福利在线播放| 国产福利一区二区在线观看| 国产女人18水真多毛片18精品| 欧美精品伊人久久| 欧美一级99在线观看国产| 久久情精品国产品免费| 在线精品亚洲一区二区古装| 国产精品手机在线观看你懂的| 伊人精品视频免费在线| 青青草国产精品久久久久| 丝袜亚洲综合| 小说 亚洲 无码 精品| 99视频精品全国免费品| 国产精品手机视频| 高清码无在线看| 国产极品美女在线播放| 久久无码高潮喷水| 草草线在成年免费视频2| 伊人婷婷色香五月综合缴缴情 | 久久免费精品琪琪| 在线观看国产精美视频| 99热免费在线| 亚洲av无码专区久久蜜芽| 99精品国产自在现线观看| 欧美日韩午夜| 福利在线免费视频| 久久国产乱子伦视频无卡顿| 无码精品国产VA在线观看DVD| 亚洲高清资源| 国内精品视频在线| 2021国产在线视频|