999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于泛化中心聚類的時間序列缺失數據填補方法

2025-08-18 00:00:00于艷朋惠向暉
吉林大學學報(理學版) 2025年4期
關鍵詞:方法

中圖分類號:TP391 文獻標志碼:A 文章編號:1671-5489(2025)04-1137-06

Missing Data Filling Method in Time Series Based on Generalized Center Clustering

YU Yanpeng,HUI Xianghui (College of Information and Management Science (College of Software), HenanAgricultural University,Zhengzhou 45oo46,China)

Abstract: Aiming at the problem that the filling of missing values in time series usually relied on the predictions of existing data,and the complexity and uncertainty of time series often led to errors in the prediction results. In order to ensure the effectiveness of data filling,we proposed a time series missing data filling method based on generalized center clustering. Firstly,we calculated the distance between objects and classes,as well as between classes, quantified the relative positional relationship between data points and cluster centers,and obtained the spatial relationship between data. Secondly, we used information bottleneck algorithms to cluster the generalization centers in space,dividing time series datasets containing missing data into the same class. Finally,we calculated the cluster radius, divided the outlier data generated by the generalized center clustering into usable and weakly usable randomly damaged data,set a fluctuation threshold,and compared the randomly damaged data within the fluctuation threshold with a string of the unified attribute values in the cluster,achieving the missing data filing in the time series. The experimental results show that this method has high standardized mutual information and hit rate in the clustering process,and can ensure a data replenishment rate of over 80% when filling in missing data, indicating that this method can effectively improve the integrity of time series data.

Keywords: generalized center clustering; time series; missing data filling; information bottleneck;randomly damaged data;replenishment rate

隨著時間序列數據在經濟學、金融學、氣象學等多個領域的廣泛應用,數據的準確性和完整性對分析和預測時間相關現象和趨勢至關重要[1].但在實際應用中時間序列數據常面臨缺失問題[-4],因此研究時間序列缺失數據的填補方法具有重要意義.其旨在通過合適的數學和統計方法,有效恢復缺失數據,提高數據分析的質量和效率,對推動相關領域的研究和決策具有重要意義.

目前,對缺失數據填補方法的研究已取得了很多成果.例如:喬非等[5研究了面向多維特性數據的缺失值檢測及填補方法,該方法檢測了多維數據的缺失程度,在不同缺失程度下設計了不同填補方法,但該方法在進行缺失數據填補時無法保證數據補齊率,導致填補結果不完善;任兵等[6研究了基于壓縮感知的相關性數據填補方法,該方法將填補問題轉化為壓縮感知框架下的稀疏向量恢復問題,通過快速迭代加權閾值算法實現缺失數據的填補,雖然在填補過程中效率較高,但其并不適用于時間序列數據;盧繼哲等通過神經網絡模型預測缺失內容,并對其進行填補,雖然缺失數據預測的結果較精準,但其在聚類過程中無法保證較高的標準化互信息,從而無法保證后續填補質量;Sun等[8]研究了基于缺失率和異常度測量的不完全數據處理方法,該方法對不同缺失比率異常數據進行檢測,并通過填補方法對其填充,該方法雖然能實現不同缺失比率異常數據的精準檢測,但填補后仍存在大量缺失數據.為保證缺失數據填補質量,本文提出一種基于泛化中心聚類的時間序列缺失數據填補方法.

時間序列缺失數據填補

通過泛化中心聚類可將具有相似時間模式或特征的數據點聚集在一起,從而利用這些相似數據的信息更準確地估計和填補缺失值[9-10].這種方法有助于捕捉時間序列數據的內在結構,提高缺失數據填補的準確性和可靠性.

1. 1 泛化中心距離計算

計算泛化中心距離的意義在于衡量不同數據點在特征空間中的相對位置關系,從而評估不同數據之間的相似性或差異性.對象(數據點)與類(聚類)之間距離的計算公式為

其中 x 為對象(數據點)的特征向量, σo 為泛化中心的特征向量, n 表示特征的數量.通常情況下,距離d 越小,說明對象與該類中的其他對象越類似,設置距離上限為 U ,若某一對象的距離 d?U ,則將該對象添加到該類中,否則構建一個新類[1].

當計算完對象與類之間的距離后,需計算類與類之間的距離,分別設兩個類為 O1,O2 ,兩者的泛化中心分別為 OO1 和 OO2 ,則這兩個類之間距離的計算公式為

其中 |O1|,|O2| 分別表示類 O1,O2 中存在的對象數量,若某一類中僅存在一個對象,則可將該對象設為泛化中心.通過類間距離 d(O1,O2 )可以評估不同類之間的差異性, d(O1,O2) 越小兩個類之間越相似,若該值越大,則兩個類之間的差異就越明顯.

1.2 基于信息瓶頸算法的泛化中心聚類

通過上述計算得到了對象與類之間、類與類之間的距離,量化了數據點與聚類中心之間的相對位

置關系,得到了數據間的空間關系[1-13],然后可利用信息瓶頸(information bottleneck,IB)算法對空間中的泛化中心進行聚類處理,信息瓶頸算法通過限制信息傳遞的瓶頸,能在保持數據聚類質量的同時,減少不必要的信息損失[14],從而實現數據的有效壓縮和聚類.

設原始數據集為 X={x1,x2,…,xN} ,聚類中心為 C={c1,c2,…,cK} ,其中 K 為預設的聚類數量.定義一個編碼函數 q(c|x) 和一個解碼函數 ?(c|x) .使用互信息度量 X 與 C 之間的相關性:

其中 p(x),p(c) 分別為 X 和 C 的邊緣概率分布, ρ(x,c) 為先驗聯合分布.使用條件熵度量 X 在給定 C 下的不確定性:

信息瓶頸的目標是最小化 H(X∣C) 的同時最大化 I(X,C) ,可通過優化一個加權和實現:

minq(c∣x){βI(X,C)-H(X,C)},

其中 β 為一個權衡參數.

利用迭代方法求解上述優化問題,迭代過程中更新編碼函數 q(c|x) 和解碼函數 p(c|x) ,以減少目標函數的值.經過多次迭代后,可得到優化的編碼函數 q(c|x) 和解碼函數 ?(c|x) .對于每個聚類中心 ck ,可使用解碼函數生成或描述該簇的泛化中心.這種泛化中心聚類方法不僅考慮了聚類中心的位置,還考慮了數據在聚類中心周圍的分布情況,因此能提供更豐富的信息表示每個簇.

1.3基于泛化中心聚類的缺失數據填補

通過泛化中心聚類先將含有缺失數據的時間序列數據集劃分到同一類中,然后再對缺失數據進行填補.在數據填補過程中,通常會將完全缺失和部分缺失的情況都歸為缺失數據,這種方式忽視了部分缺失數據所蘊含的潛在價值.因此,本文在處理缺失數據填補問題時,先對數據損壞程度進行細致的劃分:若殘留字符與原始數據毫無關聯,則該數據被界定為弱可用隨機損壞數據;反之,為可用隨機損壞數據.通過區分并有效利用這兩種數據,可進一步提升缺失數據填補的準確性和可靠性.

基于上述數據劃分結果,采用簇半徑計算方法對泛化中心聚類后產生的離群點數據再次進行可用、弱可用隨機損壞數據劃分.在實際劃分時,給定波動閾值 ,將位于波動閾值內的隨機損壞數據與聚類中統一屬性值進行字符串對比,波動閾值 的計算公式為

其中 Rc 表示泛化中心簇半徑, 表示簇頭競爭半徑.簇中心點 Cm 可利用下式計算:

其中 tip 為泛化中心任一點, N 為被選擇的泛化中心點數量.此時,簇半徑可表示為

圖1 數據損壞程度劃分Fig. 1 Classification of data damage levels

通過上述計算,對泛化中心聚類后產生的離群點再次進行缺失數據劃分,以此為基礎,降低弱可用數據的占比.圖1為數據損壞程度劃分.

在進行時間序列缺失數據填補過程中,若找到一個匹配的字符串,則將其記錄為1;如果未找到匹配的字符串,則記錄為0.然后將所有字符串對比得到的數值相加,得到一個總和, b 值越大,說明對象之間的相似度越高.基于這一原理,利用b 值最大的項所對應的數據對缺失數據進行填補.

該過程不僅考慮了部分缺失數據的重要性,還提高了數據填補的準確性.

2 實驗分析

為評估本文方法對時間序列缺失數據的填補能力,下面對該方法進行性能測試.在UCI數據庫中選擇實驗所用數據集,數據集信息列于表1.

表1實驗數據集信息Table 1Information of experimental dataset

標準化互信息(NMI)可評估聚類結果與數據實際類標簽之間的相似性,本文利用NMI評估聚類質量:

其中 S 表示目標聚類結果, L 表示數據實際類標簽, E(S,L) 表示 S 與 L 之間的互信息, H(S),H(L) 分別表示 S,L 的信息量.NMI值越大,說明聚類結果與實際情況越相符.利用命中率(HR)指標評估本文方法的聚類質量:

其中 ψ 表示缺失數據總數, hits 表示成功聚類數據.利用補齊率(CR)評估本文方法的缺失數據填補能力:

其中 F 為錯誤填補的數據總量, 5 為缺失數據比率, M 為數據總量.

選取文獻[5]方法、文獻[6]方法和文獻[7]方法與本文方法進行對比,不同方法的標準化互信息對比結果列于表2.由表2可見,文獻[5方法的標準化互信息相對較小,文獻[6]方法和文獻[7]方法的標準化互信息雖然高于文獻[5]方法,但并未超過 50% ,而本文方法在聚類過程中可提供較高的標準化互信息.可見,相比于其他方法,本文方法具有良好的聚類能力.

表2不同方法的標準化互信息對比結果Table 2Comparative results of standardized mutual information of different methods

選取數據集Abalone和Mushroom,用本文方法對該數據集進行聚類和缺失數據填補,分析本文方法在處理該數據集不同缺失比率時的命中率和補齊率,分析結果如圖2所示.由圖2可見,當數據集中缺失數據比率逐漸增大時,本文方法對數據處理時的命中率和補齊率也隨之降低,但在本文方法處理下,命中率始終保持在 70% 以上,缺失數據補齊率始終保持在 80% 以上,可見本文方法具有良好的缺失數據填補能力.這是因為本文方法在泛化中心聚類后,對產生的離群點數據進行了再次處理,將其劃分為可用、弱可用隨機損壞數據,該策略能更精細地處理數據集中的異常值,提高數據填補的精度.

利用本文方法對不同數據集進行缺失數據填補,并分析用該方法進行填補后的數據缺失數,以此評估該方法的數據填補能力,分析結果列于表3.

圖2缺失數據命中率(A)和補齊率(B)測試結果Fig.2Test results of missing data hit rate(A)and replenishment rate(B)
表3缺失數據填補能力測試結果Table3Test results of missing data filling ability

由表3可見,本文方法將泛化中心聚類方法引人到時間序列缺失數據填補中,通過計算數據點與聚類中心之間的相對位置關系,得到數據間的空間關系,能更準確地捕捉時間序列數據的內在結構和特征.因此,用本文方法對數據進行填補后,不同數據集中的缺失數據數量明顯下降,其中,數據集Credit approval在填補后缺失數據數量僅為 26個,可見本文方法在進行缺失數據填補時可有效保證填補質量.

綜上所述,針對填補時間序列中的缺失值通常依賴于已有數據的預測,由于時間序列的復雜性和不確定性導致預測結果常存在誤差的問題,本文提出了一種基于泛化中心聚類的時間序列缺失數據填補方法.首先,該方法通過引入信息瓶頸算法對時間序列數據進行泛化中心聚類,精確捕捉數據的內在結構和特征.其次,針對聚類后產生的離群點數據,進一步采用波動閾值與字符串對比的策略進行精細處理,實現了缺失數據的準確填補.最后,通過量化指標如標準化互信息、命中率及數據補齊率,對本文方法的填補效果進行了全面評估,結果表明,本文方法的命中率始終保持在 70% 以上,缺失數據補齊率始終保持在 80% 以上,有效提升了缺失數據填補效果.

參考文獻

[1]關李晶,何潔帆,張立勇,等.基于單輸出子網迭代學習的缺失值填補方法[J].大連理工大學學報,2022,62(4): 427-432. (GUAN L J, HE JF, ZHANG L Y,et al. Missng Value Imputation Method Based on SingleOutput Sub-network with Iterative Learning [J].Journal of Dalian University of Technology,2O22,62(4):427-432.)

[2]陳俊揚,戴志江,李雪亮,等.基于強化學習的多變量時序數據缺失值補全方法[J].中國科技論文,2023,18(11):1205-1212. (CHEN J Y,DAI Z J,LI X L,et al. Reinforcement Learning Based Missing ValueCompletion Method for Multivariate Time Series Data [J]. China Sciencepaper,2023,18(11):1205-1212.)

[3]鄧明星,歐陽含笑,錢楓,等.基于改進LSTM的重型柴油車遠程監測 NOx 濃度缺失數據填補[J].環境科學學報,2023,43(11):245-257. (DENG M X,OUYANG H X,QIAN F,et al. Filling in Missing NOx Concentration Data for Remote Monitoring of Heavy-Duty Diesel Vehicles Based on Improved LSTM[J].ActaScientiaeCircumstantiae,2023,43(11):245-257.)

[4]劉兵,鄭承利.基于EMD特征提取的高頻面板數據自適應聚類方法[J].統計與決策,2022,38(10):16-20.(LIU B,ZHENG C L. Adaptive Clustering Method for High Frequency Panel Data Based on EMD Feature

[5]喬非,翟曉東,王巧玲.面向多維特性數據的缺失值檢測及填補方法對比[J].同濟大學學報(自然科學版),2023,51(12): 1972-1982. (QIAO F, ZHAI X D,WANG Q L. Comparison of Imputation Methods Based onMissing Value Detection for Multidimensional Feature Data [J]. Journal of Tongji University (Natural Science),2023,51(12):1972-1982.)

[6]任兵,郭艷,李寧,等.基于壓縮感知的相關性數據填補方法[J].計算機科學,2023,50(7):82-88.(REN B,GUO Y,LI N,et al. Method for Correlation Data Imputation Based on Compressed Sensing[J]. ComputerScience,2023,50(7):82-88.)

[7」盧繼哲,劉宣,唐悅,等.基于聚類和LSTM的電力分鐘凍結數據缺失值填充方法[J].控制工程,2022,29(4):611-616.(LU J Z,LIU X,TANG Y,et al. Missing Value Treatment for Minute Freezing Data ofElectricity Based on Clustering and LSTM[J]. Control Engineering of China, 2022,29(4): 611-616.)

[8]SUN Z G,GAO M M, JIANG A P,et al. Incomplete Data Processng Method Based on the Measurement ofMissing Rate and Abnormal Degree:Take the Loose Particle Localization Data Set as an Example[J].ExpertSystems with Applications,2023,216(4):119411-1-119411-22.

[9]肖釗,鄧杰文,劉曉明,等.基于運行規律和 TICC算法的風電SCADA 高維時序數據聚類方法[J].機械工程學報,2022,58(23):196-207. (XIAO Z, DENG JW,LIU X M,et al. Clustering Method of High-DimensionalTime Series SCADA Data from Wind Turbines Based on Operational Laws and TICC Algorithm [J]. Journal ofMechanical Engineering,2022,58(23):196-207.)

[10]李建華,朱澤陽,徐禮勝,等.基于深度嵌入聚類的ICU患者生理數據缺失插補[J].東北大學學報(自然科學版),2022,43(5): 639-645.(LIJH, ZHU ZY,XUL S,et al. Interpolation of Missing Physiological Data ofICU Patients Based on Dep Embedded Clustering [J]. Journal of Northeastern University(Natural Science),2022,43(5):639-645.)

[11]劉恒孜,呂寧,姜侯,等.基于 DCT-PLS 算法的 MODIS LST缺值填補方法研究[J].地球信息科學學報,2022,24(2): 378-390.(LIU H Z,LU N,JIANG H,et al. Research on Gaps Filing of MODIS LST Based onDCT-PLS[J]. Journal of Geo-information Science,2022,24(2):378-390.)

[12]趙林鎖,陳澤,丁琳琳,等.基于RELM的時間序列數據加權集成分類方法[J].計算機工程與科學,2022,44(3): 545-553. (ZHAO L S, CHEN Z, DING L L,et al. A Weighted Ensemble Classification Method for TimeSeries Data Based on Regularized Extreme Learning Machine [J]. Computer Engineering amp; Science,2022,44(3):545-553.)

[13]LIU SS,HUR,WU JF,et al.Research on Data Classification and Feature Fusion Method of Cancer NucleiImage Based on Deep Learning [J]. International Journal of Imaging Systems and Technology,2O22,32(3):969-981.

[14]古險峰,湯永利.基于群體智能算法的混合屬性大數據聚類仿真[J].計算機仿真,2023,40(9):458-461.(GU XF,TANG Y L. Simulation of Mixed Attribute Big Data Clustering Based on Swarm IntelligenceAlgorithm[J]. Computer Simulation,2023,40(9):458-461.)

猜你喜歡
方法
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲女人在线| 九色综合伊人久久富二代| 国内黄色精品| 国模私拍一区二区| 天天综合天天综合| 日本五区在线不卡精品| 激情国产精品一区| 人妻丰满熟妇AV无码区| 久久久久久久蜜桃| 伊人丁香五月天久久综合| 日本一区二区三区精品国产| 国产JIZzJIzz视频全部免费| 欧美日韩成人在线观看| 国产精品永久不卡免费视频| 国产在线精彩视频论坛| 国产在线视频自拍| 91网在线| 欧美成人综合视频| 美女一级毛片无遮挡内谢| 国产麻豆91网在线看| 色丁丁毛片在线观看| 一级福利视频| 日日拍夜夜嗷嗷叫国产| 无码av免费不卡在线观看| 性欧美在线| 91在线高清视频| 少妇被粗大的猛烈进出免费视频| 露脸一二三区国语对白| 中文字幕资源站| 午夜老司机永久免费看片| 最新亚洲人成无码网站欣赏网| 国产人碰人摸人爱免费视频| 国产精品分类视频分类一区| 激情乱人伦| 国产精品欧美在线观看| 青青青国产视频| 国产69精品久久久久孕妇大杂乱| 日韩精品无码不卡无码| 国产理论精品| 一级毛片在线播放| 国产激爽爽爽大片在线观看| 亚洲天堂成人| 国产精品冒白浆免费视频| 欧美日韩动态图| 国产精品免费露脸视频| 久久99国产乱子伦精品免| 婷婷亚洲最大| 国产成人综合日韩精品无码首页| 55夜色66夜色国产精品视频| 久草网视频在线| 欧美人人干| 一级毛片免费播放视频| 国产青青操| 性欧美精品xxxx| 国产高颜值露脸在线观看| P尤物久久99国产综合精品| 2020亚洲精品无码| 午夜少妇精品视频小电影| 99热亚洲精品6码| 国产美女91呻吟求| 国产波多野结衣中文在线播放| 国产微拍一区二区三区四区| 国产在线精品香蕉麻豆| 亚洲精品自拍区在线观看| 国产欧美日韩免费| 天天做天天爱夜夜爽毛片毛片| 中文字幕在线观| a毛片在线播放| 四虎永久在线精品影院| 国产主播在线一区| 伊人久久精品亚洲午夜| 色天天综合久久久久综合片| 亚洲性影院| 亚洲国产一区在线观看| 国产人在线成免费视频| 国产精品原创不卡在线| 久久精品视频亚洲| 天天摸夜夜操| 国产成人综合亚洲网址| 亚洲日韩精品综合在线一区二区| 无码啪啪精品天堂浪潮av| 亚洲无码高清一区|