基于泛化中心聚類的時間序列缺失數據填補方法

2025-08-18 00:00:00于艷朋惠向暉

吉林大學學報(理學版) 2025年4期

關鍵詞：方法

中圖分類號：TP391 文獻標志碼：A 文章編號：1671-5489（2025）04-1137-06

Missing Data Filling Method in Time Series Based on Generalized Center Clustering

YU Yanpeng，HUI Xianghui （College of Information and Management Science （College of Software）， HenanAgricultural University，Zhengzhou 45oo46，China）

Abstract： Aiming at the problem that the filling of missing values in time series usually relied on the predictions of existing data，and the complexity and uncertainty of time series often led to errors in the prediction results. In order to ensure the effectiveness of data filling，we proposed a time series missing data filling method based on generalized center clustering. Firstly，we calculated the distance between objects and classes，as well as between classes， quantified the relative positional relationship between data points and cluster centers，and obtained the spatial relationship between data. Secondly， we used information bottleneck algorithms to cluster the generalization centers in space，dividing time series datasets containing missing data into the same class. Finally，we calculated the cluster radius， divided the outlier data generated by the generalized center clustering into usable and weakly usable randomly damaged data，set a fluctuation threshold，and compared the randomly damaged data within the fluctuation threshold with a string of the unified attribute values in the cluster，achieving the missing data filing in the time series. The experimental results show that this method has high standardized mutual information and hit rate in the clustering process，and can ensure a data replenishment rate of over 80% when filling in missing data， indicating that this method can effectively improve the integrity of time series data.

Keywords： generalized center clustering； time series； missing data filling； information bottleneck;randomly damaged data;replenishment rate

隨著時間序列數據在經濟學、金融學、氣象學等多個領域的廣泛應用，數據的準確性和完整性對分析和預測時間相關現象和趨勢至關重要[1]．但在實際應用中時間序列數據常面臨缺失問題[-4]，因此研究時間序列缺失數據的填補方法具有重要意義．其旨在通過合適的數學和統計方法，有效恢復缺失數據，提高數據分析的質量和效率，對推動相關領域的研究和決策具有重要意義.

目前，對缺失數據填補方法的研究已取得了很多成果．例如：喬非等[5研究了面向多維特性數據的缺失值檢測及填補方法，該方法檢測了多維數據的缺失程度，在不同缺失程度下設計了不同填補方法，但該方法在進行缺失數據填補時無法保證數據補齊率，導致填補結果不完善；任兵等[6研究了基于壓縮感知的相關性數據填補方法，該方法將填補問題轉化為壓縮感知框架下的稀疏向量恢復問題，通過快速迭代加權閾值算法實現缺失數據的填補，雖然在填補過程中效率較高，但其并不適用于時間序列數據；盧繼哲等通過神經網絡模型預測缺失內容，并對其進行填補，雖然缺失數據預測的結果較精準，但其在聚類過程中無法保證較高的標準化互信息，從而無法保證后續填補質量；Sun等[8]研究了基于缺失率和異常度測量的不完全數據處理方法，該方法對不同缺失比率異常數據進行檢測，并通過填補方法對其填充，該方法雖然能實現不同缺失比率異常數據的精準檢測，但填補后仍存在大量缺失數據．為保證缺失數據填補質量，本文提出一種基于泛化中心聚類的時間序列缺失數據填補方法.

時間序列缺失數據填補

通過泛化中心聚類可將具有相似時間模式或特征的數據點聚集在一起，從而利用這些相似數據的信息更準確地估計和填補缺失值[9-10]．這種方法有助于捕捉時間序列數據的內在結構，提高缺失數據填補的準確性和可靠性.

1. 1 泛化中心距離計算

計算泛化中心距離的意義在于衡量不同數據點在特征空間中的相對位置關系，從而評估不同數據之間的相似性或差異性．對象（數據點）與類（聚類）之間距離的計算公式為

其中 x 為對象（數據點）的特征向量， σ_o 為泛化中心的特征向量， n 表示特征的數量．通常情況下，距離d 越小，說明對象與該類中的其他對象越類似，設置距離上限為 U ，若某一對象的距離 d?U ，則將該對象添加到該類中，否則構建一個新類[1].

當計算完對象與類之間的距離后，需計算類與類之間的距離，分別設兩個類為 O₁，O₂ ，兩者的泛化中心分別為 O_O1 和 O_O2 ，則這兩個類之間距離的計算公式為

其中 |O₁|，|O₂| 分別表示類 O₁，O₂ 中存在的對象數量，若某一類中僅存在一個對象，則可將該對象設為泛化中心．通過類間距離 d（O₁，O₂ ）可以評估不同類之間的差異性， d（O₁，O₂）越小兩個類之間越相似，若該值越大，則兩個類之間的差異就越明顯.

1.2 基于信息瓶頸算法的泛化中心聚類

通過上述計算得到了對象與類之間、類與類之間的距離，量化了數據點與聚類中心之間的相對位

置關系，得到了數據間的空間關系[1-13]，然后可利用信息瓶頸（information bottleneck，IB）算法對空間中的泛化中心進行聚類處理，信息瓶頸算法通過限制信息傳遞的瓶頸，能在保持數據聚類質量的同時，減少不必要的信息損失[14]，從而實現數據的有效壓縮和聚類.

設原始數據集為 X={x₁，x₂，…，x_N} ，聚類中心為 C={c₁，c₂，…，c_K} ，其中 K 為預設的聚類數量.定義一個編碼函數 q（c|x）和一個解碼函數 ?（c|x）．使用互信息度量 X 與 C 之間的相關性：

其中 p^（x），p^（c）分別為 X 和 C 的邊緣概率分布， ρ（x，c）為先驗聯合分布．使用條件熵度量 X 在給定 C 下的不確定性：

信息瓶頸的目標是最小化 H（X∣C）的同時最大化 I（X，C），可通過優化一個加權和實現：

min_q（c∣x）{βI（X，C）-H（X，C）}，

其中 β 為一個權衡參數.

利用迭代方法求解上述優化問題，迭代過程中更新編碼函數 q（c|x）和解碼函數 p（c|x），以減少目標函數的值．經過多次迭代后，可得到優化的編碼函數 q（c|x）和解碼函數 ?（c|x）．對于每個聚類中心 c_k ，可使用解碼函數生成或描述該簇的泛化中心．這種泛化中心聚類方法不僅考慮了聚類中心的位置，還考慮了數據在聚類中心周圍的分布情況，因此能提供更豐富的信息表示每個簇.

1.3基于泛化中心聚類的缺失數據填補

通過泛化中心聚類先將含有缺失數據的時間序列數據集劃分到同一類中，然后再對缺失數據進行填補．在數據填補過程中，通常會將完全缺失和部分缺失的情況都歸為缺失數據，這種方式忽視了部分缺失數據所蘊含的潛在價值．因此，本文在處理缺失數據填補問題時，先對數據損壞程度進行細致的劃分：若殘留字符與原始數據毫無關聯，則該數據被界定為弱可用隨機損壞數據；反之，為可用隨機損壞數據．通過區分并有效利用這兩種數據，可進一步提升缺失數據填補的準確性和可靠性.

基于上述數據劃分結果，采用簇半徑計算方法對泛化中心聚類后產生的離群點數據再次進行可用、弱可用隨機損壞數據劃分．在實際劃分時，給定波動閾值，將位于波動閾值內的隨機損壞數據與聚類中統一屬性值進行字符串對比，波動閾值的計算公式為

其中 R_c 表示泛化中心簇半徑，表示簇頭競爭半徑．簇中心點 C_m 可利用下式計算：

其中 t_ip 為泛化中心任一點， N 為被選擇的泛化中心點數量．此時，簇半徑可表示為

圖1 數據損壞程度劃分Fig. 1 Classification of data damage levels

通過上述計算，對泛化中心聚類后產生的離群點再次進行缺失數據劃分，以此為基礎，降低弱可用數據的占比．圖1為數據損壞程度劃分.

在進行時間序列缺失數據填補過程中，若找到一個匹配的字符串，則將其記錄為1；如果未找到匹配的字符串，則記錄為0．然后將所有字符串對比得到的數值相加，得到一個總和， b 值越大，說明對象之間的相似度越高．基于這一原理，利用b 值最大的項所對應的數據對缺失數據進行填補.

該過程不僅考慮了部分缺失數據的重要性，還提高了數據填補的準確性.

2 實驗分析

為評估本文方法對時間序列缺失數據的填補能力，下面對該方法進行性能測試．在UCI數據庫中選擇實驗所用數據集，數據集信息列于表1.

表1實驗數據集信息Table 1Information of experimental dataset

標準化互信息（NMI）可評估聚類結果與數據實際類標簽之間的相似性，本文利用NMI評估聚類質量：

其中 S 表示目標聚類結果， L 表示數據實際類標簽， E（S，L）表示 S 與 L 之間的互信息， H（S），H（L）分別表示 S，L 的信息量．NMI值越大，說明聚類結果與實際情況越相符．利用命中率（HR）指標評估本文方法的聚類質量：

其中 ψ 表示缺失數據總數， h_its 表示成功聚類數據．利用補齊率（CR）評估本文方法的缺失數據填補能力：

其中 F 為錯誤填補的數據總量， 5 為缺失數據比率， M 為數據總量.

選取文獻[5]方法、文獻[6]方法和文獻[7]方法與本文方法進行對比，不同方法的標準化互信息對比結果列于表2．由表2可見，文獻[5方法的標準化互信息相對較小，文獻[6]方法和文獻[7]方法的標準化互信息雖然高于文獻[5]方法，但并未超過 50% ，而本文方法在聚類過程中可提供較高的標準化互信息．可見，相比于其他方法，本文方法具有良好的聚類能力.

表2不同方法的標準化互信息對比結果Table 2Comparative results of standardized mutual information of different methods

選取數據集Abalone和Mushroom，用本文方法對該數據集進行聚類和缺失數據填補，分析本文方法在處理該數據集不同缺失比率時的命中率和補齊率，分析結果如圖2所示．由圖2可見，當數據集中缺失數據比率逐漸增大時，本文方法對數據處理時的命中率和補齊率也隨之降低，但在本文方法處理下，命中率始終保持在 70% 以上，缺失數據補齊率始終保持在 80% 以上，可見本文方法具有良好的缺失數據填補能力．這是因為本文方法在泛化中心聚類后，對產生的離群點數據進行了再次處理，將其劃分為可用、弱可用隨機損壞數據，該策略能更精細地處理數據集中的異常值，提高數據填補的精度.

利用本文方法對不同數據集進行缺失數據填補，并分析用該方法進行填補后的數據缺失數，以此評估該方法的數據填補能力，分析結果列于表3.

圖2缺失數據命中率（A）和補齊率（B）測試結果Fig.2Test results of missing data hit rate（A）and replenishment rate（B）

表3缺失數據填補能力測試結果Table3Test results of missing data filling ability

由表3可見，本文方法將泛化中心聚類方法引人到時間序列缺失數據填補中，通過計算數據點與聚類中心之間的相對位置關系，得到數據間的空間關系，能更準確地捕捉時間序列數據的內在結構和特征．因此，用本文方法對數據進行填補后，不同數據集中的缺失數據數量明顯下降，其中，數據集Credit approval在填補后缺失數據數量僅為 26個，可見本文方法在進行缺失數據填補時可有效保證填補質量.

綜上所述，針對填補時間序列中的缺失值通常依賴于已有數據的預測，由于時間序列的復雜性和不確定性導致預測結果常存在誤差的問題，本文提出了一種基于泛化中心聚類的時間序列缺失數據填補方法．首先，該方法通過引入信息瓶頸算法對時間序列數據進行泛化中心聚類，精確捕捉數據的內在結構和特征．其次，針對聚類后產生的離群點數據，進一步采用波動閾值與字符串對比的策略進行精細處理，實現了缺失數據的準確填補．最后，通過量化指標如標準化互信息、命中率及數據補齊率，對本文方法的填補效果進行了全面評估，結果表明，本文方法的命中率始終保持在 70% 以上，缺失數據補齊率始終保持在 80% 以上，有效提升了缺失數據填補效果.

參考文獻

[1］關李晶，何潔帆，張立勇，等．基于單輸出子網迭代學習的缺失值填補方法［J]．大連理工大學學報，2022，62（4）： 427-432. （GUAN L J， HE JF， ZHANG L Y，et al. Missng Value Imputation Method Based on SingleOutput Sub-network with Iterative Learning [J].Journal of Dalian University of Technology，2O22，62（4）：427-432.）

[2］陳俊揚，戴志江，李雪亮，等．基于強化學習的多變量時序數據缺失值補全方法［J]．中國科技論文，2023，18（11）：1205-1212. （CHEN J Y，DAI Z J，LI X L，et al. Reinforcement Learning Based Missing ValueCompletion Method for Multivariate Time Series Data [J]. China Sciencepaper，2023，18（11）：1205-1212.）

[3]鄧明星，歐陽含笑，錢楓，等．基于改進LSTM的重型柴油車遠程監測 NO_x 濃度缺失數據填補［J]．環境科學學報，2023，43（11）：245-257. （DENG M X，OUYANG H X，QIAN F，et al. Filling in Missing NO_x Concentration Data for Remote Monitoring of Heavy-Duty Diesel Vehicles Based on Improved LSTM[J].ActaScientiaeCircumstantiae，2023，43（11）：245-257.）

[4]劉兵，鄭承利．基于EMD特征提取的高頻面板數據自適應聚類方法［J]．統計與決策，2022，38（10）：16-20.（LIU B，ZHENG C L. Adaptive Clustering Method for High Frequency Panel Data Based on EMD Feature

[5]喬非，翟曉東，王巧玲．面向多維特性數據的缺失值檢測及填補方法對比［J]．同濟大學學報（自然科學版），2023，51（12）： 1972-1982. （QIAO F， ZHAI X D，WANG Q L. Comparison of Imputation Methods Based onMissing Value Detection for Multidimensional Feature Data [J]. Journal of Tongji University （Natural Science），2023，51（12）：1972-1982.）

[6]任兵，郭艷，李寧，等．基于壓縮感知的相關性數據填補方法［J]．計算機科學，2023，50（7）：82-88．（REN B，GUO Y，LI N，et al. Method for Correlation Data Imputation Based on Compressed Sensing[J]. ComputerScience，2023，50（7）：82-88.）

[7」盧繼哲，劉宣，唐悅，等．基于聚類和LSTM的電力分鐘凍結數據缺失值填充方法［J]．控制工程，2022，29（4）：611-616.（LU J Z，LIU X，TANG Y，et al. Missing Value Treatment for Minute Freezing Data ofElectricity Based on Clustering and LSTM[J]. Control Engineering of China， 2022，29（4）： 611-616.）

[8]SUN Z G，GAO M M， JIANG A P，et al. Incomplete Data Processng Method Based on the Measurement ofMissing Rate and Abnormal Degree：Take the Loose Particle Localization Data Set as an Example[J].ExpertSystems with Applications，2023，216（4）：119411-1-119411-22.

[9]肖釗，鄧杰文，劉曉明，等．基于運行規律和 TICC算法的風電SCADA 高維時序數據聚類方法［J]．機械工程學報，2022，58（23）：196-207. （XIAO Z， DENG JW，LIU X M，et al. Clustering Method of High-DimensionalTime Series SCADA Data from Wind Turbines Based on Operational Laws and TICC Algorithm [J]. Journal ofMechanical Engineering，2022，58（23）：196-207.）

[10］李建華，朱澤陽，徐禮勝，等．基于深度嵌入聚類的ICU患者生理數據缺失插補［J]．東北大學學報（自然科學版），2022，43（5）： 639-645.（LIJH， ZHU ZY，XUL S，et al. Interpolation of Missing Physiological Data ofICU Patients Based on Dep Embedded Clustering [J]. Journal of Northeastern University（Natural Science），2022，43（5）：639-645.）

[11]劉恒孜，呂寧，姜侯，等．基于 DCT-PLS 算法的 MODIS LST缺值填補方法研究［J]．地球信息科學學報，2022，24（2）： 378-390.（LIU H Z，LU N，JIANG H，et al. Research on Gaps Filing of MODIS LST Based onDCT-PLS[J]. Journal of Geo-information Science，2022，24（2）：378-390.）

[12］趙林鎖，陳澤，丁琳琳，等．基于RELM的時間序列數據加權集成分類方法［J]．計算機工程與科學，2022，44（3）： 545-553. （ZHAO L S， CHEN Z， DING L L，et al. A Weighted Ensemble Classification Method for TimeSeries Data Based on Regularized Extreme Learning Machine [J]. Computer Engineering amp; Science，2022，44（3）：545-553.）

[13]LIU SS，HUR，WU JF，et al.Research on Data Classification and Feature Fusion Method of Cancer NucleiImage Based on Deep Learning [J]. International Journal of Imaging Systems and Technology，2O22，32（3）：969-981.

[14］古險峰，湯永利．基于群體智能算法的混合屬性大數據聚類仿真［J]．計算機仿真，2023，40（9）：458-461.（GU XF，TANG Y L. Simulation of Mixed Attribute Big Data Clustering Based on Swarm IntelligenceAlgorithm[J]. Computer Simulation，2023，40（9）：458-461.）