高級生成對抗網(wǎng)絡(luò)架構(gòu)在稀疏數(shù)據(jù)集中的數(shù)據(jù)填充應用

2025-04-29 00:00:00王碩

軟件工程 2025年4期

摘要：醫(yī)療、金融和社交網(wǎng)絡(luò)等許多領(lǐng)域的數(shù)據(jù)集通常存在大量的缺失值，這給數(shù)據(jù)分析和模型訓練帶來了巨大的挑戰(zhàn)。文章提出一種基于高級生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）的架構(gòu)，用于稀疏數(shù)據(jù)集中的數(shù)據(jù)填充任務。該架構(gòu)通過結(jié)合生成對抗網(wǎng)絡(luò)的強大生成能力和深度學習技術(shù)，旨在更準確地填補數(shù)據(jù)集中的缺失值，從而提升數(shù)據(jù)質(zhì)量和后續(xù)分析的準確性。實驗結(jié)果表明，該框架的填補平均準確率約為85%，而相較于均值填補方法，其準確率提升約10.2百分點。在稀疏數(shù)據(jù)集上均取得顯著的提升效果，為稀疏數(shù)據(jù)處理提供了新的解決方案。

關(guān)鍵詞：生成對抗網(wǎng)絡(luò)（GAN）;數(shù)據(jù)填充;稀疏數(shù)據(jù)集

中圖分類號：TP399 文獻標志碼：A

0 引言（Introduction）

在當今數(shù)據(jù)驅(qū)動的時代，數(shù)據(jù)的質(zhì)量對于機器學習和數(shù)據(jù)分析任務的成敗有著至關(guān)重要的影響。然而在實際應用中，數(shù)據(jù)分析經(jīng)常會遇到數(shù)據(jù)稀疏的問題，即數(shù)據(jù)集中存在大量的缺失值或未觀測到的數(shù)據(jù)。這種情況在醫(yī)療、社交及金融數(shù)據(jù)等領(lǐng)域尤為常見，嚴重影響數(shù)據(jù)分析和模型訓練的準確性。

為解決數(shù)據(jù)稀疏問題，傳統(tǒng)的數(shù)據(jù)填充方法如均值填充、中位數(shù)填充或最近鄰填充[1-2]等，雖然簡單易行，但是無法捕捉到數(shù)據(jù)的復雜分布和潛在結(jié)構(gòu)，導致填充效果不盡如人意[3]。近年來，隨著深度學習技術(shù)的飛速發(fā)展，尤其是生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）的出現(xiàn)，為數(shù)據(jù)填充提供了新的思路。為了提高數(shù)據(jù)填充的準確性，在傳統(tǒng)GAN 的基礎(chǔ)上，結(jié)合數(shù)據(jù)掩碼（Masking）機制和判別器輔助任務，生成對抗填充網(wǎng)絡(luò)（Generative Adversarial Imputation" Networks，GAIN）被提出。

1 方法論（Methodology）

1.1 數(shù)據(jù)填充問題的背景

在許多實際應用場景中，收集到的數(shù)據(jù)常常存在缺失，這對后續(xù)的數(shù)據(jù)分析和模型訓練造成了不利的影響。處理稀疏數(shù)據(jù)集中的缺失值是一項關(guān)鍵挑戰(zhàn)，傳統(tǒng)的方法如均值填充、插值法和最近鄰填充等，在應對高維數(shù)據(jù)和復雜模式時效果有限[4]。為解決這一難題，生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）提供了一種強有力的工具，可以通過生成樣本來填補缺失數(shù)據(jù)。

通過這種方式，判別器不僅能評估數(shù)據(jù)的真實性，還能評估數(shù)據(jù)的完整性，從而更精確地指導生成器提高生成數(shù)據(jù)的質(zhì)量。這種方法能夠有效地增強生成器在填補缺失數(shù)據(jù)方面的性能。

1.4 其他數(shù)據(jù)填充模型

除了生成對抗網(wǎng)絡(luò)，變分自編碼器（Variational Autoencoder，VAE）也值得深入探討，它通過巧妙地學習數(shù)據(jù)的潛在分布，實現(xiàn)了高效的數(shù)據(jù)生成[5]。自回歸模型（Autoregressive Model）則通過精確建模數(shù)據(jù)的條件分布，為缺失值的填充提供一種有效的方法[6]。此外，基于圖的模型（Graph Vbased Model）亦不容忽視，它充分利用數(shù)據(jù)的圖結(jié)構(gòu)特性，實現(xiàn)了精準的數(shù)據(jù)填充[7]。這些模型各具特色，在不同的數(shù)據(jù)集和應用場景下各有優(yōu)勢，因此它們不僅可以作為生成對抗網(wǎng)絡(luò)的有益補充，而且還提供了豐富的對比實驗材料，有助于更全面地評估不同數(shù)據(jù)填充方法的性能。

1.5 模型優(yōu)化與參數(shù)調(diào)整

為了提高模型的性能，必須對生成對抗網(wǎng)絡(luò)及其變種模型進行細致的參數(shù)調(diào)整和優(yōu)化。在這一過程中，對學習率的調(diào)整顯得尤為重要，可以采用學習率調(diào)度器或自適應學習率優(yōu)化器（如廣泛使用的Adam優(yōu)化器）對學習步長進行動態(tài)調(diào)整，確保訓練過程的穩(wěn)定性和收斂速度。此外，為了防止模型過擬合，研究人員廣泛應用了正則化技術(shù)，如L2正則化、Dropout等，它們能夠有效地提升模型的泛化性能[8]。同時，數(shù)據(jù)增強技術(shù)作為一種強有力的手段，通過生成更多的訓練樣本，進一步提升了數(shù)據(jù)的多樣性，從而進一步增強了模型的泛化能力。這些優(yōu)化方法和技術(shù)的綜合運用，對于提升GAN及其變種模型的性能至關(guān)重要。

1.6 實驗環(huán)境與工具

為全面驗證生成對抗填充網(wǎng)絡(luò)在稀疏數(shù)據(jù)集上的優(yōu)越性能，本研究在統(tǒng)一且配備高性能硬件的計算環(huán)境中進行了詳盡的實驗。選擇Python作為編程語言，在深度學習框架方面選用TensorFlow和PyTorch。實驗所依賴的硬件環(huán)境包括具備CUDA兼容性的NVIDIAGPU，利用并行計算顯著提升了模型訓練的效率;配備了高性能CPU和大容量內(nèi)存，以應對數(shù)據(jù)預處理和大規(guī)模數(shù)據(jù)集加載的需求。在軟件環(huán)境方面，采用了穩(wěn)定可靠的Linux操作系統(tǒng)，并配置一系列數(shù)據(jù)處理和可視化工具，包括NumPy、Pandas、Scikit-learn及Matplotlib等。為確保實驗的可重復性和結(jié)果的準確性，本研究遵循了嚴格的實驗步驟：從數(shù)據(jù)預處理開始，通過清洗、標準化和歸一化等操作準備好數(shù)據(jù)集;根據(jù)方法論構(gòu)建GAIN模型，并利用優(yōu)化算法對其進行訓練;在模型評估階段，采用多種評估標準來全面衡量模型的填補效果，并與傳統(tǒng)方法和其他先進模型進行了性能對比。

2 實驗設(shè)計與數(shù)據(jù)集（Experimental design and datasets）

2.1 數(shù)據(jù)集的選擇與預處理

本研究選用了中國社會經(jīng)濟調(diào)查中的居民收入數(shù)據(jù)集，該數(shù)據(jù)集常用于經(jīng)濟學和社會學研究，具有較高的應用價值和代表性。數(shù)據(jù)集包含50000個樣本和12個屬性，目標是預測居民的年收入是否超過150000元。居民收入數(shù)據(jù)集屬性描述如表1所示。

數(shù)據(jù)預處理是實驗設(shè)計的關(guān)鍵步驟，它能確保模型高效且準確地處理數(shù)據(jù)。數(shù)據(jù)預處理主要包括以下幾個階段。

（1）數(shù)據(jù)清洗

在實際數(shù)據(jù)集中，常常存在缺失值、異常值及不一致的數(shù)據(jù)格式。因此，需要對數(shù)據(jù)集進行清洗。

①缺失值處理：檢查每個屬性的缺失情況，數(shù)據(jù)集缺失值統(tǒng)計如表2所示。對于缺失值比例較高的屬性（如職業(yè)類別、職業(yè)和原籍），保留這些缺失值，用于后續(xù)的填補實驗。

②異常值檢測與處理：使用箱線圖和Z分數(shù)法檢測數(shù)值型屬性中的異常值，對極端值進行適當處理或標記。

③數(shù)據(jù)一致性檢查：確保類別型屬性的一致性，統(tǒng)一屬性值的命名格式，例如將性別屬性中的“男”和“女”統(tǒng)一為小寫形式。

（2）數(shù)據(jù)標準化和編碼

為適應模型的輸入要求，需要對數(shù)據(jù)進行標準化和編碼。

①數(shù)值型屬性標準化：對數(shù)值型屬性（如年齡、最終權(quán)重、受教育年數(shù)、資本收益、資本損失、每周工作小時數(shù)）進行標準化處理，將數(shù)據(jù)縮放到均值為0、標準差為1的范圍內(nèi)。

②類別型屬性編碼：使用獨熱編碼（One-Hot Encoding）將類別型屬性轉(zhuǎn)換為數(shù)值格式。職業(yè)類別屬性獨熱編碼示例如表3所示，獨熱編碼后生成7個二進制屬性。

（3）數(shù)據(jù)集劃分

為全面評估模型的性能，將數(shù)據(jù)集劃分為訓練集、驗證集和測試集。

①訓練集：用于模型訓練，占總數(shù)據(jù)的60%。

②驗證集：用于調(diào)參和模型選擇，占總數(shù)據(jù)的20%。

③測試集：用于最終模型評估，占總數(shù)據(jù)的20%。

劃分過程采用隨機抽樣的方法，確保各個子集數(shù)據(jù)分布的一致性。

（4）數(shù)據(jù)增強

為進一步提升模型的泛化能力，采用數(shù)據(jù)增強技術(shù)對訓練數(shù)據(jù)進行擴展。

①噪聲注入：在數(shù)值型屬性中添加隨機噪聲，以提高模型的魯棒性。

②類別平衡：對類別不平衡的屬性進行過采樣或欠采樣，以平衡各類別的樣本數(shù)量。

通過以上詳細的數(shù)據(jù)預處理步驟，可以確保數(shù)據(jù)集的質(zhì)量和適用性，為后續(xù)的實驗設(shè)計和模型訓練提供了堅實的基礎(chǔ)。

2.2 實驗設(shè)計與實驗組設(shè)置

本實驗旨在評估生成對抗填充網(wǎng)絡(luò)（GAIN）在填補居民收入數(shù)據(jù)集中缺失值的有效性。實驗設(shè)計包括多個實驗組，以全面分析不同模型和參數(shù)設(shè)置對數(shù)據(jù)填補效果的影響。

2.2.1 實驗組設(shè)置

為驗證GAIN模型的優(yōu)越性，設(shè)置多個實驗組，每個實驗組對應不同的填補方法和模型配置。具體的實驗組設(shè)置如下。

（1）基準組（Baseline）

使用常見的缺失值填補方法，如均值填補（Mean Imputation）和最近鄰填補（K-Nearest Neighbors" Imputation，KNN）。這些方法作為對比基礎(chǔ)。

（2）傳統(tǒng)方法組

①均值填補（Mean Imputation）：用每個屬性的均值填補缺失值。

② 中位數(shù)填補（Median Imputation）：用每個屬性的中位數(shù)填補缺失值。

③最近鄰填補（KNN Imputation）：使用最近的k 個鄰居的值進行填補。

（3）深度學習方法組

①自編碼器填補（Autoencoder Imputation）：訓練自編碼器模型生成缺失值。

②變分自編碼器填補（Variational Autoencoder，VAE）：使用VAE進行數(shù)據(jù)填補。

③生成對抗填充網(wǎng)絡(luò)，為本實驗的主要方法，使用GAIN 模型進行數(shù)據(jù)填補。

2.2.2 GAIN模型參數(shù)設(shè)置

GAIN模型的參數(shù)設(shè)置如下。

（1）GAIN-1：學習率（Learning Rate）為0.001，批量大?。˙atchSize）為64，生成器和判別器的隱藏層神經(jīng)元數(shù)量均為128。

（2）GAIN-2：學習率（Learning Rate）為0.0005，批量大?。˙atchSize）為128，生成器和判別器的隱藏層神經(jīng)元數(shù)量均為256。

（3）GAIN-3：學習率（Learning Rate）為0.0001，批量大?。˙atchSize）為32，生成器和判別器的隱藏層神經(jīng)元數(shù)量均為64。

2.2.3 實驗步驟

首先，對數(shù)據(jù)進行預處理，包括數(shù)據(jù)清洗、標準化和編碼處理，并將數(shù)據(jù)集劃分為訓練集（60%）、驗證集（20%）和測試集（20%）。其次，在訓練集上對各種模型進行訓練，同時在驗證集上對超參數(shù)進行調(diào)整，確保結(jié)果的穩(wěn)定性和可靠性，并且對每個實驗組都進行多次實驗[9]。最后，使用均方誤差（MSE）、均絕對誤差（MAE）和填補準確率等評估指標，對不同模型的填補效果進行全面的比較。

通過以上實驗設(shè)計與實驗組的設(shè)置，本文將全面評估GAIN模型在填補居民收入數(shù)據(jù)集中缺失值的性能，并與其他傳統(tǒng)和深度學習方法進行性能對比，為實際應用中的數(shù)據(jù)填補提供有力的理論和實踐支持。

2.3 評估標準與期望結(jié)果

為了全面評估生成對抗填充網(wǎng)絡(luò)在填補居民收入數(shù)據(jù)集中缺失值的效果，本研究采用多種評估標準，從不同角度衡量填補數(shù)據(jù)的質(zhì)量。具體評估標準和期望結(jié)果如下。

2.3.2 期望結(jié)果

（1）低MSE和MAE：期望GAIN模型在MSE和MAE兩項評估標準上表現(xiàn)優(yōu)異，相較于傳統(tǒng)方法（如均值填補、中位數(shù)填補、KNN填補）和其他深度學習方法（如自編碼器填補、VAE填補），能夠?qū)崿F(xiàn)更低的誤差水平。

（2）高填補準確率：期望GAIN模型在類別型屬性的填補準確率上表現(xiàn)出色，顯著高于傳統(tǒng)方法和其他深度學習方法的填補準確率。高準確率表明GAIN模型能有效地捕捉數(shù)據(jù)的類別分布，并且能準確填補缺失類別。

（3）數(shù)據(jù)分布一致性：期望GAIN模型填補后的數(shù)據(jù)在分布上與原始數(shù)據(jù)的分布保持一致。通過可視化分析發(fā)現(xiàn)，填補后的數(shù)據(jù)應在各個屬性上呈現(xiàn)出與填補前相似的分布特性，以確保數(shù)據(jù)填補過程的合理性。

（4）魯棒性和泛化能力：期望GAIN模型在不同缺失值比例和不同數(shù)據(jù)集上的填補效果展現(xiàn)出良好的魯棒性和泛化能力。通過在驗證集和測試集上的多次實驗驗證，確保了模型填補效果的穩(wěn)定性和一致性。

評估標準期望結(jié)果如表4所示。

通過以上評估標準和期望結(jié)果的設(shè)定，可以全面衡量GAIN模型在居民收入數(shù)據(jù)集缺失值填補方面的性能表現(xiàn)，并為其在實際應用中的推廣提供理論和實踐支持。

3 結(jié)果與分析（Results and analysis）

表5展現(xiàn)了均值填補、中位數(shù)填補、KNN填補、自編碼器填補、變分自編碼器VAE和GAIN模型在均方誤差（MSE）、均絕對誤差（MAE）和填補準確率（Imputation Accuracy）3項評估標準上的性能表現(xiàn)與比較結(jié)果。

從表5中的數(shù)據(jù)可以看出，GAIN模型在所有評估標準上均表現(xiàn)優(yōu)異，具有最低的MSE和MAE以及最高的填補準確率，顯著優(yōu)于其他傳統(tǒng)方法和深度學習方法的指標數(shù)據(jù)。

4 討論（Discussion）

本研究通過一系列實驗，評估不同缺失值填補方法在居民收入數(shù)據(jù)集上的性能表現(xiàn)，重點分析了生成對抗填充網(wǎng)絡(luò)（GAIN）的優(yōu)勢與局限性。

4.1 GAIN模型的優(yōu)勢

（1）高精度填補效果：GAIN模型在均方誤差（MSE）、均絕對誤差（MAE）和填補準確率等指標上均表現(xiàn)優(yōu)異，顯著高于傳統(tǒng)填補方法（如均值填補和KNN填補）以及其他深度學習方法（如自編碼器和變分自編碼器）的相關(guān)指標數(shù)據(jù)。這一結(jié)果表明，GAIN模型能有效地捕捉數(shù)據(jù)的復雜模式，并能生成高質(zhì)量的填補數(shù)據(jù)。

（2）處理高維數(shù)據(jù)的能力：GAIN模型能夠處理高維數(shù)據(jù)且在不同屬性上均表現(xiàn)出色。在處理包含多種類別型和數(shù)值型屬性的居民收入數(shù)據(jù)集時，GAIN模型展現(xiàn)出了較強的魯棒性和適應性。

4.2 GAIN模型的局限性

（1）計算復雜性和訓練時間：GAIN模型的訓練過程需要調(diào)節(jié)生成器和判別器之間的博弈關(guān)系，導致計算開銷較大且訓練時間較長。相比之下，傳統(tǒng)方法（如均值填補）計算簡單、速度較快。因此，在實際應用中，需要根據(jù)具體需求在模型精度和計算資源之間做出權(quán)衡。

（2）超參數(shù)調(diào)節(jié)：GAIN模型的性能對超參數(shù)（如學習率、批量大小、生成器和判別器的結(jié)構(gòu)等）的設(shè)置高度敏感，因此選擇合適的超參數(shù)組合對于模型性能的提升至關(guān)重要，但這也增加了模型調(diào)參的復雜性和難度。本研究通過驗證集上的實驗對超參數(shù)進行了調(diào)整，但需要注意的是，這種調(diào)整不能保證在所有的數(shù)據(jù)集上都取得最佳效果。

（3）對數(shù)據(jù)分布的依賴：盡管GAIN模型能夠很好地捕捉數(shù)據(jù)的復雜模式，但是其填補效果依賴于訓練數(shù)據(jù)的分布。當數(shù)據(jù)分布發(fā)生顯著變化或存在極端值時，GAIN模型的填補效果可能會受到影響。因此，在應用GAIN模型進行數(shù)據(jù)填補時，需要確保訓練數(shù)據(jù)具有足夠的代表性和多樣性。

5 結(jié)論（Conclusion）

本研究旨在探索生成對抗填充網(wǎng)絡(luò)（GAIN）在稀疏數(shù)據(jù)集中的缺失值填補性能。通過對居民收入數(shù)據(jù)集進行實驗與分析，驗證GAIN模型在填補缺失值方面的優(yōu)越性，尤其在均方誤差（MSE）、均絕對誤差（MAE）及填補準確率等評估標準上顯著優(yōu)于傳統(tǒng)方法和其他深度學習方法。

研究結(jié)果表明，GAIN模型不僅能夠生成高質(zhì)量的填補數(shù)據(jù)，而且還能夠保持填補前后數(shù)據(jù)分布的一致性。這一特性在實際應用中尤為重要，特別是對于需要保留數(shù)據(jù)原始分布特性和復雜模式的場景。盡管GAIN模型在計算復雜性和超參數(shù)調(diào)節(jié)方面面臨一定的挑戰(zhàn)，但是其在處理高維數(shù)據(jù)和復雜模式時展現(xiàn)出的優(yōu)勢為其廣泛應用提供了有力支持。

未來的研究可以進一步優(yōu)化GAIN模型，探索混合填補策略、多任務學習和遷移學習等方法，以提高模型的泛化能力和計算效率。同時，需要在更多實際應用場景中驗證和調(diào)整GAIN模型，以確保其在各種數(shù)據(jù)集和應用環(huán)境中的適用性和有效性。

作者簡介：

王碩（1996-），女（漢族），鐵嶺，助教，碩士。研究領(lǐng)域：不完整數(shù)據(jù)的聚類研究。

軟件工程2025年4期

軟件工程的其它文章: 基于RoBERTa-BiLSTM-MA的熱點新聞推薦方法; 基于輕量化YOLOv5的煙草濾嘴盒識別與定位技術(shù); BERTopic在醫(yī)療領(lǐng)域文章主題挖掘中的應用與分析; 基于Adaptive-MINMAX與GU-YOLO的焊縫缺陷檢測方法; 基于圖優(yōu)化的智能車輛多傳感器融合定位方法; 基于改進YOLOv5s的櫻桃成熟度檢測模型