




摘要:醫(yī)療、金融和社交網(wǎng)絡(luò)等許多領(lǐng)域的數(shù)據(jù)集通常存在大量的缺失值,這給數(shù)據(jù)分析和模型訓練帶來了巨大的挑戰(zhàn)。文章提出一種基于高級生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的架構(gòu),用于稀疏數(shù)據(jù)集中的數(shù)據(jù)填充任務。該架構(gòu)通過結(jié)合生成對抗網(wǎng)絡(luò)的強大生成能力和深度學習技術(shù),旨在更準確地填補數(shù)據(jù)集中的缺失值,從而提升數(shù)據(jù)質(zhì)量和后續(xù)分析的準確性。實驗結(jié)果表明,該框架的填補平均準確率約為85%,而相較于均值填補方法,其準確率提升約10.2百分點。在稀疏數(shù)據(jù)集上均取得顯著的提升效果,為稀疏數(shù)據(jù)處理提供了新的解決方案。
關(guān)鍵詞:生成對抗網(wǎng)絡(luò)(GAN);數(shù)據(jù)填充;稀疏數(shù)據(jù)集
中圖分類號:TP399 文獻標志碼:A
0 引言(Introduction)
在當今數(shù)據(jù)驅(qū)動的時代,數(shù)據(jù)的質(zhì)量對于機器學習和數(shù)據(jù)分析任務的成敗有著至關(guān)重要的影響。然而在實際應用中,數(shù)據(jù)分析經(jīng)常會遇到數(shù)據(jù)稀疏的問題,即數(shù)據(jù)集中存在大量的缺失值或未觀測到的數(shù)據(jù)。這種情況在醫(yī)療、社交及金融數(shù)據(jù)等領(lǐng)域尤為常見,嚴重影響數(shù)據(jù)分析和模型訓練的準確性。
為解決數(shù)據(jù)稀疏問題,傳統(tǒng)的數(shù)據(jù)填充方法如均值填充、中位數(shù)填充或最近鄰填充[1-2]等,雖然簡單易行,但是無法捕捉到數(shù)據(jù)的復雜分布和潛在結(jié)構(gòu),導致填充效果不盡如人意[3]。近年來,隨著深度學習技術(shù)的飛速發(fā)展,尤其是生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的出現(xiàn),為數(shù)據(jù)填充提供了新的思路。為了提高數(shù)據(jù)填充的準確性,在傳統(tǒng)GAN 的基礎(chǔ)上,結(jié)合數(shù)據(jù)掩碼(Masking)機制和判別器輔助任務,生成對抗填充網(wǎng)絡(luò)(Generative Adversarial Imputation" Networks,GAIN)被提出。
1 方法論(Methodology)
1.1 數(shù)據(jù)填充問題的背景
在許多實際應用場景中,收集到的數(shù)據(jù)常常存在缺失,這對后續(xù)的數(shù)據(jù)分析和模型訓練造成了不利的影響。處理稀疏數(shù)據(jù)集中的缺失值是一項關(guān)鍵挑戰(zhàn),傳統(tǒng)的方法如均值填充、插值法和最近鄰填充等,在應對高維數(shù)據(jù)和復雜模式時效果有限[4]。為解決這一難題,生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)提供了一種強有力的工具,可以通過生成樣本來填補缺失數(shù)據(jù)。
通過這種方式,判別器不僅能評估數(shù)據(jù)的真實性,還能評估數(shù)據(jù)的完整性,從而更精確地指導生成器提高生成數(shù)據(jù)的質(zhì)量。這種方法能夠有效地增強生成器在填補缺失數(shù)據(jù)方面的性能。
1.4 其他數(shù)據(jù)填充模型
除了生成對抗網(wǎng)絡(luò),變分自編碼器(Variational Autoencoder,VAE)也值得深入探討,它通過巧妙地學習數(shù)據(jù)的潛在分布,實現(xiàn)了高效的數(shù)據(jù)生成[5]。自回歸模型(Autoregressive Model)則通過精確建模數(shù)據(jù)的條件分布,為缺失值的填充提供一種有效的方法[6]。此外,基于圖的模型(Graph Vbased Model)亦不容忽視,它充分利用數(shù)據(jù)的圖結(jié)構(gòu)特性,實現(xiàn)了精準的數(shù)據(jù)填充[7]。這些模型各具特色,在不同的數(shù)據(jù)集和應用場景下各有優(yōu)勢,因此它們不僅可以作為生成對抗網(wǎng)絡(luò)的有益補充,而且還提供了豐富的對比實驗材料,有助于更全面地評估不同數(shù)據(jù)填充方法的性能。
1.5 模型優(yōu)化與參數(shù)調(diào)整
為了提高模型的性能,必須對生成對抗網(wǎng)絡(luò)及其變種模型進行細致的參數(shù)調(diào)整和優(yōu)化。在這一過程中,對學習率的調(diào)整顯得尤為重要,可以采用學習率調(diào)度器或自適應學習率優(yōu)化器(如廣泛使用的Adam優(yōu)化器)對學習步長進行動態(tài)調(diào)整,確保訓練過程的穩(wěn)定性和收斂速度。此外,為了防止模型過擬合,研究人員廣泛應用了正則化技術(shù),如L2正則化、Dropout等,它們能夠有效地提升模型的泛化性能[8]。同時,數(shù)據(jù)增強技術(shù)作為一種強有力的手段,通過生成更多的訓練樣本,進一步提升了數(shù)據(jù)的多樣性,從而進一步增強了模型的泛化能力。這些優(yōu)化方法和技術(shù)的綜合運用,對于提升GAN及其變種模型的性能至關(guān)重要。
1.6 實驗環(huán)境與工具
為全面驗證生成對抗填充網(wǎng)絡(luò)在稀疏數(shù)據(jù)集上的優(yōu)越性能,本研究在統(tǒng)一且配備高性能硬件的計算環(huán)境中進行了詳盡的實驗。選擇Python作為編程語言,在深度學習框架方面選用TensorFlow和PyTorch。實驗所依賴的硬件環(huán)境包括具備CUDA兼容性的NVIDIAGPU,利用并行計算顯著提升了模型訓練的效率;配備了高性能CPU和大容量內(nèi)存,以應對數(shù)據(jù)預處理和大規(guī)模數(shù)據(jù)集加載的需求。在軟件環(huán)境方面,采用了穩(wěn)定可靠的Linux操作系統(tǒng),并配置一系列數(shù)據(jù)處理和可視化工具,包括NumPy、Pandas、Scikit-learn及Matplotlib等。為確保實驗的可重復性和結(jié)果的準確性,本研究遵循了嚴格的實驗步驟:從數(shù)據(jù)預處理開始,通過清洗、標準化和歸一化等操作準備好數(shù)據(jù)集;根據(jù)方法論構(gòu)建GAIN模型,并利用優(yōu)化算法對其進行訓練;在模型評估階段,采用多種評估標準來全面衡量模型的填補效果,并與傳統(tǒng)方法和其他先進模型進行了性能對比。
2 實驗設(shè)計與數(shù)據(jù)集(Experimental design and datasets)
2.1 數(shù)據(jù)集的選擇與預處理
本研究選用了中國社會經(jīng)濟調(diào)查中的居民收入數(shù)據(jù)集,該數(shù)據(jù)集常用于經(jīng)濟學和社會學研究,具有較高的應用價值和代表性。數(shù)據(jù)集包含50000個樣本和12個屬性,目標是預測居民的年收入是否超過150000元。居民收入數(shù)據(jù)集屬性描述如表1所示。
數(shù)據(jù)預處理是實驗設(shè)計的關(guān)鍵步驟,它能確保模型高效且準確地處理數(shù)據(jù)。數(shù)據(jù)預處理主要包括以下幾個階段。
(1)數(shù)據(jù)清洗
在實際數(shù)據(jù)集中,常常存在缺失值、異常值及不一致的數(shù)據(jù)格式。因此,需要對數(shù)據(jù)集進行清洗。
①缺失值處理:檢查每個屬性的缺失情況,數(shù)據(jù)集缺失值統(tǒng)計如表2所示。對于缺失值比例較高的屬性(如職業(yè)類別、職業(yè)和原籍),保留這些缺失值,用于后續(xù)的填補實驗。
②異常值檢測與處理:使用箱線圖和Z分數(shù)法檢測數(shù)值型屬性中的異常值,對極端值進行適當處理或標記。
③數(shù)據(jù)一致性檢查:確保類別型屬性的一致性,統(tǒng)一屬性值的命名格式,例如將性別屬性中的“男”和“女”統(tǒng)一為小寫形式。
(2)數(shù)據(jù)標準化和編碼
為適應模型的輸入要求,需要對數(shù)據(jù)進行標準化和編碼。
①數(shù)值型屬性標準化:對數(shù)值型屬性(如年齡、最終權(quán)重、受教育年數(shù)、資本收益、資本損失、每周工作小時數(shù))進行標準化處理,將數(shù)據(jù)縮放到均值為0、標準差為1的范圍內(nèi)。
②類別型屬性編碼:使用獨熱編碼(One-Hot Encoding)將類別型屬性轉(zhuǎn)換為數(shù)值格式。職業(yè)類別屬性獨熱編碼示例如表3所示,獨熱編碼后生成7個二進制屬性。
(3)數(shù)據(jù)集劃分
為全面評估模型的性能,將數(shù)據(jù)集劃分為訓練集、驗證集和測試集。
①訓練集:用于模型訓練,占總數(shù)據(jù)的60%。
②驗證集:用于調(diào)參和模型選擇,占總數(shù)據(jù)的20%。
③測試集:用于最終模型評估,占總數(shù)據(jù)的20%。
劃分過程采用隨機抽樣的方法,確保各個子集數(shù)據(jù)分布的一致性。
(4)數(shù)據(jù)增強
為進一步提升模型的泛化能力,采用數(shù)據(jù)增強技術(shù)對訓練數(shù)據(jù)進行擴展。
①噪聲注入:在數(shù)值型屬性中添加隨機噪聲,以提高模型的魯棒性。
②類別平衡:對類別不平衡的屬性進行過采樣或欠采樣,以平衡各類別的樣本數(shù)量。
通過以上詳細的數(shù)據(jù)預處理步驟,可以確保數(shù)據(jù)集的質(zhì)量和適用性,為后續(xù)的實驗設(shè)計和模型訓練提供了堅實的基礎(chǔ)。
2.2 實驗設(shè)計與實驗組設(shè)置
本實驗旨在評估生成對抗填充網(wǎng)絡(luò)(GAIN)在填補居民收入數(shù)據(jù)集中缺失值的有效性。實驗設(shè)計包括多個實驗組,以全面分析不同模型和參數(shù)設(shè)置對數(shù)據(jù)填補效果的影響。
2.2.1 實驗組設(shè)置
為驗證GAIN模型的優(yōu)越性,設(shè)置多個實驗組,每個實驗組對應不同的填補方法和模型配置。具體的實驗組設(shè)置如下。
(1)基準組(Baseline)
使用常見的缺失值填補方法,如均值填補(Mean Imputation)和最近鄰填補(K-Nearest Neighbors" Imputation,KNN)。這些方法作為對比基礎(chǔ)。
(2)傳統(tǒng)方法組
①均值填補(Mean Imputation):用每個屬性的均值填補缺失值。
② 中位數(shù)填補(Median Imputation):用每個屬性的中位數(shù)填補缺失值。
③最近鄰填補(KNN Imputation):使用最近的k 個鄰居的值進行填補。
(3)深度學習方法組
①自編碼器填補(Autoencoder Imputation):訓練自編碼器模型生成缺失值。
②變分自編碼器填補(Variational Autoencoder,VAE):使用VAE進行數(shù)據(jù)填補。
③生成對抗填充網(wǎng)絡(luò),為本實驗的主要方法,使用GAIN 模型進行數(shù)據(jù)填補。
2.2.2 GAIN模型參數(shù)設(shè)置
GAIN模型的參數(shù)設(shè)置如下。
(1)GAIN-1:學習率(Learning Rate)為0.001,批量大?。˙atchSize)為64,生成器和判別器的隱藏層神經(jīng)元數(shù)量均為128。
(2)GAIN-2:學習率(Learning Rate)為0.0005,批量大?。˙atchSize)為128,生成器和判別器的隱藏層神經(jīng)元數(shù)量均為256。
(3)GAIN-3:學習率(Learning Rate)為0.0001,批量大?。˙atchSize)為32,生成器和判別器的隱藏層神經(jīng)元數(shù)量均為64。
2.2.3 實驗步驟
首先,對數(shù)據(jù)進行預處理,包括數(shù)據(jù)清洗、標準化和編碼處理,并將數(shù)據(jù)集劃分為訓練集(60%)、驗證集(20%)和測試集(20%)。其次,在訓練集上對各種模型進行訓練,同時在驗證集上對超參數(shù)進行調(diào)整,確保結(jié)果的穩(wěn)定性和可靠性,并且對每個實驗組都進行多次實驗[9]。最后,使用均方誤差(MSE)、均絕對誤差(MAE)和填補準確率等評估指標,對不同模型的填補效果進行全面的比較。
通過以上實驗設(shè)計與實驗組的設(shè)置,本文將全面評估GAIN模型在填補居民收入數(shù)據(jù)集中缺失值的性能,并與其他傳統(tǒng)和深度學習方法進行性能對比,為實際應用中的數(shù)據(jù)填補提供有力的理論和實踐支持。
2.3 評估標準與期望結(jié)果
為了全面評估生成對抗填充網(wǎng)絡(luò)在填補居民收入數(shù)據(jù)集中缺失值的效果,本研究采用多種評估標準,從不同角度衡量填補數(shù)據(jù)的質(zhì)量。具體評估標準和期望結(jié)果如下。
2.3.2 期望結(jié)果
(1)低MSE和MAE:期望GAIN模型在MSE和MAE兩項評估標準上表現(xiàn)優(yōu)異,相較于傳統(tǒng)方法(如均值填補、中位數(shù)填補、KNN填補)和其他深度學習方法(如自編碼器填補、VAE填補),能夠?qū)崿F(xiàn)更低的誤差水平。
(2)高填補準確率:期望GAIN模型在類別型屬性的填補準確率上表現(xiàn)出色,顯著高于傳統(tǒng)方法和其他深度學習方法的填補準確率。高準確率表明GAIN模型能有效地捕捉數(shù)據(jù)的類別分布,并且能準確填補缺失類別。
(3)數(shù)據(jù)分布一致性:期望GAIN模型填補后的數(shù)據(jù)在分布上與原始數(shù)據(jù)的分布保持一致。通過可視化分析發(fā)現(xiàn),填補后的數(shù)據(jù)應在各個屬性上呈現(xiàn)出與填補前相似的分布特性,以確保數(shù)據(jù)填補過程的合理性。
(4)魯棒性和泛化能力:期望GAIN模型在不同缺失值比例和不同數(shù)據(jù)集上的填補效果展現(xiàn)出良好的魯棒性和泛化能力。通過在驗證集和測試集上的多次實驗驗證,確保了模型填補效果的穩(wěn)定性和一致性。
評估標準期望結(jié)果如表4所示。
通過以上評估標準和期望結(jié)果的設(shè)定,可以全面衡量GAIN模型在居民收入數(shù)據(jù)集缺失值填補方面的性能表現(xiàn),并為其在實際應用中的推廣提供理論和實踐支持。
3 結(jié)果與分析(Results and analysis)
表5展現(xiàn)了均值填補、中位數(shù)填補、KNN填補、自編碼器填補、變分自編碼器VAE和GAIN模型在均方誤差(MSE)、均絕對誤差(MAE)和填補準確率(Imputation Accuracy)3項評估標準上的性能表現(xiàn)與比較結(jié)果。
從表5中的數(shù)據(jù)可以看出,GAIN模型在所有評估標準上均表現(xiàn)優(yōu)異,具有最低的MSE和MAE以及最高的填補準確率,顯著優(yōu)于其他傳統(tǒng)方法和深度學習方法的指標數(shù)據(jù)。
4 討論(Discussion)
本研究通過一系列實驗,評估不同缺失值填補方法在居民收入數(shù)據(jù)集上的性能表現(xiàn),重點分析了生成對抗填充網(wǎng)絡(luò)(GAIN)的優(yōu)勢與局限性。
4.1 GAIN模型的優(yōu)勢
(1)高精度填補效果:GAIN模型在均方誤差(MSE)、均絕對誤差(MAE)和填補準確率等指標上均表現(xiàn)優(yōu)異,顯著高于傳統(tǒng)填補方法(如均值填補和KNN填補)以及其他深度學習方法(如自編碼器和變分自編碼器)的相關(guān)指標數(shù)據(jù)。這一結(jié)果表明,GAIN模型能有效地捕捉數(shù)據(jù)的復雜模式,并能生成高質(zhì)量的填補數(shù)據(jù)。
(2)處理高維數(shù)據(jù)的能力:GAIN模型能夠處理高維數(shù)據(jù)且在不同屬性上均表現(xiàn)出色。在處理包含多種類別型和數(shù)值型屬性的居民收入數(shù)據(jù)集時,GAIN模型展現(xiàn)出了較強的魯棒性和適應性。
4.2 GAIN模型的局限性
(1)計算復雜性和訓練時間:GAIN模型的訓練過程需要調(diào)節(jié)生成器和判別器之間的博弈關(guān)系,導致計算開銷較大且訓練時間較長。相比之下,傳統(tǒng)方法(如均值填補)計算簡單、速度較快。因此,在實際應用中,需要根據(jù)具體需求在模型精度和計算資源之間做出權(quán)衡。
(2)超參數(shù)調(diào)節(jié):GAIN模型的性能對超參數(shù)(如學習率、批量大小、生成器和判別器的結(jié)構(gòu)等)的設(shè)置高度敏感,因此選擇合適的超參數(shù)組合對于模型性能的提升至關(guān)重要,但這也增加了模型調(diào)參的復雜性和難度。本研究通過驗證集上的實驗對超參數(shù)進行了調(diào)整,但需要注意的是,這種調(diào)整不能保證在所有的數(shù)據(jù)集上都取得最佳效果。
(3)對數(shù)據(jù)分布的依賴:盡管GAIN模型能夠很好地捕捉數(shù)據(jù)的復雜模式,但是其填補效果依賴于訓練數(shù)據(jù)的分布。當數(shù)據(jù)分布發(fā)生顯著變化或存在極端值時,GAIN模型的填補效果可能會受到影響。因此,在應用GAIN模型進行數(shù)據(jù)填補時,需要確保訓練數(shù)據(jù)具有足夠的代表性和多樣性。
5 結(jié)論(Conclusion)
本研究旨在探索生成對抗填充網(wǎng)絡(luò)(GAIN)在稀疏數(shù)據(jù)集中的缺失值填補性能。通過對居民收入數(shù)據(jù)集進行實驗與分析,驗證GAIN模型在填補缺失值方面的優(yōu)越性,尤其在均方誤差(MSE)、均絕對誤差(MAE)及填補準確率等評估標準上顯著優(yōu)于傳統(tǒng)方法和其他深度學習方法。
研究結(jié)果表明,GAIN模型不僅能夠生成高質(zhì)量的填補數(shù)據(jù),而且還能夠保持填補前后數(shù)據(jù)分布的一致性。這一特性在實際應用中尤為重要,特別是對于需要保留數(shù)據(jù)原始分布特性和復雜模式的場景。盡管GAIN模型在計算復雜性和超參數(shù)調(diào)節(jié)方面面臨一定的挑戰(zhàn),但是其在處理高維數(shù)據(jù)和復雜模式時展現(xiàn)出的優(yōu)勢為其廣泛應用提供了有力支持。
未來的研究可以進一步優(yōu)化GAIN模型,探索混合填補策略、多任務學習和遷移學習等方法,以提高模型的泛化能力和計算效率。同時,需要在更多實際應用場景中驗證和調(diào)整GAIN模型,以確保其在各種數(shù)據(jù)集和應用環(huán)境中的適用性和有效性。
作者簡介:
王碩(1996-),女(漢族),鐵嶺,助教,碩士。研究領(lǐng)域:不完整數(shù)據(jù)的聚類研究。