A semi-supervised classification model for fusion sample selection based on depth map
LI Shun-yong1'2,WEN Nan1, ZHAO Xing-wang3 (1.School of Mathematics and Statistics,Shanxi University,Taiyuan O3oo06,China; 2. Key Laboratory of Complex Systems and Data Science of Ministry of Education, Shanxi University,Taiyuan O3oo06,China; 3.School of Computer and Information Technology,Key Laboratory of Computational Intellgence and Chinese Information Processing of Ministry of Education,Shanxi University, Taiyuan O3ooo6,China)
Abstract: Traditional supervised learning requires a large number of labeled samples for model training,which makes it difficult to apply traditional supervised models to tasks lacking labeled samples.To address this issue,a semi-supervised classification model for fusion sample selection based on depth map(SSC_ FSSDM) is proposed. The model is divided into two parts: graph structure clustering and semi-supervised classification. In graph structure clustering,unlabeled samples are represented as high-quality graph structures using Laplace rank constraints,and the class information of labeled data is used as prior information to cluster the graph structures to obtain pseudo labels of unlabeled samples.A sample selection mechanism is used to select reliable samples from the pseudo labels,reducing the impact of noisy samples on model performance. In semi-supervised classification,reliable samples and their pseudo labels are used as inputs for deep learning to predict the labels of unlabeled samples in the original data. The performance of the SSC-FSSDM model was tested on three datasets, and various indicators showed that the SSC-FSSDM model outperformed other semi-supervised classification models.
Key words:sample selection; diagram structure; Laplace; clustering; semi-supervise
0 引言
在實際應用中,如文本分類、語音識別、電子郵件分類和計算機輔助醫(yī)療診斷,存在大量的未標記數(shù)據(jù)需要手工標記或者通過實驗獲取,此過程費時費力.充分利用這些未標記數(shù)據(jù)來完成最終的標簽預測是非常重要的,因此,半監(jiān)督學習得到了越來越多的關注.
半監(jiān)督學習介于無監(jiān)督學習和監(jiān)督學習之間,利用同時包含標簽和無標簽的數(shù)據(jù)來構建一個模型對未標記樣例進行標記,使得模型能在預測階段更好地泛化到“新\"數(shù)據(jù)。
學者們提出了大量的半監(jiān)督分類方法.現(xiàn)有的半監(jiān)督分類方法主要分為四大類:自訓練、協(xié)同訓練、生成模型以及基于圖的半監(jiān)督分類.基于圖的半監(jiān)督分類方法具有較好的魯棒性和靈活性,因此近年來受到越來越多的關注和研究.基于圖的半監(jiān)督分類方法主要分為兩大類:使用圖嵌入和拉普拉斯正則化,具體包括標簽傳播]、流行正則化[2]、深度半監(jiān)督嵌入[3]等.這些方法都需要進行隨機游走生成和半監(jiān)督訓練,未能減少噪聲樣本對模型性能的影響[4.因此,本文提出了樣本選擇的方法利用可信度高的樣本進行模型訓練,減少了噪聲樣本對半監(jiān)督分類模型性能的影響。
基于圖[5的技術通常能提高模型性能.構造一個圖來表示樣本數(shù)據(jù)之間的相似性以及樣本的特征,再利用光譜聚類算法或標簽傳播方法獲得最終的標簽.在這些方法中,圖結構的質(zhì)量會影響半監(jiān)督分類模型的性能[6].為解決這一問題,本文用拉普拉斯秩約束得到的優(yōu)質(zhì)圖結構表示樣本數(shù)據(jù),有效地學習樣本的局部與全局特征.
隨著機器學習與深度學習的發(fā)展,人們將分類任務與深度學習結合在一起. wu 等[8]引人了基于圖的神經(jīng)網(wǎng)絡進行節(jié)點分類的相關方法.大多數(shù)圖神經(jīng)網(wǎng)絡都是基于監(jiān)督學習或半監(jiān)督學習,依賴給定樣本的真實標簽作為輔助信息[9].深度圖聚類算法采用圖神經(jīng)網(wǎng)絡進行特征提取,然后與聚類算法協(xié)同完成最終的圖聚類任務.深度聚類是一種通過深度學習和聚類算法實現(xiàn)的無監(jiān)督學習算法.現(xiàn)有的一些算法中忽視了對聚類信息的利用,在基于圖的無監(jiān)督任務中利用聚類標簽做的工作相對較少.因此,為解決這一問題,本文將已知標簽數(shù)據(jù)的標簽類別作為先驗信息,對未標記數(shù)據(jù)進行聚類,再將聚類結果作為半監(jiān)督分類的輸入,有效地利用未標記數(shù)據(jù)以及聚類信息.
1 SSC_FSSDM模型
1.1基于圖的聚類
基于圖的聚類學習是對圖中的節(jié)點進行分類.傳統(tǒng)圖結構[10通過在損失函數(shù)中添加正則化來實現(xiàn).2019年,Ren等[11使用了一種新穎的基于圖的聚類模型,在模型中生成一個塊對角矩陣,此矩陣恰好具有C個對角塊,得到了一個具有C個連通分量的圖.而通過這個圖結構可以直接獲得數(shù)據(jù)的聚類結果.為了實現(xiàn)這種理想的聚類結構,在數(shù)據(jù)初始圖矩陣上施加拉普拉斯秩約束,從而保證恰好存在C個對角塊,從而得到一個具有C個連通分量的圖結構.
1.2 學習初始圖矩陣 S
給定數(shù)據(jù)點
,學習初始圖矩陣 s 的親和值[12],數(shù)據(jù)點 xi 和 xj 之間較小的距離
對應較大的親和值 Sij .此外,設置 Sii=0
求矩陣 S 的問題轉(zhuǎn)化為:

的最優(yōu)解為:

1.3學習優(yōu)質(zhì)圖矩陣 U
得到初始圖矩陣 S 之后,對圖矩陣 S 進行拉普拉斯秩約束得到一個非負的歸一化相似矩陣 U
在此約束下,學習到的矩陣 U 具有恰當排列的塊對角線,對應的數(shù)據(jù)點直接劃分為C簇
若rank (LU)=n-c,c=r ,則對應的 U 直接劃分為C簇.添加秩約束問題轉(zhuǎn)化為:

s.t. (20
(204最優(yōu)解 ui* [13]可表示為:

式(4)中:
,
=1,表示拉格朗日乘數(shù).
F 的最優(yōu)解是由 LU 的C個最小特征值對應的C個特征向量組成.
1. 4 SSC_FSSDM模型
傳統(tǒng)的半監(jiān)督分類方法是利用少量的標記數(shù)據(jù)以及大量的未標記數(shù)據(jù)建立模型,存在噪聲樣本削弱了模型的性能.并且現(xiàn)有的一些深度聚類算法中利用聚類標簽做的工作相對較少.為了有效地學習樣本的局部與全局特征,利用未標記樣本以及聚類信息減少噪聲樣本對模型性能的影響,本文提出了融合樣本選擇的深度圖半監(jiān)督分類模型(Asemi-supervised classification model for fusionsample selection based on depth map,SSC_FSS-DM)見圖1所示.

SSC- FSSDM模型分為兩部分進行.第一部分基于圖的聚類,針對未標記樣本數(shù)據(jù)得到的圖結構進行聚類分析,得到每個類的中心以及對應的偽標簽,采用其樣本偽標簽來輔助模型訓練.執(zhí)行聚類任務時,聚類任務中偽標簽的生成不依賴于標記數(shù)據(jù).第二部分用一種樣本選擇機制從未標記樣本及其偽標簽中選擇出可信度高的樣本,然后將選擇出的樣本及其偽標簽傳遞到半監(jiān)督任務中進行模型訓練.在第二部分中,主要使用圖神經(jīng)網(wǎng)絡模型訓練,具體是將一些樣本的偽標簽引入模型訓練,優(yōu)化模型的特征提取能力,提高最終模型的預測效果.
模型在第一部分聚類分析中用圖來表示數(shù)據(jù)的結構信息.先利用1.2節(jié)的方法學習初始圖矩陣S ,再將已標記數(shù)據(jù)劃分的簇類數(shù)作為先驗信息,用1.3節(jié)的方法在矩陣 s 基礎上進行拉普拉斯秩約束得到一個塊對角矩陣 U 矩陣 U 恰好具有C個連通分量,可以將樣本數(shù)據(jù)劃分為C簇(其中C是通過已標記數(shù)據(jù)獲得的簇類數(shù)).
并不是所有從聚類中獲得的偽標簽都是正確的.假設隨機選擇一些樣本及其偽標簽作為輸人,將其傳遞給半監(jiān)督分類任務進行學習,這種情況下,模型可能會受到一些噪聲數(shù)據(jù)的影響,從而削弱了半監(jiān)督模型的性能.本文采用一種樣本選擇機制來解決這一問題.從巨大的數(shù)據(jù)集中選擇一些可信度高的樣本及其偽標簽進行半監(jiān)督訓練.這樣可以充分利用聚類信息,同時減少噪聲數(shù)據(jù)對半監(jiān)督分類任務的影響.模型的第二部分采用的樣本選擇機制:通過比較每個樣本與聚類中心的距離來判斷聚類得到的偽標簽的可靠性,將樣本與聚類中心的距離和距離閾值進行比較,決定是否丟棄一些樣本及其偽標簽.樣本越接近聚類的中心,樣本屬于這一類的概率就越大,反之概率則越小.通過樣本選擇機制選擇出各簇中偽標簽可信度高的樣本,將其擴展到標記數(shù)據(jù)集,然后進行迭代訓練優(yōu)化模型,以協(xié)助半監(jiān)督分類任務并提高模型的性能.距離聚類中心近的樣本的偽標簽往往具有較高的可信度并且包含更少的噪聲,利用這些樣本及其偽標簽來訓練半監(jiān)督模型,減少了噪聲數(shù)據(jù)對模型性能的影響.一些被丟棄的樣本將在半監(jiān)督任務的監(jiān)督訓練中重新獲得新的標簽.
SSC_FSSDM模型對初始圖矩陣 S 進行拉普拉斯秩約束得到優(yōu)質(zhì)圖結構 U ,此圖結構 U 將數(shù)據(jù)劃分為C個不相交的簇(C為簇類數(shù)).利用圖聚類得到聚類中心及偽標簽,再通過樣本選擇機制選擇出部分標簽可信度高的樣本[14及其偽標簽,將其引入GNN模型中進行標簽預測[15].方法中的偽標簽生成不依賴于標記數(shù)據(jù). SSC- FSSDM模型的偽代碼如下:
輸入:輸人數(shù)據(jù)X;距離閾值.
輸出:未標記數(shù)據(jù)的標簽,(1)通過式(2)學習初始圖矩陣S.
(2)通過式(4)優(yōu)化矩陣 U ,將數(shù)據(jù)劃分為C簇.
F 的最優(yōu)解由 LU 的C個最小特征值對應的C個特征向量組成.
(3)利用聚類方法獲得樣本的偽標簽及各簇的聚類中心.
通過計算各樣本到各簇類中心的距離,并與距離閾值進行比較選出可信度高的樣本,
(4)將可信度高的樣本及其樣本的偽標簽輸入GNN模型中預測出原始樣本中未標記數(shù)據(jù)的標簽.
SSC_FSSDM模型選擇出標簽可信度高的樣本進行模型訓練,減少了噪聲樣本對模型性能的影響,優(yōu)化了最終模型的預測結果.樣本選擇機制選擇更接近聚類中心的樣本,樣本屬于這一類的概率更大.其余樣本在半監(jiān)督任務中重新獲得新的標簽.
2數(shù)據(jù)集
本文選取3個數(shù)據(jù)集Cora[16]、Citeseer[16]和Wiki[16] 進行對比分析,數(shù)據(jù)集見表1所示.

Cora包含了來自7個班級的2708篇機器學習論文,每個文檔都由一個1433維的二進制向量來描述,表示相應單詞的存在;Citeseer包含了來自6個類的3312個出版物,每篇論文都由一個3,703維的二進制向量來描述.Cora和Citese-er中的文檔是由標題和摘要生成的短文.停止單詞和所有文檔頻率小于10的單詞都將被刪除;Wiki包含了來自19個類的2,405個文檔和它們之間的17,981個鏈接,此數(shù)據(jù)集的TFIDF矩陣有4,973列.
3基準方法和評估指標
將SSC_FSSDM模型與K-means 算法[17]、圖自動編碼器(GAE)[18]、變分圖自動編碼器(VGAE)[19]、對抗性正則化圖形自動編碼器(ARGE)[20]、深度注意嵌入式聚類(DAEGC)[21]、鄰接共享嵌人圖自動編碼器(EGAE-JICAS)[22]、自適應圖卷積(AGC)[23]及變分圖嵌入進行圖聚類(GC-VGE)[24]進行比較.
采用正確率(ACC)和歸一化互信息(NMI)等2個評價指標進行有效性評估.


本文提出的 SSC- FSSDM模型與基準的半監(jiān)督分類算法都作用于Cora、Citeseer以及Wiki數(shù)據(jù)集上,比較其ACC和NMI值,ACC和NMI值越接近于1表示模型更優(yōu).
3.1 SSC_FSSDM模型性能評估
隨機選擇部分樣本作為標記數(shù)據(jù),重復20次,實驗的均值作為最后的結果.將基準算法K-Means、GAE、VGAE、ARGE、DAEGC、EGAE-JI-CAS及GC-VGE與本文提出的SSC_FSSDM模型作用在Cora和Citeseer和Wiki數(shù)據(jù)集上,實驗結果見表2所示.從表2中可以看出, SSC- FSS-DM模型在3個數(shù)據(jù)集上的ACC與NMI值均高于其他半監(jiān)督分類算法,體現(xiàn)了提出的 SSC- FSS-DM模型優(yōu)異的分類性能.3個數(shù)據(jù)集上的實驗結果折線圖如圖2、圖3及圖4所示,從圖2、圖3及圖4中亦可看出在數(shù)據(jù)集上 SSC- FSSDM模型的性能明顯高于其它幾個半監(jiān)督分類算法.




本文提出的SSC_FSSDM模型中,對初始圖矩陣S進行拉普拉斯秩約束后得到一個優(yōu)質(zhì)的圖結構U,此圖結構U將數(shù)據(jù)集劃分為C簇.為了驗證拉普拉斯秩約束是否能生成更準確反映原始數(shù)據(jù)結構的圖結構,比較SSC_FSSDM模型中執(zhí)行拉普拉斯秩約束與未執(zhí)行拉普拉斯秩約束的ACC和NMI值,觀察拉普拉斯秩約束是否影響模型的性能.分別在執(zhí)行拉普拉斯秩約束與未執(zhí)行秩約束的情況下在數(shù)據(jù)集Cora、Citeseer、Wiki上進行實驗.實驗的ACC和NMI值如圖5所示.從圖5可明顯地看出,在原始圖結構數(shù)據(jù)上執(zhí)行拉普拉斯秩約束后得到的分類結果優(yōu)于未執(zhí)行拉普拉斯秩約束的分類結果.分類結果表明經(jīng)過拉普拉斯秩約束后的圖結構更能表現(xiàn)出原始數(shù)據(jù)的復雜結構,

3.3選擇可靠樣本對模型性能的影響
SSC_FSSDM模型是基于樣本選擇進行半監(jiān)督分類,為了觀察選擇可靠樣本是否對模型的性能有影響.比較SSC_FSSDM模型中選擇可信度高的樣本或選擇全部樣本的ACC和NMI值,觀察樣本的選擇是否影響模型的性能.通過圖結構U得到可信度高的樣本及其偽標簽后,分別將各數(shù)據(jù)集的全部樣本或可靠樣本作為GNN模型的輸入,觀察模型的性能.在數(shù)據(jù)集Cora、Citeseer和Wiki上的ACC和NMI值如圖6所示.從圖6可看出,選擇可靠樣本比選擇全部樣本的結果更優(yōu),由此可見選擇可信度高的樣本更能代表原始數(shù)據(jù)并且減少噪聲樣本對模型的影響.

3.4可靠樣本的比例對模型性能的影響
SSC_FSSDM模型選擇可信度高的樣本減少了噪聲樣本對模型性能的影響,但是不知道具體選擇出多少比例的樣本更優(yōu)于模型的性能.所以在進行樣本選擇時,通過比較選擇不同比例樣本時的ACC和NMI值來觀察當選擇多少比例樣本時模型的性能最優(yōu).實驗的ACC和NMI值如圖7所示.

從圖7可以看出,當選擇距離各簇聚類中心最近的 40% 樣本作為可信度高的樣本作為GNN模型的輸入時,模型的性能最優(yōu).選擇 10% 或 100% 比例的數(shù)據(jù)作為模型的輸入,模型性能明顯低于選擇 40% 樣本時的模型性能.當選擇 10% 的樣本時,少量數(shù)據(jù)不能很好地表現(xiàn)出原始數(shù)據(jù)的結構,影響了模型的性能.當選擇 100% 的數(shù)據(jù)時,將所有數(shù)據(jù)作為模型的輸入,增加了噪聲樣本對模型性能的影響.所以本文選擇了使用 40% 的樣本作為可信度高的樣本作為模型的輸人進行標簽的預測.
4結論
通過對初始圖矩陣 s 進行拉普拉斯秩約束學習到一個更具有信息性和可鑒別性的優(yōu)質(zhì)圖U.將原始數(shù)據(jù)根據(jù)已標記數(shù)據(jù)的類別數(shù)量將數(shù)據(jù)劃分為C簇.在以上劃分的基礎上進行聚類,得到未標記數(shù)據(jù)的簇類中心及偽標簽.再分別計算出未標記樣本到各簇類中心的距離,將距離與距離閾值進行比較,選擇大于距離閾值的樣本數(shù)據(jù)作為可信度高的樣本.選擇可信度高的樣本及其偽標簽作為GNN的輸人,預測出原始數(shù)據(jù)中未標記數(shù)據(jù)的標簽.選擇可信度高的樣本作為輸人可以減少噪聲樣本對分類性能的影響.
SSC_FSSDM模型在單視圖上表現(xiàn)出了優(yōu)異的性能.在現(xiàn)實生活中,同一事物或?qū)ο蟠嬖诓煌嵌群筒煌緩降拿枋鲂问剑@些不同的描述可構成多視圖.對多視圖間相互關系建模與挖掘,建立視圖間的正則化約束或依賴關系,可以有效增強學習系統(tǒng)的性能.
參考文獻
[1]Zoidi O,F(xiàn)otiadou E,Nikolaidis N,etal.Graph-based label propagation in digital media: A review[J]. ACM Computing Surveys (CSUR),2015,47(3) :1-35.
[2] Nusrat I,Jang S B. A comparison of regularization techniques in deep neural networks[J]. Symmetry,2018,10 (11):648-666.
[3] Lu X,Zhou Y,Wang Z,et al. Knowledge embedded semisupervised deep learning for detecting non-technical losses in the smart grid[J].Energies,2019,12(18):3:452- 3470.
[4]高飛,朱福利.基于樣本類別確定度的半監(jiān)督分類[J]. 北京航空航天大學學報,2018,44(9):1 941-1 951.
[5]蔣林,黎瑞金,曹非.基于陣列處理器的 SVDC算法并 行設計與實現(xiàn)[J].計算機應用與軟件,2023,40(10): 285-290.
[6]康昭,劉亮,韓蒙.基于轉(zhuǎn)換學習的半監(jiān)督分類[J]. 計算機研究與發(fā)展,2023,60(1):103-111.
[7]杜曉昕,王振飛,王波,等.基于卡方躍遷策略的黑蜘蛛 優(yōu)化算法及應用[J].陜西科技大學學報,2023,41(6): 162-175.
[8] Wu Z,Pan S,Chen F,et al. A comprehensive survey on graph neural networks[J]. IEEE Trans on Neural Networks and Learning Systems,202o,32(1) :4-24.
[9]朱玄燁,孔兵,陳紅梅,等.困難樣本采樣聯(lián)合對比增強 的深度圖聚類[J].計算機應用研究,2024,41(6):1-13.
[10]張云斌,張春梅,周千琪,等.基于 L~1 范數(shù)和k近鄰疊 加圖的半監(jiān)督分類算法[J].模式識別與人工智能,2016, 29(9):850-855.
[11] Ren P,Xiao Y,Chang X,et al. Structured optimal graphbased clustering with flexible embedding[J]. IEEE Trans on Neural Networks and Learning Systems,2019,31 (10):3 801-3 813.
[12] Wang H,Yang Y,Liu B,et al. A study of graph-based system for multi-view clustering[J].Knowledge-Based Systems,2019,163(1):1 009-1 019.
[13]NieF,WangX,JordanM,etal.The constrained laplacian rankalgorithm for graph-based clustering[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2016,30(1):1969-1 976
[14]紀霞,施明遠,周芃,等.自適應相似圖聯(lián)合優(yōu)化的多 視圖聚類[J].計算機學報,2024,47(2):310-322.
[15]王李祺,高翔,程蓉,等.基于注意卷積模塊的遙感圖 像場景分類應用[J].陜西科技大學學報,2023,41(2): 199-206.
[16]SenP,Namata G,Bilgic M,etal.Collective classification in network data[J].AI Magazine,2008,29(3):93-106.
[17]Kwedlo W.Aclustering method combiningdifferential e volution with the K-means algorithm[J].Pattern Recognition Letters,2011,32(12):1 613-1 621.
[18]Liao Y,WangY,Liu Y.Graph regularized auto-encoders forimage representation[J].IEEE Trans on Image Processing,2016,26(6):2 839-2 852.
[19]Choong JJ,Liu X,Murata T.Optimizing variational graph autoencoder for community detection with dual optimization[J].Entropy,2020,22(2):197-218.
[20]Lunardi W T,Lopez M A,GiacaloneJP.Arcade:Adversarially regularized convolutional autoencoder for network anomaly detection[J].IEEE Trans on Network and ServiceManagement,2023,20(2):1 305-1 318.
[21]Peng Z,Liu H,Jia Y,et al. Deep attention-guided graph clustering with dual self-supervision[J]. IEEE Trans on Circuits and Systems for Video Technology,2023,33 (7):3 296-3 307.
[22] Pan S,Hu R,F(xiàn)ung S,et al. Learning graph embedding with adversarial training methods[J].IEEE Transon Cybernetics,2019,50(6):2 475-2 487.
[23]Zhu D,Chen S,Ma X,et al.Adaptive graph convolution usingheat kernel for attributed graph clustering[J].Applied Sciences,2020,10(4):1 473-1 486.
[24]AhmadiM,SafayaniM,Mirzaei A.Deep graph clustering via mutual information maximization and mixture model [J].Applied Sciences,2022,10(5):05 168-05 179
【責任編輯:蔣亞儒】