999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強學習標簽相關性的多標簽特征選擇方法

2024-08-17 00:00:00滕少華盧建磊滕璐瑤張巍
計算機應用研究 2024年7期

摘 要:針對現有多標簽特征選擇方法存在的兩個問題:第一,忽略了學習標簽相關性過程中噪聲信息的影響;第二,忽略探索每個簇的綜合標簽信息,提出一種增強學習標簽相關性的多標簽特征選擇方法。首先,對樣本進行聚類,并將每個簇中心視為一個綜合樣本語義信息的代表性實例,同時計算其對應的標簽向量,而這些標簽向量體現了每個簇包含不同標簽的重要程度;其次,通過原始樣本和每個簇中心的標簽級自表示,既捕獲了原始標簽空間中的標簽相關性,又探索了每一個簇內的標簽相關性;最后,對自表示系數矩陣進行稀疏處理,以減少噪聲的影響,并將原始樣本和每個簇代表性實例分別從特征空間映射到重構標簽空間進行特征選擇。在9個多標簽數據集上的實驗結果表明,所提算法與其他方法相比具有更好的性能。

關鍵詞:多標簽學習; 特征選擇; 標簽相關性; 聚類

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)07-022-2079-08

doi:10.19734/j.issn.1001-3695.2023.11.0550

Multi-label feature selection method with enhanced learning of label correlations

Abstract:Aiming at two problems of existing multi-label feature selection methods: first, ignoring the influence of noise information in the process of learning label correlations; second, neglecting to explore the comprehensive label information of each cluster, the paper proposed a multi-label feature selection method that enhanced label correlation learning. Initially, it clustered the samples and treated each cluster center as a representative instance of the comprehensive semantic information of the samples, while computing its corresponding label vectors which reflected the importance of different labels contained in each cluster. Then, through the label-level self-representation of the original samples and the center of each cluster, it both captured the label correlations in the original label space, and explored the label correlations within each cluster. Finally, the self-representation coefficient matrix was sparse to reduce the effect of noise, and the original sample and the representative instance of each cluster were mapped from the feature space to the reconstructed label space for feature selection. Experimental results on nine multi-labeled datasets show that the proposed algorithm has better performance compared with other methods.

Key words:multi-label learning; feature selection; label correlation; clustering

0 引言

隨著計算機和通信技術的飛速發展,多標簽數據集在不同領域有著廣泛的應用,如文本挖掘[1]、圖像識別[1,2]、蛋白質功能檢測[3]和信息檢索[4]等。這些數據集為機器學習和模式識別提供了豐富的研究數據源。在傳統的單標簽監督學習中,每個實例只與一個類標簽相關聯。然而,在真實世界的場景中,往往會涉及與多個語義相關聯的實例[5]。例如,一份報告可能有多個主題,包括時尚、經濟和體育;一首音樂可以表達多種情緒,包括悲傷、平靜和孤獨。因此,現有的多標簽學習方法的目的是在訓練實例和相應的標簽集之間學習一個合適的映射函數,以便通過映射函數預測新實例中不可見的多個標簽[6]。然而,在現實世界中,多標簽數據集的特征表示通常具有高維性,并且容易受到噪聲和冗余信息的影響[7]。這些因素不僅會增加計算和存儲需求,還會對學習模型的分類性能產生不利影響,因此帶來了巨大挑戰[7]。

在高維數據處理領域,有特征提取和特征選擇兩種降維方法[8]。特征提取通常會產生新的特征,而特征選擇不會改變數據的原始表示,其目的是獲取一個特征子集來表示原始數據[9~11]。因此,本文將重點放在特征選擇上。一般來說,關于特征選擇的研究可分為基于過濾的、基于包裝的和基于嵌入的方法三類[12,13]?;谶^濾的方法用于生成特征子集,而不依賴于任何特定的學習算法。這些方法通過采用不同的評估標準來評估特征的相關性,包括卡方統計、互信息和樣本距離[14]。然而,過濾的方法無法為特定的學習任務選擇信息量最大的特征?;诎b的方法使用進化算法來搜索最佳特征子集,這種模型容易出現過擬合問題,還會產生巨大的計算成本[15]。基于嵌入的方法通過同時訓練模型和選擇特征,提供了一種獨特的解決方案[16]。它們直接利用從模型訓練中得到的特征系數矩陣來確定特征的排序,從而獲得高效的執行和出色的分類性能[16]。因此,本文重點討論嵌入式方法。

對于設計多標簽特征選擇方法,探索標簽相關性是至關重要的,因為可以捕獲非對稱的標簽關系[17]。在圖1中,顯示了一個非對稱的標簽關系例子。圖(a)有“樹”標簽,也可能帶有“天空”標簽。然而,圖(b)帶有“天空”標簽,但不一定帶有“樹”標簽。因此,一些現有方法利用標簽相關性設計多標簽特征選擇方法,取得不錯的成果。例如,Li等人[18]提出了一種具有兩種標簽相關性的魯棒多標簽特征選擇方法。Fan等人[19]提出了一種基于標簽相關性和特征冗余的新的多標簽特征選擇方法,將低維嵌入用于挖掘標簽相關性,這樣可以保持原始標簽空間的全局和局部標簽結構。

然而,現有的多標簽特征選擇方法[10,13,18]在探索標簽相關性時仍存在一些問題,進而導致模型學習效率降低。第一,忽略了學習標簽相關性過程中噪聲信息的影響。在原始標簽空間中往往包含噪聲信息,如果直接利用標簽集中的數據來探索標簽與標簽之間的關系,會影響標簽相關性的探索,導致產生一些不必要的依賴關系,降低模型的學習效率。在這里,通過一個例子說明在探索標簽相關性時處理噪聲影響的必要性。假設大部分實例都同時具有“標簽1”與“標簽2”,則本文認為“標簽1”與“標簽2”相關程度較高。由于人工過失,將個別實例的“標簽2”標記為“標簽3”,則本文認為“標簽3”為噪聲信息,“標簽1”與“標簽3”為不必要的標簽依賴關系。如果不對上述情況作出處理,則會產生錯誤傳播,即認為“標簽1”與“標簽3”存在相關性。第二,忽略探索每個簇的綜合標簽信息,僅在原始標簽空間中探索標簽相關性,無法挖掘更深層次的標簽信息。直接利用原始標簽數據,往往探索的是一個標簽與其他所有標簽的關系,無法描述一個局部區域內標簽之間的關系。而高度相關的標簽共用同一個特征子集,有利于提高特征選擇的效率,因此,需要挖掘更深層次的標簽信息,更好捕獲標簽與標簽之間的關系。

為此,本文利用數據增強技術和標簽級自表示模型,探索了不同標簽之間的相關性。針對上述第二點問題,本文對樣本進行聚類形成多個簇,則每個簇的中心可以看作是每個簇的綜合信息實例,并假設其對應的特征向量和標簽向量是簇中所有樣本向量的平均值。每個簇中心的標簽向量則反映了一個簇中每個標簽的重要程度。然后,通過樣本和每個簇的綜合信息實例的標簽級自表示,既可以探索原始標簽空間中的標簽相關性,又可以探索了每個簇內重要標簽的相關性。此外,針對上述第一點問題,本文對自表達系數矩陣施加2,1范數約束,確保每個標簽由與其最相關的標簽表示,以減少噪聲信息產生的不利影響。最后,設計了一種交替最小化方法來求解目標函數。綜上所述,本文的主要貢獻如下:

a)對樣本聚類,并將每個簇的中心視為一個綜合信息實例,以簇中所有樣本向量的平均值作為綜合信息實例的特征向量和標簽向量。

b)引入樣本和綜合信息實例的標簽級自表示,既捕獲了原始標簽空間中的標簽相關性,又探索了每個簇內的標簽相關性。

c)對標簽級自表示系數矩陣施加2,1范數約束,增進每個標簽與其最相關的標簽之間的關系,以減少噪聲信息產生的不利影響。

d)設計了一種具有收斂性證明的優化方案求解目標函數,并通過多重綜合實驗證明了該方法的優越性。

1 相關工作

1.1 多標簽學習

近年來,許多成熟的多標簽學習方法被提出?,F有的多標簽學習方法包括三種不同探索標簽相關性的策略[19]。一階策略是將多標簽數據轉換為單標簽數據,從而利用傳統的單標簽算法,例如BR算法[20]可以對多標簽分類問題進行變換。然而,這類方法忽略了標簽相關性,而標簽相關性對研究工作至關重要。因此,一些方法引入了二階策略,主要側重探索標簽之間的成對相關性。例如,Huang等人[21]使用標簽級正則化約束來考慮成對的標簽相關性。盡管這些方法取得一些進步,但現實世界的多標簽數據集往往包含的實例與多個標簽相關聯,顯然標簽之間的相關性超過成對關系。因此,一些方法引入了高階策略,通過探索多個標簽之間的相關性來解決這一問題。例如,分類器鏈(CC)[22],另一種高階方法LEAD利用標簽依賴性,通過使用貝葉斯方法來學習多標簽數據[18]。

此外,本文還回顧了一些通過探索標簽相關性而設計的具有代表性和影響力的多標簽特征選擇方法。Hu等人[23]介紹了一種稱為共享共模多標簽特征選擇(SCMFS)的方法,該方法利用耦合矩陣分解(CMF)來提取特征矩陣和標簽矩陣之間的共享共模。這種方法結合了來自兩個矩陣的綜合數據信息,提高了特征選擇性能。Fan等人[24]開發了一種名為基于局部判別模型和標簽相關性的多標簽特征選擇的算法。該方法考慮實例的相鄰實例,為實例構建局部聚類,并全局集成局部判別模型來評估所有實例的聚類性能。Li等人[25]提出了具有動態局部和全局結構保持的魯棒稀疏和低冗余多標簽特征選擇方法,該特征選擇方法使用圖結構以保持全局標簽相關性和動態局部標簽關聯。該方法的目標函數包括范數和內積正則化項,以實現高行稀疏性和低冗余特征選擇。值得注意的是,上述大多方法局限于從給定的訓練樣本中探索標簽相關性,無法探索每個簇蘊涵的標簽信息。

1.2 數據增強

數據增強[26]是一種在機器學習任務中廣泛使用的技術,它的目的是在原始訓練集上應用一些轉變,來綜合創建新的樣本,以擴大訓練集。用于圖像分類任務的傳統數據增強技術通常通過翻轉、扭曲、添加少量噪聲或從原始圖像中裁剪一個補丁,從原始訓練數據中生成新的樣本[26]。除了傳統的數據增強技術之外,簡單配對法也是一種數據增強方法[27],隨機選擇兩個樣本(xa,ya)和(xb,yb),然后通過((xa+xb)/2, ya)或者((xa+xb)/2,yb)隨機生成一個新的樣例。這種方法通過關注兩個實例來產生新的實例,雖然取得不錯的效果,但如何從多個樣本中產生新的實例,以及如何應用生成的新實例提高多標簽學習的性能仍然具有挑戰性。Shu等人[27]提出對原始樣本進行聚類,并將聚類中心作為虛擬樣本。然后,在同一聚類中的例子具有相同標簽的假設下,他們提出了一個新的正則化術語來彌補實例和虛例之間的差距,從而提高學習函數的局部平滑性。然而,該方法忽略了探索標簽相關性。因此,本文利用數據增強技術生成每個簇的綜合代表實例,在探索原始樣本的標簽相關性之余,還探索了每個簇內的標簽相關性,并用標簽相關性重構標簽空間,以提高多標簽模型的學習性能。

2 研究方法

對于一個多標簽數據集{(x1,y1),…,(xn,yn)},假設特征

所提方法工作原理分為兩個基本步驟,包括生成每個簇中心對應的特征向量、標簽向量和多標簽特征選擇模型訓練。因此,所提方法按照以下兩個部分介紹:a)首先使用K-means方法對原始樣本進行聚類,并將每個簇中心視為對應簇的綜合代表實例。b)探索原始樣本與每個簇中心的標簽相關性,并重構標簽空間,以進行特征選擇。

2.1 生成每個簇中心對應的特征向量和標簽向量

聚類技術被廣泛應用于數據分析,本文采用常用的K-means算法。如圖2所示,通過對原始樣本聚類,并將每個簇的中心作為一個綜合代表的實例。假設原始樣本可以被劃分為q個不相交的簇{C1,C2,…,Cq},如果第j個實例被劃分為第i個簇,則xj∈Ci。通常,每個簇的中心是簇的一個代表性實例,因此其語義可以是簇中所有樣本的語義平均值。假設hi表示Ci簇中心對應的特征向量,可以表示為

其中:Ci表示第i個簇包含的樣本個數。同樣地,每個簇中心的標簽語義可以是簇中所有實例的標簽語義的平均值。假設ti表示Ci簇中心對應的標簽信息,則ti應為Ci中所有樣本的平均標簽向量,可以表示為

這樣可以得到一個簇中心集合{(hi,ti),…,(hq,tq)},在這里,可以通過一個具體例子說明這種數據增強方法的優勢。假設一個簇里面包含三個樣本(xa,ya),(xb,yb)和(xc,yc),其

2.2 構建多標簽特征選擇模型

嶺回歸是一種無偏差的最小二乘法,通常用于處理機器學習的一些基本任務,包括分類、降噪、降維等[28]。將傳統的嶺回歸應用于多標簽特征選擇,其一般形式如下:

其中:λ1是超參數,控制每個簇的綜合代表實例(即簇中心)對特征選擇W學習的貢獻。由于簇中心是每個簇的綜合代表實例,用其訓練模型會增大每個簇對應特定特征的選擇權值,從而提高模型學習性能。但是,式(5)在帶有噪聲和冗余信息的原始標簽空間中進行特征選擇,會降低了算法的學習性能。因此,需要利用標簽相關性來重建標簽空間,以更好進行特征選擇。

從實例級的自表示模型得到啟發,類似地,每個標簽也可以用其他標簽進行表示,從而探索一個標簽和其他標簽之間的關系。因此,可以得到改進后的標簽級自表示模型如下:

從而探索一個標簽和其他標簽之間的關系),以互補原始數據探索的標簽相關性。則其表達式為

結合式(6)(7),本文探索標簽相關的表達式為

這樣,既探索了原始標簽空間中的標簽相關性,又探索了每個簇內的標簽相關性,充分捕獲了標簽信息。然而原始標簽空間中往往包含噪聲信息,會導致在探索標簽相關性時,產生不必要的關系依賴。為此,本文通過對自表示系數矩陣施加2,1范數,確保每個標簽由與其最相關的標簽表示,以減少噪聲信息的影響。則式(8)可以改寫為

其中:λ3是正則化參數。結合式(5)(9),利用標簽相關性重構原始標簽空間,得到新的標簽空間,然后通過特征矩陣投影到標簽重構矩陣,以進行特征選擇。另外,對W和Z施加非負約束,以保證數據的非負性。因此,最終的目標函數構造如下:

其中:‖XW-YZ‖2F為原始樣本從特征空間映射到重建的標簽空間以進行特征選擇;‖HW-TZ‖2F為每個簇中心從特征映射到標簽,以加強每個簇的標簽對應特定特征的選擇;‖YZ-Y‖2F和‖TZ-T‖2F為原始樣本和簇中心的標簽級自表達(即一個標簽由其他標簽進行表示,從而探索一個標簽和其他標簽之間的關系),分別探索了原始標簽空間中的標簽相關性和每個簇內的標簽相關性;‖Z‖2,1為避免學習標簽相關性過程中噪聲信息的影響;λ1是超參數,控制每個簇的綜合代表實例(即簇中心)對特征選擇W學習的貢獻;λ2正則化參數,調節原始樣本和每個簇的綜合代表實例的標簽級自表示對多標簽學習模型的影響;λ3與λ4是正則化參數。

2.3 優化模型

在本節中,給出關于目標函數式(10)的優化方案證明。目標函數有兩個優化目標W和Z,以及對W和Z施加2,1范數的非光滑性,本文采用交替優化的方法來求解。

對于上述目標函數的迭代更新方法包含以下兩個子問題。

子問題1 固定Z,更新W。

當固定Z時,獲得只關于W的函數,可以表示為

根據拉格朗日定理,將約束條件Wij≥0整合到Θ(W),可以得到拉格朗日函數如下:

根據Karush-Kuhn-Tucker條件[18],ΦijWij=0,可得

(XTXW-XTYZ+λ1HTHW-λ1HTTZ+2λ4UW)ijWij=0(15)

最后,得到W的更新規則:

子問題2 固定W,更新Z。

當固定W時,可以獲得只關于Z的函數,可以表示為

同樣地,根據拉格朗日定理,將約束條件Zij≥0整合到Θ(Z),可以得到拉格朗日函數如下:

根據Karush-Kuhn-Tucker條件,ΨijZij=0,可得

最后,得到Z的更新規則:

重復交替更新W和Z變量的值,直到目標函數收斂,最后計算‖Wi·‖2。本文算法流程如算法1所示。

算法1 所提方法的優化算法

算法1偽代碼如下:

3 實驗

將本文算法與其他五種先進的多標簽特征選擇方法進行比較,九個數據集的實驗結果表明本文算法具有更好的學習性能,下面將描述實驗詳細過程。

3.1 實驗數據

在本節中,將描述相關的實驗數據集。采用從Mulan Library獲取的九個不同領域的多標簽數據集。 這些數據集包括各種領域,如音頻、音樂、圖像、生物學和文本,為評估提供了不同的數據。表2給出了關于所選數據集的詳細信息。

3.2 實驗設置

為了與其他方法進行比較,本文使用Hamming loss,ran-king loss,average precision,Macro-F1和Micro-F1來評估本文算法的性能。從解釋上看,Hamming loss和ranking loss的值越小,說明分類性能越好,最佳值為0,意味著完美分類。相反,average precision,Macro-F1和Micro-F1的值越大,表示分類性能越好,最佳值為1,表示理想的分類結果。

為了確保公平性和可比性,本文在{0.01,0.1,0.3,…, 0.9,1.0}的范圍內調整方法的正則化參數。

實驗采用如下五種多標簽特征選擇方法作為對比算法:

a)MIFS[29]。基于流形框架探索標簽相關性,以確保結構性。參數α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內進行調參。

b)SCMFS[23]。它通過耦合矩陣因式分解建立共享的共同模型。參數α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內進行調參。

c)MDFS[30]。它探索流形結構下的局部標簽相關性和全局標簽相關性。參數α設為1,其余參數β和γ在{0.01,0.1,1,…,10,100}內進行調參。

d)MRMD[28]。提出一種新的多標簽特征選擇方法,它有效地結合了流形正則化和依賴性最大化。參數α設為1,其余參數β和γ在{0.01,0.1,1,…,10,100}內進行調參。

e)LMFS[10]。結合邏輯回歸、流形學習和稀疏正則化,構建了多標簽特征選擇的聯合框架。參數α,β和γ在{0.001,0.01,0.1,1,10,100,1000}內進行調參。

為了評估所有競爭方法的性能,本文使用ML-KNN(K=10) 作為統一分類器來測試它們所選的特征,并采用五倍交叉驗證來記錄每個多標簽數據集的平均性能。

3.3 實驗結果與分析

本節將展示和分析所有實驗結果,在所有使用的數據集中使用了最優排序前20%的特征。表3~7描述了所有算法在每個評估指標下的結果。為了更清楚地突出實驗結果,對每個數據集的最佳結果都采用了粗體字。此外,在最后一行中,計算了在數據集上的性能排名平均值。

從表3~7可知,本文算法在各項評價指標上的表現總體優于其他比較算法。在表3中,本文算法在9個數據集中的6個數據集上獲得了最佳結果,并且在所有數據集上都優于PUM、MIFS和SCMFS。在數據集arts和birds上,本文算法的性能僅次于MRMD。在表4中,本文算法在6個數據集上取得最佳結果,在其他數據集上也取得中等以上的排名。在表5中,除了數據集birds和business,本文算法在其他數據集上都取得最佳結果或次優結果。在表6中,除了數據集arts和yeast,本文算法在其他數據集上都取得最佳結果或次優結果。在表7中,本文算法在6個數據集上取得最佳結果,另外在數據集education上性能效果欠佳。

為了更好地觀察各種多標簽特征選擇算法在Hamming loss、ranking loss、average precision、Macro-F1和Micro-F1指標下的性能曲線,本文給出emotions和image兩個數據集的指標趨勢圖。對于每個數據集,所選特征的數量設置為前{1%,2%,3%,…,20%}個特征。如圖3、4所示,隨著所選特征數量的增加,所有算法的學習性能都會發生變化。

在所有數據集中,本文算法的學習性能首先隨著所選特征的增加而提高,最后趨于穩定。這表明該算法是一種有效的多標簽特征選擇算法??傮w而言,無論選擇的特征數量如何,本文方法在所有數據集上都優于大多數比較算法。

接下來,通過消融研究,分析本文算法引入簇中心探索標簽相關性和增強模型學習的效果。通過目標函數式(10)去除有關簇中心部分,來驗證該部分模型學習的性能。因此,可以得到消融實驗的目標函數為

式(22)去除了簇中心特征選擇和簇中心探索標簽相關性部分,選取Hamming loss、Macro-F1和Micro-F1三個指標與本文算法進行對比。實驗結果如表8所示,在三個指標下,本文算法在多數數據集上的結果都優于消融實驗。這表明,引入簇中心探索標簽相關性對訓練多標簽模型起著重要的作用。

此外,本文還統一使用前20%的特征多標簽學習的特征子集,系統分析本文算法與比較算法之間的相對性能。與其他算法類似,使用弗里德曼檢驗[31]進行相對性能分析。表9描述了每個評價度量的弗里德曼統計量FF和相應的臨界值??梢钥闯?,在顯著水平α=0.05的情況下,每個度量都明確地否定了所有算法都具有相同性能的假設。因此,可以通過事后檢驗[32]來分析本文算法與比較算法之間的相對性能。

出,本文算法與MIFS、SCMFS這兩種算法有顯著的不同。在大部分評價度量下,與LMFS也有顯著的差異。另外,本文算法與MDFS、MRDM沒有顯著的差異,但在每個評價指標中排名第一。

綜合上述所有實驗結果,本文算法具有比競爭方法更好的學習性能。從原理上看,本文算法與流形框架下探索標簽相關性設計的算法(MIFS、MDFS、MRMD、LMFS)相比,避免使用低質量的圖探索局部標簽相關性,而是通過數據增強技術,對樣本聚類,將每個簇的中心視為綜合代表實例,而這些實例的標簽向量恰恰能體現每個簇所包含標簽的重要程度。通過原始樣本和每個簇綜合代表實例共同學習特征選擇函數,又能增強每個簇對應特定特征的選擇權重。其次,本文算法通過改進的自表示模型探索標簽相關性,更重要的是,通過稀疏標簽相關性矩陣,避免了原始空間中的噪聲信息帶來的影響,進而提高模型的精度。

最后,為了驗證本文算法在實例上的應用結果,采用南京大學機器學習與數據挖掘研究所公開的自然圖像數據集(https://www.lamda.nju.edu.cn/data_MIMLimage.ashx),并利用分類指標評判本文算法的性能。該圖像庫共2 000張,分為desert(沙漠)、mountains(山脈)、sea(海洋)、sunset(日落)和trees(樹木)五種類別。這些圖像以單一標簽、兩個標簽以及三個標簽的形式存在,分別包含了1 543張、442張和15張。在圖6,本文給出部分樣本的分類結果,根據預測結果,除了圖(k)(q)外,預測結果與圖像的真實標簽相匹配,表明本文算法是一種有效的多標簽特征選擇算法。對于一些無法準確預測真實標簽的情況,如圖(k)預測多了sea標簽,原因可能是由于該圖片包含mountains與sea或sunnet與sea共用特征子集中的特征,從而導致預測時關聯的兩個標簽同時出現;而對于另一種情況,如圖(q)未能預測到desert標簽,原因可能是該類型的標記圖像數量過少,模型沒有很好地學習到該特征。

4 結束語

基于數據增強技術,本文提出標簽相關性增強的特征選擇算法。本文算法旨在利用數據增強技術生成每個簇的綜合代表實例,擴充多標簽數據集,進而用于探索標簽相關性和優化模型學習。具體來說,通過原始樣本聚類,將每個簇的中心作為綜合代表實例,這些簇中心對應的標簽向量自然體現了簇內包含不同標簽的重要程度。將原始樣本和每個簇綜合代表實例同時進行標簽級自表示,并對自表示系數矩陣進行稀疏處理,避免原始標簽空間中噪聲信息帶來的影響。該算法既捕獲了原始標簽空間中的標簽相關性,又探索了每個簇內標簽相關性。同時,又處理了傳統算法因為噪聲信息而產生不必要的標簽依賴問題。與近幾年的五種算法在九個數據集上進行實驗對比,實驗結果表明本文算法的學習性能有優勢。在未來將關注利用因果機制探索標簽相關性,進而設計性能更好的特征選擇方法。

參考文獻:

[1]Tang Bo, Kay S, He Haibo. Toward optimal feature selection in naive Bayes for text categorization[J]. IEEE Trans on Knowledge and Data Engineering, 2016,28(9): 2508-2521.

[2]Ma Zhigang, Nie Feiping, Yang Yi, et al. Web image annotation via subspace-sparsity collaborated feature selection[J]. IEEE Trans on Multimedia, 2012,14(4): 1021-1030.

[3]Li Yonghao, Hu Liang, Gao Wanfu. Multi-label feature selection via robust flexible sparse regularization[J]. Pattern Recognition, 2023, 134: 109074.

[4]Miri M, Dowlatshahi M B, Hashemi A. Evaluation multi label feature selection for text classification using weighted borda count approach[C]//Proc of the 9th Iranian Joint Congress on Fuzzy and Intelligent Systems. Piscataway,NJ:IEEE Press, 2022: 1-6.

[5]Li Junlong, Li Peipei, Hu Xuegang, et al. Learning common and label-specific features for multi-label classification with correlation information[J]. Pattern Recognition, 2022,121: 108259.

[6]Siblini W, Kuntz P, Meyer F. A review on dimensionality reduction for multi-label classification[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 33(3): 839-857.

[7]潘敏瀾, 孫占全, 王朝立,等. 結合標簽集語義結構的多標簽特征選擇算法[J]. 小型微型計算機系統, 2023, 44(1): 90-96. (Pan Minlan, Sun Zhanquan, Wang Chaoli, et al. Multi label feature selection algorithm based on semantic structure of label set[J]. Journal of Chinese Computer Systems, 2023, 44(1): 90-96).

[8]Liu Jinghua, Li Yuwen, Weng Wei, et al. Feature selection for multi-label learning with streaming label[J]. Neurocomputing, 2020, 387: 268-278.

[9]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with constraint regression and adaptive spectral graph[J]. Knowledge-Based Systems, 2021, 212: 106621.

[10]Zhang Yao, Ma Yingcang, Yang Xiaofei. Multi-label feature selection based on logistic regression and manifold learning[J]. Applied Intelligence, 2022, 52:9256-9273.

[11]Cheng Yusheng, Zhang Chao, Pang Shufang. Multi-label space reshape for semantic-rich label-specific features learning[J]. International Journal of Machine Learning and Cybernetics, 2022,13(6): 1-15.

[12]Teng Luyao, Feng Zhenye, Fang Xiaozhao, et al. Unsupervised feature selection with adaptive residual preserving[J]. Neurocompu-ting, 2019, 367: 259-272.

[13]Fan Yuling, Liu Jinghua, Liu Peizhong, et al. Manifold learning with structured subspace for multi-label feature selection[J]. Pattern Recognition, 2021, 120: 108169.

[14]Lim H, Kim D W. MFC: initialization method for multi-label feature selection based on conditional mutual information[J]. Neurocomputing, 2020, 382: 40-51.

[15]Tawhid M A, Ibrahim A M. Feature selection based on rough set approach, wrapper approach, and binary whale optimization algorithm[J]. International Journal of Machine Learning and Cyberne-tics, 2020, 11: 573-602.

[16]Hu Juncheng, Li Yonghao, Gao Wanfu, et al. Robust multi-label feature selection with dual-graph regularization[J]. Knowledge-Based Systems, 2020, 203: 106126.

[17]Kumar S, Rastogi R. Low rank label subspace transformation for multi-label learning with missing labels[J]. Information Sciences, 2022, 596: 53-72.

[18]Li Yonghao, Hu Liang, Gao Wanfu. Label correlations variation for robust multi-label feature selection[J]. Information Sciences, 2022, 609: 1075-1097.

[19]Fan Yuling, Chen Baihua, Huang Weiqin, et al. Multi-label feature selection based on label correlations and feature redundancy[J]. Knowledge-Based Systems, 2022, 241: 108256.

[20]Zhang Minling, Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Trans on Knowledge and Data Engineering, 2013, 26(8): 1819-1837.

[21]Huang Jun, Qin Feng, Zheng Xiao, et al. Learning label-specific features for multi-label classification with missing labels[C]//Proc of the 4th IEEE International Conference on Multimedia Big Data. Piscataway,NJ:IEEE Press, 2018: 1-5.

[22]Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85: 333-359.

[23]Hu Liang, Li Yonghao, Gao Wanfu, et al. Multi-label feature selection with shared common mode[J]. Pattern Recognition, 2020, 104: 107344.

[24]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with local discriminant model and label correlations[J]. Neurocomputing, 2021, 442: 98-115.

[25]Li Yonghao,Hu Liang,Gao Wanfu. Robust sparse and low-redundancy multi-label feature selection with dynamic local and global structure preservation[J]. Pattern Recognition, 2023, 134: 109120.

[26]Inoue H. Data augmentation by pairing samples for images classification[EB/OL]. (2018-04-11). https://arxiv.org/abs/1801.02929.

[27]Shu Senlin, Lyu Fengmao, Yan Yan, et al. Incorporating multiple cluster centers for multi-label learning[J]. Information Sciences, 2022, 590: 60-73.

[28]Huang Rui, Wu Zhejun. Multi-label feature selection via manifold regularization and dependence maximization[J]. Pattern Recognition, 2021, 120: 108149.

[29]Jian Ling, Li Jundong, Shu Kai, et al. Multi-label informed feature selection[C]//Proc of International Joint Conference on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann Publishers, 2016,16: 1627-1633.

[30]Zhang Jia, Luo Zhiming, Li Candong, et al. Manifold regularized discriminative feature selection for multi-label learning[J]. Pattern Recognition, 2019, 95: 136-150.

[31]Demar J. Statistical comparisons of classifiers over multiple data sets[J]. The Journal of Machine Learning Research, 2006, 7: 1-30.

主站蜘蛛池模板: 国产欧美自拍视频| 人与鲁专区| 日韩欧美视频第一区在线观看| 亚洲香蕉在线| 一本大道视频精品人妻 | 在线a网站| 亚洲午夜福利精品无码| 国产国拍精品视频免费看| av在线人妻熟妇| 中国国产高清免费AV片| 国产日韩丝袜一二三区| 最新日韩AV网址在线观看| 国产办公室秘书无码精品| 国产成人综合欧美精品久久| 在线无码av一区二区三区| 国产激情第一页| 国产福利免费视频| 婷婷六月综合网| AV不卡在线永久免费观看| 国产另类视频| 国产精品手机在线观看你懂的| 一本一道波多野结衣一区二区 | 亚洲VA中文字幕| 国产成人综合日韩精品无码不卡 | 欧美国产在线一区| 亚洲第一视频网站| 97se亚洲| 一级福利视频| 免费a级毛片18以上观看精品| 国产91全国探花系列在线播放| 在线欧美日韩| 99er精品视频| 国产麻豆va精品视频| 日韩免费视频播播| 亚洲自偷自拍另类小说| 成人国产小视频| 国产精品13页| 亚洲色图综合在线| 国产色婷婷| 天堂成人av| 18禁黄无遮挡网站| 免费AV在线播放观看18禁强制| 中文字幕欧美成人免费| 伊人福利视频| 国产swag在线观看| 国产午夜无码专区喷水| 91成人在线观看视频| 欧美一级在线| 超级碰免费视频91| 亚洲午夜国产片在线观看| 亚洲综合色吧| 午夜激情福利视频| 免费不卡在线观看av| 成人伊人色一区二区三区| 亚洲成人一区在线| 一级毛片免费播放视频| 日日噜噜夜夜狠狠视频| 91丝袜乱伦| 亚洲黄色成人| 久久午夜影院| 亚洲av无码专区久久蜜芽| 亚洲视频欧美不卡| 一级看片免费视频| 国产精品午夜福利麻豆| 日韩精品成人在线| 一级高清毛片免费a级高清毛片| 免费无码AV片在线观看国产| 欧美久久网| 亚洲妓女综合网995久久| 久久香蕉国产线看观看亚洲片| 99尹人香蕉国产免费天天拍| 国产精品一区在线麻豆| 国产成人凹凸视频在线| 国产在线麻豆波多野结衣| 欧美在线视频不卡第一页| 亚洲无码在线午夜电影| 日本一区二区三区精品国产| 三级毛片在线播放| 伊人91在线| 精品少妇三级亚洲| 日本在线免费网站| 久久综合色天堂av|