999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多標簽特征選擇研究進展

2022-08-09 05:43:56周慧穎汪廷華張代俐
計算機工程與應用 2022年15期
關鍵詞:分類特征方法

周慧穎,汪廷華,張代俐

贛南師范大學 數(shù)學與計算機科學學院,江西 贛州 341000

傳統(tǒng)的監(jiān)督分類解決了一個實例只有一個標簽的問題,將其視為單標簽分類,包括二分類和多類情況。然而,在許多實際情況中,一個實例可能同時與多個標簽關聯(lián)[1]。例如,一幅畫可以屬于政治,也可以屬于宗教或者是地方?jīng)_突[2]。這種學習任務稱為多標簽分類[3-4]。

在過去,多標簽分類的主要動機是文本分類[5]。文本一般含有一個以上的概念類,例如一篇晚間新聞可以同時歸類為娛樂或者體育。如今,多標簽分類在生物信息學[6]、圖像標注[7]、視頻分類[8]、音樂分類[9]和語義場景分類[10]等方面得到了廣泛的運用,例如在圖像標注中,一個視頻片段可能與一些場景相關,如城市和建筑等。類似地,在音樂分類中,一首交響樂可能同時屬于多個類別。

在大數(shù)據(jù)時代,由于數(shù)據(jù)維度高、量級大和冗余特征多等特點,機器學習算法面臨的任務越來越復雜,為知識挖掘與發(fā)現(xiàn)帶來了諸多挑戰(zhàn),降低了數(shù)據(jù)價值密度,影響分類模型效率,易產(chǎn)生維數(shù)災難[11]。特征選擇是實現(xiàn)數(shù)據(jù)降維的有效手段之一。特征選擇基于某一評價標準,從原始數(shù)據(jù)集合中選擇出最優(yōu)的特征子集,使得分類器的性能得以保持甚至提高。在實際應用中,越多的特征可能導致數(shù)據(jù)收集成本越高,模型解釋難度越大,預測器的計算成本越高,有時泛化能力也會降低[12]。因此,在實際學習之前進行特征選擇是很重要的。

與單標簽學習一樣,多標簽數(shù)據(jù)通常具有數(shù)千甚至數(shù)萬個特征,圖像和文本尤其如此。例如,一個網(wǎng)頁或文件的集合選擇了數(shù)百萬信息詞匯來反映它們的主題。對于給定的學習任務,許多特征是冗余的、不相關的,這可能會給學習任務帶來很多缺陷,如計算量大、過擬合、性能差。為了解決這一問題,研究者們提出了多標簽特征選擇算法,以降低多標簽數(shù)據(jù)的維數(shù),提高分類學習的準確性,生成更緊湊、更泛化的分類模型。因此,多標簽特征選擇是模式識別、機器學習、數(shù)據(jù)挖掘等領域的重要研究課題,也是現(xiàn)在研究熱點之一。

1 知識基礎

1.1 特征選擇

特征選擇的目的是確定可用特征的子集,這是最有區(qū)別性和最具信息量的數(shù)據(jù)分析。在實際應用中,更多的特征可能與更高的數(shù)據(jù)收集成本、更困難的模型解釋、更高的預測器計算成本有關,有時還會降低泛化能力[12]。因此,在實際學習之前進行特征選擇非常重要。傳統(tǒng)上,特征選擇技術從不同角度有兩種分類方法[13]。一是根據(jù)分類問題中類別標簽等監(jiān)督信息的可用性,可分為有監(jiān)督、無監(jiān)督和半監(jiān)督三種方法。當有足夠的標簽信息可用時,監(jiān)督特征選擇起作用,而無監(jiān)督特征選擇算法不需要任何類標簽。半監(jiān)督特征選擇是監(jiān)督和無監(jiān)督方法之間的一種折衷,這種方法可以在標記數(shù)據(jù)有限的情況下同時利用有標記數(shù)據(jù)和無標記數(shù)據(jù)。二是根據(jù)選擇策略的不同,分為過濾式方法、包裹式方法和嵌入式方法。過濾式方法選擇特征子集作為預處理步驟,獨立于選擇的學習機器。包裹式方法利用所選預測器的學習性能來評估所選特征的質(zhì)量。嵌入式方法利用學習算法的內(nèi)在結(jié)構(gòu),將特征選擇嵌入到模型學習中[14]。

通常,特征選擇過程包括四個基本步驟[15],即子集生成、子集評估、停止準則和結(jié)果驗證。在第一步中,根據(jù)給定的搜索策略選擇候選特征子集,在第二步中根據(jù)一定的評價準則評價候選特征子集。在滿足停止準則后,從所有已評價的候選對象中選擇最適合評價準則的子集。在最后一步中,選擇的子集將使用領域知識或驗證集進行驗證。其中,子集生成實質(zhì)上是一個啟發(fā)式搜索的過程,搜索空間中的每個狀態(tài)指定一個候選子集進行求值。它包含了3個不同的策略,即完全搜索、順序搜索和隨機搜索。子集的優(yōu)劣總是由一定的準則決定的(即用一個準則選擇的最優(yōu)子集不一定是根據(jù)另一個準則選擇的最優(yōu)子集)。評價標準可以根據(jù)其對挖掘算法的依賴程度大致分為兩類,即獨立標準和依賴標準,最終這些算法將應用于選定的特征子集。生成程序和評價函數(shù)會影響停止標準的選擇。基于生成過程的停止準則包括:是否選擇了預定義的特征數(shù)量,以及是否達到預定義的迭代數(shù)量。基于評價函數(shù)的停止標準可以是,添加(或刪除)任何特征是否不會產(chǎn)生更好的子集;是否根據(jù)某個評價函數(shù)得到最優(yōu)子集。循環(huán)繼續(xù),直到滿足某個停止條件。通過向驗證過程輸出選定的特征子集,特征選擇過程停止。結(jié)果驗證的一種直接方法是使用數(shù)據(jù)的先驗知識直接度量結(jié)果。它試圖通過執(zhí)行不同的測試來測試選定子集的有效性,并將結(jié)果與先前建立的結(jié)果進行比較,或者與使用人工數(shù)據(jù)集、真實數(shù)據(jù)集或兩者的競爭特征選擇方法的結(jié)果進行比較。具體流程如圖1所示。

圖1 特征選擇框架Fig.1 Feature selection framework

1.2 多標簽分類

現(xiàn)有的多標簽分類方法大致可以分為兩大類[16]:(1)問題轉(zhuǎn)換法(problem transformation methods),即將多標簽分類問題轉(zhuǎn)化為一個或多個單標簽分類問題的方法。(2)算法適應法(algorithm adaptation methods),即通過采用擴展特定學習算法直接處理多標簽數(shù)據(jù)來解決多標簽學習問題。多標簽學習的任務是從多標簽訓練集D中學習一個函數(shù)h:X→2L。對于任何未知的實例E i(x i是一個d維特征向量,Y i是與x i相關的標簽集合),多標簽分類器h(·)預測h(x i)?L為x i的適當標簽集。為了便于參考,表1列出了本文中使用的主要符號及其數(shù)學含義。

表1 主要符號及其數(shù)學意義Table 1 Main symbols and their mathematical significance

1.2.1 問題轉(zhuǎn)換法

基于問題轉(zhuǎn)換策略的多標簽分類方法是將多標簽數(shù)據(jù)通過特定的過程分解為一個或多個單標簽數(shù)據(jù),并使用單標簽分類器進行分類。接下來,執(zhí)行與此相反的過程,將分類后的單標簽數(shù)據(jù)轉(zhuǎn)換為多標簽數(shù)據(jù)。

(1)二元關聯(lián)法(binary relevance,BR)。它是多標簽分類最常見的問題轉(zhuǎn)換方法。該方法將多標簽學習任務轉(zhuǎn)化為q個獨立的單標簽二元分類問題,其中一個為L中的標簽。換句話說,原始數(shù)據(jù)集被分解為q個數(shù)據(jù)集,其中包含所有實例原始數(shù)據(jù)集,如果原始實例的標簽包含y(正實例),則標記為y,否則標記為-y(負實例)。最后,為了對一個未知的多標簽實例進行分類,BR通過查詢每個單獨的二元分類器上的正標簽然后組合這些標簽來預測其關聯(lián)的標簽集Y。與其他多標簽方法相比,BR方法的優(yōu)點是計算復雜度低。對于一定數(shù)量的例子,BR與標簽集L的大小q成線性比例,因此,對于一般情況下q不是很大的情況,BR方法是非常合適的。然而,在不同的領域中可以找到大量的標簽,一些分治方法已經(jīng)被提出,將標簽組織成樹形層次結(jié)構(gòu),這樣就可以處理比q小得多的標簽集。

標準BR算法的主要缺陷有:(1)完全忽略了標簽間可能存在的相關性以及存在的冗余屬性;(2)可能會導致類別不平衡問題。為了克服該缺陷,研究者們提出了這種方法的不同變體,如文獻[17]提出了一種新的多標簽分類鏈接方法CC(classifier chain)和文獻[18]在分類器鏈的基礎上提出了一種基于樹型的標記依賴關系的分類器鏈算法TCC(tree-based classifier chain)。針對分類器鏈算法預測性能不足以及鏈序問題,文獻[19]提出了一種基于梯度提升的多標簽特征選擇算法。

(2)標簽冪集法(label powerset,LP)。這種方法將多標簽學習問題轉(zhuǎn)化為單標簽多類分類問題。其主要思想是把每個樣本所屬的標簽集Y i看作一個單標簽yY i,訓練集數(shù)據(jù)中出現(xiàn)的所有具有不同值的yY i組成一個單標簽集合LY,為了對未知的多標簽實例進行分類,LP首先查詢多類分類器的預測,然后將其映射回L的冪集,從而預測其關聯(lián)的標簽集Y。與BR不同,LP考慮了標簽之間的相關性,但隨著標簽的增加,新類的數(shù)量急劇增加,容易導致訓練階段的復雜度增加。在這些情況下,類的數(shù)量可能會變得非常大,同時許多類與很少的訓練示例相關聯(lián)。LP的另一個缺點是它只能預測以前出現(xiàn)在訓練集中的標簽集,不能推廣到外部的標簽集[20]。文獻[21]提出的多標簽分類方法即RAkEL(random k-labelsets)和文獻[22]提出的用于多標簽分類的廣義標簽集集成方法GLE(generalizedk-labelsets ensemble)克服傳統(tǒng)LP方法的缺點,減少類的數(shù)量,提高分類的性能。文獻[23]提出了一種基于剪枝的問題轉(zhuǎn)化法PPT(pruned problem transformation),這是對LP算法的一種改進,但這種不可逆的轉(zhuǎn)換可能會導致類信息的丟失。

1.2.2 算法適應法

這類算法通過采用流行的學習技術直接處理多標簽數(shù)據(jù)來解決多標簽學習問題,其核心是算法對數(shù)據(jù)的擬合。它包括Boosting算法、KNN(Knearest neighbor)算法、決策樹算法、神經(jīng)網(wǎng)絡算法、支持向量機(support vector machine,SVM)算法等。其中,Boosting算法較為代表性的算法是BoosTexter[24](a Boosting-based system for text categorization),它是對Boosting改進算法AdaBoost.MH和AdaBoost.MR進行的擴展。KNN是一種分類算法,對于每個測試樣本,首先在訓練數(shù)據(jù)中檢測出K個最近鄰,然后將測試樣本分配給其近鄰中最常見的一個類,其代表性算法為ML-KNN[25](a lazy learning approach to multi-label learning),它是基于不可見實例的相鄰實例的標簽集的統(tǒng)計信息,利用最大后驗準則來確定不可見實例的標簽集。張敏靈[26]針對其未充分考慮樣本多個標簽之間的相關性,提出了改進算法IMLLA(an improved multi-label lazy learning approach)。決策樹算法代表性算法為ML-DT[27](multilabel decision tree),它是在C4.5基礎上提出的一種允許葉節(jié)點使用多個標簽的算法。神經(jīng)網(wǎng)絡算法中較為代表性的有BP-MLL[8](back-propagation for multi-label learning)和MMP[28](multi-class multi-label perceptron)。BP-MLL是由流行的反向傳播算法推導出來的,它通過使用一個新穎的誤差函數(shù)來捕捉多標簽學習的特征;MMP是一組基于感知器的多標簽數(shù)據(jù)標簽排序的在線算法,它為每個標簽保留一個感知器,但每個感知器都必須執(zhí)行權(quán)重更新才能得到較好的標簽排序結(jié)果。SVM算法中較為代表性的有Rank-SVM[29],它通過最小化Ranking Loss,將SVM擴展到多標簽數(shù)據(jù)學習中;Xu[30]針對Rank-SVM缺乏檢測相關標簽的自然零點,提出了一種通過增加一個零標簽來定義一種新形式的排序損失和簡化Rank-SVM的原始形式的改進方法,它大大降低了計算成本。

1.2.3 評價準則

對于多標簽分類,有多個評價指標,本文主要介紹幾個經(jīng)典的評價指標[3]。這些度量通過分別評估學習系統(tǒng)在每個測試示例上的性能,然后返回整個測試集的平均值來工作。

(1)子集精度(subset accuracy)

其中,?·?如果·成立則返回1,否則返回0。子集精度評估正確分類的例子的比例,即預測的標簽集與原本真實的標簽集相同。直觀上,子集精度可以被視為傳統(tǒng)精度度量的多標簽對應指標,并且往往過于嚴格,特別是當標簽空間(即q)較大時。

(2)漢明損失(Hamming loss)

這里,Δ表示兩個集合的對稱差,|·|返回集合·的基數(shù)。漢明損失計算的是錯分類標簽的百分比,即與錯誤標簽相關聯(lián)的樣本或?qū)儆诓槐活A測的真實樣本的標簽。

(3)精度(accuracy),查準率(precision),查全率(recall),加強調(diào)和平均(Fβ)

此外,F(xiàn)β(h)檢測是Precision(h)和Recall(h)的綜合版本,具有β>0平衡因子,最常見的選擇是β=1,這會導致查準率和查全率的調(diào)和平均值。

(4)1-錯誤率(one-error rate)

1-錯誤率計算排名靠前的標簽不在相關標簽集中的例子的比例。

(5)覆蓋率(coverage rate)

其中,rank f(x,y)根據(jù)f(x,·)的降序返回y在L中的排序。覆蓋率計算平均需要沿著標簽列表向下走多遠才能覆蓋示例的所有相關標簽。

(6)排名損失(ranking loss)

其中,是Y的互補集。排名損失計算的是逆序標簽對的比例,即不相關標簽的排名高于相關標簽。

(7)平均精度(average precision)

平均精度評價的是排在某一特定標簽y∈Y i之上的相關標簽的平均分數(shù)。

對于上述度量(除平均精度和精度外),度量值越小,系統(tǒng)性能越好,覆蓋率最優(yōu)值為,1-錯誤率和排名損失最優(yōu)值則為0。對于平均精度和精度的多標簽度量,度量值越大,系統(tǒng)性能越好,最優(yōu)值為1。

2 多標簽特征選擇

不同于單標簽特征選擇,多標簽特征選擇所面臨的問題更多,比如數(shù)據(jù)樣本具有高維的特征,冗余、不相關的特征更多,此外每個特征與多個標簽相關聯(lián),標簽之間也存在一定的關聯(lián)性。而標簽的關聯(lián)性也使得多標簽特征選擇面臨著更多的可能和挑戰(zhàn)。根據(jù)特征選擇與分類器的關系,多標簽特征選擇可以分為基于過濾式的多標簽特征選擇,基于包裹式的多標簽特征選擇,基于嵌入式的多標簽特征選擇三種,如圖2所示。

圖2 多標簽特征選擇的分類Fig.2 Classification of multi-label feature selection

2.1 基于過濾式的多標簽特征選擇

特征選擇過程獨立于具體的學習算法,通過數(shù)據(jù)本身選擇最相關的特征,即基于數(shù)據(jù)的內(nèi)在屬性來評估特征,而不使用任何可以指導相關特征搜索的學習算法,特征選擇的過程與后序?qū)W習器無關。依照是否對多標簽數(shù)據(jù)集進行分解,可以進一步分為基于問題轉(zhuǎn)換的多標簽特征選擇和基于算法適應的多標簽特征選擇。

2.1.1 基于問題轉(zhuǎn)換的方法

主要思想:在使用問題轉(zhuǎn)換策略的多標簽特征選擇方法中,分解步驟類似于基于問題轉(zhuǎn)換的分類。這里,首先對單標簽數(shù)據(jù)應用合適的單標簽特征選擇方法,確定要選擇的顯著特征。然后在原始多標簽數(shù)據(jù)中選擇這些特征,并刪除其他特征。在這一步中,使用多標簽分類器來評估所選特征子集的性能。

針對1.2.1小節(jié)提出的BR未考慮標簽相關性[3]以及存在冗余屬性[31]的問題,文獻[32]提出基于標簽相關性和特征選擇的二元關聯(lián)算法FLBR(binary relevance with feature selection and label correlation)。該算法使用信息增益為每個標簽選擇與其相關的特征屬性,同時針對現(xiàn)有考察標簽相關性方法存在的冗余依賴和錯誤傳播問題,采用控制結(jié)構(gòu)的方式考察標簽相關性。文獻[33]提出了一種基于標簽空間相關性的改進分類器鏈算法LSCC(an improved multi-label classifier chain algorithm via label space correlation),用于處理大規(guī)模多標簽學習的特征選擇和標簽鏈序列優(yōu)化。同時,結(jié)合標簽空間降維與改進多標簽分類器鏈算法的優(yōu)勢,提出了一種基于LSCC的標簽空間降維算法。針對分類器鏈標簽排序是隨機決定的和所有標簽都是插入到鏈中的兩個問題,文獻[34]提出了一種帶有特征選擇的部分分類器鏈方法PCC-FS(partial classifier chain method with feature selection),該方法利用了標簽和特征空間之間的相關性,但該方法只使用了logistic回歸方法作為二分類器,未考慮其他二分類器。

基于1.2.1小節(jié)提出的LP方法中類別多、類別不平衡問題,文獻[35]提出一種利用互信息的多標簽特征選擇算法,首先應用PPT方法對問題進行轉(zhuǎn)化,然后以多維互信息作為搜索標準進行貪婪前向搜索策略,實驗驗證了該方法的有效性。文獻[36]提出了可擴展的Relief-F多標簽學習方法PPT-Relief-F,該方法首先使用PPT將多標簽問題轉(zhuǎn)換為單標簽問題,然后利用Relief-F算法為特征分配權(quán)重。

目前的基于問題轉(zhuǎn)換的多標簽特征選擇方法的局限性在于,它們需要一個預處理步驟,將多標簽問題轉(zhuǎn)換為單標簽問題,這個過程可能會導致后續(xù)問題。例如,如果轉(zhuǎn)換后的單標簽由太多的類組成,學習算法的性能可能會下降。此外,如果在轉(zhuǎn)換過程中發(fā)生信息丟失,特征選擇就不能考慮標簽關系。

2.1.2 基于算法適應的方法

在傳統(tǒng)的單標簽學習中,一個樣本只與預定義標簽中的一個相關聯(lián),而在多標簽學習中,一個樣本可能同時屬于多個標簽。高維樣本向量包含了一些不相關和冗余的特征,增加了計算復雜度,甚至降低了分類性能。目前,這一問題是通過特征選擇技術,從原始特征中選擇一個高度相關和低冗余特征的子集。而現(xiàn)有多標簽特征選擇算法大多僅僅考慮了特征間及特征與標簽的相關性,忽略了不同標簽之間的相關性。

(1)未考慮標簽間的相關性

過濾式特征選擇算法一般使用距離度量標準、相關性度量標準、一致性度量標準或信息度量標準來衡量特征與標簽之間的相關性,特征的冗余性,比如:ReliefF、互信息(mutual information,MI)、最大相關最小冗余(maximal relevance and minimal redundancy,MRMR)、Hilbert-Schmidt獨立性準則(Hilbert-Schmidt independence criterion,HSIC)等。不同評價標準可能獲得不同的最優(yōu)特征子集。

①使用ReliefF準則衡量特征與標簽相關性

通過對多標簽數(shù)據(jù)的研究,在傳統(tǒng)單標簽特征選擇算法ReliefF的基礎上,文獻[37]提出了一種用于多標簽圖像分類的特征選擇的ReliefF(multi-label ReliefF,ML-Relief F)和F統(tǒng)計量(multi-label F-statistic,MFstatistic)方法的擴展。但該模型只考慮了成對標簽之間的關聯(lián)度。馬晶瑩等人[38]提出了基于ML-ReliefF的特征選擇算法,并研究了最接近相似樣本和異構(gòu)樣本的搜索方法。Xie等人[39]提出了一種針對不平衡數(shù)據(jù)集的ML-Relief特征選擇算法來降低維度。然而,這些算法都有其不足之處。例如,冗余特征不能通過刪除低權(quán)重的特征來消除;在確定最近鄰樣本時,使用ML-ReliefF隨機選取的樣本較少,導致特征權(quán)重波動較大[38]。為了解決這些問題,文獻[40]在多標簽鄰域決策系統(tǒng)中提出了一種新的基于ML-ReliefF和鄰域互信息的多標簽特征選擇方法,該方法采用已知的相似樣本和非均勻樣本之間的平均距離來評價樣本之間的差異,但其需要耗費大量的時間且不能較好地平衡所選特征子集的大小和分類性能。文獻[41]提出了基于全局樣本相關性的改進ReliefF多標記特征選擇算法,但僅依靠特征與標簽之間的相關性選擇特征子集,忽略了標簽間的依賴關系,并且該算法只適合處理小規(guī)模數(shù)據(jù)集。Slavkov等人[42]將RReliefF算法用于回歸,提出了用于分層多標簽分類任務的HMC-ReliefF(ReliefF for hierarchical multilabel classification)算法,但沒有考慮不同類型的層次結(jié)構(gòu)。

基于ReliefF的多標簽特征選擇方法一般步驟是首先提出一種判斷樣本是否同類與異類的模型,并將其引入改進的ReliefF算法中用于判斷隨機樣本的近鄰同類和異類,然后用于多標簽數(shù)據(jù)集中給樣本賦權(quán)重,迭代更新權(quán)重,最后根據(jù)特征權(quán)重選擇特征子集。此類算法能夠有效地提高分類的性能,但樣本數(shù)量過少易導致權(quán)重的波動。其中,最優(yōu)方法可以解決不穩(wěn)定性以及預測精度低的問題,還可以解決采用ReliefF搜索最近樣本時可用隨機樣本少的問題,并且降低了計算復雜度,去除了冗余特征,提高了分類性能。

②使用MI衡量特征與標簽相關性

MI作為變量的依賴度量,可用于評估變量的關聯(lián)度,并測量一個變量與另一個給定變量之間減少的不確定性[43],例如兩組隨機變量A、B之間的MI定義如下:

其中,p(a,b)為A、B的聯(lián)合概率分布函數(shù),p(a)和p(b)分別是A、B的邊緣概率分布函數(shù)。

對于多標簽數(shù)據(jù)集,Lee等人[44]開發(fā)了一種使用多元互信息的多標簽特征選擇方法。Doquire等人[45]通過考慮標簽和特征之間的依賴性,為多標簽分類提供了一種基于MI的特征選擇方法。不幸的是,這兩種方法幾乎沒有處理選定特征和候選特征之間的條件冗余。Lin等人[46]提出了一種結(jié)合MI的基于最大依賴和最小冗余的多標簽特征選擇算法。但這種方法忽略了標簽之間的相關性。文獻[47]提出了一種簡單快速的多標記特征選擇方法EF-MLFS(easy and fast multi label feature selection)。該方法首先使用MI衡量每個維度的特征與每一維標記之間的相關性,實驗表明該方法具有良好的分類效果,且無需進行全局搜索,時間復雜度低。但它將冗余性去掉,只考慮了特征與標簽之間的相關性。而針對貪婪搜索和啟發(fā)式搜索方法會陷入局部最優(yōu)的缺點,Lim等人[48]于2017年提出的一種基于MI與凸優(yōu)化的方法,改進了以往基于啟發(fā)式搜索的特征選擇策略,在MRMR方法的基礎上利用MI計算相關性與冗余性,得到全局最優(yōu)解,但該方法需要計算所有的一階依賴關系,因此計算效率不高。針對高階特征相關性的低階近似度量缺乏理論基礎支撐的問題,文獻[49]提出了一種基于聯(lián)合互信息和交互權(quán)重的多標簽特征選擇方 法MFSJMI(multi-label feature selection method based on joint mutual information),但并沒有準確度量候選特征與已選特征關于標簽集合的冗余性。針對大多數(shù)研究沒有考慮到標簽的不平衡性,文獻[50]提出了一種基于標簽不平衡性的多標簽粗糙互信息特征選擇方法,實驗驗證了該算法的有效性,但該算法沒有考慮特征之間存在的冗余性。

有研究人員將MI推廣到模糊互信息上,文獻[51]提出了一種基于模糊互信息的多標簽特征選擇。它考慮的是連續(xù)數(shù)值的MI。在多標簽學習中,假設相關標簽均勻分布,會忽略了相關標簽之間的差異,導致監(jiān)督信息的丟失。文獻[52]針對此問題提出了一個基于標簽分布和模糊互信息的特征選擇算法。但上述算法大多沒有關注標簽之間的共現(xiàn)特性。為了解決這一問題,文獻[53]提出了基于標簽共現(xiàn)關系的多標簽特征選擇LC-FS(multi-label feature selection based on label co-occurrence relationship),該算法利用樣本標簽間的共現(xiàn)關系定義了特征與標簽之間的模糊互信息,并結(jié)合MRMR實現(xiàn)特征選擇。在5個公開數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明所提算法的有效性,但忽略了標簽間的相關性。

也有研究人員將MI推廣到條件互信息CMI(conditional mutual information)上,劉杰等人[54]提出一個新的基于條件相關性概念的條件相關特征選擇算法CRFS(condition relevance feature selection),驗證了條件相關性較傳統(tǒng)的相關性具有一定的優(yōu)勢,然而,隨著數(shù)據(jù)特征維數(shù)的不斷增加,數(shù)據(jù)間的關系變得越來越復雜,如何客觀、快速地找出數(shù)據(jù)間真實的關系仍是一項艱巨而緊迫的任務。程玉勝等人[55]提出利用CMI將專家特征與其他特征聯(lián)合并進行了相關性排序,去除冗余性較大的特征,提高算法的性能,但其存在專家特征的選取與個人選取的特征不一致的問題,從而造成結(jié)果存在一定的誤差。文獻[56]提出了一種新的基于CMI的過濾式特征選擇方法,該方法通過最大化逼近的全維CMI,并通過建立HSIC的關系,對其內(nèi)在的相關性最大化和冗余最小化的促進作用進行了定性驗證。實驗結(jié)果表明該方法在標簽預測方面具有優(yōu)勢。文獻[57]根據(jù)MRMR準則,采用類標簽與特征集之間的聯(lián)合互信息和特征集之間的聯(lián)合互信息來描述關聯(lián)和冗余,提出了一種基于CMI的最大關聯(lián)最小冗余特征選擇算法CMI-MRMR。實驗結(jié)果表明,與其他算法相比,CMIMRMR在花費更多時間的前提下,能夠獲得更好的特征選擇性能,但在某些數(shù)據(jù)集上該方法選取的前50個最優(yōu)特征的分類精度比所有特征的分類精度差,因此對特征個數(shù)的確定需要進行進一步優(yōu)化。

在多標簽數(shù)據(jù)的標簽集合中,每個標簽都具有不同的重要性權(quán)重,不同權(quán)重的標簽對選取特征具有重要的影響。一些研究人員就此方面給出了相應的辦法。陳福才等人[58]針對標簽關系和標簽權(quán)重,提出了一種基于標簽關系改進的多標簽特征選擇算法MLFSLC(multilabel feature selection algorithm based on the improved label correlation),該算法對特征相關性和冗余性進行了加權(quán),從而選擇出最佳特征子集。實驗結(jié)果表明該算法能夠提高多標簽學習算法的效率,但是由于互信息量計算方法的限制及算法的處理對象是離散型特征變量,在對具有連續(xù)型特征變量的數(shù)據(jù)集進行離散化處理的過程中,會對數(shù)據(jù)結(jié)構(gòu)造成破壞,影響分類結(jié)果。白偉明[59]提出了一種MI加權(quán)標簽的多標簽I-Relief(iterative Relief)算法,但在選取I-Relief框架處理多標簽時,有可能得到局部的最優(yōu)子集。孟威[60]提出了一種基于相關特征組的多標簽特征選擇算法CFGFS(multi-label feature selection algorithm based on correlation feature group),該算法根據(jù)帶有不同重要性權(quán)重的標簽組,在每個特征組中選取與標簽組相關的特征,但該算法僅考慮了特征之間存在的相關性,卻沒有考慮特征集合中可能存在的某些結(jié)構(gòu)關系,例如特征分層、特征重要性。

大部分基于MI的多標簽特征選擇方法先是使用MI或者MI的推廣衡量特征的重要性和相關性,然后構(gòu)造搜索策略求解評分函數(shù)對所得重要性進行排序選擇最優(yōu)特征子集。該類方法與基于一致性的多標簽特征選擇方法相比,時間、內(nèi)存消耗顯著減少。并且較其他過濾式方法應用廣泛。其中,最優(yōu)方法不僅考慮了特征與標簽相關性強的特征,還考慮了重要性次要的特征以及可能決定整體預測方向的最關鍵特征,并且它具有較好的穩(wěn)定性和實際應用價值,去除了冗余性較大的特征,減少了計算時間,提高了分類性能。

③使用MRMR衡量特征與標簽的相關性

MRMR是在MI最大化的基礎上提出的基于關聯(lián)和冗余的特征選擇算法。它采用特征與類標簽之間的MI來描述相關性,利用特征之間的MI來描述冗余。由于同時考慮了相關性和冗余性,提高了這些算法的特征選擇性能。MRMR由Peng等人[61]首次在2005年提出,其理論基礎為:

其中,D表示獨立性R表示冗余性S為選擇的特征子集,C為對應的標記。

文獻[62]提出了一種過濾式多標簽特征選擇算法ML-MRMR(multi-label max-relevance min-redundancy),該算法通過對特征進行權(quán)重運算,獲得特征與多標簽集合的關聯(lián)信息,以得到最優(yōu)特征子集。文獻[63]提出了一種基于MRMR聯(lián)合MI多標簽特征選擇算法JMMC(multi-label feature selection algorithm based on joint mutual information of max-relevance and minredundancy),該算法通過使用MI和交互信息的理論以及最大最小的特征選擇原則,得到最優(yōu)子集,并且降低了計算復雜度。文獻[64]針對MRMR算法存在的問題,提出一種新的最大相關最小冗余特征選擇算法New-MRMR(new algorithm for feature selection with maximum relation and minimum redundancy),該算法在冗余度度量準則方面引入了2種不同的方法,在相關度度量準則方面引入了4種不同的方法,結(jié)果表明新提出的方法所選的特征子集更優(yōu),當然其他評價冗余度和相關度的方法也可以適用該框架,且這些算法在不同數(shù)據(jù)集上表現(xiàn)性能不同。文獻[65]基于MRMR準則提出一種新的基于相關性與冗余性分析的半監(jiān)督特征選擇方法S2R2(semi-supervised feature selection method based on relevance and redundancy),該方法可以有效識別與移除不相關和冗余特征,提高算法的運行效率,但其在高維數(shù)據(jù)集中計算復雜度較高。

基于MRMR的多標簽特征選擇方法與基于MI的方法步驟類似,但該方法不僅考慮了特征之間的相關性和冗余性,還考慮了特征與標簽之間的相關性,可以提高分類的準確率,降低特征的維數(shù)。其中,最優(yōu)方法可以有效識別與移除不相關和冗余特征,提高了算法的運行效率,降低了計算復雜度,可以更好地應對大規(guī)模特征選擇問題,較其他方法性能好且具有泛用性。

④使用HSIC準則衡量特征與標簽的相關性

HSIC準則是兩組隨機變量之間基于核的依賴測度,包括有偏HSIC[66]和無偏HSIC[12]兩個版本。給定一組的觀察結(jié)果D={(x i,y i)}m i=1來自P xy聯(lián)合概率分布和所選的核函數(shù)k和l,可以構(gòu)造兩個核矩陣K,L∈Rm×m,其中K ij=k(x i,x j),L ij=l(yi,y j)。呈現(xiàn)的是如下形式:

為了解決這一偏差,在文獻[12]中提出了無偏估計,其形式為:

其中,?和是通過使K和L的對角項為零得到的矩陣,即,這里的δi,j為克羅內(nèi)克符號。

將HISC應用于特征選擇問題時,可以描述所選特征與標簽之間的顯著相關性。對于候選特征,既要最大化其相關性,又要最小化其最大或平均冗余,文獻[67]利用特征空間和標簽空間的線性核,提出了一種簡單特征排序和順序前向選擇相結(jié)合的多標簽特征選擇方法。但這種方法由于其貪婪搜索策略,只能找到局部最優(yōu)特征子集。因此,文獻[68]提出了一種基于無偏HSIC準則和控制遺傳算法的多標簽特征選擇方法CGAHSIC(multi-label feature selection method combining unbiased Hilbert-Schmidt independence criterion with controlled genetic algorithm),但它沒有考慮標簽之間的依賴關系。文獻[69]提出了一種基于HSIC的最大化依賴性多標簽半監(jiān)督學習方法DMMS(dependence maximization multi-label semi-super vised learning method),該方法選用HSIC作為所有樣本特征集和標簽集之間的依賴程度的度量,但未考慮標簽之間的依賴性。文獻[70]提出了一種基于HSIC準則的圖數(shù)據(jù)特征選擇,然而使用子圖作為特征的方法仍然面臨著信息丟失的問題,因為子圖有效考慮多個腦區(qū)之間的拓撲結(jié)構(gòu)信息,但這種方法對單個腦區(qū)的變化不是很敏感,且對病理相關的區(qū)域的變化以及怎樣的變化導致疾病的發(fā)生的問題沒有很好的解決。文獻[71]提出了一種半監(jiān)督多標記特征選擇算法SSMLFS(semi-supervised multilabel feature selection),通過分析樣本特征與其相對應的標記之間的相關性,合理利用未標記數(shù)據(jù)的信息,但該算法是基于每個數(shù)據(jù)樣本屬于正確標記的前提下進行研究的,沒有考慮樣本誤分類的情形且沒有考慮成對標記之間的依賴性。為了增強多標簽分類器的泛化能力,利用多標簽特征選擇方法對原始空間進行表征,可以得到近似最優(yōu)的特子集,Li等人[72-73]提出了兩種對連續(xù)數(shù)據(jù)具有Pareto最優(yōu)性的多標記特征選擇方法MLFSPO(multi-label feature selection approach with Pareto optimality for continuous data)和UN-MLFSPO(multilabel feature selection with Pareto optimality without presetting threshold)。不過UN-MLFSPO僅根據(jù)Pareto最優(yōu)性得到最優(yōu)特征子集,無需預先設定特征數(shù)量和閾值。它們都不適合特征少標簽多的情況,也沒有針對標簽間的相關性進行分析。

基于HSIC的多標簽特征選擇方法以最大化特征與標簽之間的相關性為目標,利用HSIC構(gòu)造特征與標簽之間的相關矩陣,然后根據(jù)搜索策略與特征排序準則相結(jié)合選擇最優(yōu)特征子集。該方法具有較好的分類性能和魯棒性,尤其在半監(jiān)督方法上可以合理利用未標記數(shù)據(jù)的信息進行特征選擇。其中,最優(yōu)方法利用標簽加權(quán)方法評估標簽的重要性,可以有效地處理低維空間中的線性不可分問題,提高了分類的泛化性能和魯棒性。

(2)考慮了標簽間的相關性

現(xiàn)有多標簽特征選擇算法在選擇最優(yōu)特征子集時較少考慮不同標簽之間的相關性對結(jié)果的影響。

①使用ReliefF衡量

文獻[74]提出了一種用于處理多標簽問題的過濾特征加權(quán)方法ReliefF-ML,該算法根據(jù)特征對近鄰樣本中同類和異類的感度來選擇較優(yōu)的特征并利用加權(quán)特征集進行分類,該方法可以應用于連續(xù)問題和離散問題,它包含了特征之間的相互作用,并考慮了標簽依賴性。Slavkov等人[75]將HMC-ReliefF與基于BR的特征排序方法進行了比較,實驗表明HMC-ReliefF算法表現(xiàn)良好。該算法利用了標簽之間的依賴關系,并可擴展到具有大量標簽的域,但該算法生成的排名的穩(wěn)定性對鄰域的大小不太敏感。

②使用MI衡量

Li等人[76]設計了一種基于MI的最大關聯(lián)最小冗余粒度特征選擇算法。但當信息顆粒數(shù)量很大時,其復雜度較高。Sun等人[77]通過約束凸優(yōu)化構(gòu)造了一種基于MI的特征選擇算法,通過標簽相關性生成廣義模型。但上述算法假設標簽空間中所有標簽的比例相同,忽略了每個標簽的比例對特征與標簽集的關聯(lián)度的影響,從而降低了分類性能。基于這一觀察,引入每個標簽的比例來改善MI衡量變量之間的相互依賴性,它可以表明標簽之間的重要性,特征和標簽集之間的強度對多標簽數(shù)據(jù)集進行預處理。文獻[78]提出了一種基于MI和ML-ReliefF的多標簽特征選擇方法,以提高多標簽分類性能。

傳統(tǒng)的基于MI的多標簽特征選擇算法大多未探討標簽集內(nèi)在的語義結(jié)構(gòu),針對以上不足,文獻[79]利用標簽之間的MI和挖掘出的標簽集語義結(jié)構(gòu)信息進一步度量特征和標簽集的相關性,再利用MRMR框架篩選特征,實驗證明了該算法的有效性,但對于標簽個數(shù)較少的數(shù)據(jù)集采用聚類方法可能效果不佳。針對多標簽特征選擇方法在測量不同特征時忽略了標簽關系對特征的不同影響和標簽關系的動態(tài)變化,文獻[80]提出了兩種新的多標簽特征選擇方法,即考慮標簽補充的多標簽特征選擇方法LSMFS(multi-label feature selection considering label supplementation)和考慮最大標簽補充的多標簽特征選擇方法MLSMFS(multi-label feature selection considering maximum label supplementation)。

②使用HSIC準則衡量

在圖分類中,在多標簽情況下對圖數(shù)據(jù)進行分類的主要困難在于圖數(shù)據(jù)結(jié)構(gòu)復雜,缺乏對多標簽概念有用的特征。因此為圖數(shù)據(jù)選擇合適的特征集是多標簽圖分類中必不可少的重要步驟。文獻[81]首次將多標簽特征選擇用于圖數(shù)據(jù),提出了一種新的圖數(shù)據(jù)多標簽特征選擇方法gMLC(multi-label feature selection frameworkfor graph classification),該方法可以利用子圖特征與圖個標簽之間依賴性的評價標準gHSIC來尋找最優(yōu)的子圖特征集進行圖分類。當然,標簽相關性也考慮在內(nèi)。不過它只使用了簡單的策略來構(gòu)造標簽核矩陣,也可以采用各種其他類型的標簽核函數(shù)來衡量多個標簽之間的標簽相關性,且該方法只選擇一組子圖特征并在多個支持向量機上使用。文獻[82]根據(jù)圖的標簽之間存在著相關性提出了一種基于HSIC的多標簽特征選擇算法,并采用交替最優(yōu)解算法來進行優(yōu)化。但圖的多個標簽之間的關聯(lián)性仍需進一步挖掘,可采用更優(yōu)秀的核函數(shù)替代多項式核函數(shù)。

在過濾式算法中,選擇一個合適的評價準則可能得到較優(yōu)的分類效果,但無法保證選擇的最優(yōu)特征子集的規(guī)模最小,當特征與分類器存在較大相關性時,找到的最優(yōu)特征子集規(guī)模會更大,冗余和不相關的特征也會增多,很大程度上影響多標簽學習的分類性能。但這類算法可以快速剔除大量冗余和不相關特征,運行效率高,適合于大規(guī)模數(shù)據(jù)。

2.2 基于包裹式的多標簽特征選擇

包裹式算法可以看作分類算法的一部分,它將特征選擇過程和分類器封裝在一起,根據(jù)分類器來評估特征子集的優(yōu)劣。其主要思想是從特征集合中選擇可使學習器性能最佳的特征子集。由于特征子集組合種類隨特征個數(shù)增加而指數(shù)性增長,因此從所有特征組合中進行搜索是一個NP-hard問題。為此一般會選取一些時間復雜度低的搜索策略,例如啟發(fā)式策略或是進化算法(evolutionary algorithm,EA)等。

2.2.1 采用進化算法的包裹式算法

進化算法也可稱為演化算法,遺傳算法(genetic algorithm,GA)是進化算法的其中一種。

針對遺傳算法的搜索策略,文獻[83]提出了一種新的基于標注關鍵詞的圖像檢索多標簽圖像標注方法。除此之外還采用了基于PageRank的標注細化方法。文獻[84]提出一個混合優(yōu)化的多標簽特征選擇算法HOML(hybrid optimization based multi-label feature selection),該方法結(jié)合了全局優(yōu)化能力較強的模擬退火算法和遺傳算法及局部優(yōu)化能力較強的貪婪算法得到最優(yōu)特征子集。實驗證明,該方法有效地降低了數(shù)據(jù)的維度并較好地提高了分類性能。但并未從根本上解決遺傳算法本身缺陷給特征選擇帶來的不良影響。因此,文獻[85]提出了一種基于改進型遺傳算法的多標簽特征選擇算法,該算法通過在模擬退火過程引入Metropolis準則和在遺傳算法中引入大變異來獲得最優(yōu)解,但其存在計算效率不高等缺陷。針對遺傳算法在識別接近全局最優(yōu)的特征子集方面存在局限性,導致運行時間長的問題,文獻[86]提出了一種適用于多標簽分類的模因特征選擇算法,防止了早熟收斂,提高了分類效率。但這種方法在對特征進行選擇的時候并未考慮標簽之間的隱含關聯(lián)信息,使得到的特征子集并未達到最佳。包裹式方法也可用于多目標,比如文獻[87]提出了一種包裝型多目標多標簽特征選擇MMFS(multi-label multiobjective feature selection method)。該方法以多標簽最近鄰法ML-KNN為基礎,進而利用進化遺傳算法NSGA-II對平均精度最大化和漢明損失最小化。實驗表明,該方法比現(xiàn)有的其他方法具有更好的性能,但還需在更多的數(shù)據(jù)集上驗證和控制所選特征的大小。

針對傳統(tǒng)進化算法中的由于初始種群通常是隨機產(chǎn)生的造成對輸入數(shù)據(jù)集的知識不可獲取的問題,文獻[88]提出了一種基于EA的考慮特征和標簽之間依賴關系的多標簽特征選擇方法的初始種群生成方法,這是首次提出一種無參種群初始化方法,該方法可以作為EA的預處理。文中首先引入CMI,設計了一種得分函數(shù)計算每個特征的重要度,進而生成初始種群;然后將生成的種群作為基于EA的多標記特征選擇方法的輸入。該方法提高了傳統(tǒng)基于EA的多標記選擇方法的分類性能,但該方法需要二次計算,雖然采用了一種低秩近似方法來減少計算問題,但作為種群初始化過程的一部分,在大型特征數(shù)據(jù)集中選擇特征的計算負擔仍然很重。

進化算法除了上述算法,還包括其衍生算法多目標演化算法、神經(jīng)進化算法、差分進化算法、粒子群算法(particle swarm optimization,PSO)等。比如文獻[89]提出的一種基于差分進化的多標簽多目標特征選擇算法,該方法將分類性能和特征數(shù)作為適應度函數(shù)。文獻[90]提出了一種基于PSO算法的包裝器多標簽多目標特征選擇算法。該方法利用基于概率的編碼策略來表示每個粒子,使問題適應于PSO算法。為了提高粒子群算法的性能,還加入了自適應均勻變異和局部學習策略,針對基于PSO的離線多標簽特征選擇方法,文獻[91]提出了一種基于PSO的多目標多標簽在線特征選擇方法,然而,如果在選擇的開始就出現(xiàn)了大量的顯著特征,那么該方法可能會遭受計算上的困難,并且該方法沒有考慮標簽之間的依賴性。進化算法中的最優(yōu)方法可以快速收斂,比隨機初始化的種群所需的進化過程更少,較傳統(tǒng)的基于遺傳算法的多標簽特征選擇方法提高了分類精度,得到更優(yōu)的特征子集。

2.2.2 采用啟發(fā)式搜索的包裹式算法

啟發(fā)式搜索獲得的通常為局部最優(yōu)解,比較常見的算法有前向搜索法SFS(sequential forward searing)、后向搜索法SBS(sequential backward searing)和增l減r法。

針對標簽相關性對特征選擇的影響,葉蘇荷[92]提出了基于標簽相關性和貝葉斯網(wǎng)絡分類器鏈BNCC[93]方法(Bayesian network-based classifier chain method)的多標簽特征選擇算法BNCC-FS(multi-label feature selection algorithm based on label correlation and BNCC algorithm),該方法采用互信息進行優(yōu)化評分函數(shù),并利用啟發(fā)式搜索策略搜索最優(yōu)的特征子集。實驗結(jié)果證明了該算法的有效性和可行性,但該算法根據(jù)鏈式的順序依次選擇最優(yōu)的特征子集,未同時考慮所有標簽和所有原始特征之間的復雜關系。文獻[94]提出了一種基于啟發(fā)式搜索的多標簽特征選擇算法,該算法使用ReliefF去除數(shù)據(jù)集中的不相關特征,采用啟發(fā)式算法MFO(moth-flame optimization)進行特征子集尋優(yōu),進一步去除數(shù)據(jù)集中的冗余特征和提高分類器的性能,實驗結(jié)果驗證了該算法的有效性,得到了較好的分類效果。文獻[95]提出了一種基于標記相關性的模糊粗糙多標簽特征選擇方法,該方法通過整合全局和局部標簽相關性來衡量標簽之間的聯(lián)系,構(gòu)建多標簽模糊粗糙集模型進行特征選擇,進而提出模糊依賴函數(shù)來評價特征的重要性和前向搜索策略選擇最優(yōu)特征子集。但該方法容易陷入局部最優(yōu)解。其中,最優(yōu)方法考慮了標簽間的相關性,具有較好的分類效果和相對較低的時間復雜度。

包裹式算法優(yōu)點在于特征選擇與訓練分類器結(jié)合時能選擇出最優(yōu)的特征子集,這也說明,選擇出的特征子集不適用于其他分類器。然而,包裹式方法的主要缺點是它們通常具有很高的計算成本,并且它們僅限于與特定的算法結(jié)合使用。

2.3 基于嵌入式的多標簽特征選擇

嵌入式方法試圖利用前面兩種方法的特性,在計算效率和有效性之間取得良好的折衷。嵌入式方法克服了計算的復雜性。在該方法中,特征選擇和模型學習同時進行,并且在模型的訓練階段選擇特征。嵌入特征選擇使用從某些分類器中提取的度量來評估特征子集。

在嵌入式方法中,稀疏正則化被廣泛應用,因此分類器歸納和特征選擇都安排在單一框架中。可以把特征選擇問題看成正則化的系數(shù)矩陣稀疏問題,因此,可以通過稀疏權(quán)重矩陣W選擇特征子集,且l2,1范數(shù)可以有效地約束W的行間稀疏、行內(nèi)穩(wěn)定,更有利于特征選擇。從而有:

其中,X為特征矩陣,L為標簽矩陣,且在l2,1范數(shù)距離上有L=XW,第一項為目標函數(shù)項,β為懲罰因子,R(W)為正則化項,又為懲罰函數(shù),表示對W的相應約束懲罰

傳統(tǒng)的半監(jiān)督方法主要采用稀疏正則化,但未能充分利用特征與標簽之間的關系。文獻[96]提出了一種新的基于圖的半監(jiān)督學習框架來解決多標簽問題同時考慮多個標簽之間的相關性和圖上標簽的一致性。Chang等人[97]提出了一種有效的半監(jiān)督特征選擇算法CSFS(convex semi-supervised multi-label feature selection),它選擇特征不需要圖的構(gòu)造和特征分解。但是,該算法沒有考慮到不同標簽之間的相關性。然后Chang等人[98]設計了基于標簽關聯(lián)的多媒體標注半監(jiān)督特征選擇FAMLC(semi-supervised feature analysis for multimedia annotation by mining label correlation)。為了更好地利用有限的標簽信息來有效地選擇特征,文獻[99]提出了一種基于稀疏正則化和依賴最大化的半監(jiān)督多標簽特征選擇算法FSSRDM(semi-supervised multi-label feature selection based on sparsity regularization and dependence maximization)。該方法利用標記數(shù)據(jù)和未標記數(shù)據(jù)來選擇特征,同時利用HSIC準則來捕獲特征與標簽之間的相關性,并采用l2,1稀疏項來獲得回歸系數(shù)稀疏矩陣。實驗結(jié)果表明,F(xiàn)SSRDM比現(xiàn)有的特征選擇方法更有效,但其沒有考慮標簽之間更復雜的關系來幫助選擇重要的特征。

文獻[100]提出了一種考慮特征與標簽之間共享共模的多標簽特征選擇方法SCMFS(multi-label feature selection considering shared common mode between features and labels)。該方法可以充分利用特征矩陣和標簽矩陣的有用信息來選擇信息量最大的特征,但由于SCMFS涉及非負矩陣分解,只適用于非負數(shù)據(jù),因此對于混合符號值的數(shù)據(jù)需要對數(shù)據(jù)進行非負處理。文獻[101]則提出了一種新穎的基于局部標簽相關性的共有和類屬性特征選擇框架,引入l2,1和l1稀疏項同時選取共有和類屬性特征,但該方法只考慮了標簽之間的正相關性,而沒有考慮標簽之間的負相關性。針對Zhu等人[102]忽略的特征空間可能是形成標簽相關性的一個內(nèi)在因素的問題,F(xiàn)an等人[103]提出了一個基于局部判別模型和標簽相關性的多標簽特征選擇方法,但其計算成本較為昂貴,可以專注于基于標簽相關性的半監(jiān)督多標簽學習方法。

此外,有研究者將流行學習與稀疏回歸相結(jié)合,以此來提升算法性能。陳紅等人[104]提出了一種基于相關熵和流形學習的多標簽特征選擇算法CMLS(correntropy and manifold learning feature selection),該方法在目標函數(shù)中不但加入了稀疏回歸模型而且加入了特征圖的正則化,并通過迭代算法解決該問題,實驗結(jié)果證明了該方法的有效性,其時間復雜度較高。針對正則化項的l1范數(shù)、l2范數(shù)、Frobenius范數(shù)均有自己的局限性問題,且K-Support范數(shù)可以在l1范數(shù)的稀疏度和l2范數(shù)的算法穩(wěn)定性之間保持平衡的特點,文獻[105]提出了基于K-Support范數(shù)和流形學習的多標簽特征選擇算法。文獻[106]提出了一種基于流形正則化的嵌入式特征選擇方法MDFS(an embedded feature selection method via manifold regularization),用于選擇多個類標簽共享的判別特征,該方法利用局部標簽相關性來增強成對的標簽關系,并使用了l2,1范數(shù)的正則化。針對大多數(shù)多標簽特征選擇算法都是直接嵌入權(quán)重矩陣,很少有對權(quán)重矩陣的柔性嵌入,張要等人[107]提出了結(jié)合流形結(jié)構(gòu)和柔性嵌入的多標簽特征選擇算法MFFS(multilabel feature selection based on manifold structure and flexible embedding),但在學習標簽相似矩陣時,固定的近鄰參數(shù)不能夠較好地學得標簽間的相似矩陣,從而影響了MFFS算法的性能。之后,張要等人[108]又提出了一種柔性結(jié)合流形結(jié)構(gòu)與logistic回歸的多標簽特征選擇方法FSML(multi-label feature selection combining manifold learning and logistic regression),但由于近鄰參數(shù)不能自適應學習,導致同一個近鄰參數(shù)不一定能夠很好地學習到每個數(shù)據(jù)標簽的底層流形結(jié)構(gòu)。從而影響了FSML算法的性能。馬盈倉等人[109]針對現(xiàn)有的嵌入式多標簽特征選擇方法沒有充分利用無標簽樣本的問題,提出一種基于流形學習與l2,1范數(shù)的無監(jiān)督多標簽特征選擇方法UMLFS(unsupervised multi-label feature selection based on manifold learning andl2,1norms),實驗表明該方法的有效性。文獻[110]提出一種基于約束回歸和自適應譜圖流行框架的多標簽特征選擇方法,并通過實驗驗證了該方法的有效性,但還需進一步探索如何利用數(shù)據(jù)的結(jié)構(gòu)化信息。

當然,嵌入式多標簽特征選擇除了稀疏正則化,還有其他方法,比如:Li等人[111]提出一種新的半監(jiān)督多標簽學習算法COMN(co-training ML-KNN)和PRECOMN(prediction risk based embedded feature selection for COMN),去除了不相關和冗余的特征,但該方法僅說明了半監(jiān)督多標簽學習中的特征選擇是可行的,如何應用到無監(jiān)督學習上還需要進一步探究。Gu等人[112]提出的一種相關多標簽特征選擇算法CMLFS(correlated multi-label feature selection),但其計算成本較高。You等人[113]提出了一種多標簽嵌入特征選擇方法MEFS(multi-label embedded feature selection),它采用預測風險準則對特征進行評價,采用向后搜索策略對特征子集進行搜索,選出最有特征子集,它考慮標簽相關性,但其特征選擇的效率還不是很高。Huang等人[114]提出了一種將稀疏性聯(lián)合特征選擇和多標簽分類方法。該方法利用成對的標簽相關性學習標簽特定特征和共享特征,并在學習到的低維數(shù)據(jù)表示上同時構(gòu)建多標簽分類器。實驗驗證了該方法的有效性,但對于大規(guī)模數(shù)據(jù)集時,將要花費大量的時間。其中,在基于嵌入式的方法中,最優(yōu)方法不僅考慮了標簽間的相關性,還引入非負矩陣分解,有利于選擇最具區(qū)別性的特征,提高了后續(xù)特征選擇過程的可解釋性,并且具有收斂性和較好的分類性能。

與包裝器方法相比,基于嵌入式的多標簽特征選擇方法的計算成本明顯更低。這種方法避免了每次探索新的特征選擇時對模型的訓練。該算法的運行速度較快,但魯棒性不高。

2.4 幾種方法的比較

每種算法都存在自身的優(yōu)缺點,上述所提出的3種多標簽特征選擇算法性能總結(jié)如表2所示。

表2 多標簽特征選擇方法的性能比較Table 2 Performance comparison of multi-label feature selection methods

3 結(jié)束語

多標簽數(shù)據(jù)中大量冗余的、不相關的、帶噪聲的特征,不僅增加了計算的復雜度,還影響算法分類器的性能。多標簽特征選擇因不僅能夠有效地去除冗余特征、不相關特征,還可以保持甚至提高分類器的性能、節(jié)省存儲空間、縮短分類時間,被成功運用到模式識別、機器學習等領域。然而如何在多標簽數(shù)據(jù)集中選出最優(yōu)的特征子集是一個十分具有挑戰(zhàn)性的事情。本文系統(tǒng)回顧了幾種多標簽特征選擇算法,希望能夠為新的實踐者和理論者提供有價值的參考,以尋求創(chuàng)新的方法和應用。盡管多標簽特征選擇算法應用廣泛,但仍存在一些問題和挑戰(zhàn)有待解決,可以從以下幾個方面進行概述:

(1)現(xiàn)有大多數(shù)多標簽特征選擇算法針對于特征空間的相關性和冗余性未進行較多的分析,僅僅考慮了特征間及特征與標簽之間的相關性,忽略了不同標簽之間的相關性。標簽相關性是多標簽分類中的一個關鍵問題,因為根據(jù)它從已知標簽中導出實例的未知標簽是可能的。然而,在多標簽特征選擇方法中對此問題存在爭議。且現(xiàn)有的特征選擇算法大都可以刪除無關特征并且在一定程度上去冗余,但冗余特征過度刪除導致丟失大量信息,比如高維樣本數(shù)據(jù)的去冗余的過程較為復雜,很容易將有價值的特征遺漏,或?qū)⑷哂嗵卣鞅A粝聛怼R虼巳绾螠蚀_有效地去除冗余特征非常重要。

(2)在單標簽和多標簽特征選擇算法中,另一個開放和具有挑戰(zhàn)性的問題是如何確定選擇特征的最優(yōu)數(shù)量。對于大多數(shù)特征選擇方法,要選擇的特征數(shù)量應該由用戶決定。然而,特征的最優(yōu)數(shù)量通常是未知的,并且對不同的數(shù)據(jù)集是不同的。一方面,選擇的特征數(shù)量過多可能會增加包含不相關、有噪聲和冗余特征的風險。另一方面,由于選擇的特征數(shù)量太少,一些需要包含在最終子集中的相關特征可能會被消除。因此,更可取的是特征選擇算法自動決定最終特征子集的大小。

(3)在多標簽特征選擇上,過濾式方法大多數(shù)情況下較包裹式和嵌入式方法使用更多。雖然過濾式方法是處理大量特征時最合適的方法,但包裹式和嵌入式方法的較高精度不應被忽視。也許可以將它們組合起來[115-117],比如:使用過濾式方法消除不相關的特征,然后使用包裹式或嵌入式方法選擇最顯著的特征。根據(jù)特定的環(huán)境選擇所需要的度量準則和分類器是也一個值得研究的方向。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品无码一二三视频| 伊人五月丁香综合AⅤ| 久久久久青草大香线综合精品 | 国产经典免费播放视频| 久久久受www免费人成| 26uuu国产精品视频| 免费无码AV片在线观看中文| 国产乱人伦AV在线A| 性喷潮久久久久久久久| 手机在线国产精品| 第一页亚洲| 欧美日韩资源| 日韩国产综合精选| 无码一区二区波多野结衣播放搜索| 欧美日韩国产综合视频在线观看 | 欧美精品高清| www成人国产在线观看网站| 欧美有码在线| 亚洲天堂网2014| 四虎永久免费地址在线网站| 中文精品久久久久国产网址| 国产最新无码专区在线| 久久永久视频| 亚洲精品在线影院| 国产在线拍偷自揄拍精品| 成人a免费α片在线视频网站| 欧美精品一二三区| 亚洲日韩AV无码一区二区三区人| 香蕉在线视频网站| 国产91色| 国产黄视频网站| hezyo加勒比一区二区三区| 欧美一区二区人人喊爽| 亚洲精选高清无码| 亚洲精品中文字幕无乱码| 99在线国产| 成人毛片免费观看| 国产主播在线一区| 好紧好深好大乳无码中文字幕| 国产簧片免费在线播放| 日本一本正道综合久久dvd| 五月天福利视频| 精品国产免费观看一区| 日韩无码真实干出血视频| 国产一级毛片在线| 91精品国产自产在线观看| 网友自拍视频精品区| 欧美国产日韩在线| 五月六月伊人狠狠丁香网| 日韩欧美91| 国产情侣一区| 国产欧美视频一区二区三区| 免费看黄片一区二区三区| 免费无码AV片在线观看国产| 成人午夜亚洲影视在线观看| 在线亚洲精品自拍| 亚洲精品久综合蜜| 91伊人国产| www.狠狠| 国产日韩精品欧美一区喷| 真实国产乱子伦高清| 91精品国产一区自在线拍| 伊人成人在线| 91精品最新国内在线播放| 亚洲精品亚洲人成在线| 91精品国产综合久久香蕉922| 色天天综合| 日本午夜精品一本在线观看 | 国产视频a| 99热这里只有精品在线观看| YW尤物AV无码国产在线观看| 中文字幕无码av专区久久| 秋霞国产在线| 2021国产在线视频| 久久精品无码中文字幕| 色AV色 综合网站| 欧美色伊人| 国产精品一区在线观看你懂的| 伊人丁香五月天久久综合| 日韩精品成人在线| 蝌蚪国产精品视频第一页| 色综合天天娱乐综合网|