999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粗糙互信息的不平衡多標記特征選擇算法

2021-03-14 12:26:22史金成
關鍵詞:特征

陳 飛,史金成

(銅陵學院數學與計算機學院,安徽銅陵244061)

多標記學習作為一種流行的機器學習方法,得到了眾多學者的關注與研究[1-3]。現實世界中也有大量多標記對象,例如一副自然風景圖可以標上“藍天”、“白云”、“沙漠”、“小草”等標記,一篇新聞可以屬于“經濟”、“文化”和“政治”等。為了盡可能地對樣本進行準確標記,就需要對大量特征進行描述。大量的特征雖然會提高描述的準確性,但特征的增多會產生冗余特征或者不相關特征,這些特征會降低分類器的精度,增加算法運行時間。因此降低多標記的特征維數有重要的意義[4]。

目前,特征降維大致有兩類方法:特征提取和特征選擇。特征提取方法主要是通過特征之間的映射得到一組新的特征子集,但是在映射過程中會改變原始的特征信息,從而丟失一些原始信息,如線性判別分析[5]、依賴度最大化的多標記維數約簡[6]等。特征選擇方法利用一定的度量關系或評價指標得出一組特征序列或者特征子集,保持了原有特征空間的信息。目前,多數學者利用信息增益(Information Gain,IG)或互信息(Mutual Information,MI)作為評價指標對特征子集進行選擇,并提出了多種行之有效的算法[7-9]。

在多標記學習框架之下,標記并不是均勻分布的,有些標記出現的頻率高,能描述大部分樣本,稱之為高密度標記;有些標記出現的頻率低,只能描述少部分樣本,稱之為低密度標記。這些低密度標記往往是由少數特征所決定的,這些特征可能與標記空間整體的相關性不高,但卻可能是某些低密度標記的關鍵特征,如果僅僅考量與標記空間整體的相關性,那么這些特征會被刪去從而影響分類器的分類精度。若將標記空間進行劃分,考慮部分標記空間甚至單個標記與特征的相關性,無疑會提高算法的有效性。

針對上述問題,本文提出了一種基于粗糙互信息的不平衡多標記特征選擇算法,根據標記密度的高低劃分標記空間,引入模糊熵修正傳統的互信息,并以此來度量特征與標記的相關性,再對不同空間得到的特征序列進行差異性比例的采樣,最終將這些特征作為特征子集進行相關訓練與測試。

1 多標記學習

1.1 多標記學習框架

在多標記學習中,每個實例樣本都同時擁有多個特征和多種標記,學習的目的是將未知的實例對應上盡可能多的正確標記[10]。假設F是由n個特征組成的特征集合F={f1,f2,f3,…,fn},L是由m個標記組成的標記集合,L={l1,l2,l3,…,lm},則含有a個樣本的多標記數據集可表示成

1.2 粗糙互信息

定義1[11]設論域U、屬性P對應的劃分為U/P=X={x1,x2,x3,…,xn},其中xi為等價類,則基于粗糙集等價類所表達的信息量為

其中|*|表示集合元素的基數,并且有0≤I(xi)<1。

定義2[11]設論域U,屬性P對論域U的劃分為U/P=X={x1,x2,x3,…,xn},則P的信息熵為

其中c表示求補,并且0≤E(X)<1-。

定義3[11]設多標記特征空間中某個劃分為X={x1,x2,x3,…,xn},標記空間中劃分為Y={y1,y2,y3,…,ym},根據定義1,可得多標記條件下自信息量為

由特征空間和標記空間聯合組成的空間記為

符號集(X,Y)上的條件熵[11]可以定義為

符號集(X,Y)上的每個元素(xi,yj)的聯合熵[11]定義為

符號集(X,Y)上的粗糙互信息定義為

由文獻[12]可知,粗糙互信息、條件熵和自信息量之間存在著如下關系:

進一步地,通過聯合熵能得出如下關系:

式(10)是本文的主要計算公式。

2 粗糙互信息不平衡多標記特征選擇算法

在多標記學習框架之下,標記空間中標記并不是均勻分布的。如果僅僅單一考量與標記空間整體的相關性,那么少數低密度標記的關鍵特征可能會被忽略掉,進而影響分類精度。因此,本文算法將標記空間進行劃分,通過對不同標記空間得到的相關性特征序列進行差異化采樣,并對采樣的特征進行并集運算得出最終的特征子集,以此來進行訓練和測試。在有效降低特征維數的前提下,既保留了對標記空間有著強相關的特征,又提高了分類器精度。具體算法步驟如下。

第一步:劃分空間。根據每個標記出現的頻率從高到低進行排序,前50%的標記劃分為高密度空間,后50%的標記劃分為低密度空間。

第二步:計算相關性。利用式(10)計算每個標記與特征的相關性,得出每個標記相應的特征序列。

第三步:差異化采樣。高密度標記空間中標記取前k1個重要特征,低密度標記空間取前k2個重要特征,k1>k2。

第四步:對得到的不同特征序列進行并集運算得出最終特征子集。

3 實驗設計與結果分析

3.1 實驗數據集

為了驗證本文算法的有效性,選擇了5個公開數據集進行對比實驗,相關信息如下頁表1所示,實驗數據均來自http://mulan.sourceforge.net/datasets.html。

3.2 評價指標

本文將平均查準率(AveragePrecision,AP),排位缺失(Ranking Loss,RL),海明缺失(Hamming Loss,HL)和單錯誤(One Error,OE)作為性能評價指標[9],其中AP值越大表明分類效果越好,RL、HL和OE值則是越小分類效果越好。

3.3 實驗結果分析

實驗采樣3組,采樣數目分別是k1=20、k2=15(第1組),k1=30、k2=15(第2組),k1=30、k2=20(第3組)。在5個數據集上的特征選擇數目見表2,分類器采用ML-kNN[13]。為了證明算法的有效性,對比了MDDM算法[6](Multi-label Dimensionality Reduction via Dependence Maximization)和PMU算法[14](Pairwise Multivariate Mutual Information)。MDDM算法根據映射方法又分為MDDMproj算法和MDDMspc算法。由于MDDM和PMU算法是得到一組特征序列,實驗中選取前n個特征作為特征子集,n的取值與k1=30,k2=20特征數目保持一致。分類器ML-kNN的參數值設置為默認參數值。

從表2可以看出,本文算法可以大大減少特征數目,特征選擇后的數目均不到原始特征數目的25%,在Rec數據集上更是減少到了原始的13.2%。

表1 數據集基本信息

表2 FSIM算法不同采樣情況的特征選擇數目

表3列出了在4種不同的評價指標下,不同算法的實驗結果。“↑”表示指標的取值越大越好,“↓”表示指標的取值越小越好,“Average”行數據表示的是每個算法在當前指標下的平均值,“Original”列數據表示未進行特征選擇的實驗結果。

表3 不同算法在四種評價指標上的結果

從表3可以看出,在5個數據集的20個結果中,僅有Computer數據集的OE指標劣于未進行特征選擇的結果,其余均優于原始結果。同時,本文算法在3組實驗中有17個是最優的。在k1=30,k2=20的取值條件下:RL指標中有4個數據集的結果是最優的;在Computer數據集上最優結果也為本算法;AP和HL指標中有3個數據集結果最優;OE指標中,雖然有3個數據集的最優結果不是本文算法,但在Rec和Health數據集中,本文算法在k1=30,k2=20的取值條件下與最優結果的誤差不到4%;在Computer數據集中與最優結果更是僅有1%左右的誤差。以上實驗結果證明了本文算法的有效性。

4 總結

本文提出的基于粗糙互信息的不平衡多標記特征選擇算法,用粗糙互信息代替傳統互信息減少了計算復雜度,同時考慮到標記的不平衡分布對標記空間進行劃分,在不改變標記空間中的標記分布的情況下,對特征進行差異化采樣,保證了每個標記的重要特征不丟失。但算法仍存在問題,采樣數目是人為設定的,后期將考慮如何自適應采樣數目。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日韩毛片视频| 特级做a爰片毛片免费69| 国产91在线免费视频| Jizz国产色系免费| 国产又爽又黄无遮挡免费观看| 亚洲av成人无码网站在线观看| 高清不卡一区二区三区香蕉| 久久性妇女精品免费| 午夜性刺激在线观看免费| 成人毛片在线播放| 久久黄色毛片| 色妺妺在线视频喷水| 国产欧美视频一区二区三区| 在线观看国产黄色| 欧美国产在线精品17p| 亚洲AV人人澡人人双人| 欧美日韩精品一区二区视频| 91色在线观看| 韩日无码在线不卡| 天天做天天爱夜夜爽毛片毛片| 国产日本欧美在线观看| 91精品国产麻豆国产自产在线| 操操操综合网| 经典三级久久| 亚洲国产欧美中日韩成人综合视频| 中国国产一级毛片| 中文字幕欧美日韩高清| 国产精品亚洲一区二区三区z| 伊人色天堂| 青青青视频91在线 | 91精品在线视频观看| 成年片色大黄全免费网站久久| 中文字幕 91| 精品伊人久久久久7777人| 最新国产高清在线| 国产成在线观看免费视频 | 最新亚洲av女人的天堂| 久久国产乱子| 九九视频免费看| 色婷婷国产精品视频| 久草网视频在线| 国产精品尤物铁牛tv| 少妇精品在线| 2020精品极品国产色在线观看 | 国产亚洲精品资源在线26u| 久热re国产手机在线观看| 国内精品久久久久久久久久影视 | 亚洲天堂2014| 91免费国产高清观看| 国产精品美女网站| 亚洲视频在线网| 亚洲中久无码永久在线观看软件| 99人妻碰碰碰久久久久禁片| 国产精品成人不卡在线观看| 欧美精品二区| 人妻丰满熟妇αv无码| 蜜桃视频一区| 国产精品私拍99pans大尺度| 国产jizzjizz视频| 欧美亚洲国产精品第一页| 国产成人精品免费视频大全五级| 美女无遮挡免费视频网站| 亚洲一级毛片免费看| 欧美19综合中文字幕| 欧美第一页在线| 日韩视频免费| 乱系列中文字幕在线视频| 欧美午夜小视频| 国产午夜人做人免费视频| 69国产精品视频免费| jizz在线观看| 日本高清免费不卡视频| 国产丝袜啪啪| 性喷潮久久久久久久久| 久久国产高潮流白浆免费观看| 午夜福利网址| 国产视频大全| 91小视频版在线观看www| 日本不卡免费高清视频| 久久久久夜色精品波多野结衣| 国产美女精品在线| 91九色视频网|