999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)

2021-05-20 07:00:56亢瀏越
關(guān)鍵詞:分類特征

黃 睿,亢瀏越

(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)

0 引 言

近年來,多標(biāo)簽分類成為模式識(shí)別、數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),并廣泛應(yīng)用于場景分類[1]、圖像標(biāo)注[2]、音樂情感分類[3]、生物信息學(xué)[4]等領(lǐng)域。

類屬特征(label-specific feature)是不同類別標(biāo)簽具有的獨(dú)特屬性特征,這些特征與該標(biāo)簽關(guān)聯(lián)性最強(qiáng),最具有判別力。利用類屬特征可以提高多標(biāo)簽分類模型的精度[5-9]。其中,Zhang等[5]提出LIFT算法(multi-label learning with label-specific features)。LIFT通過對(duì)每類標(biāo)簽的正負(fù)樣本聚類,形成針對(duì)該標(biāo)簽的類屬特征用于分類。然而,LIFT沒有考慮標(biāo)簽相關(guān)性。Zhan等[6]通過聚類集成(clustering ensemble)將標(biāo)簽相關(guān)性引入LIFT,提出LIFTACE算法(multi-label learning with label-specific features via clustering ensemble)。LIFTACE的性能優(yōu)于LIFT,但它在構(gòu)建樣本相似度矩陣時(shí),只考慮了屬于同一聚類中心的樣本;同時(shí),LIFTACE對(duì)標(biāo)簽相關(guān)性的考慮并不全面。目前,對(duì)標(biāo)簽相關(guān)性的研究多集中于正相關(guān)性的有效利用,較少顧及其負(fù)相關(guān)性的作用[10-12]。

本文對(duì)LIFTACE進(jìn)行改進(jìn),提出一種基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)方法(multi-label learning with label-specific features based on positive and negative label correlation,LIFTPNL)。方法首先基于kNN的思想構(gòu)建全局和局部的標(biāo)簽信息矩陣,根據(jù)此矩陣計(jì)算成對(duì)標(biāo)簽的正負(fù)相關(guān)性,并引入到LIFTACE對(duì)每個(gè)類別標(biāo)簽的樣本相似度計(jì)算中,從而得到一種更有效的多標(biāo)簽分類模型。

1 標(biāo)簽的全局和局部正負(fù)相關(guān)性

設(shè)由N個(gè)樣本構(gòu)成的訓(xùn)練數(shù)據(jù)集為XL=[x1,x2,…,xN]Τ∈RN×D,D為特征維度;相應(yīng)的邏輯型類別標(biāo)簽集為YL=[y1,y2,…,yN]Τ=[l1,l2,…,lC]∈RN×C,C為類別標(biāo)簽個(gè)數(shù)。xn∈RD(1≤n≤N) 對(duì)應(yīng)的邏輯標(biāo)簽為yn∈{+1,-1}C(+1表示樣本和標(biāo)簽相關(guān),-1表示樣本和標(biāo)簽無關(guān))。類別標(biāo)簽lc∈RN(1≤c≤C) 指示了N個(gè)樣本與第c類標(biāo)簽的相關(guān)性。

(1)

數(shù)據(jù)中不同類別的樣本數(shù)往往是不均衡的。當(dāng)屬于第c類的樣本較多時(shí),第c類被稱為優(yōu)勢類,分類結(jié)果通常會(huì)向該類傾斜。為修正上述情況,定義第c類標(biāo)簽的重要度為θc

(2)

其中,Ic是屬于c類的樣本個(gè)數(shù),N為樣本總數(shù)。θc會(huì)對(duì)優(yōu)勢類進(jìn)行壓制,而提高非優(yōu)勢類的權(quán)值。修正的標(biāo)簽信息矩陣ηc為

(3)

在此基礎(chǔ)上,確定類別c與c′的相關(guān)性vcc′為

(4)

2 所提算法LIFTPNL

對(duì)于標(biāo)簽c,可將訓(xùn)練樣本分為正樣本集合Pc和負(fù)樣本集合Nc。 如果訓(xùn)練樣本具有標(biāo)簽c,則屬于集合Pc; 否則屬于集合Nc, 即

Pc={xn|(xn,yn)∈(XL,YL),ync=+1}
Nc={xn|(xn,yn)∈(XL,YL),ync=-1}

(5)

(6)

這里,Sc′=(Sc′ij)N×N為連接矩陣,指示在類別標(biāo)簽c′下樣本間的連接關(guān)系。對(duì)于樣本xi和xj, 有

(7)

(8)

其中,φc(xn)∈R2mc, dist(·) 代表樣本xn和聚類中心的歐式距離。

表1 LIFTPNL

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

為驗(yàn)證本文所提算法的性能,我們分別在yeast、enron、slashdot、image、scene、language log等6個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表2給出了所用數(shù)據(jù)集的詳細(xì)信息描述。

表2 實(shí)驗(yàn)所用數(shù)據(jù)集描述

3.2 評(píng)價(jià)指標(biāo)

為更好衡量算法的好壞,實(shí)驗(yàn)采用基于樣本的準(zhǔn)確度、基于樣本的F1-measure、基于標(biāo)簽的準(zhǔn)確度、基于標(biāo)簽的F1-measure、子集精度(Subset accuracy)、微平均(Micro F1)共6個(gè)評(píng)價(jià)指標(biāo)綜合評(píng)定。各評(píng)價(jià)指標(biāo)定義如下:

(1)基于樣本的準(zhǔn)確度:以樣本為基礎(chǔ),估算正確預(yù)測的標(biāo)簽占預(yù)測標(biāo)簽與真實(shí)標(biāo)簽集合的比例。該值越大表示算法性能越好

(9)

(2)基于樣本的F1-measure:對(duì)每個(gè)樣本的精確度(precision)和召回率(recall)的調(diào)和平均。該值越大表示算法性能越好

(10)

(3)基于標(biāo)簽的準(zhǔn)確度:以標(biāo)簽為基礎(chǔ),估算正確預(yù)測的標(biāo)簽占預(yù)測標(biāo)簽與真實(shí)標(biāo)簽集合的比例。該值越大表示算法性能越好

(11)

(4)基于標(biāo)簽的F1-measure:對(duì)每個(gè)標(biāo)簽的精確度(precision)和召回率(recall)的調(diào)和平均。該值越大表示算法性能越好

(12)

(5)子集精度(Subset accuracy):該指標(biāo)用于考察預(yù)測標(biāo)簽集合與真實(shí)標(biāo)簽集合完全吻合的樣本占測試樣本集合數(shù)目的比例情況。該值越大表示算法性能越好

(13)

(6)微平均(Micro F1):將每個(gè)標(biāo)簽都當(dāng)作一個(gè)獨(dú)立的元素,不考慮標(biāo)簽之間的區(qū)別。該值越大表示算法性能越好

(14)

3.3 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證本文所提算法的有效性,我們將所提算法LIFTPNL與BR[14]、LLSF[8]、LIFT和LIFTACE算法進(jìn)行了對(duì)比,其中對(duì)比算法的參數(shù)設(shè)置與原文一致。LLSF中α、β和γ值分別設(shè)為0.1、0.1和0.01,迭代100次;LIFT、LIFTACE和LIFTPNL中r都設(shè)為0.1。由于不同數(shù)據(jù)集的對(duì)近鄰K的敏感程度不同,在LIFTPNL中,K在取值 {3,5,7,9,11,13,15,17,19,21} 中遍歷,取最好值。5種算法中,除LLSF是基于樣本和類屬特征重要度矩陣的乘積直接獲得分類結(jié)果外,其余算法的二分類器都選用線性核函數(shù)的支持向量機(jī)。實(shí)驗(yàn)每次隨機(jī)選擇80%的樣本作為訓(xùn)練樣本,剩余20%用于測試。重復(fù)該過程5次,取其平均值用于算法的性能比較。

表3給出了不同分類算法的性能。其中,實(shí)驗(yàn)結(jié)果采用平均值±方差的形式表示,并將最好的指標(biāo)值加粗。從表中可以看到,LIFTPNL幾乎在所有指標(biāo)上都取得最好值,除了在scene數(shù)據(jù)集上,基于標(biāo)簽的兩個(gè)評(píng)價(jià)指標(biāo)略低于LIFTACE,以及在language log數(shù)據(jù)集上,基于樣本的F1-measure評(píng)價(jià)指標(biāo)次于BR。表4給出了不同算法在所有數(shù)據(jù)集上的排序值。從表中可以看到,算法性能總體排序?yàn)長IFTPNL>LIFTACE>LIFT>BR>LLSF,本文所提算法仍是最優(yōu)。LLSF的樣本評(píng)價(jià)指標(biāo)不如BR,但標(biāo)簽評(píng)價(jià)指標(biāo)好于BR。LIFTACE在除了子集精度外的其余5個(gè)評(píng)價(jià)指標(biāo)上優(yōu)于LIFT。LIFTPNL在所有評(píng)價(jià)指標(biāo)下的排名均為第一。

表3 不同分類算法的性能比較(mean±std)

表3(續(xù))

表4 不同算法在所有數(shù)據(jù)集上的排序值

(15)

表5 Friedman檢驗(yàn)統(tǒng)計(jì)值和臨界值(N1=5,N2=6)

圖1 每個(gè)評(píng)價(jià)指標(biāo)下的所有算法的Friedman檢驗(yàn)

4 結(jié)束語

本文提出一種基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)方法LIFTPNL。該方法是LIFTACE的改進(jìn)。首先基于kNN的思想構(gòu)建全局和局部的標(biāo)簽信息矩陣,根據(jù)此矩陣計(jì)算成對(duì)標(biāo)簽的正負(fù)相關(guān)性,并引入到LIFTACE對(duì)每個(gè)類別標(biāo)簽的樣本相似度計(jì)算中;接著采用譜聚類方法獲得聚類中心,并將原有特征轉(zhuǎn)換成類屬特征;最后,通過二分類器得到分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提算法優(yōu)于多種多標(biāo)簽分類算法。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 久青草免费视频| 欧美日韩国产一级| 国产99视频精品免费观看9e| 国产高清无码麻豆精品| 91久久精品国产| 欧美日韩导航| 亚洲视频三级| 九九热免费在线视频| 日本高清成本人视频一区| 欧美精品不卡| 麻豆精品视频在线原创| 亚洲最新地址| 特级欧美视频aaaaaa| 青青草91视频| 精品久久高清| 最近最新中文字幕在线第一页| 久久精品亚洲中文字幕乱码| 亚洲人成在线精品| 亚洲综合18p| 亚洲精品少妇熟女| 九九九国产| 九色国产在线| 谁有在线观看日韩亚洲最新视频| 中文字幕在线看| 国产一区二区人大臿蕉香蕉| 麻豆精品国产自产在线| 亚洲无线国产观看| 色首页AV在线| 亚洲天堂免费观看| 91精品aⅴ无码中文字字幕蜜桃| 日韩精品一区二区三区中文无码| 亚洲欧洲一区二区三区| 日韩毛片免费观看| 欧美成人精品高清在线下载| 国产人人乐人人爱| 亚洲色图欧美视频| 欧美日韩中文国产va另类| 欧美高清国产| 情侣午夜国产在线一区无码| 亚洲国产日韩在线成人蜜芽| 亚洲欧美自拍一区| 久久亚洲国产最新网站| 国产免费羞羞视频| 亚洲三级片在线看| 亚洲欧美另类视频| 永久天堂网Av| 国产精品污视频| 欧美精品在线免费| 亚洲国产一成久久精品国产成人综合| 色久综合在线| 成年女人a毛片免费视频| 欧美一区二区三区欧美日韩亚洲| 97精品伊人久久大香线蕉| 亚洲系列无码专区偷窥无码| 波多野结衣国产精品| 精品国产免费人成在线观看| 在线欧美a| 久久黄色影院| 国产精品黄色片| 日韩高清成人| 欧美午夜性视频| 亚洲香蕉伊综合在人在线| 在线免费观看a视频| 综合色88| 91九色视频网| 欧美国产在线精品17p| 激情影院内射美女| 欧美日韩91| 国产午夜精品一区二区三区软件| 欧美色综合网站| 国产www网站| 91精品视频网站| 亚洲国产精品日韩av专区| 好久久免费视频高清| 成人免费一级片| 国产欧美日韩精品第二区| 男人天堂亚洲天堂| 99在线观看视频免费| 青草视频免费在线观看| 国产无码性爱一区二区三区| 污网站免费在线观看| 综合网久久|