李程文 鄧家亮



摘要:與傳統(tǒng)二分類或多分類的單標(biāo)簽問題不同,多標(biāo)簽問題研究中一個(gè)目標(biāo)可能與多個(gè)標(biāo)簽相關(guān)聯(lián),標(biāo)簽之間豐富關(guān)系的存在導(dǎo)致對(duì)多標(biāo)簽問題的分析研究更加復(fù)雜。針對(duì)如何利用特征與標(biāo)簽、標(biāo)簽與標(biāo)簽之間的關(guān)系的問題,文章提出了基于Hilbert-Schmidt獨(dú)立準(zhǔn)則的多標(biāo)簽學(xué)習(xí)算法。該方法利用Hilbert -Schmidt獨(dú)立準(zhǔn)則評(píng)估特征和它的標(biāo)簽之間關(guān)聯(lián)性并對(duì)其進(jìn)行改進(jìn),采用多項(xiàng)式核函數(shù)代替線性核函數(shù)來衡量特征和標(biāo)簽的相關(guān)聯(lián)性,考慮到不同標(biāo)簽對(duì)分類的貢獻(xiàn)不同,加入標(biāo)簽權(quán)重矩陣。實(shí)驗(yàn)證明,文章研究的算法可以提高多標(biāo)簽分類的性能。
關(guān)鍵詞:多標(biāo)簽:特征選擇:相關(guān)性:Hilbert-Schmidt
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)志碼:A
0 引言
在實(shí)際生活中,數(shù)據(jù)多以多標(biāo)簽的形式存在的,使得多標(biāo)簽特征選擇、分類和識(shí)別成了機(jī)器學(xué)習(xí)中重要的研究方向之一。對(duì)比傳統(tǒng)的單標(biāo)簽數(shù)據(jù),多標(biāo)簽數(shù)據(jù)由于存在復(fù)雜多變的目標(biāo)對(duì)象以及龐大的標(biāo)簽組合空間,變得十分具有挑戰(zhàn)性[1]。多標(biāo)簽數(shù)據(jù)最主要的特點(diǎn)是數(shù)據(jù)的多個(gè)標(biāo)簽之間存在著相關(guān)性。探索標(biāo)簽的語義信息和相互聯(lián)系,是提高多標(biāo)簽學(xué)習(xí)方法的性能的重要手段之一[1]。如在經(jīng)典的行人檢測(cè)數(shù)據(jù)集INRIA Person Dataset中,圖片分為只有車、只有人、有車有人、無車無人4個(gè)類別,其中既有車又有人的圖片則屬于典型的多標(biāo)簽圖像,如何精準(zhǔn)地識(shí)別出有車又有人的圖片中的行人就是多標(biāo)簽研究中常見的問題[2]。
本文提出了一種新的多標(biāo)簽分類算法框架,即基于Hilbert-Schmidc獨(dú)立準(zhǔn)則的多標(biāo)簽學(xué)習(xí)算法。這種算法利用Hilhert -Schmidt獨(dú)立準(zhǔn)則評(píng)估特征和它的標(biāo)簽之間關(guān)聯(lián)性,對(duì)其進(jìn)行改進(jìn),采用多項(xiàng)式核函數(shù)代替線性核函數(shù)來衡量特征和標(biāo)簽的相關(guān)聯(lián)性,考慮到不同標(biāo)簽對(duì)分類的貢獻(xiàn)不同,加入標(biāo)簽權(quán)重矩陣。
1 Hilbert-Schmidt獨(dú)立準(zhǔn)則
Hilbert - Schmidt獨(dú)立評(píng)估準(zhǔn)則是一種基于核函數(shù)的變量相關(guān)性評(píng)價(jià)方法。該方法首先計(jì)算2個(gè)變量在再生核希爾伯特空間( RKHS)中的互協(xié)方差,然后從這些變量中選擇出適合用于多標(biāo)簽分類的特征[3]。
雖然HSIC準(zhǔn)則可以很好地用來評(píng)估2個(gè)變量在核空間中的相關(guān)性,但是對(duì)于多標(biāo)簽數(shù)據(jù)而言,不同標(biāo)簽對(duì)于同一特征的重要性是不同的,而且多標(biāo)簽數(shù)據(jù)的多個(gè)標(biāo)簽之間存在某種相關(guān)聯(lián)性。本研究對(duì)HSIC準(zhǔn)則進(jìn)行改進(jìn),采用多項(xiàng)式核來衡量標(biāo)簽之間的相關(guān)聯(lián)性,加入標(biāo)簽權(quán)重。
2 多標(biāo)簽分類算法
選擇出來的最優(yōu)特征應(yīng)使得特征和它的標(biāo)簽之間具有最大關(guān)聯(lián)性。對(duì)于每一個(gè)特征,不同標(biāo)簽與它的關(guān)聯(lián)性和重要程度是不一樣的。本研究引入權(quán)重矩陣β。根據(jù)HSIC準(zhǔn)則,式(7)可以改寫為如下:
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
本次實(shí)驗(yàn)使用的是化合物毒性預(yù)測(cè)( PTC),該數(shù)據(jù)集包含作用在4種不同老鼠身上的417種不同的化合物致癌信息。每一種老鼠體內(nèi)被注入任意一個(gè)化合物都會(huì)產(chǎn)生CE、SE、P、E、EE、IS、NE、N類醫(yī)學(xué)反應(yīng),其中P、SE和CE屬于正標(biāo)簽類別.N和NE屬于負(fù)標(biāo)簽類別,E、IS和EE屬于不明確標(biāo)簽。在實(shí)驗(yàn)中,本研究將這類標(biāo)簽移除。最終得到253種化合物實(shí)驗(yàn)的數(shù)據(jù),并分配4類標(biāo)簽,即小型的雄性老鼠MM、大型的雄性老鼠MR、小型的母性老鼠FM、大型的母性老鼠FR[4]。
3.2 實(shí)驗(yàn)方法
為了體現(xiàn)本文方法的實(shí)用性和有效性,將設(shè)置以下對(duì)比實(shí)驗(yàn):
(1)單標(biāo)簽+SVM:這種方法是將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為多個(gè)二分類任務(wù),使用SVM作為二分類器將數(shù)據(jù)分類成多個(gè)二分類別。
(2) MLFS+ BoosTexter:采用評(píng)估方法選擇適合的多標(biāo)簽特征數(shù)據(jù),然后采用多標(biāo)簽分類器BoosTexter對(duì)其進(jìn)行分類。
3.3 實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,整個(gè)數(shù)據(jù)集被劃分為10個(gè)相等大小的部分。其中.1份用作驗(yàn)證集,其余9份用作訓(xùn)練集,然后重復(fù)10次,直到每份都曾用作驗(yàn)證集,其余折疊用作訓(xùn)練集。為了驗(yàn)證算法的有效性,本研究采用Average Precision和Hamming Loss評(píng)估多標(biāo)簽分類性能。實(shí)驗(yàn)結(jié)果如圖1和圖2所示,可以看出無論是Hamming Loss還是Average Precision,本文提出的方法MLFS-BT分類效果比SL-SVM的分類效果好。
4 結(jié)語
本文采用Hilbert - SChmidt獨(dú)立準(zhǔn)則評(píng)估特征與標(biāo)簽之間關(guān)聯(lián)性,采用多項(xiàng)式核函數(shù)對(duì)其進(jìn)行改進(jìn),同時(shí)考慮到不同標(biāo)簽對(duì)分類的貢獻(xiàn)不同,加入標(biāo)簽權(quán)重矩陣,從而選擇出對(duì)分類起作用比較大的特征,通過實(shí)驗(yàn)證明方法的有效性。以后的研究可以考慮將算法擴(kuò)展到多標(biāo)簽圖像識(shí)別領(lǐng)域。
參考文獻(xiàn)
[1]李為.基于圖神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像識(shí)別[D].哈爾濱:哈爾濱工業(yè)大學(xué).2021.
[2] BEN-BARUCH E, RIDNIK T,ZAMIR N,et al.AsVmmetriC loss for multi -lahel classification[ EB/OL].( 2021 -07 - 29)[2023 - 01 - 20]. https://www. xueshufan.com/publication/3090578762.
[3]張居杰.多標(biāo)簽學(xué)習(xí)中關(guān)鍵問題研究[D].西安:西安電子科技大學(xué).2016.
[4]李遠(yuǎn)航.基于圖數(shù)據(jù)的主動(dòng)學(xué)習(xí)方法的多標(biāo)簽分類研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2015.
(編輯王永超)