劉 競, 郭忠文, 孫中衛, 劉石勇, 王續澎
(中國海洋大學信息科學與工程學院, 山東 青島 266100)
與傳統分類問題相比,在多標簽分類中,每個樣本也用單個實例表示,它的不同之處在于,每個實例可以同時擁有多個標簽,這樣標簽之間就不再相互獨立[1]。為了解決多標簽分類問題,研究者們已經提出了許多多標簽分類方法,主要包括采用支持向量機的方法,采用神經網絡的方法,采用樸素貝葉斯的方法,采用決策樹的方法和采用k最近鄰的方法[2]等。這些方法已經在文本分類[3]、圖像視頻的語義標注[4-5]、生物信息學預測[6]、音樂情感分類[7]等許多領域獲得成功運用。但是,在現實世界中存在許多應用,它們需要在大規模數據集上進行多標簽分類,這將導致許多原有的多標簽分類方法不能被很好地使用。這主要是受到繁重計算復雜度的限制,主要表現為所需訓練和測試時間過長,這在支持向量機上尤為明顯。本文將聚焦于支持向量機類型的多標簽分類技術。
傳統的支持向量機(Support Vector Machine,SVM)[8-9]算法只能解決單標簽分類問題,經過改進的多標簽支持向量機算法[10]可以進行多標簽分類。但是,現實世界中的很多應用數據集需要SVM采用非線性核函數,這進一步限制了SVM多標簽分類算法在大規模多標簽數據集上的使用。
此外,多標簽分類算法無法回避的問題是絕大多數的多標簽數據集都在遭受一個嚴重的標簽數據不平衡問題[11],這將影響各類算法的分類效果。
本文針對多標簽SVM分類算法在大規模數據集上使用所遇到的問題,將結合著名的二元關聯問題轉換策略和二元DC-SVM[12]分類算法來構建一個新的多標簽SVM分類算法(MLDC-SVM)?!?br>