李程文 宋文廣 譚建平


摘? ?要:傳統(tǒng)的支持向量機分類模型只有在利用大量已標注數(shù)據(jù)進行訓練才能獲得較高精度。在實際應用中,多標簽數(shù)據(jù)相對于傳統(tǒng)單標簽數(shù)據(jù)更具有價值,但多標簽數(shù)據(jù)中含有大量冗余數(shù)據(jù),獲取大量多標簽數(shù)據(jù)難度非常大。文章提出一種基于遷移學習的分類算法,利用目標數(shù)據(jù)域和源數(shù)據(jù)域的相關(guān)性,從源數(shù)據(jù)域中選取對分類超平面起關(guān)鍵作用的支持向量和目標數(shù)據(jù)域,一起訓練分類模型以提高分類精度。
關(guān)鍵詞:多標簽;遷移學習;文本分類;支持向量機
一般支持向量機(Support Vector Machine,SVM)要想獲得比較好的分類精度需要滿足兩個需求:(1)利用大量的有標簽數(shù)據(jù)訓練分類模型。(2)要求測試集和訓練集是同分布數(shù)據(jù)[1]。
針對傳統(tǒng)的SVM,需要利用大量的有標簽數(shù)據(jù)訓練分類模型才能獲得分類精度的問題[2],本文引入遷移學習,通過選取源域數(shù)據(jù)集中對分類超平面起決定性作用的關(guān)鍵支持向量與目標數(shù)據(jù)域數(shù)據(jù)一起進行模型訓練,并且放寬了對訓練集和測試集的要求,以提高分類模型的分類精度[3]。
1? ? 基于Transfer-SVM多標簽文本分類算法
1.1? 算法思想
本文MT-SVM的核心思想是:由于對支持向量機的分類超平面起決定性作用的只有關(guān)鍵的少數(shù)支持向量,所以,假如源數(shù)據(jù)域和目標數(shù)據(jù)域相關(guān),則這兩個數(shù)據(jù)域的支持向量機分類超平面非常接近,因此,決定目標數(shù)據(jù)源的分類超平面的支持向量和決定源數(shù)據(jù)域的分類超平面的支持向量非常接近。所以,通過選取源域數(shù)據(jù)集中對分類超平面起決定性作用的關(guān)鍵支持向量與目標數(shù)據(jù)域數(shù)據(jù)一起進行模型訓練以提高分類模型的分類精度是可行的。
1.2? 目標函數(shù)構(gòu)造
利用高斯函數(shù)σ(vsi,DTl)評估支持向量與已標注目標域數(shù)據(jù)vsi的相似度,選取關(guān)鍵支持向量。將相似性評估項加入到支持向量機的目標函數(shù),構(gòu)造算法的目標函數(shù),表示如下:
2? ? 實驗
2.1? 數(shù)據(jù)集
化合物毒性預測(Prediction Toxicity of Compounds,PTC)。本文實驗所用數(shù)據(jù)集為PTC,該數(shù)據(jù)集包含作用在4種不同老鼠身上的417種不同的化合物致癌信息。將數(shù)據(jù)集中存在缺陷的數(shù)據(jù)集(即具有E,EE和IS標簽的數(shù)據(jù))移除,最終得到253種化合物實驗的數(shù)據(jù),并為數(shù)據(jù)分配4類標簽(即MR,F(xiàn)R,MM,F(xiàn)M)。對于每一類標簽的屬性可以標記為+1,-1或0,即+1表示沒有產(chǎn)生致癌效果,0表示未被標記,-1表示產(chǎn)生了致癌效果。具體數(shù)據(jù)如表1所示,其中,Pos(%)表示每個實驗的積極化合物的平均百分比。
2.2? 試驗方法
為了能體現(xiàn)提出的算法的有效性與實用性,將實現(xiàn)以下方法進行對比。
SVM[4]:傳統(tǒng)的支持向量機分類算法,實驗在多標簽目標域數(shù)據(jù)比較少的情況下分類性能。
MT-SVM:采用評估方法選擇適合的多標簽源數(shù)據(jù)域支持向量,并加入到目標數(shù)據(jù)域進行分類器訓練。
2.3? 實驗結(jié)果
在實驗中,目標領(lǐng)域分訓練集與測試集,目標領(lǐng)域訓練集只選取源領(lǐng)域訓練集1%,剩下的為測試集,由于目標訓練集很少,要保證樣本基本分類正確,Transfer-SVM中參數(shù)在[0.000 001,0.000 01,0.000 1,0.001,0.01,0.1,1,10,100,1 000]中選取。可以看出,本算法的準確率要高于傳統(tǒng)的SVM分類算法。
3? ? 結(jié)語
利用目標數(shù)據(jù)域和源數(shù)據(jù)域的相關(guān)性,從源數(shù)據(jù)域中選取對分類超平面起關(guān)鍵作用的支持向量和目標數(shù)據(jù)域一起訓練分類模型以提高分類精度。因此,Transfer-SVM算法能夠有效地提高分類精度。
[參考文獻]
[1]JIANG S,PANG G,WU M.An improved K-nearest-neighbor algorithm for text categorization[J].Expert Systems with Applications,2012(1):1503-1509.
[2]SEBASTINAI F.Machine learning in automated text categorization[J].Association for Computing Machinery Surveys,2002(1):1-47.
[3]YANG J,YAN R,HAUPTMANN A G.Cross-domain video concept detection using adaptive SVMs[C].Augsburg:the 15th International Conference on Multimedia,2007.
[4]CHIH C C,CHIHJEN L.LIBSVM:a library for support vector machine,2001[EB/OL].(2018-07-15)[2019-05-10].http://www.csie.ntu.edu.tw/~cjlin/libsvm.