李 曉(北京理工大學計算機學院,北京,100081)
一種具有主次標簽的多標簽文本分類方法
李 曉
(北京理工大學計算機學院,北京,100081)
在自然語言文本分類處理領域中,各種主流的多標簽分類方法都只能使文本具有多個標簽類別,但并不能識別哪個標簽對使用者來說最重要,哪些標簽次重要。本文以文本信息為研究對象,通過對幾種主流多標簽分類算法原理的研究分析,提出了能識別主、次標簽的多標簽文本分類方法-具有主次標簽的多標簽分類方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。
文本分類;主、次標簽;MLTCPSL
多標簽文本分類問題的研究對海量文本信息迅速分流,協助信息用戶檢索并準確定位所需信息,解決信息雜亂等問題都有著十分重要的意義,但現有的多標簽分類方法雖然把信息分到了多個類別中,卻無法識別那個標簽對用戶來說是最重要的,那些是次重要的。例如:一篇關于中國和美國籃球賽的文章,可以分到中國和美國兩個類別里,如果這篇文章重點談的是中國隊的訓練和備戰,那它的主類別就是中國,次類別是美國,如果用戶查詢中國這個關鍵詞就可以顯示這篇文章,如果用戶查詢美國這個關鍵詞就可以把這篇文章放到檢索結果靠后的位置,因為它只是次要談到了美國。所以,研究能識別主、次標簽的多標簽分類方法,對提高用戶使用效率有著十分重要的意義。
本文所研究的對文本按不同類別進行分類,是根據文本內容涉及的國家或地域名稱對文本添加地理標簽的過程,之所以選擇地理標簽是因為地理標簽界限比較明確,數據收集和整理比較方便。當然也可以選擇其它標簽進行分類,只要類別清楚,已知類別數據量充足即可。根據文本內容添加地理標簽這一步驟實際上是以既定的地理標簽為類別判斷標準,研究文本與已知類別標簽之間的多重歸屬關系,也就是說,其實質是一個多類多標簽分類問題。但是與常見的多類多標簽分類問題相比,它還具有以下特點:
(1)每個文本添加的多個標簽有主次之分,且數量有別。主標簽有且只有一個,次標簽可有可無、數量不限。而在常規多類多標簽分類問題中,標簽之間并無區別。
(2)添加主次標簽時使用的評價標準不一致。為更好地對文本進行處理,通常必須選定一個文本主類別,也就是說,添加主標簽要準確;同時,該文本涉及信息面可能較廣,所以還要保證文本處理的全面性,也就是說,添加次標簽要全,盡量不要遺漏。因此,在區分主次標簽時,不能象常規多類多標簽分類問題采用查準率和查全率均衡的評價方法,而是需在區分主標簽時以查準率為主,區分次標簽時以查全率為主。
必須面對訓練文本中類別不均衡問題。由于標簽數目很多,不同類別的樣本數量可能存在量級上的差距,導致經訓練構建的分類器無法準確反映各類別文本的分布情況,導致分類器容易被大類淹沒而忽略小類。即使對主標簽分類時,可以對訓練文本集合進行調整,達到對主標簽平衡的狀態,但是也無法達到對每個次標簽都平衡的狀態。
文獻研究結果表明,現有文本分類算法主要解決單標簽文本分類問題,而多標簽文本分類問題一般采用多分類器集成學習方法,通過將多標簽文本分類問題轉化為多個相互獨立的單標簽文本分類問題,然后綜合各個單標簽文本分類問題求解結果,形成最終的多標簽分類結果。這種方式,往往沒有考慮標簽之間的主次關系,不能解決有主次區分的多標簽文本分類問題。為此,本文借鑒多分類器集成學習方法,針對主次標簽相對獨立的特點,將在不同類別信息區分過程中具有主次標簽的多標簽分類問題,分解為以主標簽為目標的多類單標簽分類和以次標簽為目標的多類多標簽分類兩個問題。
文獻研究結果表明,針對文本分類問題提出的文本表示模型和分類算法種類繁多、各有特點,與文本分類的性能息息相關。但是,單個文本表示模型或分類算法往往在解決某類特定的問題時表現出相對更佳的性能,而在解決其他問題上的表現則差強人意。因此,直接采用已有的分類算法或者全新設計一個分類方案,以期解決具有主次標簽的多標簽分類問題,是不現實的。為此,針對主、次標簽相對獨立的特點,將在不同類別信息區分過程中具有主次標簽的多標簽分類問題,分解為以主標簽為目標的多類單標簽分類和以次標簽為目標的多類多標簽分類兩個問題,從而提出了具有主次標簽的多標簽文本分類方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。
2.1 主標簽分類方法
對主標簽分類器的選擇,實質上是以精度為指標,選擇能夠在實際數據環境中表現最優的分類器。
本文首先選擇Na?ve Bayesian(樸素貝葉斯)、LR(邏輯斯特回歸)、SVM(支持向量機)和Sparse Bayesian(稀疏貝葉斯)等具有代表性的分類器進行分類精度實驗,實驗結果如表1 所示。

表1 各種分類器在Reuters-21578上的實驗結果
從表中可以看出LR和SVM性能相當,都比Na?ve Bayesian、Sparse Bayesian好。
用戶的數據環境是一個典型的類別數據分布不平衡環境,不同的類別間數據量差異較大。本文進一步對比LR和SVM對不平衡類別分布的健壯性,研究發現SVM對實例分布的健壯性要好于LR。
因此,本文確定線性SVM作為MLTCPSL主標簽分類器的訓練算法。
2.2 次標簽分類方法
MLTCPSL中的次標簽分類器設計問題,實質上是一個以macro-F1作為性能指標的標準多標簽分類問題。
本文選擇問題轉換法的二值法來解決多標簽分類問題:為每個標簽訓練一個兩分類器(正類為該標簽,反類為非該標簽),這樣如果有n個標簽,就構造n個分類器;分類時,如果相應的分類器輸出為正值就把分類器對應的標簽輸出。
每個標簽是一個兩分類問題,由于要考慮的標簽很多(十幾個),這就使得對應于每一個分類器,正類數據由該標簽對應的數據構成,而反類數據則是由其它所有不屬于這個標簽的數據構成,正反類數據之間嚴重不平衡。解決不平衡類別的方法很多,調整決策門限是比較簡單和有效的一種方法。
本文選擇了Pcut、Scut和Rcut等三種決策門限選取方法進行了研究,確定Scut在校驗集合上為每個標簽分別選擇各自的決策門限。
在校驗集上優化決策門限需要確定優化準則,本文選擇F1作為評估指標。F1有macro-和micro-兩種計算方法,其中稀少類的性能對macro-F1有較大影響,通過優化macro-F1可以使各類的性能相差不大,分類時就不會出現有些類性能很好,有些類性能很差的現象;另外有文獻指出,即使目標是優化macro-F1,也能保證得到較小的micro-F1,反之則不一定,因此本文選擇macro-F1作為準則。
2.3 MLTCPSL方法
表2 以3個文檔3個標簽為例說明了本文構造的分類器,對主標簽使用一個多類別的分類器。在MLTCPSL中是單標簽多類別的SVM分類器。實際上最基本的SVM是兩分類器,該多分類器實際是使用one-against-rest策略從兩分類器得到。、、是針對3個標簽采用二值方法分別建立的三個兩分類器,用macro-F1最大化作為訓練指標。

表2 具有主次標簽的多標簽文本分類算法(MLTCPSL)示例
算法3-1給出了本文提出的MLTCPSL算法流程,分別處理主標簽和次標簽,訓練出一個多類別的主標簽分類器和n個次標簽分類器。主標簽分類器的訓練以精度最大化為指標,而多個次標簽分類器以macro-F1為優化目標,選擇在校驗集合上使macro-F1最大的門限作為決策門限。

本文提出了能識別主、次標簽的多標簽文本分類算法(MLTCPSL),解決了在多標簽分類方法中識別主要標簽和次要標簽的問題。
作者簡介
[1] D.D.Lewis.Naive Bayes at forty:the independence assumption in information retrieval[C].The 10th European Conference on Machine Leaming, Heidelberg,Germany,1998.
[2] N.Kamal,L.John,M.Andrew.Using maximum entropy for text classification [C].Proceedings of the IJCAI-99,Workshop on Information Filtering,Stokholm, Sweden,1999.
[3] Y.Yang.An evaluation of statistical approaches to text categorization[J].Joumal of Information Retrieval,1999,l(1/2):69-90.
[4] T.Joachims.Text categorization with support vector machine:learning with many relevant features[C]. Proeeedings of the 10th European Conference on Machine Leaming,1998:137-142.
李曉,男,民族:漢,出生年月日:1982年2月4日,籍貫(省市):湖北隨州,最后學歷:碩士研究生,畢業院校:北京理工大學,專業:計算機科學與技術,職稱(職務):在讀研究生


表3.2 基于三個函數的鏈路預測算法準確性比較
利用WCN,WAA,WRA三個預測算法,通過三個節點活躍度函數分別在三個算法中的驗證分析,結果表明,在考慮節點活躍度這一屬性時,鏈路預測的準確度都有明顯的提高,這說明將節點活躍度融合到算法中是必要可行的。
參考文獻
[1] 劉宏鯤,呂琳媛,周濤.利用鏈路預測推斷網絡演化機制.中國科學, 2011, 41(7):816-823.
[2] Yu H,Braun P,Yildirim M A,et al.High-quality binary protein interaction map of the yeast interactome network.Science,2008,322(5898):104-110.
[3] Stumpfm P H,Thornet T,Silva E de,et al.Estimating the size of the human interactome.Proc Natl Sci Acad USA,2008,105(19):6959-6964.
黃勇(198-),男,工程師,研究方向為信息安全,光纖網絡等。
A major label multi label text categorization method
Li Xiao
(School of Computer Technology ,Beijing Institute of Technology,Beijing,100081)
This paper take the text as the object of study,through the research of several mainstream multi label classification algorithm analysis, put forward to the identification of the main,secondary label multi label text classification methods with primary and secondary label multi label classification method (Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL).
text classification;principal;time tag;MLTCPSL
王燁(1981-,女(滿族),博士研究生,研究方向為賽博空間,社交網絡,云計算等;
朱正祥(1974-),男,博士后,研究方向為主要研究領域為數據挖掘、系統科學等;
劉增良(1958-),男,博士生導師,博士,研究方向為信息安全,網絡戰,人工智能等;
宋文超(1981-),男,中級測評師,研究方向為信息安全、等級保護、云計算等;