肖萍婉,王子牛,高建瓴
(貴州大學 大數據與信息工程學院,貴陽550025)
在大數據時代,每天都在產生各種類型的數據,數據量大且具有多樣性。多標簽文本在日常生活中十分常見,例如:一條微博可能同時標注“明星”、“綜藝”、“搞笑”、“娛樂”等多個標簽;一則體育新聞可能同時標注“體操”、“奧運會”、“體育”等標簽。多標簽文本分類在現實生活中有許多實際應用,如視頻注釋、主題識別[1]、情感分析[2]、信息檢索[3]等。因此,多標簽文本分類任務是自然語言處理領域一個十分重要卻又富有挑戰性的任務。
目前,多標簽文本分類的研究方法可分為3種類型,分別是算法適應方法、問題轉換方法和神經網絡方法。算法適應方法是根據已存在的傳統單標簽文本分類算法,進行相對應的改進后,得到適應處理多標簽分類的算法。Elissee等人提出Rank-SVM(Ranking Support Vector Machine)方法[4],是將經典的支持向量機運用到多標簽分類中;陸凱等人提出的ML-KNN方法[5],是先利用K近鄰算法得到近鄰樣本的標簽,然后未知示例的標記集合是通過最大化后驗概率推理得到。問題轉換方法是將多標簽分類任務轉化為傳統的單標簽分類任務,目前單標簽分類任務已經有許多成熟的算法可以選擇。如,二元分類算法BR(Binary Relevance)[6],是將多標簽學習問題分解為多個獨立的二元分類問題,但存在缺乏發現標簽間相互依賴的能力,這將會導致預測標簽的性能降低;標簽統一算法LP(Label Powerset)[7],是將每個有可能的標簽重新整合成一組新的標簽集合,再將問題轉化為單標簽分類任務;……