基于共現分析的分類器鏈標簽序列優化方法

2021-08-24 01:27:58賴德迪羅智徽馬應龍

系統工程與電子技術 2021年9期

賴德迪,羅智徽,馬應龍

(華北電力大學控制與計算機工程學院,北京 102206)

0 引言

分類算法是機器學習中非常重要的研究課題。通過分類算法可以使得機器對所分析的研究對象自動劃分種類,從而達到識別對象、認識對象特征的目的。在實際問題中,一個對象所屬的類別往往不是單一的,而可能是同時屬于多個類別的[1-2]。例如,在一些針對復雜化、信息化的大型裝備的故障檢測任務中[3],一組設備的狀態監測數據異常極有可能是因為制動器、齒輪箱、扭矩傳感器、驅動電機中的一個或多個部件故障引起的,因此該異常事件可以同時對應一個或多個故障類別。這種為每個對象準確預測其所有可能類別的分類方法稱為多標簽分類[4]。而傳統的分類方法只是為每一個對象準確預測一個類別標記。

多標簽分類的難點主要表現在以下方面。首先,每個對象需要預測的標簽數量通常是不確定的,有的對象可能只有一個分類標簽,而有的對象的標簽數量卻可能很多[5]。雖然一些多標簽分類算法當前已經被應用于圖像多目標檢測識別等領域,但現有的多標簽分類方法在總體分類準確率等方面還有待提高,特別是在標簽數量很多的情況下進行準確的多標簽預測是一個具有挑戰性的問題。其次,高準確率的多標簽分類需要深入挖掘標簽之間的潛在關聯或依賴關系。因為在進行多標簽分類時,大多數的標簽之間通常存在著正向或負向的相關性。例如在多標簽圖像目標識別的任務中[6],如果一張圖像中包含了戰斗機、轟炸機、預警機等多個不同類型的目標對象,一旦識別出圖像中的這些目標對象,則該圖像會被同時標記為“戰斗機”“轟炸機”“預警機”等類型標簽。因此,如何分析和挖掘多個標簽之間的潛在關聯或依賴關系是多標簽分類的另一大難點。

現有的多標簽分類方法大致基于兩種策略,分別是算法適應策略[7]和問題轉換策略[8]。算法適應策略將多標簽分類問題轉換成聚類[9]等其他形式的問題進行處理。例如基于K最近鄰思想的多標簽分類方法[10],其對于每個測試樣本,在訓練集中找到其K個近鄰,然后基于鄰居樣本的統計信息,采用最大后驗概率決定測試樣本的標簽集合。另一種基于標簽排序校準的多標簽分類方法[11]則依據測試樣本在每個標簽分類器上得到的值為1(或0)進行加分(或減分)。最后按照分值大小進行排序,取分值靠前的多個標簽作為當前測試樣本的標簽集合。但由于該類算法需要對每兩個標簽之間訓練一個分類器,使得算法時間復雜度較高,在標簽數目較多的任務上難以展開。近來也有學者在信息論的基礎上對于多標簽分類算法模型進行改進[12-13],該類改進算法借助于嵌入特征選擇的方法對樣本特征進行篩選。通過去除樣本中冗余的特征,保留有效特征的方式,來減少無關特征對分類結果的影響,從而達到優化的效果。然而去除特征或多或少會減少了原樣本的實例信息,并影響分類器訓練的收斂速度和最終的分類性能。

問題轉換策略則主要將多標簽分類問題拆解成一個多分類問題或多個二分類問題,從而簡化多標簽分類任務。其代表性的方法,如標簽冪集算法[14-15],其將原問題轉換為選擇標簽集合中一個子集,并以此來作為測試樣本的標簽預測集。其充分考慮了給定標簽集合可能的組合情況,但由于標簽集合所包含的子集數量往往十分龐大,因此該算法在標簽數目較多的情況下,時間復雜度極高。上述算法無疑都顯示了多標簽分類的潛力,部分算法也已經被應用于文本分類[16-18]、媒體內容標簽[19]、在線處理[20]、蛋白質和基因組預測[21-23]等應用領域。然而,基于算法自適應的多標簽分類方法往往需要建立更復雜的學習模型來進行模型訓練和實例標簽的特征表示,并且往往具有較高的復雜度,而上述算法都難以在這樣的任務中有較好的表現。

分類器鏈(classifier chains,CC)模型[24]作為一種最典型的基于問題轉換策略的多標簽分類算法,因其簡單易用而得到廣泛地應用和發展[25-26]。CC模型基于二元相關性(binary relevance,BR)[27]原理,對每個標簽都訓練一個二元分類器,所有樣本在每個分類器上都進行二元分類,并通過鏈式增長的方式訓練出多標簽分類模型。然而在CC模型中,二元CC序列是隨機生成的[28-30],沒有充分考慮二元分類器對應標簽之間存在的隱含依賴關系,而這無疑會導致分類錯誤傳播,并直接影響多標簽分類性能。因此采取合理的策略優化標簽的排序就顯得尤其重要[31]。近年來研究人員已提出很多CC算法優化策略。文獻[32]提出了一種多樹增寬CC方法,該算法通過建模標簽與屬性之間合理的條件依賴關系來近似底層依賴關系,但該方法計算復雜度極高,其預測計算代價隨標簽數量呈指數級增長。文獻[33]提出了基于神經網絡的CC模型算法,雖能明顯提升多標簽分類的性能,但隨著實例和標簽的增加,用于神經網絡模型訓練的計算復雜度將會急劇增加,因此類似方法不適用于一些需要快速地進行分類預測的應用環境,如邊緣計算環境等。

本文針對原始CC標簽序列隨機生成導致多標簽分類性能不高的問題,分別提出貪心CC(greedy CC,GCC)方法和基于n-gram的CC(n-gram based CC,NCC)方法對標簽序列中的標簽序列進行優化,以提升模型的多標簽分類性能。另外,通過與當前流行的基于CC模型的多標簽分類模型進行實驗對比,以驗證本文所提方法的有效性和高效性。

1 基本原理

1.1 多標簽分類

令X?Rk為k維實例輸入特征空間,Y={l1,l2,…,lq}標簽的集合。由n個數據組成的訓練樣本集D,表示為D={(xi,yi)}(i=1,2,…,n)。每個實例(xi,yi)∈D。xi=(xi,1,xi,2,…,xi,k)∈X是一個k維特征向量,xi,j代表特征向量xi的第j個元素。本文用yi=(yi,1,yi,2,…,yi,q)∈{0,1}q表示一個q維的標簽向量,其中yi,j=1表示標號lj與xi相關,而yi,j=0則表示與xi無關。設Yi?Y是與xi相關的標記組成的集合,則有Yi={lj|yi,j=1,1≤j≤q}。

多標簽分類的任務是找到一個能將yi最優地分配給每個實例xi的分類器f:X→{0,1}q。在BR[27]的背景下,一個多標簽分類器f是由q個二值分類器f1,f2,…,fq組成。每個二值分類器fj:X→{0,1}都可以從派生訓練集Dj={(xi,yi,j)}(j=1,2,…,n)中根據其與lj的相關性訓練得出。其中Dj是通過將每個實例(xi,yi)∈D轉化為對應于標簽lj的二進制實例(xi,yi,j)而得到的。對于標簽未知的實例x′,通過查詢每個分類器fj,可以預測其關聯的標簽集Y′={lj|fj(x′)=1,1≤j≤q}。

1.2 CC模型

CC是一種著名的基于BR模型的多標簽分類方法,克服了BR模型在訓練數據中忽略標簽間相關關系的局限性,從而獲得了較好的預測性能。該模型通過將前面分類器的結果添加到當前分類器來實現分類器的串行連接。具體來說,CC模型首先隨機生成一個標簽的序列,記為Y={l1,l2,…,lq},然后CC模型按照CC的序列訓練一組二元分類器f1,f2,…,fq。

在訓練階段,每個二元分類器fj:X→{0,1}都是基于當前標簽lj同前j-1個標簽l1,l2,…,lj-1的關聯性,從特定的派生訓練數據集Dj={(xi,yi,1,…,yi,j-1,yi,j)}(i=1,2,…,n)中訓練得到的。該訓練數據集Dj中的每一個實例都是由原始數據集D中的相對應的實例(xi,yi)派生得到的。

在測試階段,該方法以貪心方式來預測未知的實例x*的值fj(x*)。通過查詢每個分類器fj(1≤j≤q),來預測實例x*的關聯標簽集Y*,其中Y*={lj|fj(x*)=1,1≤j≤q}。

CC算法由于初始隨機生成的標簽鏈的順序無法有效避免錯誤傳播的風險,故對CC的順序仍然非常敏感。因此,為CC選擇一個最優的序列以保證多標簽分類的高精度成為一個關鍵問題。

2 CC優化方法框架

2.1 CC優化方法流程

本文提出的CC優化方法總體上可分為4個主要階段。第1階段,根據訓練樣本集合D={(xi,yi)}(i=1,2,…,n)來構建共現率矩陣M。第2階段,根據共現率矩陣M來確定標簽序列的首部(優化標簽序列中的前兩個標簽)。在第3階段,本文提出兩種方法生成完整的標簽優化序列方法,即GCC)和NCC。這兩種方法依據不同的標簽關聯發掘方式,得到不同的標簽優化序列。在第4階段,通過前面階段獲得的優化標簽序列進行基于CC模型的多標簽分類。本文CC優化方法的總體框架如圖1所示。

圖1 CC優化方法總體框架Fig.1 Overall framework of CC optimization method

2.2 共現率矩陣創建

共現分析是通過計算兩個元素一起出現的頻率[34-35]來定量度量兩個元素之間潛在關系的關聯度的一種方法,目前已應用于單詞嵌入[36]等技術中。共現率矩陣M的創建過程大致如下:

令D={(xi,yi)}(i=1,2,…,n)代表數據集,q代表標簽的數目。令Yi?Y代表與xi相關的標簽集合,則對yi=(yi,1,yi,2,…,yi,q)有Yi={lj|yi,j=1,1≤j≤q}。同時采用Si={(xj,yj)|(xj,yj)∈D,yj,i=1}來表示與標簽相關的實例。相應地用(Si={(xj,yj)|(xj,yj)∈D,yj,i=0}表示與li無關的實例集。因此,Si∩Sj={(xk,yk)|(xk,yk)∈D,yk,i=1,yk,j=1}。

在本文中,共現率矩陣是一個q×q大小的矩陣,對于共現率矩陣M中的i行j列(i≠j)的元素共現率Mij定義如下：

(1)

式中：|S|為集合S中元素的總數；n為訓練集D中樣本的總數。同時注意到,共現率矩陣必然是對稱矩陣,因此只需要計算矩陣的一半元素即可?；谑?1),共現率矩陣的一個例子如表1所示,其涉及q=5個標簽,是一個5×5矩陣。另外,共現率矩陣中只需要計算不同標簽之間的共現率,而無需計算相同標簽之間共現率。

表1 共現率矩陣的例子Table 1 Example of co-occurrence rate matrix

計算共現率矩陣中元素Mi,j在最壞情況下的計算復雜度為O(n)。由于計算同一標簽的共現性毫無意義,因此構建共現率矩陣的總復雜度應為O(n(q-1)2)。根據樣例的標簽集合建立對應的共現矩陣,可以將標簽之間的潛在關聯關系用于后續的標簽序列優化。

2.3 標簽序列首部的選定

在分析共現率矩陣M的基礎上,通過遍歷M中的每一行,找到值最大的單元格來確定前兩個標簽的在CC上的最優選擇?；诖?本文通過對每對標簽(li,lj)對應的Mi,j進行兩兩比較,并選擇Mi值最大的兩個標簽作為首部標簽,從而確定最優的首部選擇,如下所示:

(2)

式中:H表示共現率矩陣中具有最大共現率Mi,j的所有數對(i,j)的集合,每個數對(i,j)對應的標簽對為(li,lj)。

確定首部標簽在鏈中的順序至關重要,其基本標準是將共現率較高的標簽排序到盡可能早的位置,這樣可以有效地利用前面分類器的結果進行基于當前分類器的分類。本文通過兩個步驟確定優化標簽序列的前兩個元素。

步驟 1若H只包含一個標簽對,設H={(i,j)},則需要判斷標簽對(li,lj)是否滿足:

(3)

式(3)用于計算除(li,lj)以外分別與li和lj共現率最大的標簽對(li,ls)和(lj,lt)。若式(3)成立,那么li和lj分別是標簽序列的第1個和第2個標簽,否則反之。

步驟 2若H包含兩個及以上標簽對,不失一般性地假設H={(i,j),(s,t)}包含兩個標簽對(3個以上的標簽對可以通過任意兩個標簽對之間的兩兩比較最終確定兩個標簽對),則需要分別計算這兩對標簽和其他標簽之間的最大共現率是否滿足：

(4)

來確定,最終選取序列首部,即優化序列的前兩個標簽。若式(4)成立,則確定將使用(li,lj)標簽對作為標簽首部,否則使用(ls,lt)標簽對作為標簽首部。一旦確定了一個標簽對,則可進一步通過步驟1判斷該標簽對中哪個標簽是標簽序列的第1個和第2個。

由于序列首部(優化序列的前兩個標簽)已經選定了,因此只需不斷選取后續的標簽序列即可。本文分別提出GCC算法和NCC算法來確定優化標簽序列中的其他標簽。

3 GCC方法

本文提出GCC方法,其具體流程如算法1所示。GCC算法需要遍歷共現率矩陣M所有元素。在算法1中,第1～4行是將(s,t)按前兩個標簽的正確順序排列,并進行一些初始化。在第5～10行,通過貪心策略來最大化標簽序列尾部L[c]的共現率ML[c],r,從而選取標簽序列的后繼標簽。

通過執行算法1,將對所有的標簽從原始的標簽集合Y中重新排序,使之符合其編號。鏈中標簽的最優順序為lL[0]→lL[1]→ … →lL[q-1],GCC算法的復雜度包括共現率矩陣的構造,算法復雜度在最壞情況下僅為O(nq),其中n和q為樣本總數和標簽總數。

4 NCC方法

本文提出的NCC方法借助于n-gram的語言模型實現。n-gram是一種用于詞序列的概率生成的模型[37-38],考慮了句子中詞的前后聯系,從條件概率的角度給出一個句子的生成概率[39]。假定當前需要生成的詞序列共有m個詞w1,w2,…,wm,且假設當前詞僅與其前面n-1個詞有關(n

P(w1,w2,…,wm)=
P(w1)P(w2|w1)…P(wm|wm-n+1,…,wm -1)

(5)

式中:n的取值不同對于整個序列的影響程度是不一樣的。選取過大的n會使得時間復雜度急劇變高,從而使得原本任務變得很困難?？紤]到n-gram在詞序列的特征提取上面有比較好的表現,本文采用n-gram算法思想,將標簽序列看成是若干個詞組合而成的序列,來對標簽序列進行優化。

設L={l1,l2,…,lq}是一個由q個標簽組成的CC序列,進一步基于式(5),采用n-gram模型并根據

P(L)=P(l1,l2,…,lq)=
P(l1)P(l2|l1)…P(lq|lq-1,lq-2,lq-3)

(6)

將L標簽序列發生的概率轉換為條件概率的乘積。

為了實現以序列增長的方式產生CC優化序列,標簽li出現在li-1和li-2后面的條件概率為P(li|li-1,li-2),定義如下：

(7)

式中：Si-2、Si-1和Si分別表示與標簽li-2、li-1和li相關的實例集,每個Si={(xj,yj)|(xj,yj)∈D,yj,j=1}。如果能使得所生成的標簽序列的概率最大化,實際上就選擇出了一條優化的分類器標簽序列。因此,NCC策略生成多標簽序列的任務可以轉換為:設Li={l1,l2,…,li}表示完整序列L中前i個標簽組成的子序列,在以迭代方式添加后續標簽到當前序列的過程中,需要確保標簽添加后的新序列的概率P(Li)值最大。也就是說,假設已經確定順序的前i-1個標簽的序列P(Li-1)值最大。當后面添加可能的標簽li的時候,依然要選擇使得概率P(Li)=P(Li-1)P(li|li-1,li-2)值最大的那個標簽。

(8)

從Y′的序列中選擇某一個標簽li添加到序列Li-1的末尾作為其第i個標簽。這樣不斷地選擇剩余標簽,最終可以生成包含所有標簽的優化的CC的標簽序列。

NCC方法的具體流程如算法2所示。因為標簽首部已經確定,所以只需要確定標簽序列中的剩余標簽順序。在算法2中,第1～4行是按照前兩個標簽的順序放置(s,t),并進行一些初始化。在第5～18行,通過使后續標簽的條件概率最大來選擇完整的優化標簽序列。在第8～15行中,選擇概率最大的P(lc|lc-2,lc-1)的標簽作為之前已經確定的標簽序列的后續標簽。算法2在最壞情況下的計算復雜度為O(|D|×|Y|2)。在現實世界中,標簽的數量|Y|遠遠小于實例的數量|D|。因此,算法2對于訓練的實例的數目幾乎具有線性一致性。

算法2 NCC算法輸入數據集D={(xi,yi)},i=1,2,…,n,序列首部(s,t)∈H輸出 CC序列L[q]1.L[0]←s;2.L[1]←t;3.Y←YlL[0],lL[1]};4.c←2; ∥一種記錄標簽數目的索引5.whileY≠?do ∥選擇條件概率最大的標簽6. B←{(xk,yk)(D|yk,L[c-1]=1,yk,L[c-2]=1};7. max←0;8. foreachlj∈Ydo9. U←{(xk,yk)(P|yk,j=1};10. p←|U|/(|B|+1)11. ifp>maxthen12. max←p;13. L[c]←j;14. endif15. endfor16. Y←Y{lL[c]};17. c←c+1;18.endwhile19.returnL[];End

5 實驗分析評估

實驗主要目的是評估本文提出的GCC和NCC兩種方法的效能。

5.1 實驗評估基線算法

與 CC模型相關的用于多標簽分類的典型算法包括BR算法[27]、初始CC[24]以及用于多標記學習的局部順序CC(locally ordinal CC,LOCC)算法[40]、標簽冪集的改進算法(pairwise random k-labelsets,pwRakel)[15]。本文將這些算法作為基線算法用于多標簽分類性能比較。

5.2 數據集與實驗設置

本文從MULAN網站和MEKA網站收集了yeast,enron,emotions[41],Slashdot-F,CAL500等5個數據集用于實驗評估。其領域涵蓋文本、圖片、生物等不同類型數據。數據集的信息細節如表2所示。

表2 數據集描述Table 2 Description of datasets

所有實驗評估均采用python語言實現,借助sklearn庫進行相應的實驗。在對于基分類器的選擇上,本文采用支持向量機作為基分類器,核函數選擇高斯核函數,懲罰參數C=100,所有算法的基分類器采用相同參數,以避免在基分類器上存在差異從而影響序列優化本身所帶來的效果。

5.3 評價指標

在評價指標上,傳統分類任務中所使用的分類準確率計算并不能很好地反映多標簽分類算法的性能,因此本文選擇采用在文獻[42]中提到的針對多標簽分類的準確率Accuracy和F1測量作為性能評價指標。

(1)準確率指標(Accuracy)

抽取2016年1月—2017年1月該院臨床檢驗520例患者作為研究對象,男性患者280例,女性患者240例,年齡18~76歲,平均年齡(50.4±1.8)歲,所有患者共進行臨床檢驗862次,其中,血液分析檢驗262次,生化檢驗150次,尿沉渣檢驗300次,大便檢驗150次。

(9)

式中:|D|為樣本個數；Yi為樣本xi的真實標簽集合；Pi為樣本xi的預測結果集合；Yi∩Pi表示樣本xi預測正確的標簽個數；Yi∪Pi表示樣本xi總計出現的標簽次數。

(2)F-score測量指標(F1)

(10)

(11)

(12)

(13)

(6)歸一化平均時間(Time*)

(14)

(7)歸一化準確率(Accuracy*)

(15)

5.4 算法比較與評估分析

5.4.1 NCC算法的n值實驗與驗證

NCC算法采用基于n-gram語言模型的策略進行多標簽分類,而n值的選擇對于NCC算法分類性能有重要影響。如果n值選擇過小,分類準確率可能會受到影響。但如果n值選擇過大則會急劇地增加NCC算法的計算復雜度。

本文為經驗驗證參數n對于NCC算法的影響大小,在部分指標數值相近的數據集上選取了不同的n值進行實驗,計算并比較了不同n值下的NCC算法的準確率和F1測量值。試驗結果如圖2和圖3所示。

圖2 n值在不同數據集上的Accuracy比較Fig.2 Accuracy comparison over different datasets with respect to n value

圖3 n值在不同數據集上的F1比較Fig.3 F1 comparison over different datasets with respect to n value

從圖2中可以看到,對于Accuracy指標,在emotions,yeast,Slashdot-F等數據集下,當n<4時,NCC算法分類準確率表現不穩定；當n≥4時,隨著n值的增大,NCC算法分類效能基本穩定了。從圖3中針對不同的數據集分析對應的F1指標值,也可以得出類似的結論。

因此，綜合不同的數據集以及不同情況下參數n的表現考慮,在默認情況下本文選擇n=4最好,這樣既可以保證NCC算法分類性能處于基本穩定的狀態,同時也可以使得n-gram概率計算的復雜度不會過高。從另一方面來看,該實驗也從側面驗證了本文采用n-gram模型來挖掘標簽之間潛在關聯關系的有效性與正確性。

5.4.2 算法指標性能對比分析

在實驗結果的驗證方面,本文采用五折交叉驗證的方式，分類的指標結果如表3～表5所示,其中加粗標示的為對應指標最優的結果,用下劃線標示的為對應指標次優的結果。

表3 不同算法關于Accuracy的性能比較Table 3 Accuracy comparison of different algorithms

表4 不同算法關于F1的性能比較Table 4 F1 measure comparison of different algorithms

表5 不同算法和比較Table comparison of different algorithms

如表3所示,在Accuracy指標上可以觀察到NCC算法幾乎優于其他所有算法。同時其在yeast、Slashdot-F和emotions等3個數據集上表現優越,在yeast數據集上比原CC算法高出2個百分點,而在Slashdot-F數據集上則比原CC算法高了3個百分點。在個別數據集如enron和CAL500上,PwRakel和GCC算法性能則相對較優。

從表4可以觀察到,從F1指標進行衡量,GCC算法和NCC算法的性能在所有數據集上都優于其余算法,同時在不同數據集上分別占據了算法效果最優和次優的位置。

本文提出的NCC和GCC兩種算法都取得明顯性能提升的原因,歸根結底是在于其在生成優化序列時,都考慮了不同長度的潛在標簽關聯關系對整個序列造成的影響。GCC算法每次考慮前一個標簽同后一個標簽存在的最大共現關聯關系,從而保證了優化的標簽序列能體現最大的共現率。NCC算法則更進一步考慮到了前n-1個標簽同當前尾部標簽序列的關系,并采用n-gram來發掘標簽前后間的依賴關系。因此,這兩種算法都取得了較好的效果。

5.4.3 算法指標綜合效能對比分析

本文評估不同算法在不同數據集上執行時間損耗。利用式(13)求出平均時間,各種算法執行時間損耗如圖4所示,其中Time_avg為算法在所有數據集上的平均執行時間。

圖4 不同算法的時間損耗比較Fig.4 Comparison of time loss for different algorithms

采用歸一化式(14)和式(15),對圖4的時間損耗和表3的準確率求取歸一化的平均值,利用所有算法的歸一化準確率和時間損耗繪制出圖5,進一步比較各種算法的綜合效能。從圖5可以觀察到,CC算法的耗時最短,但效果并不理想。同時，不難發現LOCC算法相比原算法時間損耗并不大,但是算法性能提升較少。同樣地,PwRakel算法時間損耗較大,準確率的提升卻不明顯。

圖5 不同算法的綜合效能比較Fig.5 Comprehensive effectiveness comparison of different algorithms

反觀GCC和NCC算法,兩者的時間損耗與原CC算法相比雖略有提升,但小于LOCC和PwRakel等算法。但與此同時,NCC算法和GCC算法效果卻提升顯著。這足以體現GCC和NCC算法具有優良的綜合效能。而這歸功于本文在CC算法基礎上,既考慮了標簽間潛在的關聯關系,又采用了時間復雜度相對低的策略來進行算法的優化。

6 總結

本文對于CC算法在標簽序列的生成上采用隨機生成的缺點,創新性地在共現分析的基礎上,采取貪心策略和n-gram策略來對標簽序列進行優化。兩種方法都一定程度上考慮了不同長度標簽的潛在關聯關系,因此都給原CC算法帶來了穩定的提升。

在實驗部分,本文首先經驗驗證了n的不同取值對NCC算法分類效果的影響,并選取最合適的n的取值參與后續的實驗,最后,在經過實驗并綜合考慮了Accuracy和F1指標、平均指標、綜合分類性能等各種指標情況下,本文發現NCC和GCC算法能比大多數前沿的多標簽分類算法取得更好的效果。證實了通過共現分析來優化標簽序列,進而改進整體CC分類性能的策略是行之有效的。