王 東,夏梓淵
(重慶理工大學計算機科學與工程學院,重慶 400054;)
電子商務以及社交網絡的迅猛發展,促使人們網絡生活的形式日益多樣化,越來越多的人們積極主動加入社交網絡中,在網絡中進行交流以及發表自己的評論[1-2],以上行為大幅度增加了互聯網的數據量。現階段互聯網已經日益滲透到人們的生活以及工作中,為了傳統的經濟結構以及商業模式帶來了全新的轉機。互聯網的開放性、匿名性等優勢,促使越來越多的人愿意將身邊發生的事情進行分享,并且在網絡中查詢自己感興趣的信息[3-4],整個社交平臺為人們的生活帶來了極大的便利,同時也有效促進了各個企業的發展。
互聯網技術的普及以及飛速發展,促使互聯網絡中的多標簽文本分類變得越來越迫切。本文主要結合經過改進的rcnn模型,提出一種基于改進rcnn模型的多標簽短文本自適應分類方法。仿真結果表明,所提方法能夠有效提升分類結果的準確性,同時具有較強的實用性。
多標簽短文本是一種非結構化信息,它本身是無法使用計算機進行直接處理的,所以需要將非結構化的數據轉換為結構化的數據,促使計算機能夠快速、有效的進行應用。
多標簽短文本預處理是文本分類的開始,也是文本分類的必要階段。
在多標簽短文本經過預處理之后,原始的多標簽短文本有效刪除了的噪聲信息,同時以詞匯為單位進行文本表述。但是,由于計算機只能夠接受二進制編碼,其中類似于詞匯這種非結構化字符輸入無法被處理。所以,將非結構化字符轉換為二進制編碼以方便計算機識別處理,整個轉化過程被稱為文本表示。文本表示是首先抽取出文本的特征詞,再使用教學方法進行數字表示的過程,它能夠轉化為無結構信息,對多標簽文本信息進行抽象表述。多標簽短文本首先需要提取出人本的特征詞,然后再使用數學方法進行數字表示的過程,它能夠轉化為無結構信息,同時對文本內容進行抽象表述。
衡量單詞權重最為有效的一種算法就是TD-IDF算法,使用該算法通常情況下會將較為常見的詞語過濾掉,保留其中較為重要的詞語。整個算法主要是由以下兩個部分組成,分別為:
1)詞頻
2)逆向文件頻率
針對于特定文件里面的詞語ti而言,以下給出詞頻的具體計算方法

(1)
逆向文件頻率也是衡量一個詞語普遍重要性的度量[6],具體的計算式如下所示

(2)
結合式(1)以及式(2)則能夠完成TD-IDF算法,即
tf-idfi,j=tfi,j×idfi
(3)
以下給出互信息的基本定義

(4)
針對已有多標簽文本特征集
T={tk,k=1,2,…,m}
(5)
類別集能夠表示為以下的形式
C={cj,j=1,2,…,r}
(6)
其中特征詞tk和類別cj的互信息計算方式能夠表示為以下的形式

(7)
綜合上述分析可知,假設使用分詞以及詞頻作為特征詞和對應的權值進行空間向量模型的文本表示。當數據集過大時且包含詞匯過多時會出現維度爆炸的情況。同時,僅使用詞匯進行表示是無法描述各個詞匯之間的關系的,而且還會導致大部分語義信息的丟失。
為了更好地將自然語言交給rcnn模型完成處理任務,人們將詞匯轉換為數字向量形式的人本表達方式,以上方式即為詞向量表示方法。
信息熵以及信息增益是現階段使用最為廣泛的最優屬性劃分方法。在整個算法應用的過程中,文本分類任務能夠有效解決特征提取過程中的非線性問題,所以其在語言處理中占據十分重要的作用。在現實使用的過程中,需要設定對應的參數。其中后驗概率計算式能夠表示為以下的形式

(8)
上式中,d代表屬性的總數;xi代表第i個屬性上的取值。
其中最小化分類錯誤率計算式能夠表示為以下的形式:

(9)
在現實應用的過程中,為了更加高效的使用rcnn模型,需要結合對應的數據集以及分類任務特點進行對應的改進以及調整。假設任務數據更新較為頻繁,則采用懶惰學習的方式,也就是首先不進行訓練,在收到預測請求后再對當前的數據集進行概率估計;假設數據隨著系統采集不斷增加,則通常對新增樣本的屬性值以及所涉及到的概率估計值進行修正,以確保增量學習的實現。
其中模型聯合概率能夠表示為以下的形式:

(10)
式中,α代表文檔中主題分布信息;β代表主題中特征詞分布信息;N代表文檔中的特征詞數量;θ代表文檔所對應的主體向量。
多標簽短文本輸入層的任務就是講詞向量拼接為文本矩陣,同時將其傳遞給下一層,方便進行卷積操作。
多標簽短文本處理需要考慮文本中各個詞語之間的關系[7-8],這樣才能夠獲取一個較為完整的語義特征。
設定特征向量ai是在詞匯aixi:i+h-1中形成的,則有
ai=f(xi:i+h-1+b)
(11)
特征向量能夠表示為以下的形式
a=[a1,a2,…,an-h+1]
(12)
為了有效避免訓練過程中出現擬合的情況,需要結合相關操作來禁止隱層節點參與到前項傳播過程,這些神經元將不再參與此次更新,進一步促使權值的更新不再依賴于固定節點的作用。
在上述分析的基礎上,提取多標簽短文本數據集中多標簽短文本的不同特征,同時將其作為傳統機器學習模型以及深度模型的輸入。
在rcnn模型中,所謂的特征融合主要是指在各個角度進行多標簽文本提取,同時結合相關理論將得到的特征放入到rcnn模型中,以有效提升模型的綜合性能。
通過模型融合的方法能夠完成詞匯特征以及語義特征的融合,在2.1小節中提取到的多標簽短文本特征設定為輸入,然后對模型進行訓練,同時將語義特征設定為輸入,再對模型進行訓練,這樣就能夠獲取多個不同的多標簽短文本分類模型,最后結合Stacking技術對rcnn模型模型進行改進,通過改進的rcnn模型對多個基分類器的分類結果進行融合處理,獲取多標簽短文本自適應分類的最終結果。
為了確保重要的信息能夠被保留,以下采用Sigmoid函數對上一時間階段輸出的權重進行保留,具體的計算式如下所示
ft=δ(Wf·[ht-1,xt]+bf)
(13)
結合以上函數對系統中的輸入信息進行更新,同時形成對應的候選值,則有
it=δ(Wi·[ht-1,xt]+bi)
(14)
Ct=tanh(WC·[ht-1,xt]+bC)
(15)
結合文本數據的信息特征,網絡層利用卷積模塊設定為卷積策略,由于多標簽短文本中的數據存在一定的差異性,這會導致卷積層內形成的特征圖也存在差異。為了能夠使用循環網絡對特征圖進行統一的處理[9],需要采用池化模塊對其進行處理,將其長度進行統一。
為了對傳統的rcnn模型進行改進,以下采用參數優化的方式實現,則有
ui=tanh(Whht+bw)
(16)
以下計算中間向量和文本上下向量的相似度,具體如式(17)所示

(17)
將原始向量矩陣以及加權兩者相加,則能夠獲取經過優化后的特征向量,則有

(18)
在多標簽短文本處理任務中,文本向量能夠采用詞向量進行表示。從語義的角度出發可知,字和詞兩者都能夠為人類任務提供十分有價值的信息。實際上就是,多標簽短文本中的字和詞是進行分類的決定性因素,如果只選取其中任意一種,都會導致信息的丟失。
整個模型主要能夠劃分為三層,分別為:
1)編碼層;
2)特征提取層;
3)全連接層。
編碼層通過相應的詞向量以及字向量模型,將輸入文本解析為詞向量序列以及字向量序列,則有
S=[Sw⊕Sc]
(19)
全連接層主要是由線性轉換層以及Softmax層組成,其中線性轉換層將特征向量轉換為一個維度和分類類別相當的實值向量[10],則
P=softmax(WsS+bs)
(20)
其中損失函數能夠表示為以下的形式

(21)
在上述操作的基礎上,結合Stacking技術對rcnn模型模型進行改進,通過改進的rcnn模型對多個基分類器的分類結果進行融合處理,以達到多標簽短文本自適應分類,利用圖1給出具體的操作流程圖。

圖1 多標簽短文本自適應分類流程圖
為了驗證所提基于改進rcnn模型的多標簽短文本自適應分類方法的綜合有效性,需要進行仿真測試,實驗平臺為64位Win7操作系統的PC機,CPU主頻3.2GHz,內存為8G,在matlab2012b軟件平臺下使巧M語言進行軟件編程。
1)查全率/(%)
以下選取兩種傳統的多標簽短文本自適應分類方法作為對比方法,對比三種方法的查全率,對比結果如表1至表3所示。

表1 所提方法的查全率變化情況

表2 文獻[4]方法的查全率變化情況

表3 文獻[5]方法的查全率變化情況
分析表1至表4的實驗數據可知,所提方法的查全率在三種分類方法中為最高;文獻[4]方法的查全率次之;文獻[5]方法的查全率最低。以上實驗數據充分說明,所提方法具有較好的分類效果。

表4 所提方法的耗時變化情況
2)分類準確率/(%)
為了更進一步驗證所提分類方法的有效性,以下需要對比三種方法的分類準確率,具體的對比結果如下圖所示。
分析圖2中的實驗數據可知,隨著節點數量的持續增加,各種多標簽短文本自適應分類方法的準確率也在不斷發生變化。其中所提方法的分類準確率明顯高于其它兩種方法,這充分說明了所提方法的優越性。

圖2 不同分類方法的分類準確率對比結果
3)耗時/(min)
在上述實驗環境的基礎上,以下需要對比三種方法的耗時,具體的對比結果如下表所示。

表5 文獻[4]方法的耗時變化情況
分析表4至表6的實驗數據可知,相比傳統方法,所提方法的耗時有了較為明顯的下降趨勢。

表6 文獻[5]方法的耗時變化情況
針對傳統的多標簽短文本自適應分類方法存在耗時較長、查全率以及分類準確率較低等問題,提出基于改進rcnn模型的多標簽短文本自適應分類方法。仿真結果表明,所提方法能夠有效提升查全率以及分類準確率,同時有效減少耗時。