曹魯慧,鄧玉香,陳通,李釗
(1.山東大學,山東 濟南 250100;2.山東財源保障評價中心,山東 濟南 250001;3.山東省電子政務大數據工程技術研究中心,山東 濟南 250014;4.齊魯工業大學(山東省科學院)山東省計算中心(國家超級計算濟南中心)山東省計算機網絡重點實驗室, 山東 濟南 250014)
特征提取是機器學習中一項非常重要的特征工程任務,是處理機器學習任務的關鍵,同時也是數據挖掘、信息檢索等領域中非常重要的一項內容。在機器學習領域眾多的任務中,特征提取往往決定任務結果的好壞,就常用的分類任務而言,其分類結果的好壞同樣取決于其所提取的特征的質量。傳統的特征提取方法通常是人工提取,這種方法提取的特征通常包含與分類任務無關以及冗余的特征,此外其特征的維度通常比較大,這不僅使得模型訓練過程效率降低、消耗資源,也會使模型過擬合并降低分類的準確率。為了解決特征維度過大、效率低下的問題,通常會對傳統方法提取的特征進行降維,在所有的特征中挑選一部分最能夠表示文本信息并使得分類效果最好的特征子集,但是這將使得分類任務的工作量增大。
近年來越來越多的研究者通過深度學習技術對特征進行提取。Chen等[1]提出使用多個卷積層與池化層的卷積網絡來對高光譜圖像的特征進行提取,然后將提取的特征用于圖像分類以及目標檢測并取得了不錯的效果。在文本特征提取方面,Liang等[2]對文本特征提取的方法進行了概述,介紹了常用的傳統特征提取方法以及基于深度學習的特征提取方法。其中基于深度學習的特征提取方法主要包括自編碼神經網絡特征提取、受限波茲曼機特征提取、循環神經網絡特征提取以及一些其他的特征提取方法。Saxena等[3]討論了從傳統的詞袋模型方法到非傳統神經網絡方法在文本分類特征提取中的所有應用方法,包括詞袋模型、向量空間模型、人工神經網絡、模糊神經網絡、卷積神經網絡以及深度信念網絡。Meng等[4]采用弱監督多級神經網絡對文本特征進行提取。Yao等[5]使用了圖卷積神經網絡對文本進行了特征提取和分類。因此,結合深度學習進行文本特征提取已經成為研究領域的熱點。
目前使用深度學習技術提取特征在圖像領域應用相對比較廣泛,在文本特征提取方面文獻報道相對較少,尤其是針對中文文本的特征提取研究成果較為稀缺。同時,使用傳統的手工特征提取方法提取的特征維度通常比較大,使模型訓練效率低、消耗資源。因此使用深度學習方法對中文長文本數據集進行特征提取,能夠降低文本特征提取的難度,提高模型訓練效率,同時也能夠更準確地表示文本語義信息。本文使用兩種不同的深度學習神經網絡結構對文本特征進行提取。一種是卷積神經網絡結構,該結構源于Kim[6]提出的用于句子分類的卷積神經網絡結構;另一種是本文新提出的卷積循環神經網絡結構。同時,使用傳統的TF-IDF以及Word2vec特征提取方法對文本特征進行表示,提取的特征分別放入SVM與隨機森林分類器中,對中國知網中文學術論文數據集進行分類。實驗結果表明,使用卷積神經網絡和卷積循環神經網絡結構提取的高層文本特征比傳統方法提取的特征更能準確表示文本信息,同時使用SVM和隨機森林分類器取得的分類效果比原生的神經網絡的效果更好。
卷積神經網絡(CNN)最早應用于計算機視覺領域并且在處理計算機視覺任務上已經比較成熟,如圖像分類、物體檢測[7-9]、圖像分割等。隨著深度學習技術的發展,越來越多的研究者將其應用到自然語言處理領域,Kim[6]使用卷積神經網絡對文本進行分類并取得較好的分類效果。鑒于卷積網絡在分類任務中的應用比較成熟,本文同樣使用卷積神經網絡對中文學術論文數據集進行分類,并建立特征提取模型以提取網絡中的高層特征來表示文本的語義信息,使用的卷積神經網絡結構如表1所示。

表1 常用文本特征提取卷積神經網絡模型結構
本文建立的卷積網絡特征提取模型是以上述網絡結構中第8層網絡的輸出,作為特征提取模型的輸出即使用上述網絡中最高層的特征作為文本的特征向量。根據上述網絡結構可知每個樣本可用128維的向量進行表示,這將大為減少特征的維度,加快分類器的訓練速度,提高分類的準確率。
TF-IDF(term frequency-inverse document frequency)即詞頻-逆文檔頻率[10-12],是基于統計學的計算詞權重的方法,是特征向量化的一種常用方法,在信息檢索、數據挖掘等領域應用非常廣泛。該方法用于評估一個詞在該文檔中對于區分語料庫中其他文檔的重要程度,即如果單詞出現在本文檔中的次數越多,在其他文檔中出現的次數越少,則表示該詞語對于這篇文檔具有越強的區分能力,其權重值就越大。
TF表示一個詞在該篇文檔中出現的頻率,用于計算這個詞描述文檔內容的能力。其計算公式如下。

(1)
式中,ni,j表示在第j篇文檔中該詞出現的次數,∑knk,j表示對第j篇文檔中出現的所有詞的次數求和。
IDF即逆文檔頻率主要是度量一個詞語的普遍重要性,如果一篇文檔的某個詞出現在語料庫中的大多數文檔中,則說明該詞不能夠對文檔進行區分,反之,則說明該詞能夠將該篇文檔與語料庫中的其他文檔區分開來。某一詞語的IDF,是用語料庫中所有文檔的總數目除以含有該詞的文檔數目的商取對數。計算公式如下。
(2)
其中,|D|表示語料庫中所有文檔的數目,|{j:ti∈dj}|表示語料庫中包含詞語ti的文檔數目。如果詞語不在語料庫中則會導致分母為0,為了避免這種情況的發生,通常分母使用|{j:ti∈dj}|+1。然后
Wi,j=Ti,j×Ii,
(3)
其中,Wi,j表示所計算文本在語料中的TF-IDF權重,文檔內的高頻率詞語以及該詞語在整個語料庫中的低文檔頻率能夠產生較高的TF-IDF權重值。
Word2vec[13-14]是詞嵌入的一種方式,是谷歌開源出的一種詞嵌入工具,也是目前在自然語言處理領域應用比較廣泛的一種詞嵌入方式。Word2vec將每個特征詞映射到向量空間,并使用一個向量進行表示,在一定程度上刻畫了文本的語義信息,便于計算特征之間的關系及相似性。主要包括兩種模型,即跳字模型(skip-gram)和連續詞袋模型(CBOW)。跳字模型是根據中心詞去預測其上下文的背景詞并根據預測結果來不斷調整中心詞的詞向量。連續詞袋模型是根據上下文的背景詞去預測中心詞,然后根據中心詞的預測結果來不斷調整上下文背景詞的詞向量。在模型訓練過程中,為了減小計算復雜度,采用負采樣(negative sampling)或分層softmax(hierarchical softmax)兩種訓練方式。
卷積神經網絡具有提取局部特征的優勢,長短期記憶網絡(LSTM)具有捕獲上下文信息的能力。因此,本文結合二者的優勢,提出一種基于卷積循環神經網絡(CRNN)的文本分類方法。該模型首先使用卷積網絡對輸入的文本信息進行多組特征提取,并分別對其進行池化以提取文本中重要的特征,然后將提取出的特征進行融合送入LSTM神經網絡并經過全連接層輸出分類結果。該模型包含輸入層、詞嵌入層、卷積層、池化層、LSTM網絡層和全連接層,如表2所示。

表2 卷積循環神經網絡模型結構
由于卷積循環神經網絡模型能夠取得較好的分類效果,因此,基于該模型建立的特征提取模型提取出的高層特征能夠準確地表示文本的語義信息。本文建立的卷積循環神經網絡特征提取模型是以上述網絡結構中的第10層的輸出作為模型的輸出,根據上述模型結構可知,每個樣本可用60維的高層特征向量進行表示。
本文使用的學術論文數據集來源于中國知網上的學術論文。數據集中包含10個文獻類別,分別為化學、輕工業手工業、畜牧與動物醫學、藥學、新聞與傳媒、鐵路運輸、兒科學、體育、物理學、農業經濟,每個類別選取40 000條數據作為實驗數據,其中80%的數據集作為訓練數據,20%的數據集作為測試數據。每條數據都包含4列,分別為類別、標題、摘要、關鍵詞。實驗中將標題、關鍵詞、摘要合并為一條更長的文本作為實驗數據的文本信息,由于數據集為非公開數據集,實驗結果數據均采用5次實驗的平均值。
本文設計兩個對比實驗,即分別使用CNN和提出的CRNN直接對中文學術論文數據集進行分類,建立新的文本高層特征提取模型來提取神經網絡中高層的文本特征,然后將提取的文本特征分別放入支持向量機(SVM)和隨機森林分類器中進行分類,將得到的分類結果進行比對。使用文本高層特征模型提取的特征在CNN、CRNN、SVM以及隨機森林中的實驗參數設置如表3所示,其中SVM核函數采用高斯核函數(RBF),隨機森林estimator參數設為100。

表3 CNN與CRNN文本分類實驗配置
TF-IDF是基于統計學的一種特征提取方法,本文使用TF-IDF方法對中文學術論文數據集進行特征提取并放入SVM和隨機森林分類器中對實驗數據進行分類。實驗中設置的最大特征個數為30 000,最小文檔頻率為2。
本文使用預訓練好的基于中文學術論文數據集的中文Word2vec詞向量模型,對中文學術論文數據集中的每個特征進行表示,然后將每個樣本中的特征詞向量進行求和來表示整個文本的特征向量,如下式所示。
ti=xi1⊕xi2⊕…⊕xin,
(4)
式中,ti表示第i個文本的特征向量,xin表示第i個文本中第n個特征的詞向量。
實驗中,使用神經網絡中的詞嵌入層將文本數據集中的所有文本特征一次性轉化為預訓練好的Word2vec詞向量,而不是使用迭代的方式對每個特征詞進行詞向量轉換,這將提高實驗的效率,節省實驗時間。最后將通過Word2vec詞向量生成的文本特征向量放入SVM和隨機森林分類器中對實驗數據集進行分類。
分類結果匯總如表4所示。由實驗結果可知,使用基于神經網絡的特征提取方法提取的高層文本特征在分類器中獲得的分類結果比使用TF-IDF以及Word2vec方法提取的特征獲得的分類效果更好,因此說明使用神經網絡提取的高層文本特征向量更能準確地表示文本的語義信息。

表4 學術論文數據分類結果
分析其中可能原因:使用TF-IDF方法對文本進行表示時打亂了詞的順序,忽略了詞的上下文關系;使用Word2vec方法進行文本表示時,由于文本相對較長,使用詞的詞向量求和來表示文本向量時可能會丟失詞的語義信息。此外,使用神經網絡特征提取模型提取的特征放入SVM和隨機森林分類器所得的分類效果略好于使用原生的神經網絡分類方法。
本文介紹了自然語言處理中文本特征提取和文本分類的相關研究現狀,對比了基于深度學習和傳統的TF-IDF、Word2vec等文本特征提取方法。在此基礎上提出了一種基于卷積循環神經網絡(CRNN)的文本特征提取方法,充分結合CNN在局部特征提取以及循環神經網絡LSTM具有記憶的優勢,將提取的特征前后關聯,可更好地表達文本含義。經過論文數據集文本分類實驗驗證,基于深度學習的文本特征提取比傳統特征提取更有優勢,同時提出的算法優于基于CNN的文本特征提取算法。下一步計劃對比更多文本特征選擇的算法,另外針對中文的文本語義理解,增加注意力機制,實現大規模長文本的分類應用。