侯小培,高 迎
(首都經濟貿易大學,北京 100070)
隨著互聯網科學技術的發展,大量的信息涌現出來,用戶如何從海量的信息中高效準確地獲取有價值信息變得難上加難。文本分類通過利用自然語言處理、數據挖掘和機器學習等技術手段對不同類型的文本數據進行信息分類,目前眾多學者主要研究的分類算法包括支持向量機、樸素貝葉斯、決策樹以及隨機森林等。這些方法在一定程度上提高了文本分類的準確率,但是容易出現局部最優問題,忽略了詞語之間、句子之間的關系。深度學習模型卷積神經網絡(CNN)是一種深度監督學習下的機器學習模型,與傳統機器學習手動提取特征相比,CNN能夠自動提取局部特征,權值共享,相比于傳統機器學習算法文本分類效果更優。
文本分類技術是一種高效的信息檢索與數據挖掘信息技術。基于機器學習的分類方法通過學習給定的訓練集,訓練出分類模型,然后使用訓練模型來進行文本分類,傳統機器學習分類方法有:隨機森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(SVM)等。
樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法,基于假定:給定目標值時屬性之間相互條件獨立。其優勢在于所需估計的參數很少,對缺失數據不太敏感。
隨機森林是利用多棵樹對樣本訓練并預測的分類器,輸出類別由個別樹輸出類別的眾數決定。分類過程多次將訓練數據集分裂成兩個子集完成特征分裂,優點是分類速度快。邏輯回歸是廣義線性回歸分析模型,用于處理因變量為分類變量的回歸問題,常見二分類或二項分布問題,二分類概率與自變量關系圖形多是S形曲線,也可處理多分類問題。
支持向量機是在分類與回歸分析中分析數據的監督式學習模型與相關的學習算法,SVM模型是將實例表示為空間中的點,映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開,將新的實例映射到同一空間,并基于它們落在間隔的哪一側來預測所屬類別。
卷積神經網絡是近年發展起來的高效識別方法。20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效降低反饋神經網絡復雜性,繼而提出了卷積神經網絡(Convolutional Neural Networks,簡稱 CNN)。它是一類包含卷積計算且具有深度結構的前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現,同樣也可以應用在文本分類。
卷積神經網絡主要包括三層:卷積層、池化層、全連接+Softmax層。
2.2.1 卷積層
每層卷積層由若干卷積單元組成,每個卷積單元的參數都是通過反向傳播算法優化得到的。卷積運算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網絡能從低級特征中迭代提取更復雜的特征。
2.2.2 池化層
池化層也稱下采樣(Down sampling),與之相對的是上采樣(Up sampling),主要用于特征降維,壓縮數據和參數的數量,減小過擬合,同時提高模型的容錯性和訓練速度。采樣方式有兩種:①最大值采樣(Max Pooling);②均值采樣(Mean Pooling)。
2.2.3 全連接+Softmax層
經過多層的卷積、池化操作后,將得到的特征圖依次按行展開,連接成向量,輸入全連接網絡,通常采用Softmax邏輯回歸作為特征分類器。
2.3.1 局部感知
指的是卷積層的節點僅僅和前一層的部分節點相連接,用來學習局部特征,這種連接的方式大幅減少了參數數量,加快學習效率,在一定程度上降低了過擬合的可能性。
2.3.2 空間排列
輸出單元的大小由以下三個量控制:①深度(depth)。控制輸出單元深度(filter個數)和連接同一塊區域的神經元個數。②步幅(stride)。控制在同一深度相鄰兩個隱含單元,與它們相連接的輸入區域的距離。③補零(zero-padding)。通過在輸入單元周圍補零來改變輸入單元整體大小,從而控制輸出單元的空間大小。
2.3.3 權值共享
同一深度的平面稱為深度切片,同一個切片共享同一組權重和偏置,重復單元既能夠對特征進行識別,不考慮它在可視域中的位置,幫助神經網絡對輸入保持空間不變性。
數據來自新浪新聞2011年歷史數據篩選過濾,訓練包括10個分類:體育,財經,房產,家居,教育,科技,時尚,時政,游戲,娛樂。訓練集5 000×10條,測試集1 000×10條數據。
基于TensorFlow深度學習框架以及Sklearn工具包,安裝Numpy、Pandas等一系列科學計算相關庫,采用Python環境進行調試。
文本分類一般由三個步驟組成:文本預處理、文本分類模型和常用基準語料評估。

評測標準采用文本分類的準確率為指標,公式為:準確率=分類正確的文檔/文檔的總數。
本文構建了卷積神經網絡CNN文本分類模型,同時采用同一新聞數據語料對比4種傳統機器學習分類方法:隨機森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(SVM)。實驗結果中4種傳統機器學習分類方法中線性SVM準確率最高達到82.9%,而深度學習方法卷積神經網絡算法CNN準確率達到了88%,深度學習卷積神經網絡算法CNN分類效果明顯優于傳統機器學習算法。結果對比圖如圖1所示。

圖1 結果對比圖
本文利用空間向量模型從文本信息中得到中文詞的詞向量,作為文本的特征表達,以向量作為分類模型的輸入特征,采用深度學習卷積神經網絡CNN進行文本分類訓練,結果表明CNN文本分類準確率明顯優于傳統機器學習分類方法,CNN算法的局部特征迭代學習,使特征表達更加豐富,從而使文本分類效果得到一定程度的提升,高效、準確的信息分類有助于實現新聞有序化、對新聞進行挖掘,對于引導決策具有很大的研究意義。