溫善婷
摘要:文本自動分類作為自然語言處理的基本任務之一,具有重要的應用價值。近年來,深度學習方法在這一領域取得了較大進展,各類深度學習模型或算法不斷刷新著文本分類任務的性能記錄。本文討論了深度學習方法的理論基礎和關鍵技術,對主流深度學習文本分類方法進行了分類和總結,探討了這些方法取得成功的理論依據。本文還設計了對比實驗,比較了Text-CNN等6種深度學習算法在復旦新聞數據集和THUCNews數據集上的文本分類性能,驗證了這些算法的有效性,實驗結果表明,在文本分類任務中引入預訓練模型是提高分類準確性的關鍵因素。
關鍵詞:深度學習;應用藝術
中圖分類號:G210.7
文獻標識碼:A
文章編號:190518118
1引言
文本自動分類一般指使用計算機對輸入文本按照一定的類別進行自動化歸類,被廣泛應用于文本審核、廣告過濾、情感分析和輿情監控等相關領域。文本分類的相關研究最早可以追溯到上世紀50年代,典型應用大多為基于規則的專家系統。近二十年來,隨著互聯網文本數量的指數級增長和計算機硬件能力的快速提高,基于機器學習理論的自動分類方法逐漸取代了基于人工規則的傳統方法。而深度學習作為機器學習的一個重要分支也在這一領域取得了突破,其優勢在于利用CNN/RNN等網絡結構自動獲取數據特征,避免了復雜昂貴的人工特征工程,實現了端到端的解決方案。本文介紹了近幾年深度學習方法在文本分類領域取得的進展,包括詞嵌入、深度學習網絡模型、注意力機制以及遷移學習等等,并通過實驗比較了幾種深度學習分類方法的性能。
2深度學習文本分類關鍵技術
深度學習一般是指建立在含有多層非線性變換的神經網絡結構之上,對數據的表示進行抽象和學習的一系列機器學習算法。自2012年AlexNet等突破性研究成果發布以來,深度學習方法在圖像和語音處理領域取得了巨大成功,同時也引起了自然語言處理領域研究者的廣泛關注。但自然語言處理與圖像和語音處理有較大差異,主要體現在如下幾個方面:
1、語言的高度復雜性,包括詞語的抽象性和歧義性,不完全規則性和遞歸性等等。
2、難以獲得高質量的訓練數據。比如缺乏類似計算機視覺處理領域中ImageNet之類被廣泛認可和使用的大規模數據集。
盡管存在著這些困難,深度學習方法的相關研究依然取得了很大進展,在命名實體識別、文本分類、文本摘要等多項任務中超越了傳統方法,有效提高了相關模型或系統的性能。下面概述推動深度學習在文本分類領域應用的關鍵理論或技術。
2.1詞嵌入(Word Embedding)
詞嵌入[1]是一種將文本中的單詞映射為詞向量的數據表示方式,是深度學習自然語言處理的奠基性工作。因為數據表示是機器學習的核心問題,要處理文本分類、機器翻譯等高級任務,必須首先將文本表示成為深度網絡能夠處理的數據類型。在WordEmbedding出現之前,最直觀也是最常用的詞表示方法是所謂One-hot編碼,這種方法把每個詞表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數元素為0,只有一個維度的值為1,這個維度就代表了當前的詞。比如下面的例子:
“土豆”表示為[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0…]
“洋芋”表示為[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0…]
然而這樣的表示方式僅僅將詞語符號化,丟失了語義信息,比如從上述“土豆”和“洋芋”的編碼中完全無法看出相關性,而普通人經過大量的閱讀根據上下文應該能夠分辨出二者是同義詞。
為了解決這些問題,研究者提出了通過神經網絡技術對文本上下文,以及上下文與目標詞之間的關系進行建模。這里舉例說明,假設有四個詞語:“男孩”、“男人”、“女孩”,“女人”,那么可以將這四個詞映射(Embed)為“性別”和“年齡”兩個詞,再假設性別和年齡都可以取兩個值O或l,即年輕+男性(編碼為oo)為男孩,成年+男性為男人(編碼為IO),如圖1所示。注意這一映射過程根據的是人工提供的先驗知識(如:年輕的男性為男孩),而在具體的機器學習模型中則是根據神經網絡的訓練過程去發現這些知識,或者說是詞語之間蘊含的關系。
從上述的例子可以看出,Word Embedding通過將原始文本映射為詞向量,不僅保留了文本上下文和詞語之間的聯系等信息,還起到了數據降維的作用,對于后續的神經網絡處理有重大意義。
2.2基本網絡結構
詞嵌入等特征提取方式解決了文本數據的表示問題,可以作為深度學習網絡的輸入,而最終完成文本分類任務還需要構建神經網絡。神經網絡按其基本結構可以分為處理具有空間性分布數據的卷積神經網絡(CNN,Convolutional Neural Network)和處理具有時間性分布數據的遞歸神經網絡( RNN,RecursiveNeural Network)。下面介紹這兩類網絡結構。
由于文本天然具有順序性和時間分布特征,早期深度學習文本分類模型基本采用遞歸神經網絡RNN及其改進版本如LSTM(Long Short-Term Memory,長短期記憶網絡)或GRU GatedRecurrent Unit (LSTM的一種變體)。RNN專門用于處理時序數據,該網絡中的每一層不僅輸出到下一層,同時還輸出一個隱狀態,由當前層在處理下一個輸入時使用。如果在文本中某個詞語根據上下文內容不同而有不同的含義,則RNN能較好的解決這類問題。LSTM相對于RNN的主要改進有兩個方面。一方面LSTM引入了一個新的內部狀態(internal state),另一方面,引入門機制(gating mechanism)來控制信息傳遞的路徑。
除了RNN,另一類卷積神經網絡CNN具有計算性能高、分類效果好等特點,也在文本分類領域得到了廣泛應用。CNN的基本結構包括兩種特殊的神經元層,即卷積層和池化層。在卷積層中,每個神經元的輸入與前一層的局部相連,并提取該局部的特征;其二是池化層,用來求局部敏感性與二次特征提取的計算層。包含了上述卷積層和池化層,演示了CNN用于文本分類的過程。首先將句子映射到嵌入向量,并以矩陣的形式輸入到模型中。然后使用不同大小的卷積核對所有輸入詞做卷積操作。最后使用最大池化層處理得到的特征映射,將提取到的特征進行匯總,最后由Softmax分類器得到最終的文本分類結果。
3結果分析
根據上述實驗結果可以得出一些重要結論。一方面所有深度學習方法都比較有效,大部分方法都取得了超過了基線方法的分類性能。另一方面基于預訓練模型ELMo或Bert的方法取得了最好的成績,尤其是Bert方法,這得益于Bert等預訓練模型采用了大規模的訓練數據集,并引入了雙向Transformer等先進網絡結構。總之,引入預訓練模型確實能顯著提高文本分類的準確性,將成為深度學習文本分類方法或模型的標準配置。
4總結
本文對近年來深度學習方法在文本分類方面的進展進行了綜述,重點討論了詞嵌入、深度網絡結構、預訓練模型等相關理論和技術,并通過實驗對比了多種深度學習方法的文本分類性能,為今后的研究工作提供了指引。
參考文獻
1.Mikolov T , Chen K , Corrado G , et al. Efficient Estimation ofWord Representations in Vector Space [J]. Computer Science, 201 3.
2.Peters M E, Neumann M. Iyyer M. et al. Deep contextualizedword representations [J]. 2018.