文本表示模型在文本挖掘中的應用

2019-09-10 07:22:44駱梅柳

現代信息科技 2019年7期

摘? 要：文本表示是自然語言處理中的基礎任務，以向量空間模型的文本表示模型在文本挖掘、信息檢索領域得到了廣泛的應用，本文列舉現有的文本表示模型，通過對比，歸納總結每個文本表示模型的特點，文本表示的好壞會在很大程度上影響到整個文本分類任務的性能，深入了解文本表示模型，為后繼文本分類打好基礎。

關鍵詞：文本表示;文本挖掘;向量空間

中圖分類號：TP391.1? ? ? 文獻標識碼：A 文章編號：2096-4706（2019）07-0024-02

Abstract：Text representation is the basic task in natural language processing. The text representation model of vector space model has been widely used in text mining and information retrieval. This paper lists the existing text representation models，and summarizes each text representation through comparison. The characteristics of the model，the quality of the text representation can greatly affect the performance of the entire text classification task，and a deep understanding of the text representation model to lay a good foundation for subsequent text classification.

Keywords：text representation;text mining;vector space

0? 引? 言

大數據時代的到來，使得互聯網上的信息資源呈幾何指數遞增，如何使用計算機有效地處理網絡信息資源受到了學術界的學者的廣泛關注，文本表示是文本信息處理的基礎問題，是文本挖掘技術的重要環節之一，也是各種文本挖掘算法的基礎，優秀的文本表示模型能高效、真實地反映文本的內容，提高文本挖掘的處理效果。有專家認為：所謂文本表示模型是指利用形式化表示方法將實際文本內容轉化所得的計算機內部表示結構，使計算機得以存儲文本表示模型并在此基礎上進行數值計算[1]。經過多年多位專家學者的不斷努力，發現在文本挖掘技術應用中存在著多種文本表示模型，這些模型一般使用詞、短語或者概念等作為特征來表示文本[2]。

文本表示模型也可理解為將結構化或者非結構化文本數據通過一定模型轉化為文本的形式化表示方法，如數值向量或者符號向量，同時盡可能保留文本的原有語義信息。目前常見的文本表示模型有：詞袋模型，主題模型和詞嵌入模型（神經網絡模型）等。

1? 詞袋模型

如何表示文本這種非結構化的數據是自然語言處理的一個研究重要方向，在文本挖掘、信息檢索等相關領域的研究中，詞袋模型是最簡單、最典型的傳統文本表標模型，所謂的詞袋（Bag-of-words）模型是一種用機器學習算法對文本進行建模時表示文本數據的方法，它把每一篇文章看作一袋子的詞，而且忽略其中的順序。具體來說就是將整段文本以詞為單位切分開，然后每篇文章可以用一個長向量表示，向量中每個維度代表一個單詞，該維度對應的權重則反映了這個詞在文中的重要性。目前較經典的詞袋模型有：布爾模型、向量空間模型、概率模型、N元語法模型。

1.1? 布爾模型

布爾模型是最簡單的信息檢索模型，在標準的布爾模型中，一個文本由二值變量集合標識，這些變量對應文本中特征項，當特征變量取值為True或1時，表示對應的特征項存在文本中，反之，如果特征變量取值為False或0時，則不存在文本中。此種模型的優點是簡單、速度快，但是不夠精確，對文本的表示能力差。

1.2? 向量空間模型

向量空間模型，簡稱為VSM，是目前應用最為廣泛的文本表示模型，該模型將文本看作由一組正交詞條構成的矢量空間，將文本的語義單元看作高維空間的維度，文本將特征空間的向量，稱為文本的特征向量，每個特征項在文本中占的權重用特征權重來表示，通過文本向量的夾角余弦來確定兩篇文本的相似度。

在VSM中，每個文本都被形式化為一個N維向量，在選定特征項以后，其中一個文本向量di表示為：di=（（ti1，wi1），（ti2，wi2），……，（tin，win）），tin為特征詞條，win為權重。但是向量空間模型有優點也有缺點，優點是在經過簡單的頻數統計，其在一定程度上能表達出詞的語義信息，但是忽略了詞與詞之間的關系，然而實際詞與詞之間存在一詞多義、同義詞等現象。在處理海量的文本信息時，也會存在文本特征向量維度過高和向量稀疏等問題，會給實際語義帶來影響。

1.3? 概率模型

概率模型是用數學方法推斷特征項之間，以及與文本之間的相關聯性，使用基于特征的概率表示文本數據，同時也考慮特征項之間的其他概率關系度量方法。還可以根據相關度對文本進行排序，不同的應用可以基于特定假設得到不同的概率模型，例如二元獨立概率模型、二元一階相關概率模型、雙柏松分布概率模型以及概率網絡信息模型等。在概率模型中需要事先確定相關參數概率閾值，對相關參數的學習需要大量標注樣本，參數難度估計較大，因此未得到廣泛應用。

1.4? N元語法模型

N元語法模型是一種考慮了序關系的文本表示模型，能夠在一定程度上保留文本之間的語序結構信息，此模型作為文本特征可以避免龐大的詞典和復雜的分詞程序[3]。但是N元語法表達的詞義并沒有詞明顯，實際應用過程的應用效果也非常不理想，只能作一種權宜之計。

2? 主題模型

主題模型用戶從文本庫中發現有代表性的主題，并能夠計算出每篇文章的主題分布，主題模型主要有LDA和pLSA。

2.1? 主題模型LDA（隱狄利克雷模型）

主題模型是一種基于概率圖模型的生成式模型。當兩個詞有相同的主題時，更容易出現在同一篇文檔中。也就是說，給定某一個主題，這兩個詞出現的概率都很高，而其他詞出現的概率就比較小。

2.2? 概率潛在語義分析模型PLSA

假設有K個主題，M篇文章，對于人意文章d，假設文章有N個單詞，對于每個詞，選擇一個主題Z，在Z的基礎上生成一個單詞w則生成概率為：P（w，d）=∑ p（w|z）p（z|d）。其缺點是隨著文檔以及特征詞數量的增多，模型參數也在遞增，減少了文本表示的可讀取性。

3? 詞嵌入模型

詞嵌入是文本的學習表示，其中意義相同的單詞具有相似的表示形式。其核心思想是為每個單詞使用密集的分布式表示，將每個詞都映射成低維空間（一般K在50-300維）上的一個稠密向量。K為空間的每一維也可以看作隱含的主題，但不像主題模型中的那樣直觀。

實際上，詞嵌入是一類技術，這種技術將單獨的詞在預定義的向量空間中表示為實值向量。其中每個單詞映射到一個向量上，向量值是以類似于神經網絡的方式學習得來，該技術因此常被歸類于深度學習領域。

在過去的幾年中，不少學者提出大量可能的詞嵌入方法。最常用的模型是Word2vec和GloVe，它們都是基于分布假設的無監督學習方法，Word2vec是一種統計學方法，它可以從文本語料庫中高效地學習獨立的詞嵌入，該研究還涉及對學習到的向量的分析，以及在單詞表示方面對向量數學的探索。GloVe是對于Word2vec方法的一個擴展，它可以高效地學習到詞向量。雖然通過結合語義或句法知識的有監督來增強這些無監督的方法，但2017-2018中發展純粹的無監督方法，最著名的是FastText（Word2vec的擴展）和ELMo（最先進的上下文詞向量）。FastText向量訓練速度超快，可在157種語言的Wikipedia和Crawl訓練中使用，這是一個很好的基線模型。ELMo大幅提高了詞嵌入的頂級水平，在ELMo中，每個單詞被賦予一個表示，它是它們所屬的整個語料庫句子的函數。

4? 文本圖表示模型

為了提高文本表達的效果，有學者將復雜網絡、社會網絡研究方法引入到文本挖掘領域中，提出了文本圖表示模型，此模型是在圖論基礎上構建起來的，利用文本內容特征項及特征項間的關聯關系構建圖模型，以圖模型表示文本[4]。在圖表示模型中，文本表達可以用：Graph={N，E，W}，其中N代表著節點集合{n1，n2，…，nk}，E代表著邊集合{e12，…eij}，（1

雖然文本圖表示模型展開研究取得了一定的成績，但是整體研究還不夠深入，如在復雜網絡研究大背景下，利用網絡性質進行文本挖掘的可行性、適用性等方面深入探索，現有的研究中的節點關系較為單一，對于節點之間的語義關系、整合節點間的多維關系等方面的研究也處于理論階段，還需繼續深入研究。

不斷地創新文本表示模型，給自然語言處理及其他文本挖掘帶來新思路，其關鍵點在于如何利用文本特征詞間的關系為文本挖掘服務。

參考文獻：

[1] 廖濤，劉宗田，王先傳.基于事件的文本表示方法研究 [J].計算機科學，2012，39（12）：188-191.

[2] 廖濤.面向事件的文本表示及其應用研究 [D].上海：上海大學，2014.

[3] 劉小榮.基于聚類分析的圖模型文本分類 [D].內蒙古：內蒙古師范大學，2011.

[4] 李綱，毛進.文本圖表示模型及其在文本挖掘中的應用 [J].情報學報，2013，32（12）：1257-1264.

作者簡介：駱梅柳（1982-），女，漢族，江蘇連云港人，講師，研究方向：大數據技術、復雜網絡。