基于隱馬爾科夫模型與語義融合的文本分類

2017-08-12 15:45:56高知新徐林會

計算機應用與軟件 2017年7期

關鍵詞：語義分類文本

高知新徐林會

(遼寧工程技術大學理學院遼寧阜新 123000)

基于隱馬爾科夫模型與語義融合的文本分類

高知新徐林會

(遼寧工程技術大學理學院遼寧阜新 123000)

提出一種融合語義的隱馬爾科夫模型用于文本分類的方法。將特征詞的語義作為先驗知識融合到隱馬爾科夫分類模型中。通過信息增益提取特征詞，用word2vec提取特征詞語義，將每一個類別映射成一個隱馬爾科夫分類模型，模型中狀態轉移過程就是該類文本生成過程。將待分文本與分類模型做相似度比較，取得最大類別輸出概率。該方法不僅考慮特征詞、詞頻、文檔數量先驗知識，而且將特征詞語義融合到隱馬爾科夫分類模型中。通過實驗評估，取得了比原HMM模型和樸素貝葉斯分類模型更好的分類效果。

隱馬爾科夫模型語義融合 word2vec 信息增益文本分類

0 引言

近年來隨著Web和移動互聯網的廣泛使用，各種信息的增長速度越來越快，其中文本信息占有重要地位。如何快速而有效地進行文本的組織、管理以及使用是當今信息處理的一個重要課題，而這也促進了文本分類技術的發展。文本分類就是將未分類的文本根據一定的分類算法分配到正確的類別中，它廣泛應用在搜索引擎、信息過濾、文本識別、數字圖書館等方面。為了快速高效的處理海量文本數據集，基于統計的分類模型被應用到文本分類中。文獻[1]將文本利用向量空間模型表示成空間向量，利用TF-IDF表示文本權重，對文本進行分類；文獻[2]討論了統計模型在文本分類中的應用；文獻[3]將支持向量機應用與文本分類，因為其堅實的理論基礎和良好的分類性能成為一經典的分類算法。除此以外，最大熵模型、模糊理論和二維文本模型等方法也被應用于文本分類，同樣也取得了不錯的效果[4-6]。

由于隱馬爾科夫模型(HMM)可以用來描述序列化隨機過程的統計特性，文本處理作為隨機過程統計特性一種，如何將HMM模型更好地應用到文本處理中，成為當下的研究熱點之一。文獻[7]利用HMM模型作為信息檢索模型，給定一個查詢系列，輸出一個和查詢相關的文檔。文獻[8]利用HMM模型用于文本分類，將每一個預定義的類映射為一個HMM模型，給定一篇待分類的文檔表示成詞序列，計算屬于該類別的可能性大小。文獻[9]將卡方一致性檢驗和TF-IDF方法結合提取特征詞向量，在此基礎上建立HMM分類模型。

本文提出了一種文本分類方法，將文本的特征詞，特征詞詞頻，文檔數量以及特征詞語義作為先驗知識融合到HMM分類模型當中。通過信息增益方法提取特征詞，利用TF-IDF算法約束特征詞權重，利用word2vec提取特征詞的語義信息，將語義相似度較高特征詞合并，為每一個類別建立HMM分類模型。對于待分類的文本，本文提出通過與分類模型中特征詞向量做交集，交集集合特征詞作為觀察序列輸入到HMM分類模型中，通過前進算法取得各個類別輸出概率，選取其中最大的作為分類依據。

1 基于HMM的分類模型

文本分類任務是指將待分類的文本自動分配到預先定義好的類別集合當中。本文中，給定一個訓練集合T={(d1,c1),(d2,c2),…,(dn,cn)}，包含預定義的文檔類別，HMM分類模型目標挖掘待分文檔和類別之間的關系，高效準確地將文檔分配到某一類別中。

1.1 隱馬爾科夫模型

HMM模型(如圖1所示)建立在狀態和觀察獨立性上的統計模型，主要應用于解決評估問題、學習問題和解碼問題。一個HMM模型λ一般由5個部分組成，記為λ={S,V,A,B,Π}，其中[10]：

(1)S是一組狀態的集合，設模型中共有N個狀態，則狀態集記為:

S={s1,s2,…,sN}

(2)V是一組輸出符號的集合，設模型中共有M個輸出符號，則符號集記為：

V={v1,v2,…,vM}

(3)A是狀態轉移概率分布矩陣，記為A={aij}，aij表示從狀態si轉移到sj的概率，其中:

aij=p(qt+1=sj|qt=si)

(1)

(4)B是符號輸出概率分布矩陣，記為B={bi(k)}，bi(k)表示在狀態si時輸出符號vk的概率，其中：

bi(k)=p(ot=vk|qt=si) 1≤j≤N1≤k≤M

(2)

(5)Π是初始狀態概率分布，記為Π={πi}，πi表示狀態si作為初始狀態的概率，其中：

πi=p(qi)=si1≤i≤N

(3)

圖1 HMM模型圖

1.2 word2vec詞向量模型

word2vec是Google在2013年開源的一款將詞語表征為實數值向量的高效工具。本文訓練詞向量采用的skip-gram模型，經測試，在小規模樣本集上skip-gram模型要比cbow模型效果要好。從圖2中看skip-gram應該預測概率p(wi|wt)，其中t-c≤i≤t+c且i≠t，c是決定上下文窗口大小的常數，c越大則需要考慮的上下文語境就越多，一般能夠帶來更精確的結果，但是訓練時間也會增加。假設存在一個w1,w2,…,wT的詞語序列，skip-gram的目標是最大化：

(4)

基本的skip-gram模型定義p(wo|wI)為：

(5)

skip-gram是一個對稱的模型，如圖2所示，如果wt為中心詞時wk在其窗口內，則wt也必然在以wk為中心的同樣大小窗口內，即:

(6)

實現此模型的算法分別為層次Softmax和Negative Sampling兩種算法[15]。

圖2 skip-gram模型圖

1.3 HMM分類模型

每一篇文檔di都有一個類別ci屬性，目標建立基于訓練集的分類模型，完成新文本的分類。本文利用HMM模型作為文檔生成器，如圖3所示，每一個類映射成一個HMM模型，模型參數通過屬于本類的數據集訓練而得。當一篇待分類的文檔，先計算屬于當前類別的概率分布大小，再作為屬于當前類別的依據。

圖3 HMM文本分類模型

2 融合語義隱馬爾科夫分類模型的建立

在隱馬爾科夫分類模型基礎上，融合特征詞語義、詞頻、特征詞本身等先驗知識，建立高效快速文本分類模型。將文本信息表示成詞向量能夠讓模型就行數據化處理，本文采用word2vec模型，融合上下文語義，將文本映射到向量空間模型中，進行內積計算，通過設定閾值，將相似特征詞進行合并。例如“文化”和“藝術”就可以合并為同一類別的特征詞。為了去除文本中噪聲，處理以前進行文本數據已處理。包括分詞、去除停用詞、去除詞頻相對文本數目較小的詞等。

2.1 特征詞提取

文本處理中時間復雜度和空間復雜度依賴于文本特征向量的維度。為了提高模型分類效果準確性，需要對文本進行降維處理，最終選擇特征詞表示文檔。本文中采取信息增益算法，可以計算當前類別平均信息量。對于每一個w，信息增益G(w)：

(7)

2.2 隱馬爾科夫分類模型建立及參數訓練

文本是由一些列的詞匯組成，在具體的不同文本中詞匯及其詞頻都不同。所以HMM分類模型的建立在特征詞本身和特征詞詞頻基礎上，而在特征詞提取過程中已將語義信息融合到特征詞當中。類別特征詞集是構建HMM分類模型的基礎，詞向量作為隱馬爾科夫模型的隱藏狀態，而將詞向量對應的詞頻作為對應狀態的觀察序列。

對每一個隱馬爾科夫分類模型，定義狀態集合S={s1,s2,…，sT}，每一個si對應著類別特征詞的第個特征詞。狀態集由特征詞的順序構建。狀態轉移過程即為特征詞遍歷過程，特征詞遍歷過程即為隸屬于該類別文檔生成過程。特征詞輸出序列為特征詞的詞頻用k表示，k為符合一定相似度閾值的特征詞之和。所以得到在中間狀態si下，ck類中對應特征詞的觀察值分布為：

(8)

(9)

(10)

指定初始狀態s0的概率π={1,0,…,0}。對于類別ck的隱馬爾可夫模型可以表示為：

λk={Π,Ack,Bck}

(11)

2.3 待分文本相似度比較

對于一個待分類的文本，進行如下步驟進行分類：

(1) 對文本d按照預處理的方法，然后統計詞頻，得到詞向量和詞頻集合，并將wd表示為詞向量的形式。

(2) 將wd的詞向量分別與各類別特征詞做交集，選取其中k個特征詞作為隱藏狀態。給定隱馬爾科夫模型λk和k個特征詞對應的詞頻觀察序列即為od，利用前向算法[10]求解該觀察序列輸入該分類模型的概率分布值p(od|λk)。

(3) 計算wd與所有HMM分類模型的p(od|λk)，待分文本的類標號就是max{p(od|λk)}。

對于待分文本不僅將詞匯本身，詞匯詞頻和詞匯的上下文語義融合到其中，所選取的k個特征詞更具代表性，能夠映射出該文本和該類別的關聯程度。對于HMM分類模型的構建考慮到詞匯本身屬性以及詞匯語義等先驗性知識，構建的模型不僅在數據維數上減少了，而且將相似度較高的特征詞進行合并，也是根據語義信息對特征詞進一步提取，得出的特征詞更好的代表這個類別屬性信息。可以把HMM分類模型作為該類文本生成器，待分文本可以看作是它狀態轉移過程生成的樣本。

3 實驗結果與分析

為驗證模型的有效性，本文采用三組實驗對模型進行驗證。實驗數據集來源于復旦大學文本分類語料，采用C3、C7、C11、C32、C38、C39共6個類別數據集。分詞采用HanNLP開源工具，進行分詞、去停用詞，利用word2vec進行特征詞語義合并，提取特征詞。實驗結果從準確率、召回率、F-Score三個方面進行評價。其中，word2vec 訓練語料來自于人民日報2014 。模型參數如表1所示。

表1 word2vec模型參數

3.1 HMM 模型試驗對比

為驗證模型有效性，將本文模型和不融合語義合并的模型對比。實驗結果如表2所示。模型在三個指標方面有顯著的提高。說明了融合語義特征能夠提高HMM模型在文本處理中的有效性。其中文獻[1]中說明了原模型的處理文本的方法。

表2 試驗結果

3.2 交叉模型對比

為驗證模型的可行性，本文建立的HMM模型和傳統的樸素貝葉斯模型[13]進行對比。試驗結果如表3所示。樸素貝葉斯作為文本分類中的重要方法，廣泛應用在自然語言處理領域當中。本實驗在準確率、召回率和F-Socre三個方面對比取得了和樸素貝葉斯模型相當的效果，進一步說明模型的有效性。

表3 交叉模型對比結果

3.3 訓練樣本的數量對模型影響

統計模型，訓練樣本的規模尺寸對模型的評估結果又很大影響。本文設計如下實驗特征詞數為30。如圖4所示：水平軸表示每個類別的樣本數，垂直軸表示“詞匯+詞頻+語義+HMM”模型的平均準確率。隨著訓練樣本的增加，該模型的平均準確率有顯著增加，可以解釋為隨著訓練樣本的增加，通過文檔的詞匯、詞頻、語義，代表文檔的特征詞特征屬性提取的更充分，所以準確率顯著增加，當到達[700,800]區間到達頂峰。隨著訓練樣本進一步增加，準確率有下降的趨勢，隨著樣本遞增，word2vec進行語義合并時，融合語義噪聲，使得特征詞代表性有所下降，準確率會有所下降。

本文測試數據采用復旦大學文本分類語料，測數據中最大數量1 000多篇，對于大樣本數據或者不均衡語料數據需要應用過采樣或欠采樣方法[15]。將本模型應用到其他大規模文本數據，采用更為有效的評價指標進行評測也是接下來需要研究問題。

圖4 訓練樣本的數量對模型影響

4 結語

本文提出一種基于HMM模型和融合語義分析的文本分類方法。模型建立在特征詞基礎上，融合特征詞本身內容，特征詞的詞頻以及特征詞的語義等先驗知識，將每一個類別映射成隱馬爾科夫模型。本文對模型結構和參數的訓練進行闡述，對比其他文本分類統計模型，模型結構簡單，參數訓練復雜度依賴于特征詞的維數，然而語義分析起到特征詞降維的作用，而且根據語料的增加，特征詞的維度可以調整，這也是本模型特點。通過實驗分析的三組實驗可以說明模型的有效性，取得了與樸素貝葉斯相當的結果。如何針對具體領域更加有效地進行特征提取和觀測值概率分布計算是今后研究的方向。

[1] Turney P D, Pantel P. From frequency to meaning: vector space models of semantics[J]. Journal of Artificial Intelligence Research, 2010, 37(1):141-188.

[2] Pelikan M, Goldberg D E, Lobo F G. A Survey of Optimization by Building and Using Probabilistic Models[J]. Computational Optimization and Applications, 2002, 21(1):5-20.

[3] Pal M, Foody G M. Feature Selection for Classification of Hyperspectral Data by SVM[J]. Geoscience & Remote Sensing IEEE Transactions on, 2010, 48(5):2297-2307.

[4] Kazama J, Tsujii J. Maximum Entropy Models with Inequality Constraints: A Case Study on Text Categorization[J]. Machine Learning, 2005, 60(1):159-194.

[5] Nunzio G M D. A Bidimensional View of Documents for Text Categorisation[M]// Advances in Information Retrieval. Springer Berlin Heidelberg, 2004:112-126.

[6] Liu W Y,Song N.A fuzzy approach to classification of text documents[J].Journal of Computer Science and Technology,2003,18(5):640-647.

[7] Miller D R H, Leek T, Schwartz R M. A hidden Markov model information retrieval system[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. 2000:214-221.

[8] Yi K, Beheshti J. A hidden Markov model-based text classification of medical documents[J]. Journal of Information Science, 2009, 35(1):67-81.

[9] Li K, Chen G, Cheng J. Research on Hidden Markov Model-based Text Categorization Process[J]. International Journal of Digital Content Technology & Its Applications, 2011, 5(6):244-251.

[10] 楊健,汪海航.基于隱馬爾科夫模型的文本分類算法[J].計算機應用,2010,30(9):2348-2350.

[11] 羅雙虎,歐陽為民.基于Markov模型的文本分類[J].計算機工程與應用,2007,43(30):179-181.

[12] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2013.

[13] 杜選.基于加權補集的樸素貝葉斯文本分類算法研究[J].計算機應用與軟件,2014,31(9):253-255.

[14] 鄧力.深度學習方法和應用[M].北京:機械工業出版社,2015.

[15] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1):321-357.

TEXT CLASSIFICATION BASED ON HIDDEN MARKOV MODEL AND SEMANTIC FUSION

Gao Zhixin Xu Linhui

(CollegeofScience,LiaoningTechnicalUniversity,Fuxin123000,Liaoning,China)

In this paper, a text classification method based on Hidden Markov Model and semantic fusion is proposed. The semantics of the feature words are integrated into the hidden Markov model as a priori knowledge. Then, the characteristic words were extracted by information gain, and the feature words semantics were extracted by the word2vec. Each class was mapped into a hidden Markov model, and the state transition process in the model was the text generation process. The similarity between the text to be classified and the classification model was compared to obtain the maximum class output probability. This method not only considers the prior knowledge of feature words, word frequency and document quantity, but also integrates the semantic of feature words into hidden Markov classification model. Through the experimental evaluation, we got better classification result than the original HMM model and Naive Bayes classification model.

Hidden Markov model Semantic fusion word2vec Information gain Text classification

2016-07-20。高知新，副教授，主研領域：最優化與應用。徐林會，碩士生。

TP3

10.3969/j.issn.1000-386x.2017.07.056

基于隱馬爾科夫模型與語義融合的文本分類

0 引 言

1 基于HMM的分類模型

2 融合語義隱馬爾科夫分類模型的建立

3 實驗結果與分析

4 結 語

0 引言

4 結語