洪旭東, 余正濤, 嚴梅
(1.昆明理工大學 信息工程與自動化學院, 昆明 650500;2.昆明理工大學 智能信息處理重點實驗室, 昆明 650500)
基于事件句關聯的新聞主題模型構建方法
洪旭東1,2, 余正濤1,2, 嚴梅1,2
(1.昆明理工大學 信息工程與自動化學院, 昆明 650500;2.昆明理工大學 智能信息處理重點實驗室, 昆明 650500)
考慮新聞事件句關聯信息對新聞主題構建的重要指導作用,提出了基于事件分析的新聞主題模型構建方法。利用新聞文本中事件句中包含的事件元素,判斷事件句之間的關聯,并將這一關聯信息作為LDA建模過程中主題分配的指導信息。從而獲得不同新聞文檔在主題空間上更加準確的概率分布。實驗結果表明,提出的新聞主題模型(E-LDA)比LDA主題模型對新聞文本有更好的表達效果。
事件句關聯; LDA; 新聞主題模型; E-LDA
隨著互聯網的快速發展,網絡中出現了大量的新聞文本,且每天不斷更新,呈指數級增長。對新聞文本進行主題建模,為用戶提供方便快捷的新聞主題信息展示,是新聞文本分析的重要任務之一。同時也是新聞文本分類、新聞推薦、話題發現等新聞文本處理的重要支撐。目前在文本主題建模方面,Blei等人[1]提出的LDA(latent dirichlet allocation)主題模型,是一個全概率生成模型,能夠快速的訓練出各種文本內容的主題信息,對高維的文檔信息進行有效的降維。在很多分類,聚類任務中得到了廣泛應用。對于面向特定任務,也出現了很多基于LDA擴展的主題模型。如李文波等人[2]針對文本分類問題,在訓練語料中加入文本類別標記作為監督信息,提出的LabeledLDA模型。Blei等人[3]針對文本得分預測問題,將文本的屬性關聯信息作為指導信息,提出的sLDA模型。Mccallum等人[4]針對作者主題獲取問題,將發送者和接受者對(pair)作為約束信息,提出的ART模型。以上主題模型有效的利用了目標文本自身特點的指導信息,取得了更好的效果。
目前針對新聞文本特點進行主題建模的方法還相對較少。在文獻[5~10]中出現的新聞主題建模基本是直接利用LDA型或基于LDA擴展的主題模型。沒有考慮到新聞文本的事件信息。本文將通過分析新聞文本的事件特點,利用其中的關聯作為LDA模型的指導信息,對新聞主題模型進行建模。新聞報道通常是圍繞著一個中心事件展開描述的。包括對事件發生的經過、產生的原因、造成的影響以及與之相關的其他事件等的描述。新聞報道上下文內容之間是緊密相關的。因此,在對新聞文本進行主題建模時,不能簡單的認為詞語之間是相互獨立的,前后詞語所對應的主題應該是相互關聯的。同時新聞文本中通常會包含很多對事實進行描述的句子。例如在某個時間、地點發生了某個事情。在不同聞報道中則會出現很多句子,雖然它們的表達方式不同,但是描述的是同一個事實,顯然這些句子所對應的主題應該相同。針對這些新聞報道的特點,本文在LDA模型的基礎上,提出了事件主題模型(E-LDA),將新聞報道中上下文詞語主題之間存在的關聯以及不同新聞報道中句子主題之間的關聯作為LDA建模過程中的指導信息。首先利用句子中的事件元素信息判斷兩個句子是否描述的是同一個事件;然后在主題建模過程中,一方面認為后一個詞對應的主題和前一個詞的主題是相關的,另一方面認為描述同一事實的句子對應相同的主題;最后采用EM算法對模型進行求解。
1.1 新聞事件要素提取及事件句分析
事件要素是與事件相關的實體以及實體的屬性,通常包括事件發生的時間、地點、參與者等。比如,在自然災害類事件中,其事件要素包括自然災害發生的時間、地點、何種自然災害以及受難者等;而對于一個交通事故事件,它的要素則包括事故發生的時間、地點、何種事故以及肇事者等。事件要素抽取的任務即是從事件區域中識別出與事件相關的實體以及實體的屬性并抽取。事件句識別及事件句標記流程如圖1所示:
事件元素抽取的定義和實例來自于ACE[11]。ACE(Automatic Content Extraction)會議是典型的含有事件抽取任務的評測會議。根據定義,事件由事件觸發詞(Trigger)和描述事件結構的元素(Argument)構成。分為Life,Movement,Conflict,Contact等8大類事件,30多個子事件,子事件模板定義,如表1所示:

圖1 事件句識別及標記過程

表1 ACE定義的事件模板
命名實體一般是指人名、地名、組織機構名等。利用中科院工具(NLPIR(ICTCLAS2014)對新聞的標題、正文進行分詞以及命名實體識別,利用正則表達式提取新聞中的時間表達信息。事件觸發詞之間引發事件的產生,是決定事件類別的重要特征,本文利用文獻[12]中的方法識別事件句的事件類別,以及事件句中的事件元素抽取,本文抽取的事件元素包括觸發詞所在的事件的實體、時間表達、屬性詞3類。在計算兩個句子之間是否屬于描述同一事件中,首先判斷句子中的觸發詞是否一樣或為同義詞,同義詞使用哈工大信息檢索研究室的〈同義詞林(擴展版)〉進行判斷。如果兩個句子中的觸發詞屬于同一詞或同義詞時,進一步對這兩個句子中的其他事件元素進行匹配,如果有兩個或兩個以上的其他事件元素完全相同,則認為這兩個句子描述的是同一個事件,對于描述事件i的句子s1,s2,...,sn標記為同一事件集合,用ei(s1,s2,...sn)表示,其中ei表示事件i,sn表示第m新聞文檔dm的第n個句子dmn。
2.2 新聞事件主題模型
基于“句袋”模型假設,加入新聞的事件句關聯信息,本文提出的基于事件句關聯的新聞主題模型圖模型(后面簡稱E-LDA),E-LDA圖模型如圖2所示: 表示如圖2a所示。“句袋”模型是指文檔由句子為單位組成,同一句話內所有的單詞將共享同一個主題,文檔中的句子可以變換順序而不改變模型訓練結果。事件句關聯是指對描述同一事件的事件句分配同一主題。
如圖2b所示,一篇文檔中的主題是與θ和主題轉換變量Ψn相關的馬爾科夫鏈。當Ψn=1,從θ中抽取一個新的主題。當Ψn=0,第n個詞賦予與其前一個詞相同的主題。我們假設只有在句子之間才可能出現主題的轉換,所以Ψn只有在句子的第一個詞的時候才會出現非零的情況。E-LDA模型的算法描述如圖3所示。在模型的訓練過程中,需要對新聞文本中的每個詞語進行主題采樣。首先判斷當前需要采樣的詞是否屬于句子中的第一個詞,如果是,則根據前面所獲得的事件集合,判斷當前詞所屬的句子是否屬于事件句,如果是,則觀察該事件句所在的事件集合里面有沒有被采樣過的句子,如果有,則將采樣過的句子中詞語的主題賦給當前句的第一個詞,如果沒有,則將從文檔的主題分布中隨機抽取一個主題。如果不是事件句,則從文檔的主題分布中抽取一個主題。如果當前詞不是句子的第一個詞,則賦予該詞前一個詞的主題。
其中K是隱層主題個數,Nd表示文檔d的長度。在主題分布計算中,對于一篇文檔中不同位置出現的同一個詞不一定分配的是同一個主題,這樣有一定的詞義消岐作用。對于描述同一事件的句子共享同一個主題,這樣訓練得到的新聞主題模型,更能表達新聞的事件信息。

a LDA模型

b E-LDA模型

圖3 E-LDA模型算法描述
1.3 模型參數求解
對于LDA擴展的模型,由于參數的依賴性,根據提出的主題模型自身的特點,采用標準參數估計工具HMMs,即EM和前饋算法相結合對模型參數進行推斷。隱參數zn由變量Ψn決定其取值,根據不同Ψn值,zn賦值為zn-1、ze(s(n))或從θd中抽取。需要求解的參數是θd,β和ε。假設超參數α和η已知。參數求解過程如下:
E-step:
在E-step,對文檔中的每句話計算概率Pr(zn,Ψn|d,w1...wNd;θ,β,ε)。利用前饋算法在HMM中的應用計算此概率。每篇文檔的轉移矩陣都是根據參數θd和ε而定的。參數βz,w表示句子中的局部概率。得到概率Pr(zn,Ψn|d,w1...wNd)后,計算M-step中需要求解的期望值。分兩步進行計算:
(1)在主題z結束時的主題轉換期望;
(2)詞語w與主題z共現的期望數。
Cd,z表示在文檔d中主題z從θd中抽取的次數。Cz,w表示詞語w根據βz,w從主題z中抽取的次數。則有式(1)、(2)。
(1)
(2)
M-step:
對θ和β的MAP估計中,θd和βz是屬于概率向量。標準計算運用拉格朗日乘數法(Lagrange Multipliers)如式(3)、(4)。
(3)
(4)

(5)
其中βz,w是正規化參數,βz形成了一個分布。本文中EM算法假設超參數α,η是確定的。文獻假設α=1+50/K和η=1.01。
3.1 實驗數據
實驗數據爬取了新浪、騰訊、鳳凰等各大新聞網站,其中包括經濟政治、文化、科技、體育類新聞各200篇。共1000篇新聞文檔,其中隨機抽取每類中各180篇,共900篇作為訓練數據,剩余100篇作為測試數據。新聞文檔都是經過分詞、分句去停用詞預處理的文檔。
3.2 實驗評價指標
關于主題模型的評價指標,當前比較權威的評價指標是Perplexity(困惑度),本文采用該指標對提出的新聞主題模型實驗結果進行驗證。Perplexity表示利用訓練集預測新文本生成的不確定度,該值越小,證明模型性能越好。其計算如式(6)。
(6)
其中,Ntest表示測試文本的長度。
提出的新聞主題模型的perplexity值求解過程如下:
(1)在β=βtrain和ε=εtrain固定的情況下,通過新文檔的前N個詞使用EM算法求得得到θnew。
(2)使用HMM的前饋算法,計算新文檔前N個詞的潛層變量Pr(zN+1|w1...wN),通過Pr(zN+1|w1...wN)推導Pr(zN|w1...wN)。
(3)利用前面得到的θnew,βtrain,εtrain和Pr(zN+1|w1...wN)計算Pr(wN+1...wNtest|w1...wN)。
3.3 實驗設計與分析
實驗一。為了驗證E-LDA模型的有效性,設計了一組與LDA[1]、HTMM[13]模型的對比實驗。參數設置:主題數K=15。—實驗結果,如圖4所示。

圖4 不同觀測數據下各主題模型的perplexity
從圖4可以看出,LDA、HTMM和E-LDA模型在主題數K=15時,各主題模型的Perplexity值隨觀測詞N不同而發生的變化。隨著觀測詞數量的增加,E-LDA和HTMM比LDA模型的Perplexity值小。E-LDA和HTMM模型都是基于“句子袋模型”,在新聞文檔數據集中有更好的應用效果,與HTMM模型相比,E-LDA模型在不同觀測值時有更小的Perplexity值,驗證了事件句關聯信息對新聞主題模型的有效指導作用,E-LDA模型對新聞主題有更好的表達效果。
實驗二。為了驗證在不同主題數目下E-LDA模型與LDA、HTMM模型的性能比較。參數設置:N=10,實驗結果,如圖5所示。

圖5 不同主題下主題模型的Perplexity值
從圖5可以看出,3種主題模型在觀測數據一定的情況下,在不同主題下的Perplexity值情況,各主題模型的Perplexity值隨著主題的變化而變動,整體趨勢都是先隨著主題數的增加而減小,當減小到一定程度后又隨著主題數的增加而上升,在K=20的時候HTMM模型和E-LDA模型的Perplexity值達到最小。在整個過程中,E-LDA模型在相同主題數時Perplexity最小,驗證了E-LDA模型對新聞文本主題建模有更好的效果。
通過分析新聞文檔中事件句的關聯信息,在LDA模型基礎上,將事件句關聯作為新聞主題模型構建的指導作用,提出了E-LDA主題模型。實驗驗證了提出方法的有效性。進一步研究將結合新聞文本的篇章關聯信息對新聞文本進行建模。
[1] Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
[2] 李文波, 孫樂, 張大鯤. 基于Labeled-LDA模型的文本分類新算法[J]. 計算機學報, 2008, 31(4):620-627.
[3] Blei D M, Mcauliffe J D. Supervised Topic Models[J]. Advances in Neural Information Processing Systems, 2010, 3:327-332.
[4] Mccallum A, Corrada-Emmanuel A, Wang X. The Author-Recipient-Topic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email[J]. Artificial Intelligence Research,2007,30:249-272.
[5] Florent Garcin,Christos Dimitrakakis,Boi Faltings.Personalized News Recommendation with Context Trees[C]//Proceedings of the 7th ACM Conference on Recommender Systems,2013:105-112.
[6] Jenders M, Lindhauer T, Kasneci G, et al. A Serendipity Model for News Recommendation[M]// KI 2015: Advances in Artificial Intelligence. Springer International Publishing, 2015, 9324:111-123.
[7] Meguebli Y, Kacimi M, Doan B L, et al. Building Rich User Profiles for Personalized News Recommendations[C]// UMAP 2014, 1181:33-40.
[8] 吳永輝,王曉龍,丁宇新,徐軍,郭鴻志.基于主題的自適應、在線網絡熱點發現方法及新聞推薦系統[J].電子學報,2010,(11):2620-2624.
[9] Hong M D, Oh K J, Ga M H, et al. Content-based Recommendation Based on Social Network for Personalized News Services[J]. Journal of Intelligence & Information Systems, 2013, 19(3):57-71.
[10] 路榮, 項亮, 劉明榮,等. 基于隱主題分析和文本聚類的微博客中新聞話題的發現[J]. 模式識別與人工智能, 2012, 25(3):382-387.
[11] ACE(Automatic Content Extraction)Chinese Annotation Guidelines for Events.National Institute of Standards and Technology[R].2005.
[12] 趙妍妍,秦兵,車萬翔,等.中文事件抽取技術研究[J].中文信息學報,2008, 22(1):3-8.
[13] Gruber A, Weiss Y, Rosen-Zvi M. Hidden Topic Markov Models.[J]. Proceedings of Artificial Intelligence & Statistics, 2007:163-170.
News Topic Model Based on Relevance of Event Sentence
Hong Xudong1,2,Yu Zhengtao1,2,Yan Mei1,2
(1. School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500, China;2. Intelligent Information Processing Key Laboratory,Kunming University of Science and Technology,Kunming 650500,China)
The relevance relationship of news event sentences plays a very important guiding function role in the processing of news topic constraction. A news topic model based on event sentence relevance is proposed. The relevance relationship of event sentences obtained by using the event element of news document will be used as the supervision information in the LDA, then one can get more accuracy probability distribution of news document in the topic space. The experimental results show that E-LDA can make better result than LDA in news documents.
Event sentence relevance; LDA; News topic model; E-LDA
洪旭東(1989-),男,昆明理工大學,博士研究生,研究方向:自然語言處理、信息檢索,昆明 650500
余正濤(1970-),男,昆明理工大學,教授,博士,博士生導師,研究方向:自然語言處理、信息檢索及信息抽取。昆明 650500 嚴 梅(1989-),女,昆明理工大學,碩士,研究方向:自然語言處理、智能信息處理,昆明 650500
1007-757X(2017)01-0050-05
TP311
A
2016.04.25)