胡福玲 吳國文 趙臣升
摘 要:針對話題跟蹤的任務(wù)是從時序新聞報道流中實時識別和挖掘相關(guān)于特定新聞話題的報道,本文提出一種事件-時間關(guān)聯(lián)模型(Event-Time Relation Model,ETRM)用來展開話題跟蹤研究。ETRM將相關(guān)報道的時間屬性引入向量空間模型,話題跟蹤過程中將話題與相關(guān)報道相同特征項的時間相關(guān)度應(yīng)用于相關(guān)性判定機制,同時基于時間的分布屬性調(diào)整特征向量的權(quán)重分配,實現(xiàn)話題模型的自適應(yīng)學(xué)習(xí)更新。實驗采用DET曲線評測系統(tǒng)性能,結(jié)果顯示相比于傳統(tǒng)的話題模型,ETRM能夠更加準確的追蹤到話題焦點演化趨勢,有效提高了話題跟蹤系統(tǒng)的性能。
關(guān)鍵字:話題跟蹤;事件-時間關(guān)聯(lián)模型;時間相關(guān)度;DET曲線
中圖分類號: TP391.1 文獻標識碼: A 文章編號:2095-2163(2016)01-
Abstract:This paper proposes an Event-Time relation model (abbr.ETRM) to study topic tracking for its task that is to identify and mining subsequent on-topic stories in the temporal story stream. The ETRM introduces the time property of the story to the vector space model, apply time correlations of same feature to the correlation decision mechanism in topic tracking process, adjusting feature vector weight allocation based on time property to implement subject model of adaptive learning at the same time. Experiment adopts DET curve performance evaluation system, the results show that ETRM can more accurately track the topic focus of evolution trend compared with the traditional model of subject, effectively improve the performance of topic tracking system.
Keywords: topic track; event-time relation model; time correlation; DET curve
0 引 言
話題檢測與跟蹤[1] (Topic Detection and Tracking, TDT) 作為信息處理領(lǐng)域重要的研究分支正逐步成為國內(nèi)新穎的研究熱點之一,話題跟蹤 (Topic Tracking, TT) 是其中的一個子任務(wù)。話題定義為由一個種子事件以及后續(xù)相關(guān)事件或活動組成[2],而事件定義為在特定時間特定地點發(fā)生的事情[3],可見時間是輔助話題模型區(qū)分不同的新聞事件的重要屬性。一般來說,話題的種子事件發(fā)生的時間總是最早,并長期駐留于相關(guān)話題的報道流中,而話題的新穎事件往往發(fā)生的時間較晚,并且論述新穎事件的報道會在短時間內(nèi)爆發(fā)式地出現(xiàn)。所以時間也是反映話題發(fā)展趨勢的主要脈絡(luò)[4]。
針對上述新聞事件報道的時間特性,本文提出一種事件-時間關(guān)聯(lián)模型(ETRM),即在傳統(tǒng)的向量空間模型 (Vector Space Model, VSM) 的基礎(chǔ)上引入相關(guān)事件報道的時間屬性對話題進行描述,并基于ETRM對話題跟蹤過程中的相關(guān)算法提出以下改進:
(1)將相同特征項之間的時間相關(guān)度應(yīng)用于報道與話題的相關(guān)性判定中,借以提高判定精度;
(2)在對話題模型中相關(guān)報道的特征項進行自學(xué)習(xí)更新時,基于其時間分布屬性進行相應(yīng)權(quán)重調(diào)整,借以及時準確地追蹤到話題的焦點。實驗采用檢測錯誤權(quán)衡 (Detection Error Tradeoff, DET) 曲線[5]分別對基于VSM和基于ETRM兩種跟蹤系統(tǒng)性能進行評測,結(jié)果顯示后者有效提高了話題跟蹤演化趨勢的性能。
1 相關(guān)工作
1.1 傳統(tǒng)的文本表示模型
對新聞信息進行文本預(yù)處理時,需要將其轉(zhuǎn)化為計算機可以識別的形式[6]。傳統(tǒng)的話題跟蹤系統(tǒng)中,通常應(yīng)用向量空間模型 (Vector Space Model, VSM)[7] 來對話題和報道進行描述。VSM將文本表示成一個空間向量,向量的每一維代表該文本的一個特征,并且每一維的取值(即權(quán)重),對應(yīng)于該特征對相應(yīng)文本的重要性。形如公式(1):
(1)
其中, 為特征詞, 為 對應(yīng)的權(quán)重, , 為特征向量的維數(shù)。該模型要求各個特征項互異且無先后順序關(guān)系[8],后續(xù)可以通過計算特征向量之間的相似性來度量文本間的相似性。
VSM把對文本內(nèi)容的處理簡化為向量空間中的向量運算,以空間上的相似度表達語義上的相似度。該模型直觀易懂,計算高效且操作靈活,目前廣泛應(yīng)用于文本過濾和關(guān)鍵字檢索等信息處理領(lǐng)域。
1.2 文本特征選擇及其權(quán)重計算
將新聞報道用空間向量模型表示后,特征向量可能成百上千甚至更多,需要從中選出最具有代表性的特征項來進行后續(xù)研究。
TF-IDF加權(quán)策略[9]是一種常用的特征權(quán)重計算方法,其特點是特征項的重要性隨著自身在文檔中出現(xiàn)的頻數(shù)成正比增加,卻也會隨著自身在相關(guān)文檔集中出現(xiàn)的頻率成反比下降。新聞話題是動態(tài)地不斷向前發(fā)展的,在不同時段報道事件的內(nèi)容可能不同,比如當突發(fā)的新穎事件報道大量出現(xiàn)時,一些高頻出現(xiàn)的特征詞能更好的代表目前階段話題的核心,此時反文檔頻率IDF將會降低高頻詞匯的影響力。所以在本文的特征權(quán)重計算中只考慮TF因子。具體地,在一篇新聞報道中,位于標題、首段、末尾的特征詞一般更能表述此篇文檔的主要內(nèi)容,因此通過修正因子 對相關(guān)位置上的特征詞賦予較高的權(quán)重,具體的權(quán)重計算如公式(2)所示。
4 實驗分析
4.1 實驗數(shù)據(jù)集
為了更好地體現(xiàn)實驗語料的權(quán)威性和實時性,本文實驗用語料采用搜狗實驗室提供的采集自全網(wǎng)2012年6月~2012年7月期間多個頻道的新聞數(shù)據(jù)。該數(shù)據(jù)集共含有16080篇文檔,涉及16個話題,為了便于話題檢測與跟蹤結(jié)果測評,選擇前面的3054篇作為訓(xùn)練集,后面13026篇作為測試集。
4.2實驗設(shè)計
本文分別基于傳統(tǒng)的向量空間模型和ETRM新模型,設(shè)計了兩個話題跟蹤系統(tǒng),通過漏檢率和誤檢率以及歸一化開銷來衡量話題與跟蹤系統(tǒng)的性能。
4.2.1 設(shè)計實現(xiàn)一
系統(tǒng)采用傳統(tǒng)的向量空間模型(VSM)對新聞話題和報道進行文本表示。首先,對新聞?wù)Z料進行文本預(yù)處理、分詞等操作,并通過公式(2)計算各特征詞權(quán)重;然后,選取訓(xùn)練集中 篇相關(guān)報道中的特征詞及其相應(yīng)權(quán)重來構(gòu)成初始話題模型;接著采用傳統(tǒng)余弦公式(13)衡量新聞話題與報道之間相關(guān)度,如果相關(guān)度高于預(yù)設(shè)的閾值,則判定待測報道是相關(guān)于話題的,并實時更新話題模型的特征向量,否則判定為不相關(guān);最后重復(fù)上一步驟來處理下一篇報道,直到所有新聞報道處理完為止。
4.2.2 設(shè)計實現(xiàn)二
系統(tǒng)對每個新聞話題和報道采用事件-時間模型(VSM)構(gòu)建話題模型。同4.2.1一樣首先對新聞?wù)Z料進行文本預(yù)處理和分詞等操作,用公式(2)計算各特征詞權(quán)重,并提取每個特征詞的時間信息;然后,采用 篇最早的相關(guān)報道作為訓(xùn)練語料,從中抽取特征詞、特征詞的相應(yīng)權(quán)重和時間對來構(gòu)成初始的話題模型,如式(8)和式(9);接著按照公式(13) 計算話題與后續(xù)報道的相似度,若相似度大于設(shè)定的閾值,則把相關(guān)報道加入到相關(guān)文檔集中,并且把報道中新的特征詞更新到話題模型,更新過程如3.2節(jié)所述;最后重復(fù)上一步驟來處理下一篇報道,直到所有新聞報道處理完為止。
4.3實驗結(jié)果及分析
本實驗通過漏檢率( )、誤檢率( )和歸一化開銷 來衡量話題與跟蹤系統(tǒng)的性能。雖然本文沒有使用 TDT 會議提供的標準語料,但是通過自己從搜狗實驗室獲取的語料,同樣可以使用這些指標來評測話題檢測與跟蹤系統(tǒng)算法的性能,驗證本文提出的方法的有效性。
實驗在0.12~0.5的范圍內(nèi)隨機設(shè)置相似度閾值,觀察不同閾值情況下基于兩個不同模型的話題跟蹤系統(tǒng)的漏檢率和誤檢率以及歸一損耗代價,如表1所示。
表1 不同閾值下兩種模型的實驗結(jié)果
Tab.1 Results of the two models under different thresholds
根據(jù)表1中不同閾值下的跟蹤結(jié)果繪制DET曲線,如圖1所示。DET曲線的橫坐標表示誤檢率,縱坐標表示漏檢率,曲線上的點代表相似度閾值不同時的漏檢率和誤檢率。曲線越接近原點,系統(tǒng)性能越好。由此得出,基于ETRM構(gòu)建話題模型的跟蹤系統(tǒng)的誤檢率和漏檢率都有所降低,其性能效果明顯更好。
由圖2可以看出,隨著相似度閾值的增大,基于兩種不同模型的跟蹤系統(tǒng)的歸一化損耗都是先減小后增大。究其原因,一方面是因為閾值較小時,容易引入誤檢的新聞報道,導(dǎo)致誤檢率PFA較高,使得 損耗也較高;另一方面是因為閾值較高時,漏檢的新聞報道會逐漸增多,相應(yīng)的漏檢率也會升高,導(dǎo)致 損耗也隨之增大。結(jié)合表1可以得知,當閾值為0.2時,兩種算法的 值達到最低,當閾值范圍在0.16~0.26之間時,系統(tǒng)的錯誤代價較低,則其性能將達到最優(yōu)。具體地,當閾值 =0.2時,兩種模型算法的實驗結(jié)果對比如圖3所示。
由圖3結(jié)合表1可以得出,在基于VSM的話題跟蹤系統(tǒng)中,最小的 值為0.13148,而在基于ETRM的話題跟蹤系統(tǒng)中,最小的 值為0.0956,相比之下,后者大大降低了歸一化錯誤代價,使得跟蹤系統(tǒng)性能有了顯著的提高。
5 結(jié)束語
本文提出一種事件-時間關(guān)聯(lián)模型用于跟蹤新聞話題演化過程。在傳統(tǒng)向量空間模型中引入時間屬性,基于相同特征項之間的時間相關(guān)度改進話題與報道相關(guān)性判定機制,并應(yīng)用于話題模型特征詞的更新過程中的權(quán)重調(diào)整。實驗采用傳統(tǒng)的基于VSM的話題模型與本文提出的新模型ETRM進行跟蹤性能的對比,結(jié)果表明,后者在漏檢率、誤檢率以及最小歸一化損耗代價上均有所降低,使得跟蹤系統(tǒng)的性能有了顯著的提高。但本文仍有不足之處,如特征項的時間屬性統(tǒng)一采用的是報道發(fā)布的時間,在某些情況下,報道事件不一定與事件發(fā)生時間一致。在今后的工作中還需要進一步改進。
參考文獻:
[1] 駱衛(wèi)華, 劉群, 程學(xué)旗. 話題檢測與跟蹤技術(shù)的發(fā)展與研究[A]. 孫茂松,陳群秀. 語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C]. 北京:清華大學(xué)出版社,2003:560-566.
[2]ALLAN J. Topic detection and tracking: Event-based Information Organization[M]. NewYork: Kluwer Academic Publishers,2002.
[3] YANG Y, CARBONELL JG , BROWN RD. Learning Approaches for Detecting and Tracking News Events[J]. 1999, 14(04):32-43.
[4] 倉玉, 洪宇, 姚建民, 朱巧明. 基于時序話題模型的新事件檢測[J]. 智能計算機與應(yīng)用, 2011,1(3):74-78.
[5]MARTIN A,DODDINGTON G,KAMMETAL T.TheDETCurveinassessmentofdetectiontaskperformance[C] //Proceedingsof the Fifth European Conference on Speech Comunication and Technology, EUROSPEECH 1997. Rhodes, Greece:ACM,1997:1895-1898.
[6] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance Models for Topic Detection and Tracking[C] //Proceedings of HLT2002 on Human Language Technology Research. San Francisco:ACM, 2002:115-121.
[7] 宋丹, 衛(wèi)東, 陳英. 基于改進向量空間模型的話題識別跟蹤[J]. 計算機技術(shù)與發(fā)展, 2006, 9(16):62-67.
[8] 宗成慶.統(tǒng)計自然語言處理[M].清華大學(xué)出版社,2008:342-343.
[9]ALLAN J, LAVRENKO V, FREY D,et al. UMass at TDT 2000[C] // Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standard and Technology, 2000:109-115.
[10] ALLAN J, CARBONELL J , DODDINGTON G, et al. Topic detection and tracking pilot study: Final report[C] //Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: DARPA, 1998: 194-218.
[11] 洪宇, 張宇,劉挺,等. 話題檢測與跟蹤的評測及研究綜述[J] .中文信息學(xué)報, 2007, 21(6):71-87.
[12] MAKKONEN J, AHONEN-MYKA H, SALMENKIVI M. Simple semantics in topic detection and tracking[J] . Information Retrieval, 2004, 7(3-4):347-368.