歐偉明 翟利志 路瑜亮 周云 萇軍紅 韓彥忠
摘要:通過構(gòu)建新聞專題的事件脈絡(luò),可以輔助讀者識別事件演化發(fā)展階段,把控事件的全局性信息。隨著專題事件的演化發(fā)展,相關(guān)新聞會(huì)持續(xù)不斷出現(xiàn)對事件進(jìn)行報(bào)道。為了保障事件脈絡(luò)的完整性和時(shí)效性,需要從最新新聞數(shù)據(jù)流中追蹤相關(guān)新聞,對事件脈絡(luò)進(jìn)行持續(xù)跟蹤更新。提出了一種面向新聞的專題事件脈絡(luò)持續(xù)跟蹤構(gòu)建方法,采用K-means聚類和基于凝聚式的層次聚類方法檢測事件發(fā)展階段,構(gòu)建以時(shí)間為主線、各發(fā)展階段為分支的事件發(fā)展演化脈絡(luò),保障事件脈絡(luò)的完整性和連續(xù)性;綜合實(shí)體、關(guān)鍵詞和文本3個(gè)維度的相似度特征從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關(guān)的新聞數(shù)據(jù),將追蹤到的新聞事件同時(shí)更新到事件文本向量和已構(gòu)建的事件脈絡(luò)中,實(shí)現(xiàn)對事件脈絡(luò)的持續(xù)跟蹤構(gòu)建。
關(guān)鍵詞:事件脈絡(luò);新聞專題;事件跟蹤;文本聚類
中圖分類號:TP319文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2022)20-61-8

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們很容易獲取關(guān)于事件詳情的新聞信息。海量且紛繁的新聞使讀者容易迷失在局部信息中,難以獲得總結(jié)性的信息,喪失對信息的全局把控。因此,檢測新聞事件演化發(fā)展的關(guān)鍵階段,通過事件之間存在的時(shí)序以及邏輯關(guān)系等特征,形成整個(gè)新聞事件在發(fā)生與發(fā)展全生命周期中的一個(gè)完整的多層次事件脈絡(luò),是迫切需要解決的問題。Nallapati等[1]提出事件脈絡(luò)的觀點(diǎn),通過事件模型捕捉新聞主題中事件的豐富結(jié)構(gòu)及其依賴性。隨著專題事件的持續(xù)演化發(fā)展,會(huì)持續(xù)不斷出現(xiàn)對事件的報(bào)道。現(xiàn)有的事件脈絡(luò)構(gòu)建研究都是基于已有的歷史新聞構(gòu)建事件脈絡(luò),沒有對新聞數(shù)據(jù)進(jìn)行持續(xù)跟蹤,不能持續(xù)跟進(jìn)事件發(fā)展演化動(dòng)態(tài),構(gòu)建的事件脈絡(luò)也不能持續(xù)自動(dòng)更新,事件脈絡(luò)缺乏時(shí)效性和完整性。
針對上述問題,本文提出了一種面向新聞專題的事件脈絡(luò)持續(xù)跟蹤構(gòu)建方法。首先,對已有專題事件的相關(guān)新聞文本進(jìn)行分詞等預(yù)處理;其次,采用K-means聚類和基于凝聚式的層次聚類方法檢測事件發(fā)展階段,構(gòu)建以時(shí)間為主線,各發(fā)展階段為分支的事件發(fā)展演化脈絡(luò),保障事件脈絡(luò)的完整性和連續(xù)性;然后,綜合實(shí)體、關(guān)鍵詞和文本3個(gè)維度的相似度特征,從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關(guān)的新聞數(shù)據(jù),將追蹤到的新聞事件同時(shí)更新到事件相似庫和已構(gòu)建的事件脈絡(luò)中,實(shí)現(xiàn)對事件脈絡(luò)的持續(xù)跟蹤構(gòu)建。
針對新聞信息嚴(yán)重過載,使得人們難以掌握事件發(fā)展演化關(guān)鍵階段的問題,國內(nèi)很多學(xué)者開始研究事件脈絡(luò)構(gòu)建方法,以便于全局把控事件的發(fā)展演化過程。模型按照所用到的算法,可分為2類:基于聚類算法的脈絡(luò)分析模型和基于圖優(yōu)化算法的脈絡(luò)分析模型。
Shou等[2]基于聚類算法對推文進(jìn)行聚類,通過TCV-Rank摘要技術(shù)生成任意時(shí)間段的在線摘要和歷史摘要,并自動(dòng)生成在線和歷史摘要時(shí)間軸。Vossen等[3]提出了一種將文本相似度、時(shí)間相似度和實(shí)體相似度相結(jié)合的檢索事件相關(guān)新聞的相似度計(jì)算方法,通過在事件的時(shí)間軸上添加與高潮點(diǎn)相關(guān)的橋接關(guān)系形成事件脈絡(luò),提供了一個(gè)將事件時(shí)間序列表示為故事線的形式化模型,并實(shí)現(xiàn)了從大量新聞流中為該模型提取數(shù)據(jù)。Bin等[4]提出了一種基于多線索的細(xì)粒度事件摘要方法,構(gòu)建一個(gè)個(gè)細(xì)粒度的、進(jìn)化的、關(guān)聯(lián)豐富的事件脈絡(luò)。Liu等[5]采用2層文檔聚類方法生成故事樹,自動(dòng)將數(shù)據(jù)流聚集成事件,同時(shí)將樹中相關(guān)的事件連接起來,描述事件的發(fā)展脈絡(luò)。Lin等[6]通過圖優(yōu)化算法從微博數(shù)據(jù)中提取事件脈絡(luò),有效改善脈絡(luò)不連貫問題。Shen等[7]利用圖優(yōu)化算法對網(wǎng)絡(luò)新聞多文檔摘要建模,建立各摘要之間的聯(lián)系。付佳兵等[8]提出了一種基于詞覆蓋的新聞事件脈絡(luò)鏈構(gòu)建方法,利用新聞的評論信息來定位新聞事件的轉(zhuǎn)折點(diǎn),用主題相似與稀疏差異的思想以及RPCA方法對文檔進(jìn)行邏輯建模,利用隨機(jī)游走以及圖遍歷的方法,量化并生成可解釋且具有很好邏輯連貫性的脈絡(luò)鏈。陳黎明等[9]對相關(guān)新聞進(jìn)行動(dòng)態(tài)追蹤時(shí),根據(jù)新聞關(guān)鍵詞的詞頻-逆類別頻率(TF-ICF)和熱度對事件關(guān)鍵詞進(jìn)行反饋更新,采用有主干和分支的故事樹結(jié)構(gòu)展現(xiàn)事件發(fā)展脈絡(luò),利用新聞熱詞定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),生成故事的主干結(jié)構(gòu)。樊笑冰等[10]提出基于命名實(shí)體敏感的分層新聞故事線生成方法,在無監(jiān)督的情況下充分利用新聞信息構(gòu)造層次化、多視點(diǎn)的事件脈絡(luò)。
上述事件脈絡(luò)構(gòu)建方法都是面向當(dāng)前的歷史新聞,沒有持續(xù)跟蹤最新相關(guān)新聞數(shù)據(jù),不能持續(xù)跟進(jìn)事件發(fā)展演化動(dòng)態(tài),構(gòu)建的事件脈絡(luò)缺乏完整性。事件追蹤作為傳統(tǒng)TDT的子任務(wù),對新聞媒體信息流進(jìn)行已知話題的持續(xù)跟蹤,被廣泛用于獲取事件相關(guān)的信息。馮軍等軍[11]提出了基于樸素貝葉斯網(wǎng)絡(luò)模型的微博話題追蹤算法,在改進(jìn)型DF的文本特征選擇方法的基礎(chǔ)上,通過構(gòu)建樸素貝葉斯網(wǎng)絡(luò)模型,設(shè)計(jì)并實(shí)現(xiàn)對微博話題的追蹤系統(tǒng)。陳黎明等[12]提出了一種基于關(guān)鍵詞的話題追蹤方法,利用有話題傾向性的關(guān)鍵詞來表示新聞文本進(jìn)而提升話題追蹤效果,并采用基于詞活力的更新策略來動(dòng)態(tài)調(diào)整話題關(guān)鍵詞。屈慶濤[13]使用N-Gram語言模型,利用新聞報(bào)道中詞語間的語序關(guān)系進(jìn)行文本表示,根據(jù)貝葉斯分類算法進(jìn)行話題追蹤。
相比于以往的事件脈絡(luò)構(gòu)建方法,本文綜合實(shí)體、關(guān)鍵詞和文本3個(gè)維度的相似度特征對新聞事件持續(xù)跟蹤,并將追蹤到的新聞事件同時(shí)更新到事件相似庫和事件脈絡(luò)中,實(shí)現(xiàn)對事件脈絡(luò)的持續(xù)跟蹤構(gòu)建,更能體現(xiàn)事件演化發(fā)展的完整性。
2.1術(shù)語定義
陳黎明等[9]對事件脈絡(luò)相關(guān)的術(shù)語做了定義,具體如下所示。


4.2事件脈絡(luò)跟蹤更新
構(gòu)建事件脈絡(luò)后,從新增新聞數(shù)據(jù)流中跟蹤與該專題事件相關(guān)的新聞數(shù)據(jù),并將追蹤到的新聞數(shù)據(jù)更新到已構(gòu)建的事件脈絡(luò)中。從新聞網(wǎng)站上爬取的32篇新聞數(shù)據(jù)作為干擾新聞數(shù)據(jù),將這些干擾數(shù)據(jù)與新聞專題的17篇新增新聞數(shù)據(jù)合并在一起作為新增新聞數(shù)據(jù)流,進(jìn)行事件脈絡(luò)跟蹤更新實(shí)驗(yàn)。
圖4展示了從新增新聞數(shù)據(jù)流中追蹤到相關(guān)新聞數(shù)據(jù)后,對事件脈絡(luò)的更新結(jié)果。實(shí)驗(yàn)結(jié)果顯示,這17篇新聞數(shù)據(jù)均被追蹤到“馬來西亞亞航客機(jī)失聯(lián)”新聞專題中,在新事件脈絡(luò)中增加了2個(gè)新的子事件“印尼調(diào)查員駁斥亞航客機(jī)墜海前爆炸之說”和“亞航客機(jī)事故調(diào)查將涉及傳感器失靈問題”,并將追到的新聞數(shù)據(jù)更新到已有的子事件中,實(shí)現(xiàn)了對事件脈絡(luò)的持續(xù)跟蹤構(gòu)建。

針對新聞專題事件脈絡(luò)的完整性和時(shí)效性問題,提出了一種事件脈絡(luò)持續(xù)跟蹤構(gòu)建方法,通過聚類算法將零散的新聞聚合成事件分支和子事件,實(shí)現(xiàn)多層次的事件脈絡(luò)構(gòu)建。通過綜合實(shí)體、關(guān)鍵詞和文本3個(gè)維度的相似度特征從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關(guān)的新聞數(shù)據(jù),將追蹤到的新聞事件同時(shí)更新到事件文本向量和已構(gòu)建的事件脈絡(luò)中,實(shí)現(xiàn)對事件脈絡(luò)的持續(xù)跟蹤更新,從而可以輔助讀者實(shí)時(shí)掌握新聞專題的演化、發(fā)展、變化的全周期過程。
當(dāng)前,事件脈絡(luò)構(gòu)建方法的聚類效果并不理想,該方法將不同的子事件或事件分支劃分為一個(gè)子事件或事件分支,導(dǎo)致事件階段缺失。后續(xù)需要針對該問題對事件脈絡(luò)構(gòu)建方法進(jìn)行進(jìn)一步研究,以構(gòu)建出一個(gè)兼顧低冗余事件階段和完整事件階段的事件脈絡(luò)。
[1] NALLAPATI R,F(xiàn)ENG A, PENG F C,et al.Event Threading Within News Topics[C]//Proceedings of the Thirteenth ACM on International Conference on Information and Knowledge Management, Washington D.C.: ACM, 2004: 446-453.
[2] SHOU L D,WANG Z H,CHEN K,et al. Sumblr: Continuous Summarization of Evolving Tweet Streams[C]//International ACM SIGIR Conference on Research & Development in Information Retrieval.NewYork:ACM, 2013:546-558.
[3] VOSSEN P,CASELLI T,KONTZOPOULOU Y. Storylines for Structuring Massive Streams of News[C]//First Workshop on Computing News Storylines.Beijing:ACL,2015:40-49.
[4] BIN G,OUYANG Y,ZHANG C,et al. CrowdStory: Fine-grained Event Storyline Generation by Fusion of Multi-modal Crowdsourced Data[C]//Proceedings of ACM Interactive,Mobile,Wearable and Ubiquitous Technologies. Las Vegas:ACM,2017:287-299.
[5] LIU B,NIU D, LAI K F,et al.Growing Story Forest Online from Massive Breaking News[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.New York:ACM,2017:267-279.
[6] LIN C, LIN C, LI J X, et al. Generating Event Storylines from Microblogs[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management.NewYork:ACM, 2012:389-402.
[7] SHEN C,LIT.Multi-document Summarization via the Minimum Dominating Set[C]//The 23rd International Conference on Computational Linguistics.Beijing:Association for Computational Linguistics,2010:467-479.
[8]付佳兵,董守斌.一種基于詞覆蓋的新聞事件脈絡(luò)鏈構(gòu)建方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):104-112.
[9]陳黎明,黃瑞章,秦永彬,等.面向新聞事件的故事樹構(gòu)建方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(7):1910-1919.
[10]樊笑冰,饒?jiān)醮T,等.基于命名實(shí)體敏感的分層新聞故事線生成方法[J].中文信息學(xué)報(bào),2021,35(1):113-124.
[11]馮軍軍,賀曉春,王海沛.基于樸素貝葉斯網(wǎng)絡(luò)的微博話題追蹤技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2017,45(11): 2244-2247.
[12]陳黎明.面向網(wǎng)絡(luò)輿情的話題檢測與追蹤方法研究[D].貴陽:貴州大學(xué),2020.
[13]屈慶濤,劉其成,牟春曉.基于N-Gram語言模型的并行自適應(yīng)新聞話題追蹤算法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版), 2018,48(6):37-43.
[14]石劍飛,閆懷志,牛占云.基于凝聚的層次聚類算法的改進(jìn)[J].北京理工大學(xué)學(xué)報(bào),2008(1):66-69.
[15]黃瑞章,劉于雷,梁山雪.一種基于標(biāo)題高頻切分的新聞熱點(diǎn)短語提取方法:CN107562843A[P].2018-01-09[2022-07-10].