999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件的新聞報(bào)道分析技術(shù)研究進(jìn)展

2007-01-01 00:00:00吳玲達(dá)劉宇弛

摘要:首先給出基于事件的新聞報(bào)道分析技術(shù)相關(guān)概念的定義,并提出一個(gè)基于事件的新聞報(bào)道分析技術(shù)框架;然后從四個(gè)方面介紹了基于事件的新聞報(bào)道分析中的關(guān)鍵技術(shù),包括事件探測、事件追蹤、事件相關(guān)文檔摘要和事件RSU檢索。對一些關(guān)鍵技術(shù)進(jìn)行了分類和評價(jià),剖析其優(yōu)勢及不足,通過對各種方法的分析和比較,提出了一些改進(jìn)的方法和建議。最后展望了未來基于事件的新聞報(bào)道分析技術(shù)的發(fā)展方向。

關(guān)鍵詞:事件探測;事件追蹤;事件相關(guān)文檔摘要;事件相關(guān)故事單元檢索 

中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2007)05-0013-04

0引言

當(dāng)今,信息產(chǎn)業(yè)已成為全球關(guān)注的焦點(diǎn),世界各國正從深度和廣度兩個(gè)方面推動(dòng)國民經(jīng)濟(jì)信息化的進(jìn)程,并采取了相應(yīng)的對策。隨著信息傳播技術(shù)的迅猛發(fā)展,尤其是廣播、電視等媒體信息流在互聯(lián)網(wǎng)上的全面“開花”,使人類社會面臨著日益嚴(yán)重的信息挑戰(zhàn)。人們不但重視信息的有效性,而且更加關(guān)注信息獲取的便捷性。如何對海量的新聞報(bào)道信息進(jìn)行有效的組織和管理顯得至關(guān)重要。

新聞報(bào)道作為有代表性的多源媒體,廣泛地受到人們的關(guān)注,并且由于其具有如下特征而使其可利用價(jià)值遠(yuǎn)遠(yuǎn)超出了瀏覽與檢索的范疇:①新聞報(bào)道作為一種公開的信息源,容易獲取;②新聞報(bào)道具有報(bào)道及時(shí)、反映迅速的特點(diǎn);③新聞報(bào)道尤其是專題性新聞報(bào)道具有目的明確、信息豐富的特點(diǎn);④新聞報(bào)道代表了不同國家、不同政治團(tuán)體的政治立場和媒體呼聲,能夠反映其政治、外交和軍事等不同領(lǐng)域的政策和態(tài)度。

基于事件的新聞報(bào)道分析技術(shù)是近年來備受關(guān)注的前沿學(xué)科,同時(shí)也是信息資源管理領(lǐng)域一個(gè)新興的研究方向。研究基于事件的新聞報(bào)道分析技術(shù),將在一定程度上改善耗時(shí)并且代價(jià)昂貴的人工組織和管理新聞報(bào)道事件的過程,同時(shí)將體現(xiàn)新聞事件來龍去脈的分析結(jié)果呈現(xiàn)給用戶,提高情報(bào)收集整理工作的效率,也能夠大大簡化新聞報(bào)道信息的管理工作。最重要的是它能夠幫助人們從大量新聞報(bào)道數(shù)據(jù)中獲取有價(jià)值的情報(bào),具有切實(shí)的軍事意義。它不僅可以將情報(bào)分析人員從繁重耗時(shí)的人工勞動(dòng)中解脫出來,而且可以提高新聞報(bào)道分析和情報(bào)分析的智能化程度,推動(dòng)信息組織技術(shù)的進(jìn)一步發(fā)展。

1相關(guān)概念

事件探測與追蹤領(lǐng)域的幾個(gè)基本概念的定義:

定義1話題。它是TDT研究中一個(gè)最基本的概念,研究者對于話題與事件定義有多種方式。文獻(xiàn)[1]將話題定義為“由某些原因、條件引起的,發(fā)生在特定時(shí)間和地點(diǎn),并可能伴隨某些必然結(jié)果的一個(gè)事件”,即認(rèn)為話題與事件的含義相同。而目前的TDT評測機(jī)構(gòu)定義的話題概念則要相對寬泛一些,它將話題定義為“包括一個(gè)核心事件或活動(dòng)以及所有與之直接相關(guān)的事件和活動(dòng)”。如果一篇報(bào)道討論了與某個(gè)話題的核心事件直接相關(guān)的事件或活動(dòng),那么就認(rèn)為該報(bào)道與此話題相關(guān)。比如,搜尋印度洋海嘯過后的幸存者、安葬死難者都被看作與印度洋海嘯事件直接相關(guān)。

定義2事件。Yang[2]將事件定義為“發(fā)生在某特定時(shí)間和地點(diǎn)的某事”。他認(rèn)為事件可以看成是話題的某一實(shí)例并伴隨著特定的行為,如“USA427空難”是一個(gè)事件,但不是話題,“空難”則是某個(gè)話題而不是事件。文獻(xiàn)[3]將事件定義為“事件是一個(gè)動(dòng)態(tài)話題,該動(dòng)態(tài)話題往往會發(fā)生遷移進(jìn)化并可分裂為幾個(gè)不同的子事件”。

由以上定義不難發(fā)現(xiàn),雖然研究者對于話題和事件的定義名目繁多,但實(shí)際上大同小異。例如TDT評測機(jī)構(gòu)定義的話題概念與文獻(xiàn)[3]定義的事件本質(zhì)上是相同的。TDT評測機(jī)構(gòu)是將“話題”理解為“動(dòng)態(tài)變化的事件”,文獻(xiàn)[3]則是將“事件”理解為“動(dòng)態(tài)變化的話題”。基于以上研究者對事件和話題的多種定義方式,并考慮到由于TDT研究中所涉及的“話題”的含義與中文語言學(xué)上使用的概念不同有可能導(dǎo)致理解上的歧義等諸多因素,本文采用Yang和文獻(xiàn)[3]對事件的定義,即認(rèn)為“事件是一個(gè)動(dòng)態(tài)話題,該動(dòng)態(tài)話題往往會發(fā)生遷移進(jìn)化并可分裂為幾個(gè)不同的子事件,并將事件看成是話題的某一實(shí)例”。相應(yīng)地,在TDT研究中使用術(shù)語“事件探測”和“事件追蹤”。定義 3事件探測。它旨在發(fā)現(xiàn)新的事件并將談?wù)撃骋皇录乃行侣剤?bào)道歸入相應(yīng)的事件簇,所以事件探測本質(zhì)上是一種特殊的文本聚類技術(shù)。它又可分為回溯探測與在線探測。回溯探測是在一個(gè)按時(shí)間次序累積的新聞報(bào)道流中發(fā)現(xiàn)以前未經(jīng)確認(rèn)的事件并在整個(gè)數(shù)據(jù)集合上進(jìn)行聚類;它允許系統(tǒng)在開始事件探測任務(wù)之前先預(yù)覽要處理的整個(gè)新聞報(bào)道集,因而可以獲得一定的關(guān)于待處理文本信息流的先驗(yàn)知識。在線探測的目的是實(shí)時(shí)地從新聞媒體流中發(fā)現(xiàn)新事件并以增量方式對輸入的新聞報(bào)道進(jìn)行聚類,在作出最終的決策前只能向前面看有限的新聞報(bào)道。

定義4事件追蹤。它是通過監(jiān)控新聞媒體流以發(fā)現(xiàn)與某一已知事件相關(guān)的后續(xù)新聞報(bào)道。通常要事先給出一個(gè)或幾個(gè)已知的、關(guān)于該事件的新聞報(bào)道。這項(xiàng)研究與信息檢索領(lǐng)域中基于示例的檢索有許多共同之處。在事件追蹤中已知的訓(xùn)練正例非常少,并且與某個(gè)事件相關(guān)的報(bào)道常常集中出現(xiàn)在某一特定的時(shí)間區(qū)間。

定義5事件相關(guān)文檔摘要。它是指通過某種手段,提煉出某篇新聞報(bào)道的濃縮版,以輔助新聞報(bào)道事件的探測和追蹤,或在事件探測的基礎(chǔ)上生成某事件簇內(nèi)的同一類事件報(bào)道集的摘要。

定義6事件RSU檢索。它在某種程度上可以看成是一種概念化的檢索方式,這種檢索方式更有現(xiàn)實(shí)意義。通過學(xué)習(xí)自動(dòng)建立新聞事件類的模型,它是在一定程度上解決基于內(nèi)容的視頻檢索中低級特征與高級概念之間的語義鴻溝的一種有效途徑。本質(zhì)上它是根據(jù)所獲得的文本信息進(jìn)行事件相關(guān)故事單元的檢索。

2基于事件的新聞報(bào)道分析技術(shù)框架

基于事件的新聞報(bào)道分析技術(shù)框架側(cè)重于對高層分析層所涉及的關(guān)鍵技術(shù)和內(nèi)容的進(jìn)一步細(xì)化,如圖1所示。

從圖1中可看出,基于事件的新聞報(bào)道分析是一個(gè)多層次、多源的過程。盡管所處理的源數(shù)據(jù)包含視頻、音頻和文本等多種媒體類型,但是經(jīng)過故事單元切分、預(yù)處理、字幕探測與識別等低層處理后,新聞事件探測、追蹤、事件相關(guān)故事單元的檢索和摘要等高層分析任務(wù)均是以文本為核心處理對象。

新聞報(bào)道事件追蹤是在事件探測基礎(chǔ)上進(jìn)行的。換言之,系統(tǒng)首先通過事件探測過程識別出每類新聞事件的新事件種子并對事件進(jìn)行動(dòng)態(tài)聚類形成若干個(gè)事件簇;而事件追蹤過程則根據(jù)已經(jīng)存在的事件種子對新聞報(bào)道信息流進(jìn)行監(jiān)控,發(fā)掘出與已知事件相關(guān)的后續(xù)新聞報(bào)道。無獨(dú)有偶,事件簇多文件摘要也是在事件探測的基礎(chǔ)上進(jìn)行的,它通過對每類事件進(jìn)行斷句和斷詞,對語句進(jìn)行群聚,最后產(chǎn)生事件簇多文件摘要。多種新聞媒體數(shù)據(jù)經(jīng)過預(yù)處理等步驟提取出文本之后,通過結(jié)構(gòu)劃分、特征詞提取和關(guān)鍵語句選取(即代表詞句的選取),得到粗略摘要,后經(jīng)平滑修正即可得到事件單文檔摘要。事件單文檔摘要雖然不依賴事件探測結(jié)果,但其結(jié)果可以輔助事件探測與追蹤過程。因?yàn)檎旧砜梢砸暈橐粋€(gè)精簡的過程,使用精簡后的新聞報(bào)道進(jìn)行事件探測和追蹤可以將對新聞主題意義貢獻(xiàn)不大的句子刪除,只保留攜帶重要信息的句子,這在一定程度上提高了事件探測和追蹤的性能。事件RSU檢索的核心思想是通過評價(jià)事件模板和從每段新聞故事單元中獲取的文本向量之間的相似性度量來對檢索到的事件RSU進(jìn)行降序排列。與事件模板的相似度越大的故事單元其排列位置越靠前。該過程的關(guān)鍵是獲取合適的事件模板,事件模板生成質(zhì)量的優(yōu)劣直接影響著檢索結(jié)果的滿意度。由圖1可以看出,事件模板是在事件探測后形成事件簇的基礎(chǔ)上,運(yùn)用一定的特征提取策略獲得的。

3事件探測

這項(xiàng)研究等同于無監(jiān)督的聚類研究。通常的聚類可看成是基于全局信息的聚類,即在整個(gè)數(shù)據(jù)集合上進(jìn)行聚類,但事件探測中用到的聚類是以增量方式進(jìn)行的。 圖2給出了事件探測任務(wù)的一個(gè)直觀圖示。

CMU的研究者在事件探測時(shí)主要采用了一種帶有時(shí)間窗口的單遍聚類方法[6]。此外,他們還嘗試了兩種不同的特征權(quán)重計(jì)算方法,即TF-IDF和基于語言模型的方法,并試圖將采用這兩種權(quán)重計(jì)算方法的系統(tǒng)組合起來。報(bào)道向量與事件類向量之間相似度的計(jì)算主要采用向量夾角余弦值,但要根據(jù)時(shí)間因素利用一個(gè)時(shí)間窗口作調(diào)整。

馬薩諸塞大學(xué)的事件探測系統(tǒng)也是基于單遍聚類算法[6]的。在最初的實(shí)現(xiàn)中,集成了已有的一些研究成果;目前的系統(tǒng)同樣用向量模型表示新聞報(bào)道,即把每篇報(bào)道表示成特征空間中的一個(gè)向量,每一維對應(yīng)于某個(gè)特征在報(bào)道中出現(xiàn)的頻次。它們在確定與當(dāng)前報(bào)道最相近的事件簇時(shí),除了原有的質(zhì)心比較策略外,還增加了最近鄰居比較策略。

IBM公司的事件探測系統(tǒng)采用了兩層聚類的策略[6],即兩遍聚類:第一遍將所有報(bào)道分成不同的微類,第二遍以這些微類為處理對象形成較大的類,將兩遍處理結(jié)果作為最終結(jié)果輸出。每一遍聚類的基本算法都是一致的,采用單遍聚類算法,差別只在于處理的對象不同和選取的閾值不同。 該系統(tǒng)一個(gè)最突出的特點(diǎn)是使用一種對稱的Okapi公式計(jì)算兩篇報(bào)道之間的相似度。

臺灣大學(xué)[4]的研究者主要是對漢語普通話文本的處理。他們使用的基本算法也是單遍聚類算法。首先將GB編碼數(shù)據(jù)轉(zhuǎn)換成BIG5編碼的,然后利用他們在MUC-71中使用的漢語命名實(shí)體抽取系統(tǒng)識別出新聞報(bào)道中的人名、機(jī)構(gòu)名、地名等命名實(shí)體。他們?yōu)槭录綔y系統(tǒng)指定了一高一低兩個(gè)閾值,即THh(huán)和THl。當(dāng)報(bào)道與事件之間的相似度高于THh(huán)時(shí),就認(rèn)為報(bào)道與事件相關(guān);當(dāng)它們的相似度低于THl時(shí),就認(rèn)為它們不相關(guān);如果相似度的值介于THh(huán)和THl之間,則不能馬上給出一個(gè)判斷,需要利用允許的延遲時(shí)間作進(jìn)一步判斷。

本文針對事件探測的特點(diǎn)提出了初始化類中心的增量k均值事件探測法[5]。該算法使用密度函數(shù)法進(jìn)行聚類中心的初始化以便客觀地選擇初始聚類中心,既可以用于在線探測也可以用于回溯探測,并且執(zhí)行結(jié)果受新聞?wù)Z料被處理順序的影響較小。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法是有效的。

4事件追蹤

如前所述,事件追蹤就是要識別出關(guān)于某個(gè)已知事件的新報(bào)道。通常要事先給出一個(gè)或幾個(gè)已知的、關(guān)于該事件的新聞報(bào)道。圖3給出了事件追蹤任務(wù)的一個(gè)直觀圖示。 

卡內(nèi)基-梅隆大學(xué)(CMU)的研究者嘗試了使用多種不同的方法來追蹤事件[6],包括K近鄰算法、Rocchio算法以及語言模型方法。其中K近鄰算法是一種基于實(shí)例或稱基于記憶的學(xué)習(xí)算法。它的基本思想非常直接。簡單地說,為了對某個(gè)文檔歸類,只要找到訓(xùn)練集合中與此文檔最相似的文檔(稱之為最近鄰居),將這個(gè)最相似文檔的類別賦予該文檔即可。Rocchio算法[6]是基于Rocchio在1971年為向量空間檢索模型提出的一種相關(guān)反饋算法。首先為每個(gè)類別訓(xùn)練得到一個(gè)原型向量或稱核向量,作為該類別文檔的代表(類向量)。在分類時(shí),分別計(jì)算每個(gè)待分類文檔的文檔向量與各個(gè)類向量之間的相似度(夾角余弦值),將其歸入具有最大相似度的類別中。此外,他們還將這些方法組合成BORG算法,取得了優(yōu)于任何一種單獨(dú)方法的性能。 

馬薩諸塞大學(xué)的事件追蹤系統(tǒng)基于簡單的Rocchio算法[7](0=γ)。事件向量是訓(xùn)練正例樣本的某種質(zhì)心,如訓(xùn)練樣本的算術(shù)平均,相似度評價(jià)函數(shù)也是使用向量的夾角余弦。系統(tǒng)的判斷決策值是事件向量與待測報(bào)道之間的相似度經(jīng)規(guī)范化后得到的值。

BBN公司的研究者[6]在他們開發(fā)的事件追蹤與識別系統(tǒng)中使用了概率模型,主要基于簡單貝葉斯算法。在簡單貝葉斯文本分類中可以使用兩種不同的事件模型,即多項(xiàng)式模型和多值伯努利模型。在伯努利模型中,不使用特征在文檔中出現(xiàn)的頻次信息,而只關(guān)心某個(gè)特征是否在文檔中出現(xiàn)了。與之相應(yīng),在多項(xiàng)式模型中,則需要考慮特征在文檔中出現(xiàn)的頻次信息。此外,BBN公司的事件追蹤系統(tǒng)還使用了兩個(gè)閾值,一個(gè)用于判斷某報(bào)道是否與事件相關(guān),另一個(gè)用于自適應(yīng)調(diào)整,即只有在結(jié)果超過這一閾值時(shí)才作適應(yīng)性調(diào)整。

本文提出一種基于NEP-SVM的事件追蹤算法[8]。該算法首先借鑒主題提取的思想對傳統(tǒng)文檔表示方式進(jìn)行了改進(jìn),即通過簡單的串匹配技術(shù)給能夠更好地反映新聞主題的特征項(xiàng)分配更大的權(quán)值;然后修剪反例樣本,根據(jù)距離和類標(biāo)決定某個(gè)反例樣本的取舍;使用SVM對修剪后的樣本集進(jìn)行訓(xùn)練;最后通過參數(shù)訓(xùn)練將SVM的輸出結(jié)果映射成概率,從而確定某報(bào)道與事件相關(guān)與否,同時(shí)給出某報(bào)道與事件相關(guān)的置信度。

5事件相關(guān)文檔摘要

新聞報(bào)道事件相關(guān)文檔摘要隸屬于文本摘要的范疇,但是與普通意義的文本摘要又有所不同。普通文本摘要處理的對象非常廣泛,在本文中僅以新聞事件報(bào)道為處理對象,研究中既借鑒了普通的文摘生成方法,同時(shí)也兼顧了新聞報(bào)道事件本身所具有的特點(diǎn)。

很多情況下,眾多的新聞媒體會在不同時(shí)間對同一事件作不同的報(bào)道,這樣會導(dǎo)致信息的重復(fù)性,不便于用戶瀏覽和查詢,如果將這些信息盲目地拼湊在一起,就會產(chǎn)生大量的冗余信息。為了避免用戶查看這些大量煩瑣文摘的并達(dá)到過濾重復(fù)信息的目的,可以通過處理將同一事件主題下的多篇文本有機(jī)地結(jié)合在一起,集中生成一篇摘要,以便將簡潔全面的信息展示給用戶,這就是事件相關(guān)多文檔摘要研究的內(nèi)容。著名的國際文本理解會議中的一項(xiàng)任務(wù)就是針對事件的短文摘生成。具體而言,給系統(tǒng)30個(gè)TDT(Topic Detection and Tracking)文檔集和30個(gè)與文檔集一一對應(yīng)的事件主題,要求系統(tǒng)為每個(gè)文檔集生成100個(gè)單詞左右的綜述。這個(gè)綜述必須與對應(yīng)事件主題相關(guān),這就將事件探測與事件相關(guān)文檔摘要有機(jī)地結(jié)合在了一起。很多時(shí)候,根據(jù)系統(tǒng)需求,可以先進(jìn)行事件探測,特別是回溯探測,將具有同一事件主題的新聞報(bào)道匯集成簇,然后在此基礎(chǔ)上對每個(gè)事件簇生成其對應(yīng)的多文檔摘要。

隨著網(wǎng)絡(luò)資源的爆炸式增長,事件相關(guān)文檔摘要在研究領(lǐng)域和商用領(lǐng)域均展現(xiàn)了很好的發(fā)展前景。尤其是基于統(tǒng)計(jì)的方法,由于其健壯性和實(shí)用性而得到了廣泛的應(yīng)用。另外,隨著自然語言處理技術(shù)的發(fā)展,應(yīng)用于文本自動(dòng)摘要的方法也會越來越多。

6事件RSU檢索

新聞報(bào)道事件RSU(相關(guān)故事單元)的檢索是針對新聞視頻的特點(diǎn)提出的一種結(jié)構(gòu)化分析和檢索新聞視頻的思想。更準(zhǔn)確地說是解決該領(lǐng)域問題的一個(gè)切入點(diǎn),其本質(zhì)上仍屬于視頻檢索。視頻檢索一般分為鏡頭檢索[9]和片段檢索[10]。鏡頭一般是由攝像機(jī)一次攝像的開始和結(jié)束的所有幀構(gòu)成,表示一個(gè)物理概念,而片段是由一連串語義相關(guān)的連續(xù)鏡頭構(gòu)成,表示的是一個(gè)語義概念。

目前視頻檢索的多數(shù)研究集中在鏡頭檢索上,而片段檢索方面的研究則剛剛開始。本文以含有比鏡頭更多語義信息的事件RSU為檢索單位,通過提取事件相關(guān)媒體中的文本信息并利用機(jī)器學(xué)習(xí)方法自動(dòng)建立事件類的模型,從而提供概念化的RSU查詢方式。本文還提出了組合特征選擇方法和一種二階段修剪KNN,即TSP-KNN。組合特征選擇方法相對于MI方法更適合事件相關(guān)故事單元的檢索。二階段修剪KNN先對訓(xùn)練集進(jìn)行修剪,然后再用KNN訓(xùn)練得到分類器。該方法解決了樣本混疊以及多中心分布問題。

7結(jié)束語

基于事件的新聞報(bào)道分析是自然語言處理領(lǐng)域的研究熱點(diǎn),尤其是新聞報(bào)道事件探測與追蹤的研究更是方興未艾。該課題涉及多個(gè)學(xué)科和技術(shù)領(lǐng)域,需要研究的問題還很多。概括起來,在本文的基礎(chǔ)上有待進(jìn)一步研究的問題包括:

(1)詞頻空間向概念空間的轉(zhuǎn)換

概念空間克服了詞頻空間中各個(gè)詞之間具有關(guān)聯(lián)的缺點(diǎn)。在概念空間中,每個(gè)概念描述了文本集合中其他概念無法完全描述的特點(diǎn)。從詞頻空間到概念空間轉(zhuǎn)換的過程中,可以忽略那些不重要的概念,而留下那些重要的、信息量多的概念。在這個(gè)過程中,不僅使概念的維數(shù)降低了,而且濾掉了部分噪聲。由于特征值反映了對應(yīng)向量的重要性,那么就可以通過篩選特征值的方法來濾掉不重要的概念。目前在基于事件的新聞報(bào)道分析研究過程中大多使用的是詞頻空間,在詞頻空間中,主特征向量是最具有表達(dá)能力的一個(gè)方向,它涵蓋這個(gè)詞頻空間的信息量最多。如果能夠用特征向量這樣的正交空間來代替文本的詞頻空間表示文本,就能夠?qū)ξ谋具M(jìn)行更為透徹的分析。所以在下一步的研究中,筆者將嘗試使用概念空間代替詞頻空間。

(2)分析過程中閾值的自動(dòng)選擇

基于事件的新聞報(bào)道分析過程中的閾值設(shè)置通常采用的方法是根據(jù)探測或追蹤時(shí)積累的數(shù)據(jù),設(shè)置閾值使系統(tǒng)采用的某種性能評價(jià)函數(shù)最優(yōu)。這種方法雖然簡單直觀且在訓(xùn)練數(shù)據(jù)足夠充分時(shí)也很有效,但是這種方法不能靈活適應(yīng)不同數(shù)據(jù)集合的要求,因此需要尋找其他自適應(yīng)的閾值確定法。本文認(rèn)為:通過機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練或通過動(dòng)態(tài)調(diào)整系數(shù)的方法以跟蹤用戶的反饋給系統(tǒng)帶來的變化,控制閾值調(diào)整的方向也許是一種可行的設(shè)置自適應(yīng)閾值的方法。總之,尋找一種更魯棒、更高效、更實(shí)用和非經(jīng)驗(yàn)性的閾值計(jì)算方法來改善基于事件的新聞報(bào)道分析系統(tǒng)的性能是很有意義的,這也是下一步工作所要考慮的問題。

(3)新聞報(bào)道文檔的結(jié)構(gòu)分析

新聞報(bào)道文檔的結(jié)構(gòu)分析可以更好地理解文本的主題思想,了解新聞報(bào)道所表達(dá)的內(nèi)容。它可以有效地改進(jìn)基于事件的新聞報(bào)道分析的精度,為準(zhǔn)確快速地探測與追蹤新聞事件提供有價(jià)值的線索和范圍,并有助于改進(jìn)新聞報(bào)道RSU檢索的匹配機(jī)制,改善新聞報(bào)道事件摘要的質(zhì)量。事實(shí)上,新聞報(bào)道段落長度的均勻性或體裁均會對層次分析的效果造成一定的影響,在實(shí)際操作過程中如何減小向量間的依賴性,如何提高向量空間模型應(yīng)用的效率,如何使層次劃分更加有序,這些問題都值得深入探索。

基于事件的新聞報(bào)道分析技術(shù)需要綜合語言處理的多種技術(shù)來完成。目前,基于自然語言理解的語言處理技術(shù)還存在許多困難,涉及到的領(lǐng)域和知識也比較繁雜,因此,研究過程中將有大量的理論和現(xiàn)實(shí)問題需要解決。

參考文獻(xiàn):

[1]ALLAN J, CARBONELL J, DODDINGTON G,et al.Topic detection and tracking pilot study:final report:proceedings of the DARPA Broadcast News Transcription and Understanding Workshop[C].San Francisco: Morgan Kaufmann Publishers, 1998:194-218.

[2]YANG Yiming, CARBONELL J, BROWN R,et al. Learning approaches for detecting and tracking news events[J].IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval,1999,14(4): 32-43. 

[3]JUHA M, HELENA A M,Marko S. Applying semantic classes in event detection and tracking:proceedings of International Conference on Natural Language Processing[C].Mumbai:[s.n.],2002:175-183.

[4]CHEN H,KU Lunwei. Description of a topic detection algorithm on TDT3 mandarin text:proceedings of Topic Detection and Tracking Workshop[C].[S.l.]:[s.n.],2000:165-166.

[5]雷震, 吳玲達(dá),雷蕾,等. 初始化類中心的增量K均值法及其在新聞事件探測中的應(yīng)用[J]. 情報(bào)學(xué)報(bào),2006,25(3):289-295.

[6]ALLAN J. Topic detection and tracking:event-based information organization[M]. Dordrecht: Kluwer Academic Publishers, 2002. 

[7]PAPKA R. On-line new event detection, clustering, and tracking[D]. [S.l.]:Department of Computer Science, University of Massachusetts, 1999.

[8]LEI Zhen, WU Lingda, et.al. A NEP-SVM based simulation system for tracking news event:proceedings of Asia Simulation Conference /the 6th International Conference on System Simulation and Scientific Computing[C].[S.l.]:[s.n.],2005:1522-1526.

[9]NGO C W,PONG Tingchuen, ZHANG Hongjiang.On clustering and retrieval of video shots through temporal slices analysis[J].IEEE Transactions on Multimedia,2002,4(4): 446-459.

[10]彭宇新, NGO C W, 董慶杰,等. 一種通過視頻片段進(jìn)行視頻檢索的方法[J]. 軟件學(xué)報(bào), 2003, 14(8):1409-1417.

注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: 久久视精品| 中文字幕66页| 日韩精品高清自在线| 2021国产乱人伦在线播放| 91探花国产综合在线精品| 日韩精品专区免费无码aⅴ| 国产欧美高清| 一级毛片在线播放免费| 久久青青草原亚洲av无码| 在线观看亚洲精品福利片| 精品久久蜜桃| 亚洲伊人天堂| 欧美在线免费| 久久国产V一级毛多内射| 欧美激情福利| 欧美日韩精品一区二区在线线| 成人av手机在线观看| 欧洲av毛片| 日本免费一区视频| 亚洲资源站av无码网址| 国产免费羞羞视频| 欧美不卡视频一区发布| 国产理论精品| 亚洲精品午夜天堂网页| 国产性生交xxxxx免费| 国产人人射| 午夜a视频| 国产微拍精品| 男人天堂亚洲天堂| av一区二区三区在线观看 | 国产尤物视频网址导航| 无码日韩视频| 亚洲欧美日韩成人在线| 国产亚洲精久久久久久久91| 无码日韩精品91超碰| 亚洲an第二区国产精品| 国产制服丝袜91在线| 97视频精品全国在线观看| 不卡无码网| 欧美人人干| 2021国产精品自拍| 欧美午夜在线观看| 久久综合丝袜长腿丝袜| 国产精品极品美女自在线看免费一区二区 | 欧美亚洲网| 在线一级毛片| 91在线无码精品秘九色APP | 国产手机在线ΑⅤ片无码观看| 亚洲无码高清视频在线观看| 在线看国产精品| 国产福利免费视频| 国产小视频a在线观看| 国产精品yjizz视频网一二区| 4虎影视国产在线观看精品| 波多野结衣一区二区三区AV| 欧美成人怡春院在线激情| 国产精品女熟高潮视频| 久久久久久久97| 日韩免费中文字幕| 精品一区国产精品| 婷婷99视频精品全部在线观看| 亚洲男人的天堂久久香蕉| 99久视频| 久久精品人人做人人| 狠狠做深爱婷婷综合一区| 亚洲性影院| 亚洲最大情网站在线观看 | 黄色网站在线观看无码| 国产精品偷伦视频免费观看国产| 91年精品国产福利线观看久久 | 婷婷亚洲最大| 亚洲第一区精品日韩在线播放| 国产丝袜啪啪| 国产精品人成在线播放| 中文字幕中文字字幕码一二区| 日韩精品一区二区深田咏美| 波多野结衣在线一区二区| 天堂成人av| 毛片视频网址| 美女一区二区在线观看| 四虎永久在线视频| 国产亚洲精|