隨著我國(guó)互聯(lián)網(wǎng)的快速普及以及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國(guó)網(wǎng)民數(shù)量在不斷增多,長(zhǎng)時(shí)間接觸網(wǎng)絡(luò)的用戶也形成了一定的規(guī)模,而借由網(wǎng)絡(luò)平臺(tái)而發(fā)布的信息量也在呈幾何倍數(shù)的增長(zhǎng),任何新聞話題都能夠引起人們的關(guān)注和鋪天蓋地的報(bào)道。然而,這些海量的網(wǎng)絡(luò)信息卻給網(wǎng)絡(luò)用戶以及媒體人帶來(lái)了困擾,對(duì)于網(wǎng)絡(luò)用戶而言海量的信息難以消化,不能夠把握住信息的重點(diǎn)和全面了解信息;而對(duì)于媒體人來(lái)說(shuō),這些信息難以依靠人工進(jìn)行篩選、過(guò)濾,進(jìn)而整合,形成脈絡(luò)清晰、信息全面的報(bào)道。因此,關(guān)于中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)的研究正在不斷深入。
新聞話題動(dòng)態(tài)演化技術(shù)是信息處理領(lǐng)域的一種較為高級(jí)的技術(shù),尤其是作為wеb信息處理技術(shù)的更為高級(jí)的部分,相關(guān)的技術(shù)研究體系較為復(fù)雜,且涉及到了多個(gè)研究領(lǐng)域,是多種學(xué)科綜合交叉的領(lǐng)域。因此,新聞話題動(dòng)態(tài)演化技術(shù)的研究能夠有效的解決當(dāng)前我們遇到的信息量過(guò)大的問(wèn)題,以先進(jìn)的技術(shù)實(shí)現(xiàn)新聞話題的演化、追蹤等等。與此同時(shí),新聞話題動(dòng)態(tài)演化技術(shù)的研究還能夠促進(jìn)相關(guān)領(lǐng)域的技術(shù)進(jìn)步和理論完善,尤其是話題關(guān)聯(lián)檢測(cè)、話題聚類等等領(lǐng)域,有力的推動(dòng)了這些領(lǐng)域的進(jìn)一步研究。由此可知,新聞話題動(dòng)態(tài)演化技術(shù)的研究具有廣泛的意義,不僅推動(dòng)相關(guān)領(lǐng)域發(fā)展和解決現(xiàn)實(shí)問(wèn)題,還能夠有利于網(wǎng)絡(luò)個(gè)人用戶的信息搜索和整合等,對(duì)于推動(dòng)我國(guó)信息經(jīng)濟(jì)的進(jìn)一步發(fā)展具有重要意義。
所謂的新聞話題動(dòng)態(tài)演化,其實(shí)是人們對(duì)于一個(gè)話題由淺入深的認(rèn)識(shí)和了解。當(dāng)人們獲取了一個(gè)話題的相關(guān)信息并對(duì)于這個(gè)話題產(chǎn)生興趣之后,會(huì)誘使人們逐步的深入了解這個(gè)話題,從話題起始開始了解,包括之后的發(fā)展、高潮和結(jié)束等等環(huán)節(jié)。而這種過(guò)程就是一種邏輯變化的過(guò)程,也是新聞話題動(dòng)態(tài)演化的過(guò)程。由于受到現(xiàn)實(shí)技術(shù)條件的限制,當(dāng)前信息處理技術(shù)只能夠?yàn)橛脩籼峁┖?jiǎn)單的信息服務(wù),并不能夠按照上面的話題演化邏輯為用戶提供相關(guān)的信息,因此加強(qiáng)對(duì)于新聞話題動(dòng)態(tài)演化技術(shù)的相關(guān)研究能夠提高信息處理能力,為用戶提供更為人性化的服務(wù)。
新聞話題的抽取是構(gòu)建話題模型的開端,模型構(gòu)建的好壞直接受到新聞話題抽取的影響,正如我們所說(shuō)的良好的開端就是成功的一半,而新聞話題的抽取就是這種開端。但隨著我國(guó)互聯(lián)網(wǎng)平臺(tái)的建設(shè)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,海量的信息開始充斥著網(wǎng)絡(luò),中文網(wǎng)絡(luò)新聞的話題也是層出不窮,過(guò)去僅僅依靠傳統(tǒng)媒體作為新聞話題的引爆者的時(shí)代已經(jīng)被自媒體、流媒體時(shí)代逐步取代,任何人都可以成為新聞的傳播者以及新聞話題的引領(lǐng)者,任何社會(huì)事件都可以通過(guò)現(xiàn)在的網(wǎng)絡(luò)社交媒體這一渠道而引發(fā)蝴蝶效應(yīng),成為引發(fā)社會(huì)大討論的新聞話題。因此,在面對(duì)如此巨量的網(wǎng)絡(luò)信息時(shí),傳統(tǒng)的話題抽取方式已經(jīng)無(wú)法適應(yīng)時(shí)代的要求,需要重新定義新聞話題抽取方法,尤其是在網(wǎng)絡(luò)信息不斷更新,網(wǎng)絡(luò)新聞話題熱度不斷改變的時(shí)代里,就顯得尤其重要。因此,在突破當(dāng)前新聞話題抽取的技術(shù)瓶頸下,如何規(guī)避無(wú)效話題以及解決中文自然語(yǔ)言處理技術(shù)上對(duì)網(wǎng)絡(luò)新詞的不適應(yīng)等成為了關(guān)鍵技術(shù)問(wèn)題。當(dāng)前的解決方法是開發(fā)了一種基于語(yǔ)言學(xué)知識(shí)的信息抽取方法,這種方法通過(guò)引入中文詞性和位置特征能夠修正話題詞語(yǔ)標(biāo)注錯(cuò)誤等問(wèn)題,并依照文本特征以實(shí)現(xiàn)網(wǎng)絡(luò)新詞詞典的動(dòng)態(tài)更新算法等。
新聞話題的演化邏輯遵循著人們心理的變化過(guò)程,從最初接觸新聞話題的好奇開始,進(jìn)而希望能夠通過(guò)現(xiàn)有的信息平臺(tái)進(jìn)一步的了解到現(xiàn)階段該新聞話題發(fā)展的動(dòng)態(tài),以及最終結(jié)果,就像打開了魔盒一般,會(huì)吸引著你繼續(xù)的朝著新聞話題的發(fā)展而不斷跟進(jìn)。因此,新聞話題的演化邏輯需要按照一定的時(shí)間順序開展,而這時(shí)間順序成為了研究新聞話題動(dòng)態(tài)演化過(guò)程的重要線索,而要把握當(dāng)前新聞話題的變化通過(guò)時(shí)態(tài)信息便能夠有效的掌控變化過(guò)程,成為了研究新聞話題動(dòng)態(tài)演化的重要基礎(chǔ)。所謂的時(shí)態(tài)表達(dá)規(guī)范化處理,是指將新聞話題中各項(xiàng)涉及到時(shí)間信息的文本,通過(guò)搜尋這些存在著的時(shí)間信息并將其轉(zhuǎn)化為一定的時(shí)態(tài)表達(dá),通過(guò)利用和辨認(rèn)這些時(shí)態(tài)表達(dá)為機(jī)器技術(shù)挖掘時(shí)態(tài)語(yǔ)義提供了可能性,也為更加準(zhǔn)確的獲取需要的新聞信息。但當(dāng)前我國(guó)并沒(méi)有這種時(shí)態(tài)表達(dá)規(guī)范化處理的技術(shù),尤其是面對(duì)復(fù)雜語(yǔ)境時(shí),并不能夠完全分辨出在這些語(yǔ)境下的時(shí)態(tài)表達(dá),從而順利的篩選出其中的重要時(shí)間信息。所以,為了解決這些問(wèn)題,我們需要首先清楚如何利用參考系來(lái)確定時(shí)態(tài)表達(dá),同時(shí)有效的解決時(shí)態(tài)表達(dá)的模糊狀態(tài)等。通過(guò)解決這些問(wèn)題,能夠讓人們更好的理解新聞話題的時(shí)態(tài)信息,通過(guò)這些時(shí)態(tài)信息能夠讓人們更好的了解新聞話題的邏輯,從而讓話題挖掘更有空間和效率。
新聞話題時(shí)間是包含在新聞話題相關(guān)報(bào)道中的重要信息,任何新聞報(bào)道都需要新聞時(shí)間來(lái)確定事件發(fā)生的準(zhǔn)確性,給新聞話題更多的科學(xué)性。在現(xiàn)階段的網(wǎng)絡(luò)平臺(tái)上,新聞話題大多都是由一個(gè)事件以及由此引發(fā)的相關(guān)事件活動(dòng)組成的,這些最初的活動(dòng)與最后的活動(dòng)之間是擁有一個(gè)時(shí)間區(qū)間,也就是這個(gè)時(shí)間自發(fā)生開始到結(jié)束所經(jīng)歷的過(guò)程區(qū)間,由第一個(gè)引發(fā)事件到最后一個(gè)結(jié)束事件組成的這個(gè)時(shí)間區(qū)間就是新聞話題時(shí)間,也是事件由起始走向結(jié)束的時(shí)間區(qū)間。而這種新聞話題時(shí)間對(duì)于新聞話題的閱讀者來(lái)說(shuō)具有重要的意義,尤其是在把握新聞話題動(dòng)態(tài)演化的過(guò)程中具有重要的邏輯線價(jià)值,如果失去了新聞話題時(shí)間這條邏輯線將會(huì)使新聞閱讀者難以完全整理出這個(gè)新聞話題的發(fā)展過(guò)程,而這種新聞話題的時(shí)間有效性將直接影響到新聞話題時(shí)間抽取的準(zhǔn)確性,同時(shí)也將影響到新聞話題抽取的效率。由于新聞話題與時(shí)間信息之間存在著密不可分的關(guān)系,所以在研究新聞話題抽取時(shí)對(duì)于時(shí)間抽取這個(gè)問(wèn)題給予了較多的關(guān)注,也是當(dāng)前較為熱門的研究方向。當(dāng)前雖然也存在著一些依據(jù)話題時(shí)間進(jìn)行話題抽取的方法,但這些方法并沒(méi)有建立在深刻理解話題與時(shí)間理論關(guān)系的基礎(chǔ)上,而僅僅停留在較為淺層的理解之上,在話題層次上無(wú)法較為準(zhǔn)確的把握,而通過(guò)這些方法進(jìn)行的新聞話題抽取的結(jié)果往往不盡如人意,并不能夠適應(yīng)使用者的需求,也使得話題與抽取的結(jié)果之間的相關(guān)聯(lián)程度較低。因此,需要更加深入的研究話題與時(shí)間之間的映射機(jī)制,通過(guò)這種映射機(jī)制的反映,更好的提高話題與抽取結(jié)果的關(guān)聯(lián)性。
新聞本身就是具有動(dòng)態(tài)變化的特點(diǎn),也是自身所擁有的自然屬性,而新聞變化的基本載體就是話題。新聞話題的存在讓新聞的動(dòng)態(tài)變化變得有跡可循,在新聞話題隨著時(shí)間不斷更新變化時(shí)就體現(xiàn)出了新聞話題動(dòng)態(tài)變化的邏輯順序。由于新聞話題的是由人主導(dǎo)的,因此在新聞話題變化的過(guò)程中體現(xiàn)了人類心理變化的特征和過(guò)程,而新聞話題變化的邏輯線也符合人類對(duì)于新聞話題的認(rèn)知規(guī)律。當(dāng)人們開始注意到某個(gè)新聞話題時(shí),天生使然的好奇心使得新聞閱讀者們會(huì)不斷的關(guān)注、挖掘新聞話題,從而了解事件整個(gè)變化的過(guò)程,自事件起始到事件的發(fā)展、曲折、高潮直至結(jié)束。這便是新聞話題的演化過(guò)程,也是新聞讀者的心理變化過(guò)程。根據(jù)這種新聞話題的發(fā)展邏輯,只要我們能夠通過(guò)分辨出新聞話題在各個(gè)演化階段所具有的特征,就能夠掌握相關(guān)的信息去智能化分辨這些新聞話題的演化過(guò)程,并利用時(shí)間作為重要支線,將各個(gè)階段的新聞話題相關(guān)信息串聯(lián)起來(lái),從而形成完整的新聞報(bào)道,這對(duì)于新聞挖掘工作來(lái)說(shuō)提高了很大的效率,節(jié)約了新聞工作者大量的時(shí)間。但當(dāng)前關(guān)于新聞話題演化挖掘的技術(shù)卻并不適用,并沒(méi)有找到較好的特征計(jì)算模型來(lái)更好研究演化過(guò)程,而通過(guò)在新聞話題計(jì)算模型中大量加入噪聲特征的方式,極大的影響了計(jì)算的關(guān)聯(lián)性。因此,在相關(guān)技術(shù)上還需要進(jìn)一步的研究和挖掘。
參考文獻(xiàn):
[1]郭曉利,周自嵐,劉耀偉,獨(dú)健鴻,黃巖.基于DTS-ILDA模型和關(guān)聯(lián)過(guò)濾的新聞話題演化分析[J].應(yīng)用科學(xué)學(xué)報(bào),2017,35(05):634-646.
[2]趙旭劍,付鵬,李波,張暉,楊春明,喻瓊,王耀彬.網(wǎng)絡(luò)新聞話題演化趨勢(shì)檢測(cè)研究 [J].電腦知識(shí)與技術(shù),2015,11(02):52-54+59.
[3]趙旭劍,楊春明,李波,張暉,金培權(quán),岳麗華,戴文鍇.一種基于特征演變的新聞話題演化挖掘方法[J].計(jì)算機(jī)學(xué)報(bào),2014,37(04):819-832.