999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

2016-12-28 09:19:55關(guān)莉莉
山西青年 2016年24期
關(guān)鍵詞:文本方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

新聞媒體是傳遞信息的重要途徑,在突發(fā)事件發(fā)生后,人們往往希望能夠通過新聞及時(shí)了解到突發(fā)事件產(chǎn)生的緣由以及后續(xù)發(fā)展情況。為了能夠?qū)⑼话l(fā)事件新聞文本更好的分類,需要采取有效的主題抽取方法,而基于加權(quán)信息論的抽取方法,便得以產(chǎn)生并開始運(yùn)用于該項(xiàng)工作中。本文就加權(quán)信息論下的突發(fā)事件新聞主題抽取方法進(jìn)行了研究分析。

加權(quán)信息論;突發(fā)事件新聞;主題抽取方法

突發(fā)事件新聞文本中,主題詞出現(xiàn)的位置等都具有一定的特點(diǎn),通過加權(quán)信息論,能夠?qū)崿F(xiàn)對(duì)主題詞的精準(zhǔn)查找,考慮新聞文本主題本身所帶有的相關(guān)統(tǒng)計(jì)信息,從而實(shí)現(xiàn)對(duì)突發(fā)事件新聞的有效分類。因此,相關(guān)工作者在工作中,還應(yīng)積極分析基于加權(quán)信息論的主題抽取方法,并予以合理運(yùn)用,從而進(jìn)一步完善突發(fā)事件新聞分類體系,推動(dòng)新聞事業(yè)的快速發(fā)展。

一、突發(fā)事件新聞統(tǒng)計(jì)分析

突發(fā)事件主要是人們難以預(yù)測(cè)的、隨時(shí)隨地都有可能發(fā)生的、完全隨機(jī)的時(shí)間,而突發(fā)事件新聞,則是對(duì)這一類時(shí)間的新聞報(bào)道。突發(fā)事件的發(fā)生往往與人們的生活有密切關(guān)聯(lián),因而,人們對(duì)突發(fā)事件報(bào)道也十分關(guān)心。相關(guān)學(xué)者也針對(duì)人們?cè)诟鱾€(gè)階段的新聞關(guān)注熱點(diǎn),進(jìn)行了統(tǒng)計(jì)分析。本文選取了“煤礦爆炸”、“非洲埃博拉病毒疫情”以及“恐怖襲擊”三類新聞進(jìn)行闡述分析,從Web上獲取了各500篇語(yǔ)料。

經(jīng)過一系列的統(tǒng)計(jì)分析發(fā)現(xiàn),這幾類突發(fā)事件新聞文本具有兩方面特點(diǎn)。第一,在形式結(jié)構(gòu)上。突發(fā)事件新聞文本主要分為正文及標(biāo)題兩部分,標(biāo)題是對(duì)文本內(nèi)容、事件情況的充分概括,主要由突發(fā)事件的發(fā)生的地點(diǎn)、事件名稱以及帶來的影響組成,正文則是包含多個(gè)句子,闡明了信息的來源、突發(fā)事件的基本信息及其原因、后果等。且正文中的第一句話,往往就會(huì)直接表述本信息的來源,其他內(nèi)容則會(huì)在后續(xù)句子中進(jìn)行表述。第二,在文本長(zhǎng)度上,通過對(duì)這幾類文本的統(tǒng)計(jì)分析,發(fā)現(xiàn)其標(biāo)題字?jǐn)?shù)平均在18-20字之間,相差不大,正文句數(shù)平均在7.43-11.95句,而字?jǐn)?shù)從100字到400字不等(如表1)。

表1 突發(fā)事件各類新聞文本統(tǒng)計(jì)分析數(shù)據(jù)

二、加權(quán)信息論下突發(fā)事件新聞主題抽取

當(dāng)前對(duì)突發(fā)事件新聞主題進(jìn)行抽取,主要是通過對(duì)突發(fā)事件主題詞在文本主題方面的貢獻(xiàn)程度進(jìn)行分析,從而將其中貢獻(xiàn)最大的主題詞找出來。在加權(quán)算法的運(yùn)用中,主要是通過對(duì)主題詞在突發(fā)事件新聞文本中的位置、頻率以及不同文本間的引用關(guān)系等進(jìn)行計(jì)算,一些專家學(xué)者還能夠通過構(gòu)詞能力、特征字串、語(yǔ)言理解角度等進(jìn)行抽取。而據(jù)相關(guān)調(diào)查以及研究表明,基于加權(quán)信息論的突發(fā)事件新聞主體抽取,也能夠獲得良好的效果。詞在文本中的包含的信息量計(jì)算公式為H(wi)=-N(wi)×log p(wi)。其中,wi為突發(fā)事件新聞文本中的一個(gè)詞匯,文本用d表示,H(wi)表示該詞信息量,N(wi)為該詞出現(xiàn)頻率,p(wi)則為該詞概率分布。通過極大似然估計(jì)方法,對(duì)詞的概率分布進(jìn)行計(jì)算,公式為p(wi)=F(wi)×F。其中,F(xiàn)(wi)為訓(xùn)練文本中該詞出現(xiàn)的頻次,F(xiàn)則表示文本集中總詞頻數(shù)[1]。為了能夠結(jié)合主題詞的實(shí)際分布情況,還需基于加權(quán)信息論,將文本形式特征以及詞匯所處位置加入計(jì)算中。設(shè)Y為句權(quán)向量,Xi為詞位向量,且Y=(s1,s2,…,sj),Xi=(pi1,pi2,…,pik),sj為該詞在文本中j句的重要性因子,pik則為該詞在j句中出現(xiàn)的頻次,n為總句數(shù)。兩個(gè)向量的乘積,就是最終詞匯的位置權(quán)重,通過將其與信息論特征抽取方法結(jié)合,便能夠獲得最終結(jié)果。文本首句即標(biāo)題句,在主題中貢獻(xiàn)最大,權(quán)值最大,其次為第三、四,五句,再者為第二句消息來源,最后為其余句子,權(quán)值較小。

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法應(yīng)用中,應(yīng)先進(jìn)行文本預(yù)處理。分詞并獲取詞集合,對(duì)一些語(yǔ)氣詞、介詞等詞匯進(jìn)行剔除,獲得候選詞集c(w1,w2,…,wm)。其次,需要進(jìn)行權(quán)威計(jì)算,對(duì)c中的所有詞匯按照上述方法進(jìn)行位置權(quán)重計(jì)算,并結(jié)合H(wi)值,計(jì)算出wi的總權(quán)重。最后,對(duì)所有詞的權(quán)重計(jì)算結(jié)果進(jìn)行排列,選取權(quán)值最大的幾個(gè)詞,組合成最終的主題。

三、加權(quán)信息論下的突發(fā)事件新聞主題抽取結(jié)果分析

為證明加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的有效性,將這一方法與人工抽取方法一同運(yùn)用,并對(duì)所獲取結(jié)果進(jìn)行比較分析。選用“煤礦爆炸”類突發(fā)事件新聞100篇、“非洲埃博拉病毒疫情”類突發(fā)事件新聞100篇以及“恐怖襲擊”類突發(fā)事件新聞100篇,用于訓(xùn)練語(yǔ)料,同時(shí),每一類別中選出25篇文本作為測(cè)試語(yǔ)料。運(yùn)用兩種方式對(duì)新聞主題進(jìn)行抽取后發(fā)現(xiàn),“煤礦爆炸”文本中,有22篇結(jié)果一致,與人工抽取一致比率在88%,正確率在96%。“非洲埃博拉病毒疫情”文本中,有13篇結(jié)果一致,比率在52%,正確率在36%,其主題偏離率較大的原因主要是文本本身結(jié)構(gòu)性較差、內(nèi)容分散。而在“恐怖襲擊”文本中,有21篇結(jié)果一致,比率在84%,正確率在88%。且據(jù)相關(guān)學(xué)者對(duì)加權(quán)信息論以及信息論下的主題抽取結(jié)果比較發(fā)現(xiàn),加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的準(zhǔn)確度與人工抽取相比,明顯呈現(xiàn)出了提高趨勢(shì),由此,可見這一方法在主題抽取中的重要性及良好的效果。

四、結(jié)論

本文基于突發(fā)事件新聞文本相關(guān)統(tǒng)計(jì)數(shù)據(jù),運(yùn)用加權(quán)信息論方法進(jìn)行主題抽取,并將抽取結(jié)果與人工抽取相比較,得出了這一方法具有良好性能的結(jié)果。相關(guān)工作人員也應(yīng)加強(qiáng)對(duì)這一方法的研究,并將其靈活運(yùn)用在其他文本中,以促進(jìn)當(dāng)前新聞?lì)I(lǐng)域相關(guān)技術(shù)方法的進(jìn)一步發(fā)展。

[1]韓永峰,許旭陽(yáng),李弼程,朱武斌,陳剛.基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要[J].中文信息學(xué)報(bào),2012,1(1):58-66.

[2]夏華林,張仰森.基于規(guī)則與統(tǒng)計(jì)的Web突發(fā)事件新聞多層次分類[J].計(jì)算機(jī)應(yīng)用,2012,2(2):392-394.

[3]曹學(xué)艷,張仙,劉樑,方寬,段飛飛,李仕明.基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J].中國(guó)管理科學(xué),2014,3(3):82-89.

TP

A

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學(xué)習(xí)方法
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日本中文字幕久久网站| 一本二本三本不卡无码| 亚洲色图在线观看| 亚洲国产亚洲综合在线尤物| 蜜桃视频一区二区三区| 欧美综合成人| 激情六月丁香婷婷四房播| 免费高清毛片| 国产成人在线无码免费视频| 国产午夜福利亚洲第一| 青青草原国产av福利网站| 亚洲91精品视频| 中文无码精品a∨在线观看| 亚洲中文字幕无码爆乳| 亚洲精品无码久久久久苍井空| 亚洲一区二区无码视频| 18禁黄无遮挡网站| 九九九国产| 青青青草国产| 天堂成人在线视频| 日本精品影院| 国产精品大白天新婚身材| 黄色a一级视频| 天堂在线亚洲| 黄色网站在线观看无码| 992tv国产人成在线观看| 欧美亚洲欧美区| 无码日韩精品91超碰| 亚洲天堂首页| 久久五月视频| 91网址在线播放| 99re在线免费视频| 青青国产成人免费精品视频| 亚洲欧美人成电影在线观看| 亚洲天堂视频在线观看免费| 久久婷婷国产综合尤物精品| 国产色婷婷| 国产欧美又粗又猛又爽老| 一本大道AV人久久综合| 亚洲色图另类| 欧美不卡视频一区发布| 国产精品对白刺激| 成人91在线| 亚洲成aⅴ人在线观看| 欧洲欧美人成免费全部视频| 在线日本国产成人免费的| 18禁黄无遮挡网站| 97影院午夜在线观看视频| 亚洲精品中文字幕无乱码| 亚洲久悠悠色悠在线播放| 久996视频精品免费观看| 国产一级裸网站| 日本人妻一区二区三区不卡影院 | 亚洲av无码人妻| 欧美视频在线播放观看免费福利资源| 三上悠亚精品二区在线观看| 日韩欧美一区在线观看| 女人一级毛片| 东京热av无码电影一区二区| 欧美国产日韩一区二区三区精品影视| 精品国产自在在线在线观看| 专干老肥熟女视频网站| 日韩小视频在线观看| 91在线精品免费免费播放| 自拍亚洲欧美精品| 亚洲中文字幕av无码区| 欧美一级高清免费a| 欧美在线导航| 国产激情无码一区二区免费| 色婷婷亚洲综合五月| 久青草国产高清在线视频| 高潮爽到爆的喷水女主播视频| 亚洲国产日韩在线观看| 亚洲AV无码久久精品色欲| 54pao国产成人免费视频| 综合色在线| 精品小视频在线观看| 亚洲全网成人资源在线观看| 亚洲精品日产AⅤ| 狠狠亚洲五月天| 男女男精品视频| 国产爽歪歪免费视频在线观看|