999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

2016-12-28 09:19:55關(guān)莉莉
山西青年 2016年24期
關(guān)鍵詞:文本方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

新聞媒體是傳遞信息的重要途徑,在突發(fā)事件發(fā)生后,人們往往希望能夠通過新聞及時(shí)了解到突發(fā)事件產(chǎn)生的緣由以及后續(xù)發(fā)展情況。為了能夠?qū)⑼话l(fā)事件新聞文本更好的分類,需要采取有效的主題抽取方法,而基于加權(quán)信息論的抽取方法,便得以產(chǎn)生并開始運(yùn)用于該項(xiàng)工作中。本文就加權(quán)信息論下的突發(fā)事件新聞主題抽取方法進(jìn)行了研究分析。

加權(quán)信息論;突發(fā)事件新聞;主題抽取方法

突發(fā)事件新聞文本中,主題詞出現(xiàn)的位置等都具有一定的特點(diǎn),通過加權(quán)信息論,能夠?qū)崿F(xiàn)對(duì)主題詞的精準(zhǔn)查找,考慮新聞文本主題本身所帶有的相關(guān)統(tǒng)計(jì)信息,從而實(shí)現(xiàn)對(duì)突發(fā)事件新聞的有效分類。因此,相關(guān)工作者在工作中,還應(yīng)積極分析基于加權(quán)信息論的主題抽取方法,并予以合理運(yùn)用,從而進(jìn)一步完善突發(fā)事件新聞分類體系,推動(dòng)新聞事業(yè)的快速發(fā)展。

一、突發(fā)事件新聞統(tǒng)計(jì)分析

突發(fā)事件主要是人們難以預(yù)測(cè)的、隨時(shí)隨地都有可能發(fā)生的、完全隨機(jī)的時(shí)間,而突發(fā)事件新聞,則是對(duì)這一類時(shí)間的新聞報(bào)道。突發(fā)事件的發(fā)生往往與人們的生活有密切關(guān)聯(lián),因而,人們對(duì)突發(fā)事件報(bào)道也十分關(guān)心。相關(guān)學(xué)者也針對(duì)人們?cè)诟鱾€(gè)階段的新聞關(guān)注熱點(diǎn),進(jìn)行了統(tǒng)計(jì)分析。本文選取了“煤礦爆炸”、“非洲埃博拉病毒疫情”以及“恐怖襲擊”三類新聞進(jìn)行闡述分析,從Web上獲取了各500篇語(yǔ)料。

經(jīng)過一系列的統(tǒng)計(jì)分析發(fā)現(xiàn),這幾類突發(fā)事件新聞文本具有兩方面特點(diǎn)。第一,在形式結(jié)構(gòu)上。突發(fā)事件新聞文本主要分為正文及標(biāo)題兩部分,標(biāo)題是對(duì)文本內(nèi)容、事件情況的充分概括,主要由突發(fā)事件的發(fā)生的地點(diǎn)、事件名稱以及帶來的影響組成,正文則是包含多個(gè)句子,闡明了信息的來源、突發(fā)事件的基本信息及其原因、后果等。且正文中的第一句話,往往就會(huì)直接表述本信息的來源,其他內(nèi)容則會(huì)在后續(xù)句子中進(jìn)行表述。第二,在文本長(zhǎng)度上,通過對(duì)這幾類文本的統(tǒng)計(jì)分析,發(fā)現(xiàn)其標(biāo)題字?jǐn)?shù)平均在18-20字之間,相差不大,正文句數(shù)平均在7.43-11.95句,而字?jǐn)?shù)從100字到400字不等(如表1)。

表1 突發(fā)事件各類新聞文本統(tǒng)計(jì)分析數(shù)據(jù)

二、加權(quán)信息論下突發(fā)事件新聞主題抽取

當(dāng)前對(duì)突發(fā)事件新聞主題進(jìn)行抽取,主要是通過對(duì)突發(fā)事件主題詞在文本主題方面的貢獻(xiàn)程度進(jìn)行分析,從而將其中貢獻(xiàn)最大的主題詞找出來。在加權(quán)算法的運(yùn)用中,主要是通過對(duì)主題詞在突發(fā)事件新聞文本中的位置、頻率以及不同文本間的引用關(guān)系等進(jìn)行計(jì)算,一些專家學(xué)者還能夠通過構(gòu)詞能力、特征字串、語(yǔ)言理解角度等進(jìn)行抽取。而據(jù)相關(guān)調(diào)查以及研究表明,基于加權(quán)信息論的突發(fā)事件新聞主體抽取,也能夠獲得良好的效果。詞在文本中的包含的信息量計(jì)算公式為H(wi)=-N(wi)×log p(wi)。其中,wi為突發(fā)事件新聞文本中的一個(gè)詞匯,文本用d表示,H(wi)表示該詞信息量,N(wi)為該詞出現(xiàn)頻率,p(wi)則為該詞概率分布。通過極大似然估計(jì)方法,對(duì)詞的概率分布進(jìn)行計(jì)算,公式為p(wi)=F(wi)×F。其中,F(xiàn)(wi)為訓(xùn)練文本中該詞出現(xiàn)的頻次,F(xiàn)則表示文本集中總詞頻數(shù)[1]。為了能夠結(jié)合主題詞的實(shí)際分布情況,還需基于加權(quán)信息論,將文本形式特征以及詞匯所處位置加入計(jì)算中。設(shè)Y為句權(quán)向量,Xi為詞位向量,且Y=(s1,s2,…,sj),Xi=(pi1,pi2,…,pik),sj為該詞在文本中j句的重要性因子,pik則為該詞在j句中出現(xiàn)的頻次,n為總句數(shù)。兩個(gè)向量的乘積,就是最終詞匯的位置權(quán)重,通過將其與信息論特征抽取方法結(jié)合,便能夠獲得最終結(jié)果。文本首句即標(biāo)題句,在主題中貢獻(xiàn)最大,權(quán)值最大,其次為第三、四,五句,再者為第二句消息來源,最后為其余句子,權(quán)值較小。

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法應(yīng)用中,應(yīng)先進(jìn)行文本預(yù)處理。分詞并獲取詞集合,對(duì)一些語(yǔ)氣詞、介詞等詞匯進(jìn)行剔除,獲得候選詞集c(w1,w2,…,wm)。其次,需要進(jìn)行權(quán)威計(jì)算,對(duì)c中的所有詞匯按照上述方法進(jìn)行位置權(quán)重計(jì)算,并結(jié)合H(wi)值,計(jì)算出wi的總權(quán)重。最后,對(duì)所有詞的權(quán)重計(jì)算結(jié)果進(jìn)行排列,選取權(quán)值最大的幾個(gè)詞,組合成最終的主題。

三、加權(quán)信息論下的突發(fā)事件新聞主題抽取結(jié)果分析

為證明加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的有效性,將這一方法與人工抽取方法一同運(yùn)用,并對(duì)所獲取結(jié)果進(jìn)行比較分析。選用“煤礦爆炸”類突發(fā)事件新聞100篇、“非洲埃博拉病毒疫情”類突發(fā)事件新聞100篇以及“恐怖襲擊”類突發(fā)事件新聞100篇,用于訓(xùn)練語(yǔ)料,同時(shí),每一類別中選出25篇文本作為測(cè)試語(yǔ)料。運(yùn)用兩種方式對(duì)新聞主題進(jìn)行抽取后發(fā)現(xiàn),“煤礦爆炸”文本中,有22篇結(jié)果一致,與人工抽取一致比率在88%,正確率在96%。“非洲埃博拉病毒疫情”文本中,有13篇結(jié)果一致,比率在52%,正確率在36%,其主題偏離率較大的原因主要是文本本身結(jié)構(gòu)性較差、內(nèi)容分散。而在“恐怖襲擊”文本中,有21篇結(jié)果一致,比率在84%,正確率在88%。且據(jù)相關(guān)學(xué)者對(duì)加權(quán)信息論以及信息論下的主題抽取結(jié)果比較發(fā)現(xiàn),加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的準(zhǔn)確度與人工抽取相比,明顯呈現(xiàn)出了提高趨勢(shì),由此,可見這一方法在主題抽取中的重要性及良好的效果。

四、結(jié)論

本文基于突發(fā)事件新聞文本相關(guān)統(tǒng)計(jì)數(shù)據(jù),運(yùn)用加權(quán)信息論方法進(jìn)行主題抽取,并將抽取結(jié)果與人工抽取相比較,得出了這一方法具有良好性能的結(jié)果。相關(guān)工作人員也應(yīng)加強(qiáng)對(duì)這一方法的研究,并將其靈活運(yùn)用在其他文本中,以促進(jìn)當(dāng)前新聞?lì)I(lǐng)域相關(guān)技術(shù)方法的進(jìn)一步發(fā)展。

[1]韓永峰,許旭陽(yáng),李弼程,朱武斌,陳剛.基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要[J].中文信息學(xué)報(bào),2012,1(1):58-66.

[2]夏華林,張仰森.基于規(guī)則與統(tǒng)計(jì)的Web突發(fā)事件新聞多層次分類[J].計(jì)算機(jī)應(yīng)用,2012,2(2):392-394.

[3]曹學(xué)艷,張仙,劉樑,方寬,段飛飛,李仕明.基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J].中國(guó)管理科學(xué),2014,3(3):82-89.

TP

A

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學(xué)習(xí)方法
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 97视频免费在线观看| 亚洲国产中文精品va在线播放 | 91精品啪在线观看国产60岁| 波多野结衣中文字幕一区二区| 国内精品视频区在线2021| 亚洲国产天堂久久九九九| 国产成人久久777777| 精品99在线观看| 亚洲无线一二三四区男男| 久久久久亚洲精品成人网| 亚洲天堂视频在线免费观看| 国内99精品激情视频精品| 欧美不卡在线视频| 国产精品尤物在线| 国产成人一区免费观看| 亚洲av成人无码网站在线观看| 午夜福利亚洲精品| 精品国产成人av免费| 91在线视频福利| 亚洲视频无码| 真人免费一级毛片一区二区| 在线国产毛片手机小视频| a级毛片网| 日本一区中文字幕最新在线| 国产小视频在线高清播放| 少妇极品熟妇人妻专区视频| 狠狠色噜噜狠狠狠狠色综合久| 欧美精品另类| 青青青国产视频| 一级毛片视频免费| 日本AⅤ精品一区二区三区日| 色综合久久久久8天国| 久青草免费在线视频| 波多野结衣中文字幕久久| 色天天综合久久久久综合片| 亚洲第一av网站| 日本国产精品一区久久久| 一本色道久久88亚洲综合| 国产尤物视频网址导航| 综合色在线| 国产成人免费观看在线视频| 欧美特黄一级大黄录像| 26uuu国产精品视频| 一本色道久久88| 亚欧美国产综合| 香蕉eeww99国产在线观看| 女人一级毛片| 国产成人1024精品下载| 手机看片1024久久精品你懂的| 人妻中文久热无码丝袜| 国产小视频免费| 免费在线a视频| 99视频全部免费| 国产高清毛片| 中文天堂在线视频| 五月丁香在线视频| 国产农村妇女精品一二区| 伊人色婷婷| 中国一级特黄视频| 国产在线精品香蕉麻豆| 手机精品福利在线观看| 午夜三级在线| 国产 日韩 欧美 第二页| 毛片a级毛片免费观看免下载| 日韩精品一区二区三区免费| 天天摸天天操免费播放小视频| 欧美天堂在线| 91极品美女高潮叫床在线观看| 国产91无毒不卡在线观看| 精品亚洲麻豆1区2区3区| 亚洲第一av网站| 久久久久亚洲AV成人人电影软件| 狠狠做深爱婷婷综合一区| 在线色综合| 人人爽人人爽人人片| 亚洲系列无码专区偷窥无码| 亚洲中文字幕在线精品一区| 久草视频精品| 97国产精品视频人人做人人爱| 一本色道久久88综合日韩精品| 亚洲av无码成人专区| 波多野结衣AV无码久久一区|