王菲爾
摘? ? 要: 新聞標題作為新聞最重要的部分,其中暗含新聞作者的情感傾向,也會影響閱讀者對新聞的看法。本文基于語義對新聞標題進行情感分析,使用情感詞典提取情感詞,并匹配句中含有否定詞、程度副詞、連詞,以及感嘆句、反問句的情況下的語義規(guī)則,進行新聞標題情感值計算。選擇新浪新聞和人民日報新聞標題作為語料,也想借情感分析探究新聞文本的自身特點。
關鍵詞: 語義? ? 詞典? ? 情感分析? ? 新浪新聞? ? 人民日報
引言
新聞標題是以最精練的文字將新聞中最重要、最新鮮的內(nèi)容提示給讀者。標題不但涵括了新聞的內(nèi)容,而且也代表了新聞寫作者對這篇新聞的評價。因此往往暗含新聞寫作者自身的情感傾向。現(xiàn)在,新聞作者為了吸引讀者注意,往往采用夸大的情緒描述新聞標題,也導致了對新聞內(nèi)容的不實反映,這種現(xiàn)象被稱為“標題黨”。但是在一些權威新聞媒體上,這種現(xiàn)象比較克制。新聞標題中暗含的情感傾向,對閱讀者的影響也很大,由此產(chǎn)生的輿論效應,不可忽視。因此,本文選取新聞文本中最重要的組成部分之一——新聞標題,對其進行情感分析,以期對新聞文本的情感傾向性做出判斷,并為進一步的輿情分析提供幫助。如何對新聞標題中的情感作出恰當?shù)陌芽兀彩潜疚南胍ㄟ^情感分析探討的內(nèi)容。
當前常用的文本情感分析方法主要有兩種。一是基于機器學習的情感分析,采用傳統(tǒng)的文本分類技術,將情感詞匯作為提取的特征詞,并結合其他特征訓練分類器。常用的方法有樸素貝葉斯(NB)、支持向量機(SVM)、最大熵(ME)等。國外如Pang等[1]采用上述方法,對影評數(shù)據(jù)進行情感分類,并比較三種機器學習方法,結果顯示支持向量機的方法達到最大準確率。國內(nèi)研究有徐軍等[2]用樸素貝葉斯和最大熵的方法對新聞及評論語料進行情感分類,最高準確率達90%。昝紅英等[3]采用SVM+規(guī)則的方法研究新聞文本情感傾向,并與Bayes+KNN+規(guī)則的方法進行比較,驗證前一種方法的普適性。潘云仙[4]用基于JST的模型進行新聞文本情感分析,對新聞標題進行極性判斷。基于機器學習的方法對訓練文本的質量要求很高,且容易忽視語句的上下文信息。因此本文采用另一種基于語義的情感分析方法。這種方法基于情感詞典和語義規(guī)則設計算法,結合了詞匯的語義特征和上下文信息,更為合理。如Turney等[5]用點互信息計算詞匯語義相關度,來判斷情感詞的極性。劉群等[6]提出基于《知網(wǎng)》的詞匯語義相似度計算,提高了詞語相似度計算的準確率。朱嫣嵐等[7]用基于HowNet的詞匯語義相似度,計算詞語的情感傾向。李晨等[8]基于情感詞典和語義規(guī)則相結合,構建了正負面情感詞典、否定詞詞典、程度副詞詞典、轉折歸總詞典,計算新聞文本的情感傾向。此外,更多的對新聞標題或新聞文本情感傾向性的研究,是從新聞學本身出發(fā)的。如李小將[9]探究報紙新聞標題制作中情感因素的運用;樊耀聰[10]探究情感因素在新聞傳播中的應用等。
基于現(xiàn)有的研究成果,可以看出這些研究大都以提高情感分析準確率為目標,少有通過情感分析對新聞文本本身進行解讀。而本文以新聞標題作為切入點,將著重利用情感分析的結果,探究新聞文本的自身特點。本文將選取“新浪新聞”、《人民日報》新聞作為語料,通過對兩家新聞標題情感傾向性的對比,分析各自新聞標題的特點,并探討新聞寫作中情感把控的問題。
1.新聞文本情感分析的實驗流程
本文采用基于語義的方法對新聞標題進行情感分析,基本流程見圖1.1。
1.1語料收集
本文分別整理收集“新浪新聞”和《人民日報》新聞標題各5000條,共計10000條新聞標題,構成情感分析的語料庫。標題選擇范圍基本是兩年以內(nèi)的新聞,內(nèi)容涵蓋時政、地方、法治、國際、軍事、財經(jīng)、汽車、房產(chǎn)、教育、科技、彩票、娛樂、金融、體育、食品、旅游、健康、教育、游戲、時尚等方面。
1.2文本預處理
本文采用中科院漢語詞法分析系統(tǒng)ICTCLAS[11]進行分詞及詞性標注,其主要功能還有命名實體識別、新詞識別等。系統(tǒng)采用CHMM(層疊形馬爾可夫模型)進行分詞,分詞速度996KB/s,分詞精度98.45%,是目前準確率較高且較有效率的分詞系統(tǒng)。
1.3情感詞提取
首先建立情感詞典。情感詞典的建構是情感分析中至關重要的一步,對情感分析的結果有很大的影響。目前較為常用的中文情感詞典有Hownet情感分析用詞語集,其中包括了正負面評價詞語集、正負面情感詞語集、主張詞語集和程度詞語集;臺灣大學NTUSD(National Taiwan University Sentiment Dictionary)包含了正面情感詞典和負面情感詞典;以及大連理工大學的中文情感詞匯本體庫[12],對多部情感詞典進行整理歸納,較為全面,還對每個情感詞匯的詞性種類、情感分類、強度、極性等做了標注,將情感分為7大類、21小類,是目前比較成熟的中文情感詞典。下表將大致描述這三部情感詞典的詞匯分布情況。
表中可以看出,大連理工大學的中文情感詞匯本體庫在情感詞匯數(shù)量上占絕大優(yōu)勢。因此,本文在中文情感詞匯本體庫的基礎上建立情感詞典,對其進行篩選,刪除一些新聞文本不適用的詞語,并添加一些新聞文本中常見的情感詞語,如“泥潭”“中國夢”“破獲”等。最終,詞典共含有13249個正面情感詞語,13581個負面情感詞語,合計26830個。
1.4語義規(guī)則匹配
在計算新聞標題的情感值之前,除了對情感詞的情感值進行計算,還需要基于語義規(guī)則對情感詞進行加權處理,標題中其他影響情感傾向的因素有否定詞、程度副詞、連詞、反問句、感嘆句等。
程度副詞同樣會影響詞語情感傾向的強度,這時詞語的情感值受程度副詞語義強度的影響發(fā)生變化。程度副詞權值表示為M■。本文基于HowNet的中文程度級別詞語,構建程度副詞表,并設置程度副詞權重。
連詞連接兩個句子時,句子的情感傾向會因連詞的不同而產(chǎn)生變化。常見的類型有并列、承接、遞進、選擇、轉折、假設、因果、條件、解說、目的。其中,遞進、轉折、假設、因果類的連詞會增強連詞后的情感強度。用Mconj表示這些連詞的權值。
特殊句式如反問句、感嘆句都能增強語氣程度,因此也有加強情感傾向的效果。反問句通過反問標記詞識別,并且問句的標志“?”也給反問句識別提供了幫助。反問句權值用Mreh表示,設為-2。感嘆句則較為簡單,直接通過“!”識別。感嘆句權值用Mex表示,設為2。
其中α為常數(shù),當α=1.6時,情感識別準確率最高。這樣確實可以減少上述情況的發(fā)生。
(3)新聞中常用描述性語言編寫標題,其中不含有情感詞匯,但往往也表達了情感傾向。尤其是對犯罪案件或社會問題的描述類標題,其表達的是負面情感,但這種情感經(jīng)常無法識別出。
(4)情感詞典中的詞匯不夠全面,也會導致識別的準確率下降。新浪新聞中存在大量網(wǎng)絡情感詞匯,在情感詞典中有待補充。此外,還有許多多義情感詞,在何種語義條件下不含有情感傾向,也是今后語義規(guī)則中要考慮的問題。
2.3數(shù)據(jù)分析
2.3.1新聞標題情感詞
本文對“新浪新聞”標題和《人民日報》新聞標題的情感詞進行統(tǒng)計分析。分別對新聞標題中含有的情感詞的數(shù)量、情感分類、詞頻等作出統(tǒng)計。
“新浪新聞”標題含有1482個情感詞,其中正面情感詞842個,負面情感詞640個;《人民日報》新聞標題含有1043個情感詞,其中正面情感詞799個,負面情感詞244個。新浪新聞標題所含情感詞數(shù)量遠高于《人民日報》。這也體現(xiàn)了門戶網(wǎng)站新聞標題較為情緒化,為奪人眼球而多采用富有情感的詞語;而國家權威新聞機構的新聞標題更為嚴肅。這一點在正負面情感詞的數(shù)量上同樣體現(xiàn)。“新浪新聞”標題正負面情感詞數(shù)量幾乎相當,而門戶網(wǎng)站也的確會采用負面情感傾向的標題來吸引閱讀者的注意。《人民日報》新聞標題負面情感詞數(shù)量遠低于正面情感詞,作為權威新聞媒體,也忌諱過多地擴散負面情緒。
兩家新聞標題使用最多的負面情感詞匯都是貶責類(NN)的情感詞匯,這體現(xiàn)了新聞的批判性。正面情感詞匯則是贊揚類(PH)詞匯,在這一項上,《人民日報》的使用量甚至超過了“新浪新聞”,褒揚也是新聞媒體常用的新聞態(tài)度。安心類(PE)、相信類(PG)的詞匯使用,《人民日報》也在“新浪新聞”之上,“讓人民安心”“成為可信賴的對象”等表述在《人民日報》新聞標題中也確實十分常見。
此外,本文還對兩家新聞標題情感詞匯進行詞頻統(tǒng)計,各挑選出了20個最常用的標題情感詞匯。具體如下:
可以很明顯地看出,人民日報的高頻詞匯使用頻率遠高于新浪新聞,也體現(xiàn)了人民日報新聞報道涵蓋范圍的狹隘,較之門戶網(wǎng)站新聞類別的多樣,人民日報新聞更多聚焦于國家、政治、社會方面,娛樂性較弱。人民日報高頻詞“發(fā)展”“創(chuàng)新”“建設”“改革”等,幾乎全是描述社會主義建設的詞匯,而新浪新聞高頻詞“教育”“專家”“創(chuàng)業(yè)”“技藝”等,則涵蓋了教育、科技、經(jīng)濟等領域,使用頻率第二高的“勇士”一詞,則常見于體育領域。且新浪新聞高頻詞分布較為平均,也說明了其新聞涉及領域全面。
2.3.2新聞標題情感值
本文通過基于語義的計算,得出人民日報和新浪新聞的標題情感值。具體情感傾向分布見下表:
可見中性情感新聞標題依然占據(jù)近半,體現(xiàn)了客觀是新聞的重要特性之一。負面情感與正面情感的分布也與情感詞匯的極性分布基本一致,也印證了上文所說。門戶網(wǎng)站多采用情感豐富的新聞標題,尤其是更會吸引閱讀者的負面情感標題,以期收獲更多點擊率。國家權威新聞機構不宜博人眼球或擴散較多負面情緒,負面情感標題較少;而其報道內(nèi)容又多與國家黨政的發(fā)展有關,因此正面情感較多。其中人民日報正面情感遠超新浪新聞,與人民日報高頻詞匯使用頻率遠高于新浪新聞有關。
此外,本文還分別選取了兩家新聞標題情感值的極值進行對比。見下表:
人民日報負面新聞標題的極值集中在重大案件或國家重大問題上,對這些行為或現(xiàn)象進行嚴厲批判;正面新聞報道的極值則與國家發(fā)展有關,褒揚了國家社會發(fā)展中積極的一面,或者鼓勵大眾為國家發(fā)展做出努力。無論正負面新聞,人民日報在進行褒貶時,都采用嚴肅口吻,較為客觀地描述事件,采用的情感詞匯也對強烈情緒的表達十分克制。反觀新浪標題,則在情感上更加強烈,且多采用“?”“!”等標點符號,增強情感表達。負面情感標題中社會新聞占據(jù)絕大多數(shù),內(nèi)容也不都是批判,只是用大量負面情感詞匯的疊加來增強視覺效果,吸引閱讀者。正面情感新聞標題也大都是娛樂、體育、新聞、八卦,同樣用多個正面情感詞匯的疊加和標點,來達到最大情感表達。
3.總結
本文借助情感詞典,并基于語義規(guī)則,對新聞標題的情感傾向進行分析,通過對標題中否定詞、程度副詞、連詞、反問句及感嘆句的語義規(guī)則匹配,從而提高新聞標題情感識別的準確率。選擇人民日報和新浪新聞的新聞標題作為語料,對情感分析的結果進行探討。
把人民日報作為國家權威新聞媒體代表,新浪新聞作為門戶網(wǎng)站等非權威新聞媒體代表,情感分析對比發(fā)現(xiàn):情感表達方面,國家權威新聞媒體的新聞標題所表達的情感克制,客觀陳述事實,負面情感少,體現(xiàn)了權威媒體的嚴肅性;門戶網(wǎng)站的新聞標題情感表達強烈,多用標點以及極性情感詞的疊加,以增強視覺效果,達到吸引閱讀者的目的。情感內(nèi)容表現(xiàn)方面,權威媒體新聞內(nèi)容狹隘,多集中于國家政治,娛樂性弱;門戶網(wǎng)站新聞涉及范圍廣泛,娛樂性強。這也給新聞寫作者帶來了一些思考。為了增加新聞點擊量與閱讀量,夸大新聞標題情感表達,使標題與事實不符,這確實可能會吸引一些讀者。但這樣卻失了新聞寫作的原則。真實客觀,如實報道,不強加情感,才是新聞寫作應有的原則。
本文基于語義的新聞標題情感分析,也有一些不足之處。第一,所采用的情感詞典還不夠全面,會有一些情感詞匯沒有涉及;第二,樣本容量不夠大,只有一萬條語料,還無法準確檢驗這種情感分析方法的正確率,對新聞標題的情感分析也無法形成強有力的支撐;第三,語義規(guī)則也不夠全面,有許多遺漏的語義規(guī)則。這些不足之處也是今后此類情感分析可以完善的方向。
參考文獻:
[1]Bo P., Lee L.. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004:271.
[2]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007(06):95-100.
[3]昝紅英,郭明,柴玉梅,吳云芳.新聞報道文本的情感傾向性研究[J].計算機工程,2010,36(15):20-22.
[4]潘云仙.基于JST模型的新聞文本情感分類研究[D].保定:河北大學,2015.
[5]Turney P. D.. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C]// Meeting of the Association for Computational Linguistics. 2002:417-424.
[6]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學,2002.
[7]朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006(01):14-20.
[8]李晨,朱世偉,魏墨濟,于俊鳳,李新天.基于詞典與規(guī)則的新聞文本情感傾向性分析[J].山東科學,2017,30(01):115-121.
[9]李小將.論報紙新聞標題制作中情感因素的運用[J].新聞研究導刊,2015,6(12):140.
[10]樊耀聰.情感因素在新聞傳播中的應用[D].西安:西北大學,2014.
[11]張華平等.ICTCLAS中文分詞系統(tǒng).http://www.nlpir.org/.
[12]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.
[13]陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學,2012:35.
[14]杜振雷.面向微博短文本的情感分析研究[D].北京:北京信息科技大學,2013:46-47.