摘 要:針對網絡評論這種新型文本的特點,給出了一組描述網絡評論序列特征的指標,提出了一種基于網絡評論傾向性的網絡評論序列特征分析方法,并結合實例對網絡評論序列的特征、網絡新聞與其評論序列的關系,特別是謠言對評論序列的影響進行了分析。
關鍵詞:評論序列; 特征分析; 向量空間模型; 傾向性特征向量
中圖分類號:TP39308 文獻標志碼:A
文章編號:10013695(2008)09280904
Feature analysis of online comment sequence about public emergencies
LI Bin, PENG Qinke, ZHANG Chen
(State Key Laboratory for Manufacturing Systems Engineering, School of Electronic Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:This paper presented a set of parameters to describe the feature of online comment which based on the new type text features of online comment, and proposed a new method of studying the feature of online comment sequence based on online comment opinion. Used an example to analysis the features of online comment sequence, and the relationship between the online news and the online comment sequence, specially the influence of rumors on the online comment sequence.
Key words:comment sequence; feature analysis; VSM(vector space model); opinion vector
近年來,隨著經濟全球化和信息技術的飛速發展,突發公共事件發生的頻率、產生的影響、造成的損失都越來越大,使突發公共事件的應急管理及其相關研究變得十分緊迫[1,2]。互聯網的普及和多種網絡媒體(BBS、BLOG、WIKI)的產生使網絡媒體成為突發公共事件信息傳播的重要渠道。因此,網絡中突發公共事件信息的獲取與分析是突發公共事件應急管理研究的重要方向。其中,網民發表的大量評論信息反映了評論者對突發公共事件的直接反應和傾向性,對其研究是突發公共事件信息分析的重要方面。
目前,關于突發公共事件網絡在線評論序列的相關研究尚處于起步階段。Balog和Mishne等人使用時間序列的分析方法,對BLOG的情緒時間序列進行研究[3~6]。文獻[7]從評論內容、流行度以及交互討論等方面進行評論與BLOG正文的關聯關系分析。文獻[8]采用評價、知識量、個人情感、個人信息及回帖可能性等參數進行論壇前后評論間關系的分析,并與FTF(face to face)交流模式進行了比較。在評論的褒貶傾向性研究方面,文獻[9]利用傾向性詞匯在產品評論中出現的次數進行加權計算用戶評論的傾向性。文獻[10]使用調查表確定傾向特征詞,選取傾向性最強的一組詞作為傾向基準詞, 使用SO (semantic orientation)模型計算電影評論詞匯的傾向性。文獻[11]利用詞匯間的連詞訓練生成詞匯間的同義或反義傾向的連接圖,然后用聚類的方法將待定詞匯聚成褒義和貶義兩類。文獻[12]選擇七對褒貶傾向強烈的基準詞,通過計算待定詞與每個基準詞的SO2PMI (semantic orientation 2pointwise mutual information)值來判定詞匯的傾向性。針對中文語言特點,文獻[13]利用知網(HowNet)計算傾向性待定詞匯與基準詞對的相似度來判定詞匯的傾向性。
本文通過定義評論關注度、評論趨勢速度、評論長度熵等描述網絡評論序列特征的指標,對網絡評論的變化特征進行分析。目前文本傾向性分析算法[9~13]主要是對規范文本進行傾向性分析,而網絡評論是不規范文本,國際上將此類文本稱為新型文本[14]。新型文本的傾向性分析方法與一般文本傾向性分析有一定區別。本文在一般傾向性分析方法的基礎上,考慮新型文本的特征,提出一種基于網絡評論傾向性的網絡評論序列特征分析方法。
1 特征指標和算法
1.1 基本概念
定義1 話題。它定義為包含連續新聞報道的一個連續性新聞主題[15]。本文研究的話題是一個具體事件,如哈爾濱水污染事件、美國槍擊案等。
定義2 新聞事件。它定義為在有連續新聞報道的話題中的單個新聞報道[16]。定義3 謠言事件。它定義為缺乏真實根據,未經證實,公眾一時難以辨別真偽的新聞事件。定義4 事件評論。它定義為針對某新聞事件,網絡民眾發表的評論序列。
新聞事件的發展變化是一個鏈式結構,先報道的新聞事件會影響后報道新聞事件的發展;一組連續新聞事件的發生伴隨一組連續的新聞事件評論鏈。新聞事件是順序發展的;但對應評論并不是新的新聞事件發生后前一新聞事件的評論就停止,多個新聞事件評論是交互融合的。
如圖1的鏈式結構所述,新聞事件爆發后,引起大量新聞評論,包括褒貶評價、新的新聞事件以及其他信息。本文將對事件評論特征進行分析,從而掌握新聞事件發展中評論序列的變化特征。
1.2 基本定義
單位時間片。
13 評論序列基本特征指標
為了研究新聞事件ei的評論序列Πi的特征及其變化規律,下面定義新聞事件ei的評論序列Πi的基本特征指標。
定義5 評論關注度。對新聞事件ei,用kil表示其在第k個時間片ΔTik中的評論個數,則ei關注度定義為
Nik=kil/ΔTik(1≤k≤Ki)(1)
評論關注度研究在單位時間片間評論數量的變化,從而反映新聞事件的熱點程度。
定義6 評論趨勢速度。對新聞事件ei,用Nik表示ei的評論時間序列Ti第k個時間片的評論關注度,用Ni(k-1)表示第k-1個時間片的評論關注度,則ei評論趨勢速度定義為
根據定義可知當dik為負時,熱點關注度下降;當dik為正,熱點關注度上升。評論趨勢速度作為評論關注變化的參數指標,反映新聞事件ei評論熱點的變化趨勢。
定義7 評論長度熵。對新聞事件ei,用Nik表示ei的評論時間序列Ti第k個時間片的評論關注度,Nik×ΔTik為第k時間片的評論數目,用λij表示新聞事件ei的第j條評論cij的長度,則ei評論長度熵定義為
評論長度熵lik表示民眾對新聞事件ei的關注程度。Ti的評論長度熵lik比較大,可能提出了新的觀點,或是針對一個敏感話題交互討論的過程。
定義8 波動率。有連續數字序列S={s1,s2,…,sn},則S序列的波動率定義為
D=1/(n-1)∑n-1i=1(log di-log d)2(4)
其中:log d=(log d1,log d2,…,log dn-1);log d表示序列log d的平均值。log di為S序列的變化比率,定義為
其中:si表示S序列的第i條數據。
波動率表示數據的波動情況,是對標準差的進一步擴展。通過對序列數據的變化比值進行標準差計算,對序列數據的波動率進行分析研究。
14 基于評論傾向性的評論序列特征分析
為了對新聞事件ei的評論傾向性變化規律進行分析,下面給出基于評論傾向性的評論序列特征分析方法。
要研究評論序列傾向性變化規律,必須對評論文本的傾向性進行判別。評論文本序列Ci=(ci1,ci2,…,cimi)中的文本具有新型文本[17]的特殊性,對cij的傾向性進行分析,必須加入對新型文本特殊性的考慮。對規范文本可采用SO算法[10]進行傾向性研究,但新型文本不符合一般語言規范;而向量空間模型(VSM)[18]進行文本分類不需要語言規范支持且效果較好。下面將傾向性詞語、不規范傾向性標號組成VSM文本傾向向量,對評論內容cij的傾向性進行分析。由此提出SOVSM新型文本傾向性判別算法,并使用該方法對評論傾向性進行判別,研究基于評論傾向性的評論序列特征。
a)構造傾向特征向量O[(o1,w1),(o2,w2),…,(or,wr)]。其中:di表示第i維的傾向特征詞;wi為其權值。向量為r維,褒義傾向向量為前α維子向量Op[(o1,w1),(o2,w2),…,(oα,wα)],貶義傾向向量為后r-α維子向量OG[(oα+1,wα+1),(oα+2,wα+2),…,(or,wr)]。傾向性特征向量以褒貶義詞庫[19]為基礎,加入新型文本傾向詞,如貶義傾向別字、拼音簡寫、標點符號等多種表示一定傾向性的不規范標號,以適應新型文本的特殊性。
b)利用Google Hit進行SO語義權值wi的計算[10]。根據心理學[20]實驗獲得褒義貶義傾向基準詞對,分別標記為p,n。hit(x)表示x進行搜索返回的結果數。
其中:oi and p表示oi與p共同進行搜索。
c)針對新聞事件ei的評論文本序列Ci=(ci1,ci2,…,cimi),使用停用詞P{ξ1,ξ2,…,ξS}對cij進行匹配過濾,去除特殊符號,包括為逃過過濾器檢查的符號,構成整理后評論文本序列C*i=(c*i1,c*i2,…,c*imi)。
d)對整理后評論文本序列C*i=(c*i1,c*i2,…,c*imi)中的c*ij,用傾向特征向量O[(o1,w1),(o2,w2),…,(or,wr)]進行匹配,構造評論序列傾向匹配矩陣:
e)通過對Ai(j,v)(1≤v≤r)進行加權,即Ωij=∑rv=1Ai(j,v),確定c*ij的傾向性Ωij,構建與評論文本序列Ci=(ci1,ci2,…,cimi)對應的評論傾向序列Ωi=(Ωi1,Ωi2,…,Ωimi)。當Ωij>0,表示cij為褒義評論;當Ωij=0,表示cij為中性評論;當Ωij<0,表示cij為貶義評論。
f)lik表示新聞事件ei第k個時間片的評論長度熵,λij表示第j條評論Cij的長度,構造歸一化評論傾向序列Ω*i=(Ω*i1,Ω*i2,…,Ω*imi)。其中Ω*ij=λij/lik∑rv=1A(j,v)。上面提出的SOVSM新型文本傾向性算法,只計算傾向特征向量O[(o1,w1),(o2,w2),…,(or,wr)]的特征詞oi的傾向性權重wv,而不用計算目標文本的語義傾向性,減少了文本傾向性判斷的計算量,可以實現對評論傾向的在線判斷。VSM的主要問題在于傾向性特征向量能否覆蓋新型文本的傾向性特征詞。傾向特征向量O[(o1,w1),(o2,w2),…,(or,wr)]由標準傾向性詞庫與不規范傾向性標號等內容組成,與傳統VSM方法相比,在一定程度上提高了覆蓋率。下面定義特征參數進行基于評論傾向性的評論序列特征分析。
定義 9 評論傾向度。對新聞事件ei,用kil表示其在第k個時間片ΔT
評論傾向度在一定程度上反映新聞事件ei的民眾反應傾向。
定義10 評論褒貶義度。對新聞事件ei,用kil表示其在第k個時間片ΔT
評論褒義度:Pik=(∑kilj=ki1ΩPij)/Nik(1≤k≤K)(9)
評論貶義度: Gik=(∑kilj=ki1|ΩGij|)/Nik(1≤k≤K)(10)
評論中性度: Uik=1-Gik-Pik(1≤k≤K)(11)
評論褒貶對比度: Rik=Pik/Gik(1≤k≤K)(12)
關于新聞事件ei的評論序列Πi的褒貶變化直接反映網絡民眾對事件的反應,可分析民眾傾向性特征與事件的關系。
2 實例分析
本文采集2007年4月份“美國槍擊案”的連續事件評論作為實驗研究數據,原始數據16 120條評論,通過數據去重,整理后16 096條評論,針對多達52個連續性的新聞事件進行的評論數據。
首先,對各個新聞事件的評論數據進行統計。圖2橫坐標為新聞事件標號,縱坐標為該事件的評論數目。從評論數據分布可以看出,正常報道的新聞事件評論數據比較多;其次謠言和清除謠言的新聞事件評論數據也比較多。如圖2所示,評論超過200的新聞事件包括8條新聞事件,在新聞評論中占的比例如表1所示,這些新聞事件包含89.92%的評論數據,可以表示整個新聞事件的評論走向。圖2中的幾個關鍵點,包括新聞事件的最初版本、謠言的爆發、新聞事件主體,以及謠言的清除事件的評論信息是需要關注的。
2.1 評論關注度Nik
下面選取時間片ΔT=60 min進行比較實驗。
對表2中的關注度平均值Nik與其關注度波動率Nik_D分析可知,謠言新聞事件e13的評論關注度N13k維持很高的值,且波動率很小;謠言清除新聞事件e16的評論同樣維持較高的關注度N16k;謠言清除后新聞事件的評論關注度和波動都出現很大程度的減小。分析可知,謠言相關事件的評論序列和其他新聞事件的評論關注度差別很大;其次,從關注度Nik的變化可以看到突發公共新聞事件評論關注的重心不光包括事件主體,也包括謠言事件、新爆發的新聞事件。
2.2 評論趨勢速度dik
評論趨勢速度dik表示新聞事件的關注度Nik變化趨勢,如表2所示。當新聞事件e1發生后,事件評論趨勢速度d1k劇增;之后新聞事件的評論趨勢速度dik緩慢減小;謠言事件e13的d13k出現增量;然后事件的評論趨勢速度繼續減小,當出現清除謠言的新聞事件,評論趨勢速度加速減小,事件評論趨于緩和。對于突發公共事件評論,需要重點關注謠言事件e13評論趨勢速度d13k是否在控制域內;且清除謠言事件的評論關注度Nik能否快速趨近于0。
23 評論長度熵lik
評論長度熵lik是發帖人對該新聞事件關注程度的量化表示。從表2的平均lik可以看到,在e13和e21出現評論長度熵的轉折點。e13謠言事件發生后,評論長度熵l13k出現爆增,表示民眾對謠言的反應和關注程度更高,且其波動率較小,表示評論長度熵持續較大,沒有變小的趨勢。而謠言清除新聞事件e21評論序列的評論長度熵lik比較小,并且波動率增大,表示民眾發表評論的意愿在下降。從評論長度熵的角度可以看出,出現謠言和消除謠言的事件評論都是評論發展變化中的關鍵點,新聞事件ei是否為負面事件或謠言,直接導致新聞事件ei的評論信息熵的變化。評論長度熵的變化形式與危機變化生命周期相符[21],都經歷孕育、發展、爆發、衰退、結束的過程。
24 評論傾向度Eik
評論傾向度Eik表示評論包含的褒貶傾向,反映了新聞事件的民眾反應的程度信息。如表2所示,平均Eik變化比較小,事件新聞e21后的評論傾向度降低,表明當事態緩和后,民眾發表傾向性評論的意愿降低。而Eik波動率較小表明整個話題所有事件評論傾向度Eik維持在一定水平。其中e13事件的評論傾向度波動率較低,與其他實驗照應;由于評論傾向度下降,e21事件后的評論傾向度波動率出現增大。
25 評論褒貶義度
通過上面提出的SOVSM新型文本傾向性算法對各個新聞事件的相關評論文本進行傾向性計算,并對事件褒貶屬性與褒貶中性評論的相關性進行分析。表3可以看出,評論序列的評論褒義度、貶義度變化與新聞事件的褒貶屬性有直接關系,當出現新聞事件傾向屬性的變化,新聞事件評論的評論褒貶對比度Rik發生對應變化,表示民眾對該話題觀點的改變。
經過上面的特征分析可以看到,新聞事件的褒貶屬性直接影響相關評論參數指標以及褒貶傾向參數,即民眾評論的變化與新聞輿論走向直接相關。新聞事件的發展變化影響民眾的褒貶傾向變化,而民眾民意的變化進一步影響輿論走向,從而影響突發公共事件的發展與應對。
3 結束語
目前,關于突發公共事件網絡在線評論序列的分析尚處于起步階段,本文提出評論關注度、評論趨勢速度、評論長度熵等評論序列特征指標,提出了一種基于SOVSM新型文本傾向性判定算法的網絡評論序列特征分析方法,并結合實例分析了評論序列特征。實驗表明,新聞事件的屬性變化直接影響相關評論序列特征的發展變化,即網絡民眾發表的評論變化與新聞事件的褒貶屬性變化有密切關系。其中謠言事件對應評論序列的特征不同于其他新聞事件評論。對突發公共事件網絡在線評論序列的上述分析反映了網絡民眾民意的變化,從而量化了網絡民眾民意對突發公共事件危機程度的影響。
參考文獻:
[1]李克榮.我國應急體系建設中的問題探討與對策[J].中國安全生產科學技術,2005,1(5):5255.
[2]國家突發公共事件應急管理中的科學問題[EB/OL]. (20070118).http://www.nsfc.gov.cn/Portal0/InfoModule_375/11269.htm.
[3]BALOG K, MISHNE G, De RIJKE M. Why are they excited? Identifying and explaining spikes in Blog mood levels[C]//Proc of the 11th Meeting of the European Chapter of the Association for Computational Linguistics (EACL 2006). Trento:[s.n.], 2006.
[4]MISHNE G, De RIJKE M. Capturing global mood levels using blog posts[C]//Proc of the 16th Meeting of Computational Linguistics. Netherlands:[s.n.],2005.
[5]MISHNE G, DE RIJKE M. MoodViews: tools for blog mood analysis[C]//AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAICAAW 2006). California:[s.n.], 2006.
[6]MISHNE G. Experiments with mood classification in blog posts[C]//Proc of the 1st Workshop on Stylistic Analysis of Text for Information Access.2005.
[7]MISHNE G, GLANCE N. Leave a reply:an analysis of Weblog comments[C]//Proc of the 3rd Annual Workshop on the Weblogging Ecosystem. Edinburgh:[s.n.], 2006.
[8]CHEN Gaowei, CHIU Mingming. Online discussion processes:effects of earlier messages’ evaluations, knowledge content, social cues and personal information on later messages[C]//Proc of the 6th International Conference on Advanced Learning Technologies (ICALT’06). Kerkrade:[s.n.], 2006:756760.
[9]VERMEIJ M J M. The orientation of user options through advers, verbs and nouns[C]//Proc of the 3rd Student Conference on IT. Enschede:[s.n.], 2005.
[10]YE Qiang, SHI Wen, LI Yijun. Sentiment classification for movie reviews in Chinese by improved semantic oriented approach[C]//Proc of the 39th Hawaii International Conference on System Sciences (HICSS’06). Hawaii:[s.n.], 2006:531535.
[11]HATZIVASSILOGLOU V, McKEOWN K R. Predicting the semantic orientation of adjectives[C]//Proc of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL. Madrid: Morgan Kaufmann,1997:174181.
[12]TURNEY P D, LITTMAN M L. Measuring praise and criticism:inference of semantic orientation from association[J]. ACM Trans on Information Systems, 2003,21(4) :315346.
[13]朱嫣嵐, 閔錦, 周雅倩,等. 基于Hownet 的詞匯語義傾向計算[J] .中文信息學報, 2006,20(1):1520.
[14]EACL2006.The workshop on new text WiKis and blogs and other dynamic text sources[EB/OL].(2006). http:// www.sics.se/jussi/newtext.
[15]趙華, 趙鐵軍, 張姝,等. 基于內容分析的話題檢測研究[J]. 哈爾濱工業大學學報, 2006,38(10):17401743.
[16]STRASSEL S, GRAFF D, MARTEY N. Quality control in large annotation projects involving multiple judges:the case of the TDT corpora[C]//Proc of the 2nd International Language Resources and Evaluation Conference. Athens, Greece:[s.n.], 2000.
[17]XIA Y, WONG K F. Anomaly detecting within dynamic Chinese chat text[C]//Proc ofNew Text Workshop. Trento:[s.n.],2006:4855.
[18]HAMMOUDA K M, KAMEL M S. Efficient phrasebased document indexing for Web document clustering[J]. IEEE Trans on Knowledge and Data Engineering,2004,16(10):12791296.
[19]昝紅英,蘇玉梅,孫斌,等.名人網頁的相關度評價[J].中文信息學報,2003,17(5):2733.
[20]鐘杰,錢銘怡.中文情緒形容詞檢測表的編制與信效度研究[J].中國臨床心理學,2005,13(1):913.
[21]WANG W T,BELARDO S.Strategic integration:a knowledge management approach to crisis management[C]//Proc of the 38th Hawaii International Conference on System Sciences. Hawaii:[s.n.], 2005.