莊 麗,佘玉梅,江 濤,丁冬冬,王米利,劉敬鳳
(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650031)
隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)上用戶生成的內(nèi)容越來越多,如博客、論壇、新聞評(píng)論等,成為大眾參與社會(huì)生活的一種新的平臺(tái).相關(guān)研究表明,絕大多數(shù)網(wǎng)民對(duì)新聞評(píng)論的內(nèi)容都基于新聞?wù)?外加很多自己對(duì)新聞事件的看法,除一般事實(shí)外,還有大量的主觀性內(nèi)容,對(duì)之后閱讀新聞和評(píng)論的網(wǎng)民有著引導(dǎo)和交流的作用[1].研究還顯示網(wǎng)絡(luò)新聞跟帖評(píng)論所針對(duì)的話題,一般都是時(shí)事熱點(diǎn)和備受大眾關(guān)注的新聞事件,網(wǎng)民在網(wǎng)絡(luò)上表達(dá)出來的意見,不僅反映了公眾對(duì)社會(huì)重大公共事件的關(guān)注度與參與度,也反映了公眾不同的價(jià)值判斷和思想動(dòng)態(tài),對(duì)社會(huì)和國家了解民情民意,制定相關(guān)政策有著很大的影響,新聞評(píng)論越來越具有參考和研究價(jià)值.
網(wǎng)絡(luò)新聞評(píng)論具有社會(huì)新聞共有的及時(shí)性和網(wǎng)絡(luò)評(píng)論獨(dú)具的開放性和多元性等特征,所以網(wǎng)絡(luò)新聞評(píng)論的情感特征提取相對(duì)來說更加困難,其難點(diǎn)主要有:
1) 評(píng)論內(nèi)容的隨意性,出現(xiàn)很多與新聞內(nèi)容無關(guān),不具有任何價(jià)值的干擾信息;
2) 評(píng)述內(nèi)容普遍都只有幾十個(gè)字的長度,情感特征不集中;
3) 錯(cuò)誤噪聲、別字、簡字、俚語和引入的網(wǎng)絡(luò)新詞較多,用語不規(guī)范;
4) 指代不明確,思維發(fā)散,很多評(píng)論有很強(qiáng)的背景知識(shí).
在研究方法上,由于新聞評(píng)論的語義具有模糊性,對(duì)具有模糊性的自然語言進(jìn)行情感模糊化建模是可行的,其中模糊理論是處理模糊問題的有效工具之一,因此本文的目標(biāo)就是找出一個(gè)有效的情感特征提取方法,運(yùn)用模糊集理論對(duì)其進(jìn)行特征詞的擴(kuò)充,建立有效的情感特征詞庫.實(shí)驗(yàn)表明,這種情感特征提取方法更適用于網(wǎng)絡(luò)新聞評(píng)論,基于模糊集的情感特征詞庫的擴(kuò)充比傳統(tǒng)的擴(kuò)充方法更有效.
美國的控制論專家Zadeh在1965年提出了模糊集理論,1973年又提出了用模糊語言描述系統(tǒng)的方法,給出了模糊集合和模糊語義的相關(guān)定義[2],把模糊數(shù)學(xué)與人工智能相結(jié)合進(jìn)行了研究.
模糊語義的產(chǎn)生主要是由于客觀事物具有連續(xù)性與語言符號(hào)具有的離散性之間的矛盾關(guān)系.在數(shù)學(xué)模型上,我們用離散的語言符號(hào)來標(biāo)志連續(xù)的事物時(shí),就會(huì)產(chǎn)生邊界的模糊性.
定義1 一個(gè)語言變量是一個(gè)五元組(F,T,U,G,M).
其中F是語言變量的名稱;T表示語言變量F的語言值總體構(gòu)成的集合,也叫做辭集,即一個(gè)具體的語言值名稱記作fi,我們把T表示為T=f1+f2+…,T取有限個(gè)數(shù).U則是語言變量F的論域;G代表句法規(guī)則,通過該規(guī)則產(chǎn)生了F的語言值的名稱;M被稱為語言規(guī)則,T中的每個(gè)語言值fi的辭義M可以看成在論域U上fi的一個(gè)模糊集合[3].
網(wǎng)絡(luò)評(píng)論中情感語義挖掘的關(guān)鍵技術(shù)是提取情感特征詞,而傳統(tǒng)意義上情感詞一般由形容詞和副詞體現(xiàn),但新聞評(píng)論中語料的特殊性需要更多不同詞性的詞語作為特征,例如“哈哈”等嘆詞可以單獨(dú)作為一句話或一條評(píng)論,有著很強(qiáng)的感情色彩,因此在評(píng)論語料中還需要進(jìn)一步的篩選和標(biāo)注分類.本文認(rèn)為傳統(tǒng)研究的文本分類方法局限性較多,主要表現(xiàn)在不能很準(zhǔn)確地區(qū)分情感詞匯和普通詞匯,而且傳統(tǒng)方法更加忽略了詞匯和詞匯搭配后帶來的情感傾向性的變化,所以本文采取的方法是分階段逐步優(yōu)化選取情感特征.
S1(Phrase)=(RDF(Phrase)/(NDF(Phrase)+1).
(1)
S2(Phrase)=(RTF(Phrase)/(NTF(Phrase)+1).
(2)
其中Phrase表示在文中分詞標(biāo)注后的短語,RDF(Phrase)表示Phrase出現(xiàn)在所有評(píng)論中的次數(shù),RTF(Phrase)是Phrase在所有評(píng)論中出現(xiàn)的累計(jì)總次數(shù),NDF(Phrase)是Phrase出現(xiàn)在所有不同新聞中的次數(shù),NTF(Phrase)表示Phrase在所有新聞中出現(xiàn)的累計(jì)總次數(shù).
先對(duì)評(píng)論中出現(xiàn)的詞進(jìn)行打分,然后按S1的得分進(jìn)行排序,設(shè)定S1(Phrase)不小于最小分?jǐn)?shù)min(Phrase)(設(shè)為3),在滿足條件的語料中再按S2的得分進(jìn)行排序,S2(Phrase)的最小分?jǐn)?shù)min(Phrase)也不得小于3,得分較高的標(biāo)注為高頻特征詞.考慮到這些情感特征詞中仍有大量的噪音和不規(guī)范的地方,因此再進(jìn)行人工篩選排除,對(duì)特征詞進(jìn)行情感傾向標(biāo)注,最終得到正向情感語料庫(PBF)和負(fù)向情感語料庫(NBF)合成的初級(jí)情感語料庫(BF).
考慮到直接使用初級(jí)情感語料庫難免會(huì)使召回率過低,不能達(dá)到很好的效果,因此我們運(yùn)用模糊理論擴(kuò)充初級(jí)情感語料庫(BF)得到模糊情感語料庫(GF),本文主要對(duì)語料庫中的形容詞和副詞進(jìn)行同位詞擴(kuò)充.
由語言變量的定義可知,語言變量的辭義M可以看成論域上的一個(gè)模糊集合M(x).本文應(yīng)用模糊集合對(duì)提取的網(wǎng)絡(luò)新聞評(píng)論情感特征詞中的形容詞和副詞作為語言變量進(jìn)行了情感語義模糊化處理,其中在可行域上擴(kuò)充的特征詞的褒貶程度分別用G(好,Good)、B(壞,Bad)表示,擴(kuò)充情感詞的強(qiáng)度由小到大依次表示為S(少)、M(中)、L(大)、VL(極),中間沒有情感傾向的特征詞表示為Z.我們選出的情感特征詞分別擴(kuò)充為VLB、LB、MB、SB、Z、SG、MG、LG、VLG 9個(gè)級(jí)別,分別表示極度貶義、相對(duì)貶義、貶義、略有貶義、中性、略有褒義、褒義、相對(duì)褒義、極度褒義,每個(gè)都對(duì)應(yīng)一個(gè)模糊隸屬度函數(shù),這里我們稱為初級(jí)擴(kuò)充模糊集,如圖1.

圖1表示在Matlab模糊工具箱中擴(kuò)充情感詞褒貶程度的初級(jí)擴(kuò)充模糊集.針對(duì)上述各級(jí)別建立了擴(kuò)充模糊集,因此高斯函數(shù)型的模糊隸屬度函數(shù)在定義域[-4,4]上表示為
(3)
式中σw、cw為模糊隸屬度函數(shù)的參數(shù),其情感級(jí)別與w的取值相對(duì)應(yīng),其中w∈{VLB,LB,MB,SB,Z,SG,MG,LG,VLG};擴(kuò)充的情感特征詞語的程度值用x來表示;y表示相應(yīng)的情感評(píng)價(jià)詞程度的隸屬度;當(dāng)x=cw時(shí),y=1,得σw=0.4,當(dāng)y越接近于1時(shí),表示情感特征詞隸屬于這一情感級(jí)別的程度就越大.
在北京大學(xué)研制的數(shù)據(jù)庫NTCIR-6中就定義了1 241萬個(gè)詞與詞之間的同位關(guān)系和情感遞進(jìn)關(guān)系,同時(shí)還記錄了它們之間的匹配次數(shù)(MacthCnt)和同位關(guān)系之間的置信度[4].本文對(duì)初級(jí)情感語料庫中形容詞和副詞都進(jìn)行了語義模糊擴(kuò)充,用自動(dòng)驗(yàn)證的方法來檢查這些擴(kuò)充的情感特征詞匯.我們把每一個(gè)擴(kuò)充得到的候選特征詞的同位正向詞數(shù)(P)與負(fù)向擴(kuò)充詞數(shù)(N)進(jìn)行比較,滿足P>N且P>=min(Phrase)時(shí),即歸為正向模糊情感語料庫;N>P且N>=min(Phrase)時(shí),歸為負(fù)向情感語料庫.這樣經(jīng)過過濾后的正負(fù)擴(kuò)充模糊語料庫與初級(jí)情感語料庫構(gòu)成了模糊情感語料庫(GF).
本文針對(duì)搜狐網(wǎng)近期最熱的新聞事件《10歲女孩電梯內(nèi)摔打1歲半男童 疑似將其扔下25樓》,截止到2013年12月9日有111 372次瀏覽,19 075人評(píng)論跟帖;網(wǎng)易新聞網(wǎng)《重慶長壽法院受理”女孩拋童”案 原告索賠30萬元》參與人數(shù)為121 298人,評(píng)論有13 731條;人民網(wǎng)《重慶摔打男童案 女孩稱陽臺(tái)逗玩致其墜落》共有157 956人關(guān)注,585人評(píng)論,共計(jì)收集新聞評(píng)論33 391條,經(jīng)過人工篩選出與新聞主題無關(guān)和無感情傾向的語句2 894條后,從中抽取10 000條作為訓(xùn)練語料.
本文采用哈工大信息檢索實(shí)驗(yàn)室的分詞系統(tǒng),對(duì)語料進(jìn)行了詞性的標(biāo)注,用其開發(fā)的漢語句法分析器DeParser對(duì)句子進(jìn)行分析.實(shí)驗(yàn)中用本文的特征詞提取方法對(duì)比了基于句法分析提取詞性因素作為特征詞的方法,對(duì)比實(shí)驗(yàn)提取的詞性因素為形容詞、副詞、動(dòng)詞和名詞4類[5],從而構(gòu)建了通用情感特征詞表(GC)(如表1).

表1 特征詞提取的例詞
針對(duì)特征詞的情感極性分類,本文采用了基礎(chǔ)情感字典,主要基于知網(wǎng)[6]、《褒義詞詞典》、《貶義詞詞典》[7]為主,選用的基礎(chǔ)情感詞典中共有情感詞匯 5 281 個(gè),其中有 2 807 個(gè)褒義詞,有 2 474 個(gè)貶義詞.同時(shí)采用SVM和樸素貝葉斯[8]2種分類方法對(duì)語料進(jìn)行分類處理,對(duì)比評(píng)價(jià)指標(biāo),結(jié)果顯示本文對(duì)新聞評(píng)論內(nèi)容情感特征提取的方法要優(yōu)于根據(jù)詞性對(duì)文本內(nèi)的特征詞的提取,而且NB分類方法也略微好于SVM分類方法.實(shí)驗(yàn)流程如圖2所示.

實(shí)驗(yàn)采用Precisiom(查準(zhǔn)率)和Recall(召回率)作為評(píng)價(jià)分類結(jié)果的指標(biāo),用樸素貝葉斯分類方法和SVM分類方法對(duì)不同的特征提取方法形成的語料庫進(jìn)行評(píng)測(cè)時(shí),公式如下:
(4)
(5)
其中True(ci)是分類為ci并且正確的文檔數(shù),Response(ci)是分類為ci的文檔數(shù)[9].
用樸素貝葉斯分類方法從中提取了1 493個(gè)特征詞,其中正向詞155個(gè),負(fù)向詞1 338個(gè);用SVM分類方法提取的特征詞為1 342,正向詞為132個(gè),負(fù)向詞為1 210個(gè).從實(shí)驗(yàn)結(jié)果中的召回率和準(zhǔn)確率進(jìn)行對(duì)比可知,樸素貝葉斯分類方法較適合用于新聞評(píng)論的情感分類研究,NB模型比SVM模型的召回率高出接近2%.而且本文對(duì)情感特征詞的提取方法也比傳統(tǒng)研究中根據(jù)詞性提取關(guān)鍵詞的方法好很多,如表2.

表2 模糊情感特征詞庫(GF)和通用情感特征詞庫(GC)的實(shí)驗(yàn)對(duì)比結(jié)果
本文主要研究了網(wǎng)絡(luò)新聞評(píng)論情感特征提取的難點(diǎn),從模糊語義角度對(duì)特征提取進(jìn)行了闡述,提出了用模糊理論擴(kuò)充特征詞語料庫,并且與傳統(tǒng)方法根據(jù)詞性提取的特征詞進(jìn)行了對(duì)比實(shí)驗(yàn),效果有明顯提高.
上述研究中還存在一些問題尚未得到解決:①不同主題詞和不同特征詞之間的關(guān)系識(shí)別問題;②基準(zhǔn)詞選擇的準(zhǔn)確性問題,它直接影響到詞匯傾向性分析的結(jié)果.通常基準(zhǔn)詞的選定是由研究者決定,具有較大的不客觀性和不確定性,優(yōu)化和度量基準(zhǔn)詞的選擇方法是重要的研究課題.本文今后的研究將會(huì)基于初級(jí)擴(kuò)充模糊集對(duì)情感詞匯本體從隸屬于情感分類、極性、強(qiáng)度等角度進(jìn)行描述,構(gòu)建模糊情感細(xì)分語料庫,結(jié)合修飾詞的模糊語言算子等方法對(duì)每條新聞評(píng)價(jià)的情感值進(jìn)行模糊計(jì)算,通過對(duì)大量特征詞情感值的綜合計(jì)算得到網(wǎng)絡(luò)評(píng)論者對(duì)新聞事件的情感傾向,分析出大量用戶對(duì)某一情感目標(biāo)的主要情感傾向等.
參考文獻(xiàn):
[1] 王代強(qiáng),李旭曜.我國網(wǎng)絡(luò)新聞評(píng)論文獻(xiàn)綜述[J].新聞與傳播研究,2011(7):16-18.
[2] ZADEH L A. Fuzzy sets[J].Information and Control, 1965, 8(3):338-353.
[3] 劉穎.基于消費(fèi)者網(wǎng)絡(luò)評(píng)論情感的產(chǎn)品模糊推理研究[D].大連:大連理工大學(xué),2010.
[4] 陶富民,高軍,周凱.面向話題的新聞評(píng)論的情感特征選取[J]. 中文信息學(xué)報(bào),2010 (03):37-43.
[5] 婁德成,姚天防.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(11):622-625.
[6] JINDAL N, LIU B. Identifying comparative sentences in text document[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press, 2006:24-251.
[7] LIN,WU D D. Using text mining and sentiment an analysis for online forums hotspot detection and forecast [J].Decision Support Systems,2010(48):354-386.
[8] 楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27 (10):3737-3739.
[9] 王素格,李偉.面向中日關(guān)系論壇的情感分類問題研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(32):174-177.