999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感詞典的藏語文本句子情感分類

2018-04-16 07:53:38閆曉東
中文信息學報 2018年2期
關鍵詞:分類文本情感

閆曉東 黃 濤

(1.中央民族大學 信息工程學院,北京 100081;2.國家語言資源監測與研究少數民族語言中心,北京 100081)

0 引言

隨著 Web 2.0 的蓬勃發展,用戶參與網站內容的制造,互聯網上產生了大量的用戶參與的、對于諸如人物、事件、產品等有價值的評論信息。潛在的用戶就可以通過分析這些信息,挖掘人們對某一事物的觀點和看法,從而進行有效的商業決策、政治決策等。處理如此海量的數據,采用人工的方式是難以勝任的,如何借助計算機幫助用戶快速地對這些網絡文本進行自動分析處理,提取出有用的情感信息已成為當下許多研究人員的研究重點。文本情感分析就是對帶有情感色彩的詞語、句子以及文本進行分析、處理、歸納和處置的過程[1]。目前,對中英文文本情感分類方面的研究相對成熟。但是,藏語文本的情感傾向性分析的研究相對滯后。而隨著藏文網頁和藏文數字圖書館等網絡信息的內容日漸豐富,越來越多的藏族同胞在網上用藏文表達自己的觀點和看法,藏語文本的情感性分析已成為迫在眉睫的研究課題。在句子情感傾向分析的基礎上,可以很方便地進行篇章的情感傾向分析,甚至可以得到海量信息的整體傾向性態勢,因此,句子級別的情感分類具有重要的研究價值,也是本文的研究重點。

1 相關工作

情感分類是自然語言處理方向的熱點之一,國內外已經有很多關于文本情感分類的研究。總的來說,可以分為基于機器學習的方法和基于情感詞典的方法。機器學習方法的基本思想是根據已知訓練樣本求取對系統輸入輸出之間依賴關系的估計,使它能夠對未知輸出作出盡可能準確的預測。2002年,Pang等人[2]使用常用的機器學習技術進行傾向性判斷,比較支持向量機(SVM)、樸素貝葉斯(NB)、最大熵三種方法的傾向性判斷效果,實驗表明SVM的分類效果最好。文獻[3]針對新聞文本的分類進行研究,分別利用樸素貝葉斯方法和最大熵方法將新聞文本分為正面情感類和負面情感類,并采用詞頻和二值作為特征項權重,最終取得了較好的分類效果,最高分類準確率達到90% 以上。基于情感詞典或知識系統的方法,利用已有的語義詞典,通過判定句子中包含情感詞的語義傾向,加上句法結構等信息,間接得到句子的情感傾向[4]。Riloff和Shepherd[5-8]提出了一種基于語料的方法,通過構建情感詞典來實現情感分類。之后Riloff和Wiebe[9-11]運用 Bootstrapping算法,用文本中的代名詞、動詞、形容詞、副詞等元素作為特征,還依照段落中句子位置的不同給予不同的對待,來實現對語料數據的主客觀分類。朱嫣嵐[12]等在文獻中通過人工構建正負種子情感詞的詞集,利用HowNet計算候選詞語與種子情感詞之間的語義相似度來確定其情感極性。

藏語文本情感分類方面,國內外的研究都尚未成熟,相關的文獻資料也非常有限。文獻[13] 采用藏語三級切分體系對藏語文本進行分詞和詞性標注,并借助手工建立的藏文情感分析用詞表,與已有的特征選擇方法相結合提取情感特征,用相似度分類算法進行藏文文本的情感分類。文獻[14]采用基于統計和基于詞典相結合的方法對藏文微博進行情感分析,發現該方法的準確率明顯高于基于TF-IDF的藏文微博情感分析的準確率。

針對藏語語料庫本身的缺乏,難以進行復雜模型的訓練,也無法進行橫向對比,基于藏語結構的特殊性,本文提出了一種基于情感詞詞典的藏語文本句子情感分類的方法,首先構造了基礎的藏語情感詞詞典、否定詞詞典、雙重否定詞詞典、程度副詞詞典、轉折詞詞典,然后基于這些詞典,針對藏語文本的特征,構建了一個適合藏語文本情感分類的規則集,最后使用這個規則集對藏語文本句子進行情感分類。

2 情感詞典的構建

極性詞典是文本情感分析的基礎。利用高質量的情感詞典,實際的應用系統采用簡單快速的方法就可以得到很好的效果。由于藏文信息處理起步較晚,相關的標注語料較為有限,另外藏語也沒有像中文(HowNet)和英文(WordNet)那樣具有揭示概念與概念之間以及概念與屬性之間的關系為基本內容的常識知識庫,因此本文通過純手工的方法構造研究所需的藏語情感詞典。

2.1 基準情感詞典的構建

情感詞又稱為極性詞,在人們表達情感中起著非常重要的作用,雖然有些詞語在不同的語境里意義有一定的差異,有些甚至截然相反,如“你好厲害呀,居然每道題都做對了”和“你看你損人好厲害啊”,前者所表述的意思是對方的優點,即學習能力很強,而后者想要表述的意思是對方的缺點,即品德不好。但總的來說,大部分情感詞在表達情感的時候沒有太大的差異。因此,構建一個基礎情感詞典是十分重要的。

為了能夠比較完善地擴展基礎情感詞典,本文從當前比較健全的藏語大詞典中找出情感色彩較為濃厚的詞語,通過人工標注,將情感詞分為正向情感詞和負向情感詞,并參照大連理工大學的中文極性詞典的極性強度標準給情感詞標注極性強度,多次校對后將其加入到基礎情感詞典中。情感強度以數值1、3、5、7、9劃分為五個強度等級并用于情感值計算,9表示情感強度最大、最強烈,1表示情感強度最小;情感極性以1代表褒義正向,2代表貶義負向。經統計,該基礎情感詞典一共包含2 306個情感詞,其中正向情感詞1 136個,負向情感詞1 170個。情感詞典具體格式如表1所示。

表1 情感詞典格式

2.2 否定詞典和雙重否定詞典的構建

否定詞(NA)和雙重否定詞(DNA)在基于規則的藏語情感判別中有著至關重要的地位,若是只考慮情感詞,在很多情況下計算出來的情感傾向會與實際的情感傾向完全相反,如“(干凈)”和“(不干凈)”。否定詞使得詞的情感極性發生改變,雙重否定詞不改變情感極性,但情感語氣有加強的作用。借鑒文獻[15],我們構建并完善了否定詞詞典和雙重否定詞詞典,如表2所示。

表2 否定詞詞典和雙重否定詞詞典示例

其中,否定詞的總個數為26,雙重否定詞的總個數為11。

2.3 程度副詞詞典和轉折詞詞典的構建

表3 程度副詞詞典和轉折詞詞典示例

其中,程度副詞的個數為71,轉折詞的個數為6。此外,不同的程度副詞具有不同的程度量,本文根據程度的大小把程度副詞分成高、中和低三類,其數量分別為40、5、26。

3 藏語句子情感分類

3.1 情感短語識別和極性計算

本文基于所構建的情感詞詞典以及程度副詞、否定副詞等修飾詞詞典,并根據藏語文本的結構特征,對句子中的情感短語進行識別。在藏語中程度副詞位于被修飾詞前,而與中文及英文不同的是,藏語的否定詞可能位于被修飾詞的前面構成否定短語,也可能位于被修飾詞的后面;或者被修飾詞前面后面同時存在,構成雙重否定句。對于一個含有情感詞語的藏語情感文本,首先查看情感詞前面的詞語是否屬于程度副詞詞典或否定詞詞典,再查看情感詞后面的詞語是否屬于否定或雙重否定詞詞典,如果有一個匹配成功,則獲取這個詞組作為情感短語。

文獻[16-17]對中文副詞連用進行了細致地研究,本文借鑒其思想并結合藏語的特點,將極性詞與其修飾詞構成極性短語,并給出了極性強度的計算公式,如表4所示。

表4 情感短語的極性計算

3.2 藏語句子情感計算

(1) 未識別出轉折詞

在句中未識別出轉折詞,句子的情感值按照式(1)來計算。

(1)

E(S)代表未識別出轉折詞的句子在經過情感計算后最終的情感值。E(Gi)表示的是句子中第i個情感短語的情感權重值。

(2) 識別出轉折詞

在絕大多數含有轉折詞的句子中,轉折詞的個數只有一個,因此這里討論只含有一個轉折詞的句子。如果轉折詞前、后都有情感詞,則反轉轉折詞之前的情感詞極性;如果轉折詞之前有情感詞,轉折詞之后沒有情感詞,則反轉該情感詞的極性;如果轉折詞之前沒有情感詞,之后有情感詞,則對該情感詞的情感分值倍乘一定的權值。計算如式(2)所示。

(2)

E(S)代表句中識別出轉折詞的句子在經過情感計算后最終的情感。Sb表示句中轉折詞前面那一部分子句,Sa表示句中轉折詞后面那部分子句。

對于一個待判定的藏文句子,其情感得分的絕對值大小表示情感的強度,若其情感得分為負值,我們認為其極性為消極;若其情感得分為正值,則將其判定為積極;若情感得分為零,則認為該句子是中性的。

4 實驗結果及分析

4.1 實驗數據

在少數民族語言方面尚無公開的語料,對少數民族語言評測的準確率也尚無標準。而且由于少數民族語言的使用范圍小和掌握人數較少,對語料的標注工作也有很大的困難。本文通過從各大藏語論壇,藏語微博中收集了一個用于情感分類測試的文本語料庫,經過統計,該語料庫的藏語句子數目一共為988句,其中包括423個正向句子、376個負向句子,以及189個中性句子。此外,在非中性句子中,包含情感短語的句子有134個,轉折詞的句子有57個,只包含情感詞的句子有608個。

4.2 實驗評價指標

本文所采用的評價指標為準確率P、召回率R和F值,這也是在自然語言處理中經常采用的三個實驗評測指標。準確率是測試得到的情感句子總數與測試得到的句子總數的比率,衡量的是檢索系統的查準率,計算如式(3)所示。

(3)

召回率(recall rate),另名查全率,是測試得到的結果中正確情感句子數和測試語料中所有的情感句子總數的比率,衡量的是模型系統的查全率,如式(4)所示。

(4)

F值通過召回率R和準確率P計算得到,是一項新的評價指標如式(5)所示。

(5)

4.3 實驗結果及分析

本文在以上所描述的情感分類算法的基礎上,用Java實現了藏語句子情感分類系統。為了驗證本文所提出的情感分類算法的有效性,我們使用所有資源語料進行情感分類測試實驗。實驗測試結果如表5所示。

從表5實驗結果可以發現,本文提出的基于情感詞典的藏語文本句子情感分類方法在一定程度上可以對藏文句子進行情感分類。其中,中性類別的召回率達到95.76%,但其準確率只有67.53%,說明有很多帶有情感的句子沒有被系統識別出來,并被錯誤判定為中性。究其原因,應該是本文構建的藏文情感詞典的規模不夠大,覆蓋率不夠高。

5 總結與展望

本文構建了一個用于藏語句子情感分析的極性詞典,將修飾詞和極性詞構成極性短語作為極性計算的基本單元,并考慮了轉折詞對藏語句子情感極性的影響,提出了一種基于詞典的情感分析方法,取得了不錯的效果。然而本文是采用人工的方法建立情感詞詞典,這種方法在一定程度上費時費力,僅靠情感詞詞典匹配的方法來完成藏語句子情感分類是不夠的。因此,下一步研究工作主要有:改善現有的關鍵詞匹配算法,提高情感詞典的自動擴建能力等。

[1]趙妍妍,秦兵,劉挺.文本情感分析綜述[J].軟件學報,2010, 21(8):1834-1848.

[2]Pang B,Leeand L,Vaithyanathan S.Thumbsup Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of EMNLP’02,2002.

[3]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報, 2007, 21(6):95-100.

[4]李鋼,程洋洋,寇廣增.句子情感分析及其關鍵問題 [J] .圖書情報工作, 2010, 54(11):114-117.

[5]Riloff E,Shepherd J.A corpus-based approach for building semantic lexicons[C]//Proceedings of the Second Conference on Empirical Methods in Natural Language Processing,1997:117-124.

[6]Riloff E,Shepherd J.A corpus-based bootstrapping algorithm for semi-automated semantic lexicon construction[J].Journal of Natural Language Engineering,1999,5(2):147-156.

[7]Riloff E,Wiebe J, Phillips W.Exploiting subjectivity classification to improve Information extraction[C]//Proceedings of the 20th National Conferenceon Artificial Intelligence(AAAI-05),2005.

[8]Riloff E,Patwardhan S,Wiebe J.Feature subsumption for opinion analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing(EMNLP-06),2006.

[9]Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[C]//Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing,2003:105-112.

[10]Wiebe J,Riloff E.Finding mutual benefit between Subjectivity analysisand information extraction[J].IEEE Transactions on Affective Computing,2011,2(4):175-191.

[11]Riloff E,Wiebe J,Wilson T.Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the Seventh Conference on Natural Language Learning(CoNLL-2003),2003.

[12]朱嫣嵐,閔錦,周雅倩,等.基于 HowNet 的詞匯語義傾向計算[J].中文信息學報,2006,20(1):16-22.

[13]李海剛,于洪志.藏文文本情感分類系統設計[J].甘肅科技縱橫,2011,40(01):106-107.

[14]張俊,李應興.基于情感詞典的藏文微博情感分析研究[J].科技創新論壇,2014,220-222.

[15]杜雪峰.藏文句子傾向性分析研究[D].北京:中央民族大學碩士學位論文,2015.

[16]尹洪波.否定詞與副詞共現的句法語義研究[D].北京:中國社會科學院研究生院博士學位論文, 2008.

[17]黃濤.藏文短文本情感傾向性分析研究[D].北京:中央民族大學碩士學位論文,2017.

閆曉東(1973—),博士,副教授,主要研究領域為少數民族語言信息化處理、自然語言處理。E-mail:yanxd3244@sina.com

黃濤(1992—),碩士研究生,主要研究領域為少數民族語言信息化處理。E-mail:274185218@qq.com

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 久久婷婷色综合老司机| 欧美日韩精品一区二区在线线| 国产成人一级| 日韩乱码免费一区二区三区| 久久久波多野结衣av一区二区| 国产女人在线视频| 欧美成一级| 欧美在线视频不卡第一页| 午夜影院a级片| 伊人久久婷婷| 国产aⅴ无码专区亚洲av综合网| 毛片手机在线看| 国产午夜小视频| 日韩在线成年视频人网站观看| 999福利激情视频| 99视频在线观看免费| 成人免费一级片| 欧美在线国产| 丰满人妻一区二区三区视频| 欧美一区二区丝袜高跟鞋| 久久伊人久久亚洲综合| 亚洲欧洲自拍拍偷午夜色无码| 国产国产人免费视频成18| 18禁黄无遮挡免费动漫网站| 激情综合激情| 国产精品香蕉在线观看不卡| 又黄又爽视频好爽视频| 亚洲精品色AV无码看| 少妇精品在线| 在线观看国产精美视频| 色135综合网| 88av在线播放| 草草影院国产第一页| 精品久久久久久成人AV| 久久熟女AV| 日本久久久久久免费网络| 最新亚洲人成无码网站欣赏网| 日韩不卡高清视频| 日韩欧美视频第一区在线观看| 91精品视频播放| 毛片最新网址| 亚洲动漫h| 91精品亚洲| 亚洲美女视频一区| 久久女人网| 青青操视频免费观看| 激情网址在线观看| 久久国产精品嫖妓| 日韩精品无码一级毛片免费| 高清无码一本到东京热| 九色在线观看视频| 久久精品这里只有国产中文精品| 青青青草国产| 亚洲六月丁香六月婷婷蜜芽| 啪啪永久免费av| 中文字幕 日韩 欧美| 亚洲日本韩在线观看| 亚洲第一精品福利| 亚洲视频一区| 免费aa毛片| 一级毛片在线免费看| av在线5g无码天天| 99热这里只有精品久久免费| 国产一区三区二区中文在线| 老汉色老汉首页a亚洲| 少妇精品在线| 99re视频在线| 日日噜噜夜夜狠狠视频| 91丝袜乱伦| 精品无码国产自产野外拍在线| 精品国产香蕉伊思人在线| 亚洲综合婷婷激情| 精品视频免费在线| 国产精品任我爽爆在线播放6080| 1级黄色毛片| 狠狠v日韩v欧美v| 91精品国产91欠久久久久| 91小视频版在线观看www| av大片在线无码免费| 青青青视频免费一区二区| V一区无码内射国产| 国产在线一区视频|