摘" 要: 針對藏文情感分析領域中缺乏相應的基礎訓練語料庫、模型又需要大量的數據做支撐、傳統的人工標注需要耗費大量的人力物力資源且普適性不高的情況,構建了細粒度的藏文情感語料庫和情感詞典。首先由三人分別對每一個詞進行情感強度標注,其次將語料和詞典按規則進行匹配,最后以情感強度平均得分來表示文本的情感類別。本文所構建的細粒度情感語料資源,在一定程度上能夠縮短海量標注語料庫的開發周期,并降低語料標注的人工成本。
關鍵詞: 藏文情感語料庫; 細粒度情感; 情感強度; 自動標注
中圖分類號:TP391.1;TP392" " " " " 文獻標識碼:A" " " 文章編號:1006-8228(2023)12-167-04
Research on the construction and automatic annotation
method of Tibetan sentiment corpus
Jian Yangcuo1,2,3, Anjian Cairang1,2,3
(1. School of Computer Science, Qinghai University for Nationalities, Xining, Qinghai 810007, China; 2. State Key Laboratory of Tibetan Intelligent Information Processing and Application; 3. Qinghai Provincial Key Laboratory of Tibetan Information Processing and Machine translation)
Abstract: In the field of Tibetan sentiment analysis, there are problems such as a lack of corresponding basic training corpus, the need for a large amount of data to support models, the consumption of a lot of human and material resources and low universality for traditional manual annotation. To this end, a fine-grained Tibetan sentiment corpus and sentiment dictionary are constructed. Firstly, each word is annotated with sentiment intensity by three individuals. Then, the corpus and dictionary are matched according to the rules. Finally, the average score of sentiment intensity is used to represent the sentiment category of the text. The fine-grained sentiment corpus resources constructed in this paper can, to some extent, shorten the development cycle of massive annotated corpus and reduce the labor cost of corpus annotation.
Key words: Tibetan sentiment corpus; fine-grained sentiment; sentiment intensity; automatic annotation
0 引言
隨著互聯網與社交媒體的興起和不斷發展,移動平臺已成為人們信息共享和傳遞的重要平臺。越來越多的人喜歡在社交平臺上發表個人觀點及看法。在藏族地區,各種藏文網站及微信公眾號,以及抖音、快手等成為藏文網民對社會熱點關注和情感表達的平臺,由此也就產生了大量的藏文情感信息,這些文本信息能充分反映用戶的情感傾向。
目前中英文的文本情感分類研究相對成熟,但對于起步較晚的藏語自然語言處理來說研究成果有限。由于藏文的適用范圍小、藏文語料收集困難、目前還沒有公開的藏文細粒度情感語料庫供于情感分類研究,且大多是三極(積極、中性、消極)情感語料庫,這些因素導致目前藏文文本情感分析的基礎薄弱。情感語料庫數據需要標注,這也會耗費大量的人力物力資源,因此,構建藏文細粒度情感語料庫和情感自動標注方法研究是很有必要的。
1 相關工作
情感語料庫作為情感分析研究的前提,是極為重要的。目前,國內外在語料庫構建工作方面已經很成熟。
AlLaith Ali等[1]提出一種半監督自學習技術用于擴展阿拉伯語情感標注語料庫,在一定程度上彌補了缺乏大型語料庫的問題。Ban Kirigin Tajana等[2]通過整合基于語料庫的句法和引入圖傳播方法有效解決了情感詞典的稀疏性問題,豐富情感詞典中詞匯結構的情感評價。孟加拉語作為低資源語言,缺乏相應的基準語料庫,所以Iqbal MD等[3]基于此問題構建了孟加拉情感語料庫,用于開發孟加拉文本情感分類器。在構建大型語料庫的過程中,大量的標注工作又成為一大難題。易寒冰等[4]采用PMI+SKEP模型對文本進行情感傾向分析,該方法有效解決了缺少標注數據和人工標注難的問題。魏曉聰等[5]針對標注數據不足影響評論情感識別的問題構建了中文慕課情感識別語料庫,該語料庫在面向在線教育評論的情感分析方面具有重要意義。李學寧[6]借鑒SentiWordNet解決了現有詞典中極性標注存在的問題,對于情感詞標注具有一定的參考價值。
楊欣等[7]基于藏文情感分析需要大量的情感數據作為支撐的現狀,建立了結構化語料庫、開發人工標注平臺,有效的減輕了人工標注的工作量,為后續的情感分類工作提供了基礎。單睿康[8]以詞典資源匱乏限制藏文情感分析研究發展的問題,運用SO-CPMI方法構建情感詞典,來緩解藏文情感分析研究數據稀缺的問題。李多吉草[9]研究的藏語情感類詞匯和構建的情感詞匯語義知識庫,對解決藏語情感語料庫以及情感詞典語義知識庫欠缺的問題有一定程度的幫助。然而在藏文的情感語料自動標注方面還有待深化研究。
2 語料庫構建
2.1 數據收集和預處理
本文語料庫中收集的文本覆蓋了文學、經濟學、政治、藝術、娛樂服務等領域,覆蓋學科領域的廣度使得語料庫更加全面。采集工作分為自動采集和人工采集兩部分,自動采集即采用爬蟲技術從微博、藏文網站、電影評論等平臺自動爬取數據。人工采集即對現有的語料進行加工和擴充語料,滿足情感語料庫對數據的要求。
由于自動爬取的數據存在一定比例重復、多余數量的內容,像@#¥”的特殊字符和標點符號等無用信息。還有部分數據集內容無效或者跟本文情感數據庫的構建目標不相關內容都會影響語料庫質量,所以需要對特殊字符、意義相同的藏文文本數據集進行清洗。除此之外,還需判斷采集的文本是否包含豐富的情感信息,如果是,則把文本納入語料庫并保證語料庫的分析、處理以及最后的使用。
2.2 標注規范
制定良好的標注體系是保障建設過程順利進行的基礎,更是保證語料庫質量的關鍵[10]。本文參照大連理工大學中文情感詞匯本體庫里面的7大類情感(樂(?????)、好(???)、怒(?????)、哀(??????)、懼(????????)、惡(????)、驚(??????)),加上諷刺(?????))共八類情感作為標注依據。采用人工標注的方式,首先對文本按八大類情感進行分類并標注情感標簽,分別以{1},{2},{3},{4},{5},{6},{7},{8}表示。同時每個類別又劃分為快樂、安心、尊敬、贊揚、相信、喜愛、祝愿、憤怒、悲傷、失望、疚、思、慌、恐懼、羞、煩悶、憎惡、貶責、妒忌、懷疑、驚奇等情感小類,每種情感小類都隸屬于八大類別中的一種。如表1所示。
情感和情緒信息是標注的重點,其中情感信息是發言人的內在情感表達而情緒信息是發言人呈現出來的外在情緒表達。由于每個人個體意識的差異,在面對同一條文本所感受到的情感和情緒是不一樣的。因此本文的標注體系在注重選擇合理的標注粒度的同時選擇三到四人對文本進行標注,盡量平衡標注效率和標注一致性。
2.3 一致性檢測
建立高質量的標注語料庫不僅需要建立完整的標注規范和標注一致性方案,同時也需要標注人員具有相關領域的知識儲備,并對標注規范有較深層次的理解[11]。
本文在語料庫標注時,采用一人一組標注、三人合作互助的方法處理歧義。在標注過程中如果多位標注者給出了完全相同的標注結果,可以直接接受該結果;如果同一個標注任務出現多個完全不同的標注結果,則可以認為該標注任務存在歧義,需記錄問題。對于不能達成一致的歧義數據,由三人小組討論來決定其最終的情感,直到達到較高的一致性,由此,可以最大程度上保證標注的一致性和準確性。
2.4 語料庫統計
語料庫中收錄的情感文本共計6200多條,大多來源于文學作品、微博、電影評論、娛樂服務,其中電影評論中的情感信息最為明顯,其次是娛樂服務。語料庫中每一類情感文本的占比分別是:749、892、770、780、702、843、681、783,如圖2所示。
3 自動標注
3.1 構建情感詞典
本文構建的情感詞典以大連理工大學情感詞匯本體庫為基礎,通過機器翻譯得到最常見的情感詞匯,另外從藏漢大辭典篩選出來的情感詞匯加上現有的情感詞典,經過人工校對構建了藏文細粒度情感詞典。
首先對所有情感詞匯依照上文提到的八個情感大類(樂(?????)、好(???)、怒(?????)、哀(??????)、懼(????????)、惡(????)、驚(??????))、諷刺(?????))進行劃分,其次通過三個讀者對每個情感詞按照0、1、2、3四個等級標注情感的強度分數,強度值分別代表:無、弱、強、很強。具體如表2所示。
表2中呈現的三位標注者根據八種情感類別對情感詞進行強度標注,比如第一位標注者認為“??????????????”的強度應為3分,且已知是屬于“樂(?????)”情感,故在Reader1_?????下標注為3,其余的情感標為0;第二位標注者認為“??????????????”的強度應為2分,那么在Reader2_?????下標注為2,其余的情感標為0,以此類推。“諷刺(?????)”性情感在文本中通常以前后矛盾或積極情感詞和消極情感詞搭配出現,例如:“????????????????????????????????? ?????????????????????????????????”“敵人看見心里直打哆嗦,親人看到心里喜滋滋的。”類型較為復雜,沒有限定的標準。故在構建情感詞典時對“諷刺(?????)”沒有單獨劃分所屬的情感詞類。
最終構建的藏文細粒度情感詞典一共包含2000個詞條,其中程度詞、否定詞、轉折詞等搭配詞組共計63個。情感詞典的主體部分由形容詞、程度詞和動詞構成,如表3所示。
3.2 標注思路
根據詞典匹配的方法,上述構建的語料庫同細粒度情感詞典進行匹配。如果情感詞與文本匹配成功,那么去判斷文本中是否有否定詞和轉折詞,具有轉折和否定意義的表達對情感傾向影響較大,通常會造成相反的情感傾向,所以否定詞和轉折詞情感類別判斷極為重要。判斷完后,平均三個讀者的得分,用強度得分來判別文本的情感類型。如果未匹配成功,那么去判斷文本前后是否為矛盾關系或者樂和好的情感詞是否與怒、哀、懼、惡、驚的情感詞搭配存在,若是,則歸類為諷刺。由于詞典中沒有為諷刺規定其所屬的情感詞類,于是文本與詞典未匹配的情況下再去判斷該文本是否為諷刺性情感,并且滿足于上述條件后才判定此文本是含有諷刺性情感表達。情感自動標注流程如圖3所示。
4 語料庫標注結果分析
最后匹配成功的csv文件如圖4所示。
圖4中第一個分值列表依次表示標注者1(Reader1)、標注者2(Reader2)、標注者3(Reader3)的八種情感的強度值。第二個列表為三位標注者的情感強度平均分(以Reader_avg表示),也是文本最后的強度得分以及表示所屬的情感類別。
語料庫標注結果中諷刺性文本分類錯誤率較高,主要原因在于標注規則有所欠缺。由于樂和好的情感詞與怒、哀、懼、惡、驚的情感詞搭配出現的文本直接判定為諷刺情感,從而導致匹配錯誤。如“????????????????????????????? ????????????????????????????”這段句式,雖然前后并未矛盾對立,但卻是帶有諷刺情感的句子。另外情感詞匯不夠完善,導致一些新詞以及未錄入的情感詞與文本沒有匹配成功。
5 結束語
藏文情感語料庫和情感詞典在藏文情感分析領域中是極為重要但又是較為稀缺性的資源。故本文構建了帶有細粒度情感標注的藏文語料庫和情感詞典,后基于情感詞典來實現文本的自動標注。由于構建的情感詞典規模小、涵蓋面不夠廣、自動標注規則待改進。下一步,將提高帶有諷刺情感的復雜句式的判斷能力并擴充情感詞典,從而提高情感文本的標注準確率。
參考文獻(References):
[1] AlLaith Ali,Shahbaz Muhammad,Alaskar Hind F.,et al.
AraSenCorpus: A Semi-Supervised Approach for Sentiment Annotation of a Large Arabic Text Corpus[J]. Applied Sciences,2021,11(5).
[2] Ban Kirigin Tajana,Buja?i? Babi? Sanda,Perak Benedikt.
Lexical Sense Labeling and Sentiment Potential Analysis Using Corpus-Based Dependency Graph[J]. Mathematics,2021,9(12).
[3] Iqbal MD. Asif,Das Avishek,Sharif Omar,et al. BEmoC: A
Corpus for Identifying Emotion in Bengali Texts[J]. SN Computer Science,2022,3(2).
[4] 易寒冰,劉倩.一種基于自動標注語料的熱點事件情感分析
方法及應用[J].數據與計算發展前沿,2022,4(5):129-137.
[5] 魏曉聰,于瀾.中文慕課評論情感識別語料庫的構建與應用[J].
重慶理工大學學報(自然科學),2023,37(4):174-181.
[6] 李學寧.SentiWordNet情感詞標注及其對我國語文詞典的
啟示[J].煙臺大學學報(哲學社會科學版),2023,36(2):106-111.
[7] 楊欣,群諾,郭龍銀,等.藏文情感語料庫的構建與分析[J].
計算機時代,2019,No.327(9):5-7,12.
[8] 單睿康.面向短文本的藏文情感詞典自動構建研究[D].
蘭州:西北民族大學,2022.
[9] 李多吉草.藏文情感詞匯知識庫構建研究[D].蘭州:西北
民族大學,2022.
[10] 徐琳宏,劉鑫,原偉,等.俄語多模態情感語料庫的構建及
應用[J].計算機科學,2021,48(11):312-318.
[11] 王瑞民,葉婭娟,張坤麗,等.面向時政新聞文本的事件標注
語料庫構建[J].鄭州大學學報(理學版),2023,55(2):25-32.