楊欣 群諾 郭龍銀 孟姚媛



摘? 要: 針對藏文情感分析的要求,建立藏文情感語料庫。建庫主要分三大步驟,爬取原始語料、開發標注平臺、建立結構化語料。在標注體系上,糅合并參考英文和中文中相對優秀的情感語料庫的標注體系的優點,結合藏文情感文本的特點,建立藏文情感語料標注規范。實驗表明,該語料庫具有擴展性和實用性,在該標注平臺上標注藏語詞句能減輕標注人員工作量,同時有效建立結構化語料,滿足情感分析需求。
關鍵詞: 藏文; 情感語料庫; 標注平臺; 情感標注
中圖分類號:TP319? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)09-05-03
Construction and analysis of Tibetan emotional corpus
Yang Xin, Qun Nuo, Guo Longyin, Meng Yaoyuan
(School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)
Abstract: A Tibetan emotional corpus was established for the requirements of Tibetan sentiment analysis. There are three main steps in building a database, crawling the original corpus, developing an annotation platform, and establishing a structured corpus. On the labeling system, combines the advantages of the labeling system of the relatively good emotional corpus in English and Chinese, and combines the characteristics of Tibetan emotional text to establish the Tibetan emotional corpus labeling specification. Experiments show that the corpus is extensible and practical, and labeling Tibetan words and phrases on the labeling platform can reduce the workload of the labeling staff, and effectively establish structured corpus to meet the needs of sentiment analysis.
Key words: Tibetan; emotional corpus; labeling platform; sentiment tagging
0 引言
語料庫是存儲于計算機中并可利用計算機進行檢索、查詢、分析的語言素材總體[1]。隨著互聯網的發展,藏語情感語料層出不窮,例如從電子書上的文章,社交軟件的信息,論壇網站和app上的評論,這些信息帶有復雜的情感傾向。收集和訓練這些語料,將其作為情感分析的語料庫,在實際中可用于輿情監測和輿情分析。在文本情感語料庫建設方面,目前已有的英文語料庫包括Pang語料庫[2],Whissell語料庫[3],Berardinelli電影評論語料庫[4],產品評論語料庫[5]等等。但是藏文的情感分析研究目前還處于初步階段,沒有統一的情感語料庫標注規范,也沒有統一的測試標準,因此構建一個良好規范體系的藏文情感語料庫已成為研究的首要任務。本文制定藏文情感語料庫的標注規范,設計并實現藏文情感標注平臺,建立結構化語言,為后續的研究工作提供基礎條件。
1 原始語料收集
我們使用爬蟲進行網站上的信息收集。我們使用Python3制作腳本,我們分析網頁結構,找到想要數據的地址,分析出數據地址與html5其他標簽的不同。之后,我們再使用正則表達式精準匹配到我們所需要資源的地址,從而得到相應的數據,最后清洗數據,將非藏文的其他語言去除。
2 語料庫的標注體系
語料庫是以是以自然交互的方式產生的機器可讀文本的集合[1]。而情感語料庫是將文本的語義和情感一一單獨標注使得具有標注性質的機器可讀,且情感的標注要有限的種類和明確的情感傾向性。
標注要有相應的規范,而在情感標注規范中,對情感種類和傾向性也有要求,如果類別劃分過粗,就不能全面、細致地描述語言的復雜現象;但如果類別劃分過細、標注信息過于龐大,不但會增加標注難度、降低標注效率,關系之間只有細微差別的情況也會使標注結果呈現嚴重的不一致性[6]。因此需要權衡現有的情感分析的要求和標注規范的局限性,而為了保證情感傾向的直接性以及標注的快速性和單文本的數量,我們選擇句子級別的情感標注。
在標注規范的基礎上,我們確立標注體系,即情感種類和結構化的標注,情感種類參考大連理工大學的情感語料標注種類共分8大類和21小類。
在情感類別劃分之后,標注也有諸多問題。例如??????????????????????????????????????????????????????????????(今天,我要給妻子一個驚喜)對于情感所有者以及句子整體而言更適合標注為“好”。還有情感類別可能不僅僅是一種,例如????????????????????????????????????????????????????????????????????????????????????????????????????????(這個禮物太驚喜了,我期望很久了,好感動),對于這類句子,情感類別應該比較出程度最高的,對于情感標注而言禮物若是滿足人的需求的更傾向于“樂”,若是滿足人的遺憾的,更傾向于“好”。綜合體系和要求,我們設計了如下的句子模型Sentence(line_index,topic,source,time,owner,recipient,label,rehetorical,degree_word,negative _word,sentence,)。句子模型描述了語料庫需要收集的信息。Line_index就是給所標的句子賦予主碼,topic為評論主題或文章題目,sourse為來源地,time為標記時間,owner為情感所有者,recipient為情感接受者,label為情感類別(可以不止一個排序由高到低),rehetorical修辭方法,degree_word程度副詞,negative_word否定詞,sentence為句子主題。
3 結構化語言
標注結果的保存方式有很多種,常見的有數據庫保存(其容量很大滿足構建大語料庫的需求)和格式文件保存(xml等),本文利用xml格式文件保存標注后的結果。Xml文件的結構化使得文本標注簡潔而明了,利用Python的xml庫可以很方便地寫XML文件和解析XML文件,xml首先將XML文件讀人內存,然后在內存構建一個樹狀結構,通過遍歷這棵樹可以快速地得到每一個節點的值[3]。xml庫,所建立的結構如下:
<?xml version="1.0" encoding="UTF-8"?>
第一行表示xml版本以及編碼格式。藏文適用于utf-8,格式為一個標注屬性的開始和結束,senti_corpus為根元素,為子元素。
4 情感標注平臺的設計
情感標注平臺主要是顯示語料、標注語料以及存儲成結構化語言,具體流程如圖3,顯示語料:打開語料,遍歷其中的所有文本,文本內容直接顯示在屏幕上。標注語料:在平臺的右側有標注標簽,各標簽文本框用藏文顯示屬性的所有取值并用數字排列,但topic、source在打開文本時根據文本名和文件夾名生成,Line_index、time將在存儲時產生,便于標注人員的工作,標注人員只需按順序將標注屬性名和屬性中的數字編號依次寫下,導出時后臺自動在每一句后面識別標簽并轉換成xml文檔。平臺具體窗口如圖4。
5 實驗分析
從網站獲取的藏語語料有效度較低,內容極為雜亂,有效語料不足總體的30%。綜合總有效預料為23444條。為了測試本文設計的標注平臺,總共標了4723條語句,其中無情感語句占到54%,懼和驚占比較少,分別為4%和2%。其中每一個類別包含的語句數目如圖5所示。
實驗結果顯示,本語料庫的標注體系具有可擴展性且歧義較少,平臺的顯示、標注、存儲功能無誤,較大程度的降低了標注人員的工作量。
6 結束語
本語料庫收集了23444條,已標注語句4723條,確立了標注規范和體系,開發了人工標注平臺, xml語料已投入極性情感分析。但構建大型的語料庫才能提高情感分析算法的有效性和研究深度。本語料目前較大的問題在于藏文的否定詞、程度詞、修辭手法概括不足,需要標注人員匯報整理,本文還將繼續擴充語料,加入質量檢測,優化標注平臺功能以提高標注速度,如有需求也會改善標注體系,進一步切合藏文語種,改善xml文檔。總之,本語料庫將為深度情感分析的研究而不斷努力和改善。
參考文獻(References):
[1] 徐琳宏,林鴻飛,趙晶.情感語料庫的構建和分析[J].中文信息學報,2008.1:116-122
[2] http://www.cs.cornell.edu/People/pabo/movie-reviewdata/[DB/OL].
[3] Theologos Athanaselis,Stelios Bakamidis,and Ioannis- Dologlou.Recognizing Verbal Content of Emotionally-Colored Speech [A].European Signal Processing-Conference[C]. 2006.
[4] http://www.reelviews.net/[DB/OL].
[5] http://epinions.com/[DB/OL].
[6] Zhou X.,Hu X.,Zhang X..Using Concept-BasedIndexing to Improve Language Modeling Approach toGenomic IR[ A]. ECIR 2006[ C]. LNCS 3936,2006:444-455
[7] 伊爾夏提·吐爾貢,吾守爾·斯拉木,熱西旦木·吐爾洪太,于清.維吾爾文情感語料庫的構建與分析[J].中文信息學報,2017.31(1):177-183,191