999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文情感語料庫的構建與分析

2019-10-20 14:53:51楊欣群諾郭龍銀孟姚媛
計算機時代 2019年9期

楊欣 群諾 郭龍銀 孟姚媛

摘? 要: 針對藏文情感分析的要求,建立藏文情感語料庫。建庫主要分三大步驟,爬取原始語料、開發標注平臺、建立結構化語料。在標注體系上,糅合并參考英文和中文中相對優秀的情感語料庫的標注體系的優點,結合藏文情感文本的特點,建立藏文情感語料標注規范。實驗表明,該語料庫具有擴展性和實用性,在該標注平臺上標注藏語詞句能減輕標注人員工作量,同時有效建立結構化語料,滿足情感分析需求。

關鍵詞: 藏文; 情感語料庫; 標注平臺; 情感標注

中圖分類號:TP319? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)09-05-03

Construction and analysis of Tibetan emotional corpus

Yang Xin, Qun Nuo, Guo Longyin, Meng Yaoyuan

(School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)

Abstract: A Tibetan emotional corpus was established for the requirements of Tibetan sentiment analysis. There are three main steps in building a database, crawling the original corpus, developing an annotation platform, and establishing a structured corpus. On the labeling system, combines the advantages of the labeling system of the relatively good emotional corpus in English and Chinese, and combines the characteristics of Tibetan emotional text to establish the Tibetan emotional corpus labeling specification. Experiments show that the corpus is extensible and practical, and labeling Tibetan words and phrases on the labeling platform can reduce the workload of the labeling staff, and effectively establish structured corpus to meet the needs of sentiment analysis.

Key words: Tibetan; emotional corpus; labeling platform; sentiment tagging

0 引言

語料庫是存儲于計算機中并可利用計算機進行檢索、查詢、分析的語言素材總體[1]。隨著互聯網的發展,藏語情感語料層出不窮,例如從電子書上的文章,社交軟件的信息,論壇網站和app上的評論,這些信息帶有復雜的情感傾向。收集和訓練這些語料,將其作為情感分析的語料庫,在實際中可用于輿情監測和輿情分析。在文本情感語料庫建設方面,目前已有的英文語料庫包括Pang語料庫[2],Whissell語料庫[3],Berardinelli電影評論語料庫[4],產品評論語料庫[5]等等。但是藏文的情感分析研究目前還處于初步階段,沒有統一的情感語料庫標注規范,也沒有統一的測試標準,因此構建一個良好規范體系的藏文情感語料庫已成為研究的首要任務。本文制定藏文情感語料庫的標注規范,設計并實現藏文情感標注平臺,建立結構化語言,為后續的研究工作提供基礎條件。

1 原始語料收集

我們使用爬蟲進行網站上的信息收集。我們使用Python3制作腳本,我們分析網頁結構,找到想要數據的地址,分析出數據地址與html5其他標簽的不同。之后,我們再使用正則表達式精準匹配到我們所需要資源的地址,從而得到相應的數據,最后清洗數據,將非藏文的其他語言去除。

2 語料庫的標注體系

語料庫是以是以自然交互的方式產生的機器可讀文本的集合[1]。而情感語料庫是將文本的語義和情感一一單獨標注使得具有標注性質的機器可讀,且情感的標注要有限的種類和明確的情感傾向性。

標注要有相應的規范,而在情感標注規范中,對情感種類和傾向性也有要求,如果類別劃分過粗,就不能全面、細致地描述語言的復雜現象;但如果類別劃分過細、標注信息過于龐大,不但會增加標注難度、降低標注效率,關系之間只有細微差別的情況也會使標注結果呈現嚴重的不一致性[6]。因此需要權衡現有的情感分析的要求和標注規范的局限性,而為了保證情感傾向的直接性以及標注的快速性和單文本的數量,我們選擇句子級別的情感標注。

在標注規范的基礎上,我們確立標注體系,即情感種類和結構化的標注,情感種類參考大連理工大學的情感語料標注種類共分8大類和21小類。

在情感類別劃分之后,標注也有諸多問題。例如??????????????????????????????????????????????????????????????(今天,我要給妻子一個驚喜)對于情感所有者以及句子整體而言更適合標注為“好”。還有情感類別可能不僅僅是一種,例如????????????????????????????????????????????????????????????????????????????????????????????????????????(這個禮物太驚喜了,我期望很久了,好感動),對于這類句子,情感類別應該比較出程度最高的,對于情感標注而言禮物若是滿足人的需求的更傾向于“樂”,若是滿足人的遺憾的,更傾向于“好”。綜合體系和要求,我們設計了如下的句子模型Sentence(line_index,topic,source,time,owner,recipient,label,rehetorical,degree_word,negative _word,sentence,)。句子模型描述了語料庫需要收集的信息。Line_index就是給所標的句子賦予主碼,topic為評論主題或文章題目,sourse為來源地,time為標記時間,owner為情感所有者,recipient為情感接受者,label為情感類別(可以不止一個排序由高到低),rehetorical修辭方法,degree_word程度副詞,negative_word否定詞,sentence為句子主題。

3 結構化語言

標注結果的保存方式有很多種,常見的有數據庫保存(其容量很大滿足構建大語料庫的需求)和格式文件保存(xml等),本文利用xml格式文件保存標注后的結果。Xml文件的結構化使得文本標注簡潔而明了,利用Python的xml庫可以很方便地寫XML文件和解析XML文件,xml首先將XML文件讀人內存,然后在內存構建一個樹狀結構,通過遍歷這棵樹可以快速地得到每一個節點的值[3]。xml庫,所建立的結構如下:

<?xml version="1.0" encoding="UTF-8"?>

00001

????????????????????????????????????????????????????????

???????

??

??????

?????

??????????????????????????????????? ?????????????????????????????????????????????????

第一行表示xml版本以及編碼格式。藏文適用于utf-8,格式為一個標注屬性的開始和結束,senti_corpus為根元素,為子元素。

4 情感標注平臺的設計

情感標注平臺主要是顯示語料、標注語料以及存儲成結構化語言,具體流程如圖3,顯示語料:打開語料,遍歷其中的所有文本,文本內容直接顯示在屏幕上。標注語料:在平臺的右側有標注標簽,各標簽文本框用藏文顯示屬性的所有取值并用數字排列,但topic、source在打開文本時根據文本名和文件夾名生成,Line_index、time將在存儲時產生,便于標注人員的工作,標注人員只需按順序將標注屬性名和屬性中的數字編號依次寫下,導出時后臺自動在每一句后面識別標簽并轉換成xml文檔。平臺具體窗口如圖4。

5 實驗分析

從網站獲取的藏語語料有效度較低,內容極為雜亂,有效語料不足總體的30%。綜合總有效預料為23444條。為了測試本文設計的標注平臺,總共標了4723條語句,其中無情感語句占到54%,懼和驚占比較少,分別為4%和2%。其中每一個類別包含的語句數目如圖5所示。

實驗結果顯示,本語料庫的標注體系具有可擴展性且歧義較少,平臺的顯示、標注、存儲功能無誤,較大程度的降低了標注人員的工作量。

6 結束語

本語料庫收集了23444條,已標注語句4723條,確立了標注規范和體系,開發了人工標注平臺, xml語料已投入極性情感分析。但構建大型的語料庫才能提高情感分析算法的有效性和研究深度。本語料目前較大的問題在于藏文的否定詞、程度詞、修辭手法概括不足,需要標注人員匯報整理,本文還將繼續擴充語料,加入質量檢測,優化標注平臺功能以提高標注速度,如有需求也會改善標注體系,進一步切合藏文語種,改善xml文檔。總之,本語料庫將為深度情感分析的研究而不斷努力和改善。

參考文獻(References):

[1] 徐琳宏,林鴻飛,趙晶.情感語料庫的構建和分析[J].中文信息學報,2008.1:116-122

[2] http://www.cs.cornell.edu/People/pabo/movie-reviewdata/[DB/OL].

[3] Theologos Athanaselis,Stelios Bakamidis,and Ioannis- Dologlou.Recognizing Verbal Content of Emotionally-Colored Speech [A].European Signal Processing-Conference[C]. 2006.

[4] http://www.reelviews.net/[DB/OL].

[5] http://epinions.com/[DB/OL].

[6] Zhou X.,Hu X.,Zhang X..Using Concept-BasedIndexing to Improve Language Modeling Approach toGenomic IR[ A]. ECIR 2006[ C]. LNCS 3936,2006:444-455

[7] 伊爾夏提·吐爾貢,吾守爾·斯拉木,熱西旦木·吐爾洪太,于清.維吾爾文情感語料庫的構建與分析[J].中文信息學報,2017.31(1):177-183,191

主站蜘蛛池模板: 精品国产自在现线看久久| 无码免费试看| 久久精品国产999大香线焦| 一本无码在线观看| 欧美有码在线| 狠狠色狠狠色综合久久第一次| 啦啦啦网站在线观看a毛片| 国产麻豆aⅴ精品无码| 亚洲男人的天堂在线观看| 人禽伦免费交视频网页播放| 九九九国产| 中日韩欧亚无码视频| 中文字幕天无码久久精品视频免费 | 欧美国产精品不卡在线观看| 成人欧美日韩| 无码日韩人妻精品久久蜜桃| 精品伊人久久大香线蕉网站| 国产自在线拍| 国产区免费| 精品国产欧美精品v| 影音先锋丝袜制服| 免费看一级毛片波多结衣| 国产在线高清一级毛片| 国产性精品| 成人欧美在线观看| 国产情侣一区| 尤物特级无码毛片免费| 青青草国产在线视频| 伊人AV天堂| 亚洲午夜福利精品无码| 亚洲综合在线网| 女高中生自慰污污网站| 久久久久国产一级毛片高清板| 欧美啪啪网| 精品国产成人a在线观看| 天天婬欲婬香婬色婬视频播放| 亚洲天堂网视频| 激情無極限的亚洲一区免费| 亚洲精品老司机| 欧美黑人欧美精品刺激| 国产一区二区人大臿蕉香蕉| 国产激情无码一区二区APP| 欧美a在线| 91成人在线免费观看| 久久这里只精品国产99热8| 美女无遮挡被啪啪到高潮免费| 国产精品无码一区二区桃花视频| 丁香婷婷久久| 国产99久久亚洲综合精品西瓜tv| 怡红院美国分院一区二区| 中文国产成人精品久久一| 黑人巨大精品欧美一区二区区| 国产香蕉一区二区在线网站| 亚洲综合久久一本伊一区| 啪啪国产视频| 欧美一级专区免费大片| 性视频一区| av天堂最新版在线| AV在线麻免费观看网站| 国产一二三区在线| 97久久超碰极品视觉盛宴| 亚洲天堂成人在线观看| 国产在线拍偷自揄拍精品| 九九九国产| а∨天堂一区中文字幕| 九月婷婷亚洲综合在线| 青青青国产精品国产精品美女| 九色视频一区| 色网站在线免费观看| 欧美专区在线观看| 四虎在线高清无码| 日韩精品久久久久久久电影蜜臀| 精品国产自在现线看久久| 日韩福利在线视频| 高清精品美女在线播放| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品永久在线| 国产精品视频免费网站| 99re视频在线| 欧洲日本亚洲中文字幕| 国产屁屁影院| 亚洲无码高清一区|