999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文情感詞典構(gòu)建的現(xiàn)狀分析

2024-03-25 02:04:52才讓東知尼瑪扎西
計算機技術(shù)與發(fā)展 2024年3期
關(guān)鍵詞:詞匯分類情感

才讓東知,楊 杰,尼瑪扎西,3

(1.藏文信息技術(shù)教育部工程研究中心,西藏 拉薩 850000;2.西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;3.西藏信息化省部共建協(xié)同創(chuàng)新中心,西藏 拉薩 850000)

0 引 言

近年來,基于深度學(xué)習(xí)的多特征融合情感分析法在情感分析領(lǐng)域取得了較好的效果,其中融合情感詞特征的方法更能使模型提取文本的深層情感信息。陳釗等人[1]提出了一種結(jié)合情感詞典和卷積神經(jīng)網(wǎng)絡(luò)的情感分類方法。該文提出的相關(guān)方法在中文傾向性分析評測COAE2014數(shù)據(jù)集上取得了比當(dāng)時主流的卷積神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯、支持向量機更好的性能。韓普等人[2]提出了基于多特征和多通道的情感分析方法(MCMF-A),實驗中融合了情感詞的詞性特征和位置特征,并結(jié)合CNN、BiLSTM以及多注意力機制進(jìn)行了情感極性判斷,最終準(zhǔn)確率達(dá)到了90.45%。周寧等人[3]提出了一種基于混合詞嵌入的雙通道注意力網(wǎng)絡(luò)中文文本情感分析模型(RCBN-BM),其中RCBN通道中融合了情感詞特征,RCBN-BM在三種不同中文語料上的分類準(zhǔn)確率均達(dá)到了90%以上。2023年朱宇雷等人[4]在基于圖神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)訓(xùn)練模型的藏文短文本情感分析研究中提出了融合句子中情感詞表征的圖神經(jīng)網(wǎng)絡(luò)模型,其實驗結(jié)果證明了融合情感詞表征的藏文情感詞分類模型的準(zhǔn)確率達(dá)到98.60%,優(yōu)于其它基線模型。上述研究方法中情感詞扮演著重要角色,因此構(gòu)建一部高質(zhì)量的情感詞典是其主要的前提工作之一。

藏文情感分析起步較晚,現(xiàn)階段沒有公開的藏文情感詞典。想要通過上述融合情感詞特征的方法研究藏文情感分析,需要自行構(gòu)建藏文情感詞典,此過程中應(yīng)當(dāng)了解藏文情感詞典構(gòu)建的研究現(xiàn)狀。目前,藏文情感分析的綜述文獻(xiàn)很少,尤其針對藏文情感詞典構(gòu)建方面的綜述文獻(xiàn)極少,但藏文情感詞典構(gòu)建方面的文獻(xiàn)不少。2017年李苗苗[5]在中文情感詞典的基礎(chǔ)上利用機器翻譯方法構(gòu)建了基準(zhǔn)詞典,隨后利用word2vec、KNN擴(kuò)充等算法進(jìn)行基準(zhǔn)詞典的擴(kuò)充后構(gòu)建了一部包含5 846個情感詞的藏文情感詞典。2018年孫本旺和田芳[6]利用詞典匹配算法和人工構(gòu)建方法構(gòu)建了包含10 433個詞的藏文情感詞典,同時構(gòu)建了程度副詞、轉(zhuǎn)折詞、否定詞等輔助詞典。2019年孫本旺[7]在此基礎(chǔ)上將情感詞擴(kuò)充至27 361個。同年張瑞[8]也構(gòu)建了包含15 543個詞的藏文情感詞典。2023年朱宇雷等人[4]收集了10 995個情感詞。

為了在正式構(gòu)建藏文情感詞典的過程中找到合理的構(gòu)建方法和避免不必要的重復(fù)工作,該文將通過對比和統(tǒng)計的方法分析藏文情感詞的詞匯類別、詞典構(gòu)建的方法以及已有藏文情感詞典的詞匯量和詞匯構(gòu)成等內(nèi)容來了解藏文情感詞典構(gòu)建的研究現(xiàn)狀,希望能給未來構(gòu)建藏文情感詞典的研究人員提供一些參考。

1 情感詞的分類研究

情感詞是人們表達(dá)自己情緒、觀點、態(tài)度最常用的詞語[9]。情感詞的分類研究能使情感語料標(biāo)注體系變得更加標(biāo)準(zhǔn)化,情感詞典分類粒度會影響情感分類的效果。如果類別劃分過粗,就不能全面、細(xì)致地描述語言的復(fù)雜現(xiàn)象;但如果類別劃分過細(xì)、標(biāo)注信息過于龐大,不但會增加標(biāo)注難度、降低標(biāo)注效率,關(guān)系之間只有細(xì)微差別的情況也會使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[10]。情感詞主要分布在名詞、動詞、形容詞中。情感詞最簡單的分類方法就是褒貶或積極、消極、中性,目前常見的情感詞典中使用的分類方法也是這種粗粒度的分類方法。

在英文情感詞分類方面,Plutchik等人(1960)的情感學(xué)說中,有八種主要的感情。Ekman[11]在其所述的情緒理論中將情感劃分為六類,并將這些類別整理歸納成五大類。

中文情感詞分類的研究最早開始于中國古代西漢時期,其中針對各種禮儀論著加以輯錄對人的七情有了提及[12]。漢語《禮記·禮運》中提出了七情。《樂記》中也將情緒分為七種。中國著名文學(xué)家劉勰的《文心雕龍》和韓愈也把情緒分為七種,在不同著作中對情感的分類有細(xì)微的差別但都大同小異。近幾年在情感詞典構(gòu)建工作中經(jīng)常會出現(xiàn)7大類21小類和8大類21小類這種分類方法。心理學(xué)家林傳鼎[13]將情緒化分為18類。許小穎[14]等人將情感詞匯劃分為兩大類:基于心理感受和表現(xiàn)力,其中將基于心理感受的詞匯又劃分為24類,將基于表現(xiàn)力的情感詞匯劃分為態(tài)度詞、品性詞、聲音詞和其他。文獻(xiàn)[15]把人臉面部情感表現(xiàn)情感分為6類。文獻(xiàn)[16]將情感分為8種。文獻(xiàn)[17]將微博情感劃分為7類。文獻(xiàn)[18]中指出7大類21小類。

表1 國內(nèi)外情感分類方式對照

根據(jù)這些情感劃分,很多情感詞典研究者提出了情感詞的分類標(biāo)準(zhǔn)。但在現(xiàn)階段,對藏文情感詞沒有統(tǒng)一的分類標(biāo)準(zhǔn),這給情感詞典研究工作帶來了很大的阻礙。

2 藏文情感詞典構(gòu)建方法

情感詞典的構(gòu)建方法大致可分為兩種方式:人工構(gòu)建和人機結(jié)合構(gòu)建。目前,藏文情感詞典構(gòu)建的基本步驟是先根據(jù)已有中文情感詞典利用機器翻譯、詞典匹配等方法構(gòu)建基準(zhǔn)詞典,再利用詞向量、KNN、SO-PMI、SVM、語義相似度等方法進(jìn)行對基準(zhǔn)詞典的擴(kuò)充工作,最后通過人工校對和篩選來提高藏文情感詞典的精度。人機結(jié)合的構(gòu)建方法受研究者的青睞,也最為常見。

2.1 基準(zhǔn)詞構(gòu)建方法

基準(zhǔn)詞典的構(gòu)建是情感詞典構(gòu)建的基礎(chǔ),常用的基準(zhǔn)詞典構(gòu)建的方法主要有純?nèi)斯な占C器翻譯、詞典匹配算法等。

純?nèi)斯?gòu)建的方法耗時耗力,但有較高的可信性,現(xiàn)在這種方法使用的很少。閆曉東和黃濤[23]從藏語大詞典中人工選擇帶有情感色彩的詞,并分5個強度構(gòu)建了藏文情感詞典。基于機器翻譯的方法是把現(xiàn)有中文情感詞典中的情感詞翻譯成藏文的方式構(gòu)建基準(zhǔn)詞典。李苗苗[5]和巴桑卓瑪?shù)热薣22]先后根據(jù)大連理工大學(xué)中文情感詞匯本體庫來構(gòu)建一部藏文基準(zhǔn)情感詞典。機器翻譯方法雖然可行,但它對機器翻譯系統(tǒng)的依賴度很高。比起機器翻譯方法,詞典匹配算法的效果更好。這是因為詞典匹配是通過兩部或多部由專業(yè)人士構(gòu)建的詞典中通過關(guān)鍵詞查找對應(yīng)詞,因此其專業(yè)度也比機器翻譯得出的情感詞典的專業(yè)度高。張震[17]利用匹配算法從包含15萬常用詞的藏漢網(wǎng)絡(luò)詞典中與大連理工大學(xué)情感詞典匹配的詞對,構(gòu)建了基準(zhǔn)詞典。孫本旺和田芳[6]通過關(guān)鍵詞匹配算法構(gòu)建了基于Hownet詞典和《藏漢大辭典》的藏文情感詞典(Tibetan Sentiment Dictionary,TSD)。孫本旺[7]利用現(xiàn)有的中文情感詞典資源和漢藏大辭典通過匹配算法等自動構(gòu)建漢藏雙語情感詞典,彌補了漢藏雙語情感詞典的空白。張瑞[8]先基于漢藏詞典、知網(wǎng)Hownet進(jìn)行機器翻譯和關(guān)鍵詞匹配方法構(gòu)建基準(zhǔn)詞典,然后通過人工篩選方式完成情感詞典的構(gòu)建。黃晨晨等[9]通過詞典匹配方法基于中文情感詞典、臺灣大學(xué)NTUSD詞典和《藏漢大辭典》構(gòu)建了約18 000詞條的藏漢情感詞。

2.2 詞典擴(kuò)充方法

情感詞典擴(kuò)充指的是增強基準(zhǔn)情感詞典的詞匯量。情感詞典的擴(kuò)充方法主要有基于詞向量的語義相似度擴(kuò)充、KNN、SO-PMI、SVM、取近反義詞、深度學(xué)習(xí)方法等。

李苗苗[5]和巴桑卓瑪?shù)热薣22]對比了w2v詞向量擴(kuò)充、KNN擴(kuò)充算法、權(quán)重增益法、SVM法的擴(kuò)充效果,最終發(fā)現(xiàn)KNN的效果最佳。張震[17]用word2vec訓(xùn)練出微博語料詞向量,并用語義相似度算法找出微博表情相似的情感詞完成對基礎(chǔ)詞典的擴(kuò)充工作。楊志利用SO-PMI算法計算候選詞與種子詞的相似度來擴(kuò)充基準(zhǔn)詞典。上述大多數(shù)都是基于機器學(xué)習(xí)的擴(kuò)充方法,而單睿康[24]提出了基于BiLSTM-ATT-CRF的深度學(xué)習(xí)藏文情感詞擴(kuò)充方法,他使用BIOS標(biāo)簽標(biāo)注語料,再利用BiLSTM-ATT-CRF模型實現(xiàn)了藏文情感基準(zhǔn)詞典的擴(kuò)充。藏文情感詞典構(gòu)建方法的對比見表2。

表2 現(xiàn)有藏文情感詞典構(gòu)建方法對比

觀察表2可以看出大多數(shù)基準(zhǔn)詞構(gòu)建方法選擇了詞典匹配算法,擴(kuò)充方法基本上是選擇基于SVM、KNN等算法,但近期也有研究者提出了基于深度學(xué)習(xí)的情感詞典擴(kuò)充方法。

3 藏文情感詞典詞匯對比

情感詞典的詞匯量影響著情感特征提取的性能。在較好的詞匯質(zhì)量前提下情感詞典的詞匯越多,越能挖掘文本情感信息。由于藏文情感語料匱乏,很多藏文情感詞典都是在中文情感詞典基礎(chǔ)上通過機器翻譯或詞典匹配算法等方式構(gòu)建。因此,中文情感詞典的詞匯量對藏文情感詞典的詞匯量的影響很大。表3中列出了四個中文權(quán)威性情感詞典的詞匯信息,表中可發(fā)現(xiàn)中文情感詞的類別以褒貶中或褒貶兩性為主,詞匯量分布在9 153至27 466之間。

表3 中文情感詞典的詞匯信息

在藏文情感詞典方面,2018年孫本旺和田芳[6]利用現(xiàn)有中文情感詞典和漢藏大詞典通過匹配算法得出10 433個藏文情感詞,其中包含192個程度副詞、17個否定詞、11個轉(zhuǎn)折詞、13個雙重否定詞,其詞匯構(gòu)成較為豐富。2019年孫本旺[7]利用同樣的算法得出27 361個藏文情感詞,其中包含220個程度副詞和385個停用詞,這是現(xiàn)有藏文情感詞典中總詞匯量最多的詞典。張瑞[8]構(gòu)建的詞典有15 543個藏文情感詞。張震[17]構(gòu)建的詞典有9 870個情感詞,其中有115個表情詞。這些是現(xiàn)有藏文情感詞典中詞匯量較多的詞典。為了細(xì)致地觀察藏文情感詞典的詞匯信息,該文根據(jù)現(xiàn)有文獻(xiàn)內(nèi)容整理了藏文情感詞典詞匯信息(見表4)。

表4 藏文情感詞典詞匯信息

由表4可以看出,從詞匯量角度分析,藏文情感詞典中詞匯量達(dá)到1萬以上的文獻(xiàn)有四個,它們的詞匯量接近中文權(quán)威性情感詞典,但情感詞典的詞匯質(zhì)量是否達(dá)到相對成熟的中文情感詞典的水平還得深入研究。

從詞典構(gòu)成分析,大多數(shù)藏文情感詞典除了情感詞外,還包含了程度副詞、否定詞、雙重否定詞、轉(zhuǎn)折詞、表情詞、停用詞等輔助詞。從時間維度分析,著力構(gòu)建情感詞典的時間段在2019之前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,情感詞典構(gòu)建工作逐漸退縮。

4 藏文情感詞典構(gòu)建中存在的問題

通過觀察藏文情感詞典構(gòu)建現(xiàn)狀,發(fā)現(xiàn)了藏文情感詞典構(gòu)建中存在的幾個問題:

(1)藏文口語情感詞典目前處于空白狀態(tài),導(dǎo)致對語法規(guī)則不正規(guī)文本的口語化句子的識別率較低,可以從藏文已有口語詞典《藏漢對照拉薩口語詞典》《安多藏語口語詞典》《藏語康方言詞匯集》中篩選口語情感詞;

(2)詞典擴(kuò)充過程中用深度學(xué)習(xí)方法的很少,深度學(xué)習(xí)方法應(yīng)該更能準(zhǔn)確抓住種子詞的特點,應(yīng)該能提高情感詞的自動擴(kuò)充性能;

(3)沒有統(tǒng)一的情感詞分類標(biāo)準(zhǔn)和標(biāo)注標(biāo)準(zhǔn),希望將來相關(guān)研究機構(gòu)和研究人員同心協(xié)力來制定分類標(biāo)準(zhǔn)和標(biāo)注標(biāo)準(zhǔn);

(4)相關(guān)研究機構(gòu)和研究者之間缺乏共同意識和共創(chuàng)意識,導(dǎo)致難以構(gòu)建出權(quán)威性或官方性質(zhì)的情感詞典;

(5)藏文目前缺乏特定領(lǐng)域的情感詞典,若能構(gòu)建政治、經(jīng)濟(jì)、教育、新聞、交易、文學(xué)、體育等特定領(lǐng)域的藏文情感詞典,會提高藏文情感分析的整體水平。

5 結(jié)束語

該文根據(jù)近10年藏文情感詞典構(gòu)建的相關(guān)文獻(xiàn)分析了藏文情感詞典構(gòu)建的研究現(xiàn)狀,主要從情感詞的分類、詞典構(gòu)建的方法、已有藏文情感詞典的詞匯量和詞匯構(gòu)成等角度進(jìn)行了研究。情感詞分類研究中通過對比國內(nèi)外相關(guān)情感分類理論后用表格的方式統(tǒng)計了主流分類方法。藏文情感詞典構(gòu)建方法研究方面,統(tǒng)計了11種相關(guān)文獻(xiàn)中的基準(zhǔn)詞構(gòu)建方法和詞典擴(kuò)充方法。已有藏文情感詞典的詞匯量和詞匯構(gòu)成方面,統(tǒng)計了已有藏文情感詞典的詞匯數(shù)量和詞匯構(gòu)成。

未來將以文中的研究內(nèi)容作為理論依據(jù),靈活使用歸納出的情感詞分類方法和情感詞典的構(gòu)建方法來正式構(gòu)建一部藏文情感字典,為后續(xù)的藏文情感分析奠定基礎(chǔ)。

猜你喜歡
詞匯分類情感
分類算一算
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨立
一些常用詞匯可直接用縮寫
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
本刊可直接用縮寫的常用詞匯
分類討論求坐標(biāo)
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 亚洲中久无码永久在线观看软件| 91亚瑟视频| 91在线国内在线播放老师| 香蕉视频在线精品| 国产白丝av| 丝袜国产一区| 亚洲福利片无码最新在线播放| 久久久久亚洲AV成人人电影软件 | 亚洲Aⅴ无码专区在线观看q| 欧美中文一区| 国产流白浆视频| 欧美中文一区| 日韩精品一区二区深田咏美| 国产精品香蕉在线| 国产在线视频福利资源站| 成人精品在线观看| 又污又黄又无遮挡网站| 日韩经典精品无码一区二区| 亚洲欧美不卡视频| 亚洲天堂网在线视频| 亚洲中文字幕av无码区| 国产香蕉在线| 国产男人的天堂| 国产91透明丝袜美腿在线| 中文成人在线| 国产精品免费p区| 国产a网站| 亚洲一本大道在线| a毛片在线播放| 波多野结衣中文字幕久久| 热这里只有精品国产热门精品| 亚洲国产欧美国产综合久久| 亚洲精品爱草草视频在线| 久热99这里只有精品视频6| a级毛片在线免费| 精品欧美一区二区三区久久久| 午夜不卡视频| 大香网伊人久久综合网2020| 亚洲天堂精品视频| 日本成人精品视频| 亚洲日本一本dvd高清| 欧美69视频在线| 91亚洲精品第一| 日韩精品无码免费一区二区三区 | 国产网站在线看| 伊人天堂网| 99视频国产精品| 国产综合另类小说色区色噜噜| 91精选国产大片| 久久久久久久蜜桃| 亚洲va在线观看| 国产毛片基地| 亚洲福利一区二区三区| 中文字幕在线观| 中日韩欧亚无码视频| 中国丰满人妻无码束缚啪啪| 呦女精品网站| av尤物免费在线观看| 香蕉视频在线精品| 97se亚洲综合在线| 久久香蕉国产线看精品| 日韩免费毛片| 成人福利在线看| 国产三级毛片| 亚洲天堂网在线播放| 午夜精品国产自在| 亚洲色图在线观看| 一级全黄毛片| 一级毛片免费观看久| 18黑白丝水手服自慰喷水网站| 国产电话自拍伊人| 91 九色视频丝袜| 欧美精品一区二区三区中文字幕| 欧美不卡视频在线观看| 久久福利网| 色悠久久久久久久综合网伊人| 999国产精品永久免费视频精品久久| 制服丝袜 91视频| 国产香蕉在线视频| 一本大道香蕉中文日本不卡高清二区| 91亚洲精品国产自在现线| 国产一级毛片高清完整视频版|