999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于mBERT的東南亞小語種推特文本情感分析

2023-05-30 06:37:42賀友程
電腦知識與技術(shù) 2023年1期
關(guān)鍵詞:小語種

賀友程

摘要:小語種由于其訓(xùn)練語料資源稀缺,在自然語言處理領(lǐng)域一直是一大難題,使用傳統(tǒng)的機器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)方法,具有很大的瓶頸。而跨語言預(yù)訓(xùn)練語言模型的出現(xiàn),對于低資源語種的包括文本分類在內(nèi)的多項任務(wù),都起到了很大的提升效果。在基于海量語料訓(xùn)練得到的跨語言預(yù)訓(xùn)練語言模型mBERT的基礎(chǔ)上進行微調(diào),相較于傳統(tǒng)的機器學(xué)習(xí)方法,在情感分析任務(wù)的效率和準(zhǔn)確度都可得到不錯的提升。

關(guān)鍵詞: 小語種;預(yù)訓(xùn)練語言模型;文本分類;情感分析;BERT

中圖分類號:TP391? ? ? 文獻標(biāo)識碼:A

文章編號:1009-3044(2023)01-0074-03

1 引言

對小語種文本的情感分析的方法,經(jīng)歷了從構(gòu)建其情感詞典并采用基于規(guī)則的無監(jiān)督方法、挖掘其文本特征并采用有監(jiān)督的分類方法,再到基于跨語種的方法。然而,傳統(tǒng)基于機器翻譯的方法,或直接將源語種情感詞典翻譯為目標(biāo)語種,或直接將目標(biāo)語種翻譯為源語種后進行訓(xùn)練,模型效果不夠理想。

對于低資源語種的情感分析,文獻[1]通過將目標(biāo)小語種機器翻譯為源語種,通過英語情感分類器對目標(biāo)小語種實現(xiàn)分類;文獻[2]提出CoNBiLSTM詞嵌入模型在多語言和多領(lǐng)域環(huán)境中進行文本分類;文獻[3]比較了4種機器學(xué)習(xí)方法對少量的印尼語推特文本進行情感分析的效果;文獻[4]提出LAAE網(wǎng)絡(luò)模型,通過LSTM+AAE獲得跨語言情感向量后利用雙向GRU進行情感分類任務(wù);文獻[5]提出基于時間卷積注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型;文獻[6]研究了通過多任務(wù)學(xué)習(xí)訓(xùn)練小語種文本的情感分析模型。

BERT[7]通過詞嵌入、句子類別、位置信息3個維度的特征,通過MLM與NSP進行微調(diào),在包括文本分類在內(nèi)的多項任務(wù)中均取得良好效果。而mBERT跨語言模型則是BERT的一個分支,支持100多種語言的多項NLP任務(wù)。本文將mBERT運用到東南亞小語種推特文本的情感分析中,構(gòu)建目標(biāo)語種數(shù)據(jù)集,對mBERT的輸出層進行調(diào)整后,通過微調(diào)訓(xùn)練實現(xiàn)目標(biāo)東南亞小語種推特文本的情感分析器。

2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)集構(gòu)建

Sentiment140[8]是由Go等構(gòu)建的包含了1,600,000條從推特爬取的推文的數(shù)據(jù)集,可用于情感分析相關(guān)的訓(xùn)練。本文基于其首先構(gòu)建了源語言的微調(diào)訓(xùn)練數(shù)據(jù)集,并借助谷歌翻譯構(gòu)建了目標(biāo)語言的微調(diào)訓(xùn)練數(shù)據(jù)集。

2.1 源語言微調(diào)數(shù)據(jù)集構(gòu)建

Sentiment140數(shù)據(jù)集可用于研究推特中關(guān)于品牌、產(chǎn)品、話題的情感極性,它移除了推文中的表情符號,以csv文件格式存儲。它標(biāo)注了推文的情感極性(積極情感用4表示,消極情感用0表示)、ID、發(fā)布時間、發(fā)布用戶與內(nèi)容等信息,其格式如表1所示。

對于微調(diào)訓(xùn)練數(shù)據(jù)集,僅需要關(guān)注其推文內(nèi)容與情感極性,因此本文從中分別截取了僅包含推文情感標(biāo)注與推文內(nèi)容的10000條正向情感推文與負(fù)向情感推文,共20000條數(shù)據(jù)作為源語言微調(diào)數(shù)據(jù)集。

2.2 構(gòu)建目標(biāo)語言微調(diào)訓(xùn)練數(shù)據(jù)集

本文利用了GitHub上的開源工具googletrans調(diào)用谷歌翻譯任務(wù),它具備快速、可靠的特點,支持源語言自動識別、批量翻譯、自定義服務(wù)地址以及HTTP/2。它的原理是通過構(gòu)造AJAX請求完成谷歌翻譯的請求過程,再對HTTP GET請求的返回結(jié)果進行解析,得到最終的翻譯結(jié)果。通過設(shè)置多個翻譯服務(wù)地址,可以使其在每次翻譯時隨機選擇一個服務(wù)地址進行請求,避免短時間內(nèi)對同一個地址進行多次請求。

3 mBERT模型與微調(diào)

BERT模型的輸入表示由字向量(Token Embedding) 、文本向量(Segment Embedding) 和位置向量(Position Embedding) 三部分求和而成,模型輸出為各字對應(yīng)的融合全文語義信息后的向量表示,內(nèi)部則是由Transformer編碼器堆疊而成。

BERT的多語言版本mBERT直接使用多語言的單語語料,采用MLM作為訓(xùn)練目標(biāo)進行訓(xùn)練,過程中沒有加入任何信息來指示每句話的語種,也沒有促使不同語言同義句具有相似表達(dá)的顯性機制。它有cased與uncased兩個模型,均具備12層Transformer塊、768維的字向量與12個注意力機制頭。而前者會考慮字符的大小寫并支持非拉丁字符,因此本文選擇前者進行微調(diào)訓(xùn)練。

本文通過修改BERT中Processor的邏輯,調(diào)整最后的輸出層為二分類任務(wù),用上述得到的目標(biāo)語種二分類文本訓(xùn)練數(shù)據(jù)集進行微調(diào)訓(xùn)練,最終得到目標(biāo)語種的推特文本情感分類模型,過程如圖1所示。

4 實驗

4.1 實驗數(shù)據(jù)集

本文使用推特情感分析數(shù)據(jù)集Sentiment140中提取的20000條數(shù)據(jù)通過谷歌翻譯后得到的越南語(vi) 、泰語(th) 、緬甸語(my) 和印尼語(id) 數(shù)據(jù)集進行實驗。由于通過googletrans進行谷歌翻譯對于用戶直接調(diào)用AJAX請求的頻率有限制,而本文需要完成的翻譯量較大,因此采用多線程方式,結(jié)合多個谷歌翻譯服務(wù)地址,以加速文本的翻譯。為此,本文對20000條源語言推文數(shù)據(jù),采用以2000條為一組,8個谷歌翻譯服務(wù)地址,10個線程共同進行翻譯任務(wù)。另外,由于mBERT原生支持的數(shù)據(jù)格式為tsv格式,因此將翻譯后的數(shù)據(jù)輸出為tsv格式,僅包含標(biāo)簽與數(shù)據(jù)兩項內(nèi)容。其中,按照9:1的方式劃分訓(xùn)練集與測試集。實驗數(shù)據(jù)詳情見表2。

4.2 評價標(biāo)準(zhǔn)

本文進行的是文本分類任務(wù),采用準(zhǔn)確率(A) 、精確率(P) 、召回率(R) 與F1值作為評價標(biāo)準(zhǔn)。定義如下:

4.3 實驗結(jié)果

為了對比不同方法對東南亞小語種推特情感分析的效果,本文對比了文獻[3]中得到的兩種最佳方法:樸素貝葉斯算法與多層感知機算法。其中對多層感知機方法的實驗采用維度為(50,50) 的隱藏層結(jié)構(gòu)。通過相同的方法劃分訓(xùn)練集與測試集,得到各項評價指標(biāo)。實驗結(jié)果如表3所示。

實驗結(jié)果表明,對于低資源的東南亞小語種,通過預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)后得到的情感分析模型效果,要優(yōu)于樸素貝葉斯方法與多層感知機方法。

5 結(jié)束語

在情感分析的研究中,對于英語等語料庫豐富的高資源語種,已經(jīng)有非常成熟的研究與實踐方法,而對于低資源語種,尤其是包含東南亞語種在內(nèi)的小語種,由于訓(xùn)練數(shù)據(jù)缺乏,因此無法像英語等語種一樣訓(xùn)練出健壯成熟的單語言模型,目前在包括文本分類等任務(wù)中無法達(dá)到同等的效果。

本文在對東南亞小語種情感分析相關(guān)研究的基礎(chǔ)上,探索了采用預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)的方法對目標(biāo)語種推特文本的情感分析,實驗結(jié)果表明該方法可以獲得比傳統(tǒng)的樸素貝葉斯方法與多層感知機方法更好的效果。然而,由于本文微調(diào)數(shù)據(jù)集基于機器翻譯得出,因此最終模型可能受機器翻譯模型效果的影響。未來可通過對微調(diào)訓(xùn)練數(shù)據(jù)進行降噪處理、改善微調(diào)模型等,提升情感分類效果。

參考文獻:

[1] Can E F,Ezen-Can A,Can F.Multilingual sentiment analysis:an RNN-based framework for limited data[EB/OL].[2021-09-20].2018:arXiv:1806.04511.https://arxiv.org/abs/1806.04511.

[2] Nguyen H T,Le Nguyen M.Multilingual opinion mining on YouTube - A convolutional N-gram BiLSTM word embedding[J].Information Processing & Management,2018,54(3):451-462.

[3] Indriani D,Nasution A H,Monika W,et al.Towards a sentiment analyser for low-resource languages[M]//Proceedings of International Conference on Smart Computing and Cyber Security.Singapore:Springer Singapore,2020:109-118.

[4] 沈江紅,廖曉東.基于LAAE網(wǎng)絡(luò)的跨語言短文本情感分析方法[J].計算機系統(tǒng)應(yīng)用,2021,30(6):203-208.

[5] Luo H, Yang Y, Dong R, et al. 基于時間注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型 (Uyghur Sentiment Classification Model Based on Temporal Attention Capsule Networks)[C]//Proceedings of the 20th Chinese National Conference on Computational Linguistics, 2021: 248-257.

[6] Hande A,Hegde S U,Priyadharshini R,et al.Benchmarking multi-task learning for sentiment analysis and offensive language identification in under-resourced Dravidian languages[EB/OL]. [2022-03-20].2021:arXiv:2108.03867.https://arxiv.org/abs/2108.03867.

[7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language nderstanding[EB/OL].[2021-09-20].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805.

[8] Go A,Bhayani R,Huang L.Twitter sentiment classification using distant supervision[J].CS224N project report, Stanford,2009,1(12):2009.

【通聯(lián)編輯:光文玲】

猜你喜歡
小語種
小語種 大世界
“一帶一路”背景下小語種專業(yè)面臨的挑戰(zhàn)和對策
祖國(2017年3期)2017-03-16 11:06:39
小語種國際化人才培養(yǎng)模式初探
社會機構(gòu)小語種培訓(xùn)現(xiàn)狀及存在的問題
中國周邊區(qū)域研究文獻的需求與保障
中國周邊區(qū)域研究文獻的需求與保障
小語種就業(yè)現(xiàn)狀調(diào)查與分析
商情(2016年42期)2016-12-23 16:59:56
高職單招班小語種優(yōu)質(zhì)課堂教學(xué)探究
教師·下(2016年10期)2016-12-03 09:32:13
全球化背景下小語種語言的發(fā)展
考試周刊(2016年45期)2016-06-24 13:37:23
小語種對大學(xué)生(非小語種專業(yè))就業(yè)競爭力影響調(diào)查
考試周刊(2016年3期)2016-03-11 10:15:09
主站蜘蛛池模板: 日韩成人在线视频| 亚洲一区二区三区国产精华液| 狂欢视频在线观看不卡| 日韩资源站| 亚洲综合专区| 很黄的网站在线观看| 免费人欧美成又黄又爽的视频| 久草性视频| 欧美天堂久久| 亚洲中文字幕97久久精品少妇| 日韩黄色大片免费看| 制服丝袜无码每日更新| 国产亚洲精品97AA片在线播放| swag国产精品| 在线观看免费黄色网址| 亚洲专区一区二区在线观看| 国产亚洲日韩av在线| 制服丝袜一区| 国产精品极品美女自在线网站| 久久国产乱子伦视频无卡顿| 综合五月天网| 亚洲国产中文在线二区三区免| 四虎影视库国产精品一区| 免费大黄网站在线观看| 国产在线麻豆波多野结衣| 精品剧情v国产在线观看| 精品国产电影久久九九| 日本黄色a视频| 欧美97色| www.99在线观看| 国产精品福利导航| 不卡无码h在线观看| 亚洲国产天堂久久综合226114 | 日本精品视频一区二区| 亚洲第一av网站| 嫩草在线视频| 亚洲男人天堂久久| 日韩国产欧美精品在线| 99热国产在线精品99| 精品99在线观看| 欧美国产日产一区二区| 国产免费黄| 日韩在线欧美在线| 亚洲精品日产AⅤ| 热久久这里是精品6免费观看| 2020精品极品国产色在线观看| 99视频精品全国免费品| 国产视频久久久久| 国产精品永久在线| 国内精品小视频福利网址| 国产精品密蕾丝视频| 秋霞午夜国产精品成人片| 国产电话自拍伊人| 亚洲熟女中文字幕男人总站| 午夜福利亚洲精品| 婷婷色一二三区波多野衣| 女人18一级毛片免费观看 | 日韩精品久久无码中文字幕色欲| 国产一区二区三区在线观看免费| 特级aaaaaaaaa毛片免费视频| 国产在线拍偷自揄观看视频网站| 国产在线日本| 亚洲午夜18| 亚洲欧美日韩综合二区三区| 国产网站免费看| 蝌蚪国产精品视频第一页| 久久亚洲欧美综合| 国产91九色在线播放| 亚洲欧洲美色一区二区三区| 欧美日韩一区二区三区四区在线观看| 成人国产精品一级毛片天堂| 亚洲成年人片| a亚洲视频| 亚洲日韩精品欧美中文字幕| 99偷拍视频精品一区二区| 日韩美毛片| 欧美区一区| 狠狠亚洲五月天| 五月天在线网站| 久久久受www免费人成| 亚洲天堂首页| 一本色道久久88|