999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語言特征的反諷文本識(shí)別模型研究*

2021-01-26 04:00:12白曉雷霍瑞雪
通信技術(shù) 2021年1期
關(guān)鍵詞:分類特征文本

白曉雷,霍瑞雪

(國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心河北分中心,河北 石家莊 050000)

0 引言

近年來,隨著自媒體的迅速發(fā)展,微博等自媒體平臺(tái)每日產(chǎn)生了大量網(wǎng)民發(fā)布的信息及其評論,對其進(jìn)行情感分析具有極高的價(jià)值。目前,反諷識(shí)別的研究還主要集中在英文短文本方面,而中文的反諷識(shí)別研究仍處于探索階段,且目前常見的微博文本情感分析主要用于區(qū)分積極、中性以及消極等,對于反諷這一特殊修辭手法的研究相對較少,而實(shí)際上反諷語句在全部微博文本中已經(jīng)占有一定的比例。因此,本文基于微博數(shù)據(jù)對中文反諷識(shí)別進(jìn)行研究。

1 反諷識(shí)別研究現(xiàn)狀

國外Burfot 等研究人員主要通過使用詞袋法來進(jìn)行反諷識(shí)別。Konstantin 等研究人員[1]在各種分類模型下結(jié)合各種反諷特征進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明人工選取的特征在提高準(zhǔn)確率的同時(shí)降低了召回率,加入詞袋模型問題得到解決。國內(nèi)山西大學(xué)盧欣等研究人員[2]基于深度學(xué)習(xí)的方法對中文反諷識(shí)別進(jìn)行了研究。

2 微博反諷語言特征分析

通過對微博常見反諷語言進(jìn)行匯總和分析,本文提煉了微博反諷語言的主要特征。

(1)固定搭配,如“很好……又”,例子“很好,又拒絕了一個(gè)”。

(2)特定副詞,如“真有你們的”,例子“想了半天,都懶得罵了,只能說真行,真有你們的,不愧是你們”。

(3)特定的語氣詞,如“呵呵”等,例子“雪梨直播間賣的衛(wèi)衣是假貨,還刪評論,呵呵,網(wǎng)銷第一是這樣來的”。

(4)網(wǎng)絡(luò)梗。微博的用戶以年輕人為主,含有大量年輕人熟知的網(wǎng)絡(luò)梗,如“他一直是可以的”等。

3 模型訓(xùn)練及其結(jié)果

本文使用的模型主要思路如下:

(1)采集到包含一定數(shù)量反諷語句的數(shù)據(jù)集并對其進(jìn)行標(biāo)注,反諷為1,非反諷為0;

(2)人工選取反諷語句中常見的特征,并對這些特征進(jìn)行卡方計(jì)算,選擇分值較高的特征作為模型使用的語言反諷特征;

(3)將數(shù)據(jù)集中的語句使用詞嵌入向量技術(shù)進(jìn)行向量表示,生成詞袋模型;

(4)將反諷特征使用嵌入向量技術(shù)進(jìn)行向量表示,并與上一步的詞袋模型相結(jié)合作為訓(xùn)練集,分別使用支持向量機(jī)、樸素貝葉斯、隨機(jī)森林進(jìn)行訓(xùn)練(即融合語言特征的反諷文本識(shí)別模型)得出結(jié)果并進(jìn)行對比。

3.1 數(shù)據(jù)采集

目前,公開的達(dá)到一定數(shù)量的微博反諷數(shù)據(jù)集幾乎不存在。因此,本文前期爬取了6 萬余條微博的數(shù)據(jù),包括評論內(nèi)容、用戶名、發(fā)表時(shí)間以及點(diǎn)贊數(shù)等相關(guān)信息。為了保證數(shù)據(jù)集中反諷文本所占的比例,本文以“NBA 復(fù)播”“春晚微吐槽”等話題和“好就好在”“把我牛逼壞了”等關(guān)鍵詞作為重點(diǎn)爬取了涉及到的全部數(shù)據(jù),部分結(jié)果如圖1 所示。經(jīng)過數(shù)據(jù)清洗后共40 000 余條,之后人工對其進(jìn)行標(biāo)注。標(biāo)注方法僅區(qū)分反諷與非反諷(反諷標(biāo)1,非反諷標(biāo)0),不區(qū)分積極、中性以及消極等情感。標(biāo)注完成后,統(tǒng)計(jì)其中有2 000 余條非重復(fù)的反諷語句。本文從反諷語句與非反諷語句中各抽取2 000條共4 000 條作為數(shù)據(jù)集。

3.2 特征選擇

在文本分類中,特征的提取是核心內(nèi)容。特征選擇的質(zhì)量直接影響分類性能,因此本文選擇使用卡方檢驗(yàn)[3]的方式進(jìn)行特征選擇。卡方檢驗(yàn)是通過對特征進(jìn)行打分后排序,最后選擇排名靠前的特征來表示文本。

圖1 爬取數(shù)據(jù)部分結(jié)果

卡方檢驗(yàn)公式:

針對反諷數(shù)據(jù)集進(jìn)行深入分析,人工提取了若干個(gè)特征,再通過計(jì)算這些特征卡方值得到的TOP5 如表1 所示。

表1 特征卡方統(tǒng)計(jì)值

3.3 詞嵌入向量

詞嵌入向量是指把一個(gè)詞映射到成一個(gè)實(shí)值向量空間的過程。由于計(jì)算機(jī)無法直接對文本進(jìn)行訓(xùn)練,因此需要將文本轉(zhuǎn)化為詞向量。目前,常用的詞向量訓(xùn)練模型主要有CBOW 模型與skip-gram 模型。本文選擇skip-gram 模型用于訓(xùn)練詞向量。

skip-gram 即根據(jù)文本中心詞預(yù)測前后m個(gè)詞的概率,通過在一定規(guī)模的語料庫中訓(xùn)練,得到一個(gè)從輸入層到隱藏層的權(quán)重模型。該模型的目標(biāo)是最大化文檔的后驗(yàn)概率:

3.4 分類器選擇

分類器分別采用支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayesian,NB)和隨機(jī)森林(Random Forest,RF)。

3.4.1 支持向量機(jī)(SVM)

支持向量機(jī)(SVM)是一種有監(jiān)督分類算法,分為線性可分與線性不可分,在分類問題中應(yīng)用效果較好。

SVM 可以將數(shù)據(jù)從低維空間通過映射轉(zhuǎn)變到高緯度空間中,選擇核函數(shù)(核函數(shù)一定得滿足Mercer 條件)進(jìn)行求解,如:

式中,K(xi,xj)表示核函數(shù),最終分類函數(shù)為:

3.4.2 樸素貝葉斯(NB)

樸素貝葉斯算法的基本思想:對于需要分類的文本,求解在此文本出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,最大概率的類別即為分類結(jié)果。基本步驟[4]如下:

(1)假設(shè)樣本空間N={N1,…,Nd}共包含d個(gè)需要進(jìn)行分類的樣本,經(jīng)過特征選擇得到X={X1,…,Xk}共k個(gè)相互獨(dú)立的屬性集C={C1,…,Cm};

(2)根據(jù)貝葉斯公式:

3.4.3 隨機(jī)森林(RF)

隨機(jī)森林由很多無關(guān)聯(lián)的決策樹構(gòu)成,相較于單棵決策樹避免了過擬合問題,經(jīng)常被用來處理分類與回歸問題。在處理分類問題時(shí),森林中的每棵決策樹分別對新樣本進(jìn)行類別判斷,被更多決策樹選擇的類別作為隨機(jī)森林的最終分類結(jié)果。

隨機(jī)森林算法步驟[5]如下。

(1)隨機(jī)選取n個(gè)文本,θw為這些文本組成的詞變量的集合。

(2)使用這n個(gè)文本構(gòu)造決策樹,h(χ,θw)為決策樹,χ為預(yù)測樣本。

(3)重復(fù)步驟(1)和步驟(2)構(gòu)造m棵決策樹:

(4)每個(gè)決策樹分別對新樣本進(jìn)行類別判斷,被更多決策樹選擇的類別作為最終結(jié)果。

隨機(jī)森林的邊際函數(shù)為:

3.5 訓(xùn)練結(jié)果

融合反諷特征前后的詞袋模型訓(xùn)練結(jié)果對比如表2 所示,反映了融合微博反諷特征的詞袋模型相較于未融合微博反諷特征的詞袋模型,反諷識(shí)別準(zhǔn)確率和召回率均得到了一定改善。

表2 融合反諷特征前后訓(xùn)練結(jié)果對比

4 結(jié)語

本文主要研究了融合微博語言特征的詞袋中文反諷識(shí)別模型,使用支持向量機(jī)(SVM)、樸素貝葉斯(NB)和隨機(jī)森林(RF)等分類器進(jìn)行訓(xùn)練,整體比單獨(dú)使用詞袋模型進(jìn)行反諷識(shí)別的準(zhǔn)確率有了顯著提升。為進(jìn)一步提高反諷識(shí)別準(zhǔn)確率,在后續(xù)工作中考慮進(jìn)一步擴(kuò)充反諷訓(xùn)練集,并使用融合語言特征的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終形成一定數(shù)量的反諷語料庫。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 日本免费新一区视频| 黄色国产在线| 久久semm亚洲国产| 青青草91视频| 亚洲永久视频| 在线观看欧美国产| 黄色网页在线播放| 国产免费a级片| 中文字幕亚洲乱码熟女1区2区| 国产呦精品一区二区三区网站| 久久永久免费人妻精品| 国产精品久久久久久久久久98 | 污污网站在线观看| 超碰色了色| 强乱中文字幕在线播放不卡| 极品国产一区二区三区| 国产在线精品人成导航| 看av免费毛片手机播放| 99热这里只有精品2| 国产噜噜噜视频在线观看| 丁香六月综合网| 成人免费黄色小视频| 亚洲人精品亚洲人成在线| 国产成人综合久久| 国产免费久久精品99re丫丫一| 国产丰满成熟女性性满足视频| 特级精品毛片免费观看| 亚洲视频一区在线| 九九热免费在线视频| 亚洲成人高清在线观看| 国产精品hd在线播放| 国内精自视频品线一二区| 又粗又硬又大又爽免费视频播放| 国产SUV精品一区二区6| 第一页亚洲| 亚洲一区免费看| 尤物特级无码毛片免费| 亚洲成人77777| 福利姬国产精品一区在线| 午夜老司机永久免费看片| 无码久看视频| 亚洲AV无码久久天堂| 精品人妻一区无码视频| 色香蕉影院| 日本欧美成人免费| 91尤物国产尤物福利在线| 成人久久精品一区二区三区| 婷婷伊人五月| a级毛片免费网站| 久久a毛片| 精品综合久久久久久97超人该| 亚洲欧美另类中文字幕| 国产精品浪潮Av| 毛片免费高清免费| 国产丝袜第一页| 国产成人精品三级| 亚洲视频四区| 波多野结衣在线se| 久久香蕉国产线看观看精品蕉| 亚洲一级毛片在线观| 色精品视频| 国产在线观看成人91| 国产欧美日韩视频怡春院| 欧美成人精品在线| 色综合五月婷婷| 日韩精品专区免费无码aⅴ| 国内自拍久第一页| 岛国精品一区免费视频在线观看 | 亚洲va在线∨a天堂va欧美va| 网友自拍视频精品区| 国产精品中文免费福利| 免费国产不卡午夜福在线观看| 国产无码精品在线播放| 国产视频大全| 欧美激情第一欧美在线| 亚洲最新地址| 人妻21p大胆| 国外欧美一区另类中文字幕| 美女无遮挡免费网站| 无码久看视频| 高清色本在线www| 91麻豆精品视频|