999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于代價敏感的中文文本的情感-原因對提取研究*

2023-01-06 05:41:26胡朝暉潘偉民張海軍韓連金
計算機與數字工程 2022年10期
關鍵詞:情感實驗模型

胡朝暉 潘偉民 張海軍 韓連金

(新疆師范大學計算機科學技術學院 烏魯木齊 830054)

1 引言

隨著商品評論信息的增多,大量的評論信息參雜一起,在這些雜亂的評論中提取好評和差評有利于商家對商品更加全面的把握,挖掘出差評情感的原因,幫助賣家完善產品也具有重要意義。提取出差評和差評的原因就是情感-原因對提取,即ECPE(Emotion-Cause Pair Extraction)[1]。

但是在情感-原因對提取任務中因其數據集存在標簽不平衡問題,故引入代價敏感的損失函數來減小標簽不平衡問題帶來的困擾。在前人的研究中,加入BERT在預訓練模型中取得了較好的表現,本文采用哈工大訊飛聯合發布中文BERT-wwm[2]。采用中文BERT-wwm是因為中文BERT-wwm選用的是中文語料庫而且模型是基于中文分詞訓練,而谷歌發布的全詞覆蓋的BERT[3]模型的研究測試集中于國外公開數據集,缺乏一種中文語言的相關模型,且基于全詞覆蓋的BERT預訓練模型,可能忽略了中文分詞的作用[4]。

綜上所述,本文提出代價敏感情感-原因對模型(Emotion-Cause Pair Extraction-BERT-wwm,ECPE-BW)。該模型運用基于代價敏感的損失函數和加入中文BERT-wwm的方法,通過實驗得出在F1結果上有接近1%的提升。

2 相關工作

在前人的研究中有研究者通過一個模型直接提取出情感-原因對,也有研究者采用先提取出情感和原因句,再將情感和原因句配對的方法,所以本文將研究主要分為兩類,一類是間接提取,另一類是直接提取。

在間接提取研究中,Xia等[1]提出ECPE模型,運用了ECPE模型和句子對過濾算法兩步得到情感-原因對。Tang等[5]提出ED+ECPE聯合模型,聯合多層注意力機制提取情感-原因對。Dai等[6]提出EDGCNN模型,運用情感膨脹門控CNN提取提取情感-原因對。在間接提取中存在著上一步結果如有誤將影響下一步,就會間接影響提取情感-原因對的精確度,所以直接提取的模型也應用而生。

在直接提取研究中,Fan等[7]提出基于轉換的模型,將任務轉換成一個類似分析有向圖構建過程,從而直接提取出情感-原因對。Wu等[8]提出MTNECP模型,一種將位置感知情感信息加入原因提取的方法中用于情感-原因對提取的多任務學習神經網絡。Wei等[9]提出對句子間的關系進行建模,一步提取情感-原因對。Song等[10]提出通過學習鏈接,從情感子句鏈接到原因子句的方法來端到端 的 提 取 情 感-原 因 對。Ding等[11]提 出 了ECPE-2D模型,利用二維矩陣表示情感-原因對,將二維、交互、預測集成到一個聯合框架中一步提取情感-原因對。間接和直接提取研究中,存在著數據標簽不平衡,考慮到這一問題,本文加入代價敏感的損失函數減少標簽不平衡問題帶來的影響,同時運用中文BERT-wwm模型進行預訓練。

3 算法

本文基于代價敏感的損失函數,同時引入中文BERT-wwm。該模型輸入層經過中文BERT-wwm預訓練到達中間層,中間層是兩個獨立提取情感子句和原因子句的模型,提取出的特定句子和預測句子放在一張二維表中,經過加入代價敏感損失函數計算輸出預測的情感-原因對。

3.1 模型結構

本文模型是利用二維矩陣表示情感-原因對,將二維,交互,預測集成到一個聯合框架中。該框架輸入層經過中文BERT-wwm預訓練到達中間層,中間層是兩個獨立的組件,句子經過兩個組件分別得到特定情感子句和特定原因子句,接著經過softmax函數分別得到預測的情感子句和原因子句。最后將特定情感子句、預測情感子句作為列與特定原因子句、預測原因子句作為行結合在同一張二維矩陣中,經過配對計算抽取出預測的情感-原因對。結構如圖1所示。

圖1 ECPE-BW模型圖

3.2 針對代價敏感性問題的損失函數改進

在本實驗數據集上,數據的分布存在標簽不平衡問題,文中包含1個情感-原因對有89.77%,而包含超過2個情感-原因對只有1.13%。前人的研究取得了一定的成果,但數據集標簽不平衡問題對實驗結果會產生一定的影響。為了解決數據集標簽不平衡問題,本文引入代價敏感的損失函數[12]。

下面的公式是Ding等定義的情感-原因對分類的損失函數:

考慮到ECPE-BW模型用的Softmax函數的輸出且情感-原因對屬于二分類,本文采用代價敏感的交叉熵損失二分類函數,上述公式可以重新寫成:

為了獲得更好的情感特定性表示和原因特定性表示,引入了輔助的情感預測和原因預測損失,其中和表示句子Ci特定的情感和原因。

最后模型的損失函數是在L2正則化下Lpair和Laux的權重之和,其中θ表示這個模型中所有的參數,λ1,λ2,λ3∈(0,1)。

3.3 中文BERT-wwm模型

應用中文BERT-wwm模型作為本文預訓練模型。由于谷歌官方發布的BERT中,中文是以字為粒度進行切分,沒有考慮中文需要分詞的特點。中文BERT-wwm模型考慮到中文分詞的重要性,采用全詞Mask法[2]。全詞Mask是如果一個完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會被[MASK]替換[13]。表1是原始BERT的Mask和全詞Mask的對比。

表1 原始BERT的Mask和全詞Mask的對比

在數據集方面,由于谷歌的BERT模型的研究測試集中于國外公開數據集,缺乏一種中文語言的相關模型。而中文BERT-wwm模型采用了中文維基百科(包括簡體和繁體)進行訓練,本文研究是基于中文的情感-原因對提取,所以選擇中文BERT-wwm更合適。

4 實驗及結果分析

4.1 模型評價指標

在測試的時候本文實驗采用正確率(Precision)、召回率(Recall)、F1值(F1-measure)作為評判[14],為了權衡預測率和誤報率,本此實驗采用不平衡數據分類算法評價常用的ROC(Receiver Operating Characteristic)曲線,該曲線是模型預測率和誤報率之間折中的一種圖形化方法[15]。AUC(Area Under the Curve)值是ROC曲線下方的面積[16],提供了評價模型平均性能的另一種方法。

4.2 實驗設置

本文在(Xia和Ding)[1]公開可用的數據集上進行實驗。本文采用十折交叉驗證法。實驗時字嵌入和相對位置嵌入的維度分別設置為200和50,我們所有窗口BiLSTM中隱藏單元的數量設置為100,轉換器中隱藏狀態、查詢、鍵和值的維度都設置為30,批量大小和學習率分別設置為32和0.005,在正則化方面,詞嵌入采用dropout,dropout率設為0.7。

4.3 實驗結果及分析

本文將我們提出的模型ECPE-BW和Ding等的ECPE-2D模型[11]、Wu等MTNECP模 型[8]、Fan等[7]、Song等[10]的E2EECP模型進行實驗結果對比。我們利用消融研究進一步探索代價敏感的損失函數和BERT-wwm的表現。單獨加入代價敏感的損失函數(在表2中用“Inter-EC+代”表示)和中文BERT-wwm(在表2中用“Inter-EC+BERT-wwm”表示)對比其實驗結果。結果對比見表2。

從表2中我們可以看出,單獨加入代價敏感的損失函數在整體結果上有提升。單獨加入中文BERT-wwm比谷歌的BERT取得更好的結果,尤其在F1值上提升了0.79%,在R值上達到了情感-原因對提取實驗最佳結果。說明中文BERT-wwm更適用于本文的實驗數據集。

表2 實驗結果對比

同時加入代價敏感的損失函數和中文BERT-wwm的模型在情感-原因對抽取任務上,F1值提高了接近1%,在P和R值上均有提升。由上述我們分析單獨加入代價敏感的損失函數和單獨加入中文BERT-wwm在ECPE任務上分別都有提升,且我們的模型同時加入代價敏感的損失函數和中文BERT-wwm在ECPE任務上部分值達到了情感-原因對提取實驗的最佳結果,可見代價敏感的損失函數和中文BERT-wwm的加入在ECPE任務上起到一定的效果。同時說明我們的模型加入代價敏感的損失函數和中文BERT-wwm對情感-原因對提取任務有效。

根據我們提出的ECPE-BW模型和ECPE-2D[11]模型,分別畫出評價模型的ROC曲線,圖2是ECPE-BW模 型ROC曲 線,圖3是ECPE-2D模 型ROC曲線。從下圖中我們對比可以看出我們模型的ROC曲線值比ECPE-2D模型ROC曲線要高,說明我們模型的靈敏度和特異性連續變量的綜合指標比ECPE-2D模型要高。再比較AUC值,明顯看出我們模型AUC比ECPE-2D模型的AUC值要高,說明我們模型比ECPE-2D模型好。

圖2 ECPE-BW模型ROC曲線

圖3 ECPE-2D模型ROC曲線

綜上所述,我們的模型加入代價敏感的損失函數和中文BERT-wwm對情感-原因對提取任務有效。

5 結語

在ECPE任務中,我們提出了ECPE-BW模型,該模型引入中文BERT-wwm和代價敏感的損失函數,最終結果在情感-原因對F1值上提升了接近1%。雖然我們取得了較好的結果,但是P、R、F1整體結果還是偏低。在未來的工作中,研究出一個能解決難提取隱含的情感-原因對的算法和模型來極大地提升整體結果。

猜你喜歡
情感實驗模型
一半模型
記一次有趣的實驗
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久国产乱子| 色婷婷综合激情视频免费看| 国产美女一级毛片| 亚洲欧美色中文字幕| 亚洲中文字幕无码mv| 国产亚洲精品va在线| 一区二区影院| 亚洲人成在线精品| 亚洲无码在线午夜电影| 国产精品久久久久久久久久98| 97国产在线观看| 18禁黄无遮挡网站| 国产亚洲欧美在线人成aaaa| 永久免费av网站可以直接看的| 国产18在线播放| 在线无码九区| 在线日本国产成人免费的| 蜜桃视频一区| 日韩最新中文字幕| 一级片免费网站| 国产亚洲一区二区三区在线| 免费人成视网站在线不卡| 国产极品美女在线播放| 五月婷婷激情四射| 人妻中文字幕无码久久一区| 国产白浆在线| 亚洲一区二区约美女探花| 亚洲无限乱码一二三四区| 国产在线高清一级毛片| 亚洲欧洲日韩综合色天使| 天堂成人在线| 无码丝袜人妻| h网址在线观看| 高清亚洲欧美在线看| 欧美国产综合色视频| 免费国产好深啊好涨好硬视频| 国产高清精品在线91| 国产乱论视频| 亚洲精品少妇熟女| 中文字幕久久亚洲一区| 精品免费在线视频| 囯产av无码片毛片一级| 久久这里只有精品国产99| 一级不卡毛片| 五月激情综合网| 国产成人av大片在线播放| 亚洲精品无码在线播放网站| 99er这里只有精品| 啪啪啪亚洲无码| a天堂视频| 亚洲性影院| 国产精品无码AV中文| 亚洲国产天堂久久九九九| 亚洲天堂首页| 老司机午夜精品视频你懂的| 九一九色国产| 亚洲欧美日韩精品专区| 无码视频国产精品一区二区| 色135综合网| 亚洲精品第一页不卡| 精品撒尿视频一区二区三区| 亚洲视屏在线观看| 亚洲中文在线看视频一区| 美女内射视频WWW网站午夜 | 国产在线拍偷自揄观看视频网站| 国产色伊人| 国产精品一区二区不卡的视频| 国产乱论视频| 日本精品视频| 97av视频在线观看| 国产在线第二页| 在线99视频| 中文字幕免费播放| 国产欧美精品午夜在线播放| 国内精品伊人久久久久7777人| 美女裸体18禁网站| 在线免费亚洲无码视频| 国产成人精品一区二区不卡| 国产精品欧美亚洲韩国日本不卡| 国产色网站| 中文字幕精品一区二区三区视频| 无码专区国产精品第一页|