999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于融合模型的名詞隱喻識別

2022-06-29 12:37:06蘇魁麟呂學強
計算機技術與發展 2022年6期
關鍵詞:語義特征融合

蘇魁麟,張 凱,呂學強,張 樂

(1.北京信息科技大學 網絡文化與數字傳播重點實驗室,北京 100101;2.首都師范大學文學院 中國語言智能研究中心,北京 100048)

0 引 言

隱喻是用來描述和理解抽象概念的主要手段,它不但是一種語言現象,也是一種認知方式[1]。認知是指人們獲得知識或應用知識的過程,是人類信息加工的基本過程[2],隱喻對人們的交流和認知有莫大的幫助,在人們日常用語或行為中都存在隱喻的特性,因此隱喻研究近年來越來越受關注。

隱喻的理解是隱喻理論的一個重要部分,因為隱喻的工作機制和認知功能是在理解過程中達成和體現出來的。隱喻的理解過程包括:隱喻識別和隱喻意義的推斷。其作用是在人們用語言思考所感知的物質世界和精神時,能從原先互不相干的不同事物、概念和語言表達中發現如同互聯網中的鏈接點,建立想象豐富的聯系。這不是一個量的變化,而是認識上質的飛躍,難以用規則描述[3]。因此如何有效地識別隱喻是當下面臨的問題,而這個問題對自然語言的下游任務如機器翻譯、問答系統、情感分析、閱讀理解、人機對話、文本摘要等有著制約的影響。根據句法結構,隱喻一般分為:名詞性隱喻、動詞性隱喻、形容詞性隱喻、副詞性隱喻等。名詞性隱喻在自然語言中占的比重較大,因此該文圍繞名詞性隱喻識別開展研究。

名詞隱喻指自然語言表達中通過連接詞表征的隱喻類型,其源域與目標域詞匯通常以名詞的形式出現在句子中也稱本體和喻體,如“愛情就像棉花糖,柔軟而又甜蜜”為名詞隱喻,本體是愛情,喻體是棉花糖,是不同領域之間的映射。如何定位源域和目標域以及實體間的映射關系是隱喻識別的一項重要因素。

名詞隱喻識別研究常用的方法是基于規則,利用語法特征,傳統的機器學習,再到神經網絡,但是目前對名詞隱喻的語義表示不夠充分,特征的抽取不精確,信息丟失造成識別的準確率不高。因此如何充分地從上下文識別學習語義信息和潛在特征的抽取是隱喻識別的問題關鍵。

該文提出一種融合表征模型,抽取隱喻句中的潛在特征,結合上下文的語義信息和位置信息進行編碼,構建針對名詞隱喻識別的模型。具體而言使用BERT進行字嵌入表示,其Transformer結構中的注意力機制能夠有效獲得上下文的語義信息,同時對位置信息也進行向量化表征,提高喻體和本體的定位準確率,利用CNN進行局部特征的提取,融合兩者特征再通過線性層得到隱喻結果。經實驗表明該模型優于現有的深度學習模型。

1 相關研究

隱喻的識別起于Wilks[4]提出的語義中斷理論和優先選擇模型,是基于符號規則的識別方法。Fass[5]提出基于語義優先理論,由于語料庫有限,不能很好地獲取語義信息,因此效果不好。許雅緣[6]基于WordNet根據語義知識和語義關系識別隱喻,其原理是基于詞語間的相似度計算,通過與WordNet詞典中的詞語計算相似度再使用加權算法得出隱喻值,但在中文方面暫時沒有成熟的知識庫。上述方法均需要構建大量規則和特征,耗費人力。

隨著深度學習技術在自然語言處理中的廣泛應用,Kim.Y等[7]提出CNN用于文本分類,它只需要很少的超參數調整和靜態向量,就可以在多個基準上獲得很好的結果。Luo.L等[8]應用LSTM+Attention在實體識別上的效果有了大幅提升,利用通過Attention獲得的文檔級全局信息在文檔中實施同一Token的多個實例之間標記一致性。王子牛等[9]提出一種語言強化融合模型CNN+LSTM證明在文本分類上的提升。Yang等[10]提出將BERT與Anserini相結合,構建了一個通過外部知識庫從而輔助閱讀理解的方法,在問答領域有了較大提升。Peng[11]提出變體BERT模型,其主要是在解碼器Transformer上進行微調改造,在多種生物醫學和臨床自然語言處理任務都有大幅提升。Zhang等[12]提出CMedBERT,是一種異構特征的動態融合機制和多任務學習策略,將醫學知識融合到預先訓練的語言模型,在基線實驗上表現最優。但將深度學習應用于隱喻研究領域還是較少,Do Dinh等[13]提出基于詞向量的神經網絡模型識別隱喻,在效果上相較于傳統機器學習等方法有了較大的提升,但網絡本身比較簡單且相較于現有的LSTM略遜色。王治敏[14]提出基于機器學習算法的隱喻識別,主要針對上下文和詞性兩種特征進行建模,但忽視了語義層的重要信息。李晗雨[15]提出基于深度學習的隱喻識別與解釋方法研究,采用卷積神經網絡和SVM作為模型架構,表明卷積神經網絡在提取隱喻特征的表現很好。朱嘉瑩等[16]提出基于Bi-LSTM的多層面隱喻識別方法,結合卷積神經網絡進行建模。通過分析隱喻的多層面特征在Bi-LSTM上進行識別取得了88.8%的準確率。張冬瑜等[17]提出使用BERT+Transformer模型進行隱喻識別,能夠很好地獲取語義信息,但局限性是對文本的冷僻詞判斷較困難,無法有效提取句子的局部特征。

上述研究采用了基于規則、機器學習、深度學習的方法識別,對語義信息的挖掘不足,無法有效分辨隱喻中的動詞、名詞、形容詞等知識。語義是隱喻中的一個重要因素,需要根據不同的上下文從不同維度去挖掘語義信息獲取相應的知識,因此要滿足建模的適用性和穩定性,同時如何把隱喻中隱含的潛在特征挖掘出來是提高隱喻識別的關鍵,二者缺一不可。

2 研究方法

2.1 基于CNN特征提取

ci=f(w?xi:i+h-1)

(1)

(2)

圖1 CNN模型結構

2.2 BERT預訓練模型

Devlin J等[19]提出的基于Transformer結構的全新預訓練模型瞬間刷新在各項自然語言處理任務GLUE的得分。從模型特點來說其輸入表征不僅是詞向量(token embedding),還有段表征(segment embed-ding)和位置表征(position embedding)相加產生,一定程度上豐富了特征信息。為了能夠更好地學習到語言的本質增加Masked LM和Next Sentence Prediction機制,首先Masked LM隨機選取少量詞匯進行遮掩訓練,這就迫使模型更依賴于上下文信息去預測詞匯,并賦予了模型一定的糾錯能力。其次Next Sentence Prediction在段落結構上進行了訓練學習,與Masked LM相結合讓模型能夠更準確地刻畫語句乃至篇章層面的語義信息。

從模型結構上Transformer是組成BERT的核心模塊,而Attention機制又是Transformer中最關鍵的部分。其中主要涉及三個概念:Query、Key和Value,目標字及其上下文的字都有各自的原始Value,Attention機制將目標字作為Query、其上下文的各個字作為Key,并將Query與各個Key的相似性作為權重,把上下文各個字的Value融入目標字的原始Value中。Attention計算公式如式(3):

(3)

其中,Q,K,V分別表示矩陣,dk表示k維序列。通過Attention構成多頭機制作為編碼器的一個分支,另一個分支是一個前向傳播網絡,在兩個分支外加一個殘差連接,這樣就組成了一個編碼器。BERT是由6個編碼器組成編碼層,解碼層也是由6個解碼器組成,其每個解碼器的組成原理和編碼器一致。BERT的模型結構如圖2所示。

圖2 BERT模型結構

實際操作中,Attention是在序列上并行,將所有序列連在一起構成Q,K,V矩陣在矩陣上進行計算,多頭Attention計算公式如式(4):

MultiHead(Q,K,V)=Concat(head1,head2,…,

headn)

(4)

Concat用于連接多個頭,把多個不同的注意力體連接在一起,每個head的表示如式(5):

(5)

BERT的前饋神經網絡公式如式(6):

FFN(x)=max(0,xW1+b1)W2+b2

(6)

其中,W1,W2,b1,b2分別代表權重,根據反向傳播自動優化。

2.3 CB模型

CNN有效提取局部特征,有效識別句子中冷僻詞匯、成語古語以及干擾詞匯,BERT對語義信息的理解和詞與詞之間位置信息的特征提取,通過融合兩個模型提取到的特征,最后通過線性分類器,從而提升隱喻的識別效果。特征融合計算公式如式(7),線性層計算公式如式(8):

H=concat(hc,hb)

(7)

Y=HAT+b

(8)

其中,hc代表CNN隱藏層輸出,hb代表BERT隱藏層輸出,H代表融合隱藏層矩陣,AT代表權重矩陣,b代表偏置矩陣,Y代表預測值。

特征融合模型CB結構如圖3所示。

圖3 CB模型結構

2.4 思路框架

整體的隱喻識別思路是首先對語料進行清洗,由于語料本身為結構化,只需要去掉標點符號,然后對句子進行編碼,在每個句子開頭和結尾分別添加CLS和SEP標識符分別代表開始和中斷,其作用是處理成BERT的輸入格式;其次是對網絡層的編碼組合包括對BERT預訓練模型的選取和CNN卷積層和池化層的維度定義,通過兩者輸出進行隱藏層維度的融合,再通過線性分類器,這樣網絡層就定義好了;最后經過多次訓練得出最優結果。整體的識別流程如圖4所示。

圖4 隱喻識別流程

3 實 驗

3.1 數據集

(1)數據來源。

采用CCL2018評測的中文動詞隱喻識別任務中的數據集,由2 040條動詞隱喻、2 035條名詞隱喻、319條非隱喻句組成,共計4 394個中文句子。同時針對數據集進行了進一步歸并,把名詞性隱喻句歸為一類,動詞隱喻和非隱喻句子歸為一類。

(2)數據標注情況。

數據分為正文部分和類別部分,而類別標注情況主要有三種,如表1所示。

表1 數據標注情況

“愛情就像棉花糖,柔軟而又甜蜜”是名詞隱喻,將“愛情”(本體)比喻為“棉花糖”(喻體),”愛情”本身是一個抽象的名詞,但“棉花糖”是人們熟知的東西,說到“棉花糖”不禁想到“甜美”,“純潔”等詞匯,這是一種意識聚集。將抽象事物“愛情”比喻為具體事物“棉花糖”能夠更好地去理解愛情的本質。

3.2 對比實驗

將該文提出的模型與基線模型和同數據集實驗下的最優模型進行對比實驗,如表2所示。

表2 對比實驗分析

3.3 評價指標

實驗結果評價指標采用準確率(A)、精確率(P)、召回率(R)和F1值,分別見公式(9)~公式(12)。

(9)

(10)

(11)

(12)

其中,TP:樣本為正,預測結果為正;FP:樣本為負,預測結果為正;TN:樣本為負,預測結果為負;FN:樣本為正,預測結果為負。

3.4 實驗過程和參數設置

經過多次實驗,實驗結果較好的參數情況如下:優化器采用AdamW,其中學習率2×10-5,eps=1×10-8,損失函數采用CrossEntropyLoss,Epoch初始化設置為100,通過設置判斷條件即連續10個Epoch下驗證集的準確率沒有提升結束訓練,并保存最優的Epoch值為4,Batch設置為32,采用BERT生成的字向量,維度100。卷積核長度設置為[3,4,5],通道設置為[100,100,100],輸出維度為300。防止過擬合采用dropout,dropout=0.5,融合后的隱藏特征通過線性層進行分類。

數據集按照7∶2∶1比例分為訓練集、驗證集、測試集,使用pytorch框架進行預處理和模型訓練等編碼,使用由谷歌提供的中文預訓練模型BERT,結構為12層,隱藏層大小768。

4 結果分析

根據4個評價指標在所提出的模型上的實驗結果如表3所示。

表3 名詞隱喻識別結果

從結果可以看出,提出的CB模型方法在各項指標上表現最優,說明能夠有效地提取語義信息和潛在特征。CNN和LSTM的指標結果說明語義理解對隱喻的識別會有大幅度提高,但是也不能忽視其中的潛在的特征。CB模型的精確率和召回率較于BT模型的提升可以說明在加入CNN提取局部特征確實能夠提高對于中文文本中的冷僻詞匯、成語古語以及干擾詞匯等特征信息的判斷,從而提高名詞隱喻的識別率,而CLA也是基于特征融合的思想,盡管LSTM能夠獲得上下文信息,但其門控制相較于BERT中MLM和NSP學習機制對語義信息的提取還是略顯不足,且對長依賴問題處理效果不好。

從預測結果來說CB模型學習到名詞隱喻中具有代表性的詞如“像”,“好像”,”似乎”等句子預測結果都正確,同時對于沒有代表性的詞特征的句子如“太陽是我們心中的明燈,引領我們前行”預測正確說明對本體“太陽”和喻體“明燈”正確定位,說明對語義信息的理解很好。“廣告路牌是地面上的肉疣”中“肉疣”是生僻詞,但預測結果正確,說明CNN對局部潛在特征的提取能夠提高識別效果。

5 結束語

隱喻是自然語言認知上的一個重要因素,因此如何有效地識別隱喻是當前需要攻克的難題。該文針對目前隱喻識別上對語義信息的理解不足和隱喻中蘊含的特征提取不夠等問題,提出了一種特征融合神經網絡模型,利用BERT提取文本中語義信息和表征位置信息,CNN提取隱喻中潛在的局部特征,最后在隱藏特征維度上對兩者進行融合。從局部和全局兩個方向上識別隱喻,從提出的評價指標來看優于現有的主流深度學習和方法。名詞隱喻中不僅只有本體和喻體的映射關系。還有其他如隱喻觸發詞、隱喻鏈等特征無法針對性的去挖掘,模型還存在局限。

針對這些局限性問題可以聯想到兩種解決辦法:

(1)對數據集進行知識性的擴充標注和擴大數據集的量,從本質上豐富數據集的特征信息。

(2)挖掘隱喻中更重要的特性并針對性地進行建模識別,理論上來說可以通過模型挖掘隱喻中所有的特性,根據每個特性在隱喻中的重要性去分散研究最后通過加權算法識別隱喻,而這其中涉及到各個特性在隱喻中比重是需要通過大量研究得出結論,隱喻識別仍是當今自然語言研究上所面臨的難題。

猜你喜歡
語義特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 色天天综合久久久久综合片| 日本在线国产| 国产精品高清国产三级囯产AV| 欧美综合成人| 中文字幕人妻av一区二区| 波多野结衣久久精品| 国产精品专区第一页在线观看| 2018日日摸夜夜添狠狠躁| 免费午夜无码18禁无码影院| 国产亚洲视频中文字幕视频| 精品视频一区二区三区在线播| 野花国产精品入口| 女人18毛片一级毛片在线 | 亚洲综合色在线| 婷婷六月综合网| 午夜三级在线| 国产在线专区| 精品一区国产精品| 国产黄网永久免费| 日韩无码黄色网站| 中文字幕在线日韩91| 女人爽到高潮免费视频大全| 国产精品嫩草影院av| 中文无码日韩精品| 亚洲an第二区国产精品| 黄色网址免费在线| 97久久精品人人| 国产在线视频二区| 欧美日韩另类国产| 日韩中文精品亚洲第三区| 日本黄色不卡视频| 高清久久精品亚洲日韩Av| 色九九视频| 久久青青草原亚洲av无码| 国产欧美日韩在线在线不卡视频| 国产成人8x视频一区二区| 黄色三级毛片网站| 伊人久久久大香线蕉综合直播| 亚洲天堂.com| 亚洲精品男人天堂| 欧美区一区| 国产免费人成视频网| 欧美高清三区| 女人爽到高潮免费视频大全| 欧美日本激情| 黄色三级网站免费| 波多野结衣中文字幕一区| 日本午夜三级| 69国产精品视频免费| 国产一级在线播放| 亚洲中文在线看视频一区| 久久国产乱子| 亚洲天堂精品视频| 亚洲精品人成网线在线 | 欧美日韩午夜| 久久久久青草线综合超碰| 鲁鲁鲁爽爽爽在线视频观看 | 国产一区成人| 婷婷伊人久久| 国产乱子精品一区二区在线观看| 国产清纯在线一区二区WWW| 国产毛片网站| 国产偷国产偷在线高清| a色毛片免费视频| 热久久综合这里只有精品电影| 国产精品久久久久久搜索| 亚洲日韩精品欧美中文字幕| 福利小视频在线播放| 国产亚洲欧美日本一二三本道| 亚洲swag精品自拍一区| 人人91人人澡人人妻人人爽| 在线欧美a| 99伊人精品| 亚洲91在线精品| 久久久久久久久久国产精品| 伊人天堂网| 国产午夜不卡| 久久性视频| 国产成人1024精品下载| 久久一本日韩精品中文字幕屁孩| 欧美午夜在线播放| 国产欧美日韩在线一区|