999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CRF模型的漢語否定信息識別

2018-12-20 06:08:46陳世梅
中文信息學報 2018年11期
關鍵詞:實驗模型

陳世梅,伍 星,唐 凡

(1. 重慶大學 計算機學院,重慶 400044;2. 上海拍拍貸金融信息服務有限公司,上海 201210)

0 引言

否定是自然語言中一種常見的語言現象,用來否定事物的成立、存在或真實性。在評論挖掘[1]、情感分析[2-4]、信息檢索[5]等自然語言處理任務中,如果不能正確識別否定信息,則會導致命題真假、情感極性和觀點立場等被反轉,從而降低此類任務的性能。如例1的句子中雖然包含“愉快”這個表示正向情感的詞語,但是該句包含的否定詞語“不”反轉了正向情感的極性;例2是某網站中的一條商品評論,它被貼上的標簽為“味道不好聞”,這是在用戶評論標簽抽取時由于否定覆蓋域識別錯誤導致的分類錯誤。

例1我們將為您上次[不愉快的經歷]scope1做出最大限度的彌補 。

例2味道很好聞[不是很濃那種]scope1。

否定信息識別包含三個子任務: 否定觸發詞識別、否定覆蓋域識別和否定焦點識別,目前的研究主要集中在否定觸發詞識別和否定覆蓋域識別兩個子任務上。其中針對英語的否定觸發詞識別和否定覆蓋域識別已取得初步成果,而漢語的否定觸發詞識別和否定覆蓋域識別效果遠不如英語[6]。

否定觸發詞是文本中含有否定意義的詞語或短語,如例1和例2中波浪線表示的詞“不”、“不是”。漢語否定觸發詞識別存在以下難點: 1) 英語單詞之間有明顯的分隔,漢語是以字為基本書寫單位,詞語邊界模糊,而漢語否定觸發詞通常是由多個漢字組成的詞語或短語,因此分詞的準確度會影響到漢語否定觸發詞識別效果[7];2)漢語由“不”、“沒”等含有否定意義的字加上其他字或詞構成的否定觸發詞集合更大,在此不一一列舉;3)現有的英文單詞數量遠大于漢語字數,漢語一詞多義現象更頻繁,比如,單獨的“不”字不僅是表達否定,“好不嚇人”中的“不”是助詞,是用來加強語氣的。

例3[我不知道[這里不能停車]scope1]scope2。

例4我詢問前臺工作人員附近有沒有ATM機,回答說是[沒有]scope1。

否定覆蓋域是否定觸發詞的語義作用范圍,如例1和例2中“[]”涵蓋的部分。漢語否定覆蓋域識別和英語否定覆蓋域識別相比,除了由于漢語詞語邊界模糊,分詞效果對漢語否定覆蓋域識別有一定影響。還存在相同的難點: 1)一個句子中存在多個否定覆蓋域嵌套的情況,如例3所示;2)否定觸發詞本身即為覆蓋域的情況,如例4所示。

1 相關工作

1.1 否定觸發詞識別

否定觸發詞識別使用的方法有: 基于詞表方法、基于統計機器學習方法和基于神經網絡方法。

1)基于詞表方法該方法是通過人工構造觸發詞集合來檢測文本是否包含否定觸發詞。Chapman等[5]使用人工構建否定觸發詞和偽否定觸發詞集合結合正則表達式開發了NegEx系統,該系統在生物醫學病例文本上取得了94.51%的準確率和77.84%的召回率。隨后,Chapman等[8]又對該觸發詞集合進行了擴充,提升了NegEx系統的性能。基于詞表方法雖然能夠獲得比較好的實驗效果,但是需要費時費力構造觸發詞集合,該集合包含的觸發詞有限且具有文本領域傾向性,因此可移植性和泛化能力都較差。

2)基于統計機器學習方法隨著BioScope語料庫[9]的發布,對否定觸發詞的研究大部分轉移到該方法上。①否定觸發詞識別首先被看作分類問題, Lapponi等[10]、Zhu等[11]都采用支持向量機(Support Vector Machine,SVM)分類器結合詞性等其他特征來識別否定觸發詞;Morante等[12]采用k近鄰算法并結合詞形、詞元、詞性以及前后三個單詞的標記信息等特征來識別否定觸發詞,在BioScope語料上取得F1值為94.40%。②由于觸發詞可能由連續的詞組成,這一問題也被轉化為序列標注問題來解決,Abu-Jbara等[13]以條件隨機場(Conditional Random Fields,CRF)為訓練模型,詞元、詞性、前綴、后綴等為特征來識別否定觸發詞,在*SEM2012評測中,Chowdhury等[14]使用CRF方法識別否定觸發詞獲得該評測最高的F1值93.29%。在漢語否定觸發詞的識別上,Zou等[15]構建了中文否定與不確定信息語料庫(Chinese Negation and Speculation,CNeSp)并使用CRF模型和擴展策略識別該語料中的否定觸發詞,在CNeSp三個子語料上分別獲得F1值為69.78%、85.43%、76.99%。

3)基于神經網絡方法該方法結合詞向量能避免統計機器學習方法中人工提取特征的問題。He等[7]以雙向長短期記憶網絡(Bi-directional Long-Short Term Memory,BiLSTM)為模型,字向量為輸入特征對漢語否定觸發詞進行識別,在整個CNeSp語料上獲得F1值為77.16%。

1.2 否定覆蓋域識別

否定覆蓋域識別主要使用的方法有基于統計機器學習方法和基于神經網絡方法。

1)基于統計機器學習方法Morante等[12]首次提出使用機器學習的方法解決否定觸發詞的全覆蓋域識別問題,在BioScope語料上使用K近鄰算法結合詞性、塊標記等特征,添加已知觸發詞特征獲得F1值為85.78%,添加預測得到的觸發詞特征獲得F1值為78.60%,;James等[16]以CRF序列標注模型結合詞性、觸發詞的語法樹路徑為特征識別否定覆蓋域;Chen等[17]和鄒等[18]也對漢語否定覆蓋域識別進行了研究,其中鄒等提出了基于元決策樹的分類方法和基于依存句法規則的后處理方法,在CNeSp三個子語料上取得精確率分別為69.84%、54.10%、69.07%。

2)基于神經網絡方法Lazib等[1]使用LSTM、BiLSTM、GRU三種循環神經網絡對評論文本中的否定覆蓋域進行識別,實驗表明循環神經網絡模型取得了比CRF模型更好的效果;Fancellu等[19]使用BiLSTM模型結合詞向量、已知觸發詞、詞性等特征識別否定覆蓋域,在Conan Doyle’s Sherlock Holmes語料[20]上取得F1值為88.72%。

1.3 現有方法存在的問題

CRF序列標注模型識別否定觸發詞和覆蓋域時,需要依賴人工提取特征,繁雜的特征工程需要耗費大量人力且要求提取特征的人具有相關知識背景;BiLSTM模型輸出標簽之間沒有建立依賴關系,預測得到的標簽只由神經網絡的輸入和隱藏層計算決定,無法利用標簽上下文信息,即只能獲得每個標簽對應的最優解,無法獲得全局最優結果。

因此,本文采用BiLSTM-CRF模型來識別漢語否定觸發詞和覆蓋域。該模型中BiLSTM部分能獲取和保留長遠的上下文信息,CRF部分對BiLSTM輸出建立依賴關系,學習標簽的上下文信息和利用BiLSTM網絡輸出的結果,考慮輸出標簽序列的全局概率,得到最優解。

2 模型

2.1 BiLSTM-CRF模型

BiLSTM-CRF模型由詞嵌入層、BiLSTM網絡層和CRF層組成。網絡結構如圖1所示。

圖1 BiLSTM-CRF模型網絡結構

1) 詞嵌入層: 該層將樣本中的詞語映射為低維稠密向量,該向量是詞的分布式表示,通過詞語與上下文的關系來刻畫詞語之間的語義距離。由大規模無標注數據訓練出詞向量模型再根據詞表構建出詞向量矩陣Ev×d,其中v表示詞表大小,d表示詞向量維數,首先將文本信息轉換為詞表對應的id,然后將文本信息的id通過Ev×d映射為該文本的詞向量矩陣Is×d,s表示該文本信息中包含的詞語數。

2) BiLSTM網絡層: 該層由前向LSTM層和后向LSTM層組成,能夠獲取長遠的過去和未來的上下文信息。該層將詞嵌入層得到的詞向量矩陣分別輸入前向和后向LSTM,前向和后向LSTM輸出按位置拼接得到BiLSTM網絡層的輸出。LSTM單元包含了一個記憶狀態和3個“門”節點,記憶狀態用于存儲長遠的歷史信息,3個“門”節點分別是輸入門、輸出門和遺忘門,用于更新記憶狀態中的信息。

3) CRF層: 該層能學習標簽上下文信息,結合BiLSTM網絡層的輸出,考慮標簽序列的全局概率,從而預測出最大概率的標簽序列。該層是以BiLSTM網絡的輸出Ps×k作為輸入,其中s表示當前樣本中詞語個數,k表示標簽數,以狀態轉移矩陣作為其中一個參數,對標簽信息進行學習預測,從而計算出當前樣本句子的最佳標簽序列。它的計算如式(1)所示。

(1)

其中,A是轉移矩陣,Ayi,yi+1表示從yi標簽轉移到yi+1標簽的概率,Pi,yi表示第i個詞語被標記為標簽yi的概率,score(X,y)表示輸入的句子序列X被標記為標簽序列為y的概率分數,求得最大的score(X,y)的值,即可得到當前樣本句子X的最佳標簽序列。

2.2 否定觸發詞識別

本文在識別否定觸發詞時,以詞語為基本單位。在對否定觸發詞識別進行訓練時,例如,以X={市場,沒有,出現,調整}中詞語在詞表的id作為模型的輸入,標簽y={ out, cue, out, out }將作為模型的標準輸出。其中,out表示不是否定觸發詞,cue表示否定觸發詞。

將句X中詞語的id輸入,經過詞嵌入層,映射得到對應的詞向量矩陣;在訓練中為防止過擬合,本文將得到的詞向量矩陣進行一次dropout操作之后再分別輸入到BiLSTM層的前向LSTM和后向LSTM中。經過隱藏層單元的計算,將前向和后向LSTM輸出按位置拼接得到BiLSTM層的輸出序列。

在訓練時,CRF層以轉移矩陣為參數,BiLSTM的輸出序列為輸入,使用對數函數對標簽序列進行優化,調整轉移矩陣的值。在預測句子標簽時,將訓練得到的轉移矩陣和BiLSTM輸出作為參數,使用viterbi算法解碼求得最佳序列。

2.3 否定覆蓋域識別

覆蓋域是觸發詞的語義作用范圍,因此覆蓋域的識別效果依賴于觸發詞的識別效果,在本節實驗的覆蓋域識別中,為避免觸發詞識別的錯誤傳遞,添加已知觸發詞為特征。是否為觸發詞用{0,1}標記,若該詞語為觸發詞,則標記為1,否則標記為0。例如,以句子X={我,知道,她,不,喜歡,這種,味道}中詞語在詞表中的id和觸發詞標記f={0,0,0,1,0,0,0}作為模型的輸入,標簽y={ out, out, scope, scope, scope, scope, scope}作為模型的標準輸出。其中,out表示不在否定覆蓋域內,scope表示在否定覆蓋域內。

在詞嵌入層,分別映射得到詞語的詞向量矩陣和觸發詞標記對應的向量矩陣,將兩個矩陣拼接后的結果作為該層的輸出。

在BiLSTM網絡層和CRF層的步驟同否定觸發詞識別中的步驟相似。

3 實驗

3.1 否定觸發詞識別

3.1.1 數據分析及預處理

本節實驗采用的語料是中文否定和不確定信息語料庫(CNeSp)。語料共分為三個部分,財經文章(Financial article,Fin.)、科技文獻(Scientific literature,Sci.)和酒店評論(Product review,Prod.)。去除CNeSp語料中不確定信息部分后,語料的詳細信息見表1,將語料按照7∶2∶1的比例隨機劃分為訓練集、驗證集和測試集。本文對否定觸發詞識別進行4組實驗,即對Fin.、Sci.和Prod.三個子語料分別做實驗,再將它們合并為一個語料(All)做實驗。對語料進行分詞時,由于中文是以字作為最小粒度,詞語邊界比較模糊,分詞時可能如例5所示,“不太強”被分詞為“不/太強”,但是在語料中,“不太”被標注為否定觸發詞,“強”不是否定觸發詞。因此為了避免分詞后在一個詞語中出現其中一個字屬于否定觸發詞,另一個字不屬于的情況,采取將語料中被標注為觸發詞的字和其余字分開后再進行分詞的處理方法。

例5年線的支撐力度相對來說不太強。

表1 語料庫的詳細信息

本文采用搜狗實驗室提供的搜狐新聞和數據集CNeSp作為詞向量模型的訓練語料,該訓練語料大小為2G。將語料進行分詞后使用Word2Vec工具訓練得到詞向量模型,根據語料庫的詞表構建詞向量矩陣Ev×d,其中v表示詞典的詞語個數,d表示詞向量維數。訓練詞向量時,維數選擇200,窗口選擇5,由于每個否定觸發詞在文本中相對稀疏,出現的次數并不多,因此選擇skip-gram模型[21]。

3.1.2 評價指標

準確率P、召回率R、準確率和召回率的調和平均數F1值作為評價指標。評價指標定義如下:P=TP/(TP+FP),R=TP/(TP+FN),F1=2PR/(P+R)。其中,TP表示語料中否定觸發詞被系統正確判定為否定觸發詞的集合,FP表示語料中非否定觸發詞被系統錯誤判定為否定觸發詞的集合,FN表示語料中否定觸發詞被系統錯誤判定為非否定觸發詞的集合。

3.1.3 實驗結果及分析

實驗在測試集上的結果如表2所示,實驗結果表明: 1)在漢語否定觸發詞識別任務中,本文采用BiLSTM-CRF為實驗模型,詞向量為輸入特征的方法在Fin.語料和Prod.語料取得了比Zou等的CRF模型和He等的BiLSTM模型更好的效果,F1值高10%左右; 2)在Sci.語料上,本文實驗結果比He等的BiLSTM模型結果好,比Zou等的CRF模型方法結果更差; 3)在All語料上,實驗獲得F1值為91.61%,比He等的BiLSTM模型結果更好;4)本文實驗在Prod.語料上取得的結果優于其他語料。

表2 觸發詞實驗結果

實驗結果分析如下: 1)在BiLSTM網絡中通過LSTM單元來實現對文本長遠上下文信息的保留,并且添加的CRF層能夠很好地利用句子層面的信息,結合BiLSTM輸出計算出最佳標簽序列,因此能獲得更高的F1值; 2)結合表1語料庫詳細信息可以看出,Sci.語料中的否定觸發詞太稀疏,在訓練的過程中,實驗需要大量的樣本數據進行學習,然而該語料包含的3 649個句子中只包含了101個否定觸發詞,達不到學習效果。而否定觸發詞在Prod.語料中更加稠密,學習效果更好,因此識別效果更好。

3.2 否定覆蓋域識別

3.2.1 數據分析及預處理

本節實驗選擇CNeSp語料中包含否定信息的句子作為語料,分詞規則和否定觸發詞處理語料過程一致。針對語料中存在的否定覆蓋域重合的情況,為了正確識別出每一個否定觸發詞所對應的覆蓋域,本文將樣本處理為每個句子僅包含一個否定觸發詞和其對應的否定覆蓋域。如表3所示,將原句經過處理后變成句1和句2。經過處理后的語料詳細信息如表4所示。

表3 處理數據結果

表4 語料庫的詳細信息

為了驗證BiLSTM-CRF模型在否定覆蓋域識別上的效果,避免觸發詞識別錯誤的傳遞,本節實驗將已知觸發詞作為特征。表征觸發詞的詞向量矩陣構建為Ed,其中d表示詞向量維度,該詞向量矩陣中只包含兩個向量,一個表示觸發詞向量,另一個表示非觸發詞向量。

3.2.2 評價指標

評價指標采用準確率P、召回率R、準確率和召回率的調和平均數F1值和精確率(accuracy,Acc),精確率以句子為單位,要求樣本句子的預測標簽和真實標簽完全匹配。P、R、F1同否定觸發詞識別的評價指標定義相同。

3.2.3 實驗結果及分析

本節實驗以BiLSTM-CRF為模型添加已知觸發詞為特征的實驗結果對比如表5所示。實驗結果表明: 在都以已知觸發詞為特征情況下,1)本節實驗在除Sci.語料之外的子語料上獲得了更高的精確率; 2)Fin.語料獲得的精確率最高。根據實驗結果分析認為: 1)基于BiLSTM-CRF模型結合詞向量和已知觸發詞特征的方法,能夠更好的利用和學習到否定覆蓋域和否定觸發詞的文本特征以及它們標簽之間的關系。 但Sci.子語料稀少,只有101個句子,因此達不到學習的目的。2)盡管Prod.語料比Fin.語料包含的否定句更多,但是Fin.語料是財經新聞數據,句式更加標準,表達更加準確,Prod.語料是酒店評論數據,包含更多口語化句子、錯別字和繁體字等,因此Fin.語料上獲得精確率更高。

表5 覆蓋域識別結果(Acc.)

4 錯誤分析

4.1 否定觸發詞結果錯誤分析

在否定觸發詞識別實驗測試集結果中,否定觸發詞識別錯誤大致有以下幾類: 1)分詞不同帶來結果不同,如“并不樂觀”在語料中“并不”被標注為觸發詞,當分詞為“并/不”,只識別出“不”屬于否定觸發詞,當分詞為“并不/”時,識別出“并不”屬于否定觸發詞。2)語料標注錯誤,如“災難沒有特別嚴重”中“沒有”屬于否定觸發詞,在測試集中被識別出來,但語料中未標注。

4.2 否定覆蓋域結果錯誤分析

在否定覆蓋域識別實驗測試集結果中,否定覆蓋域識別錯誤大致有以下幾類: 1)跨句難以識別完整,例如“不存在好的財報先公布,壞的財報后公布的規律”,該句覆蓋域只正確識別到前半句。分析原因認為,在覆蓋域實驗中只以觸發詞特征和詞向量作為輸入,可能需要融入更多外部句法層面的信息更進一步提高覆蓋域實驗中跨句識別能力。2)語料標注錯誤,如“電梯內不許吸煙”語料只標注“不許吸煙”在覆蓋域內,但是該方法識別出整句都在“不許”的覆蓋域內,因為否定觸發詞“不許”的主語是“電梯內”,所以應該包含。

5 總結

本文采用BiLSTM-CRF作為實驗模型,預訓練的詞向量作為輸入特征識別否定觸發詞,在此模型的基礎上添加已知觸發詞特征識別否定覆蓋域。否定觸發詞識別實驗結果顯示,在CNeSp語料上除Sci.子語料外,否定觸發詞識別獲得的F1值均高于現有漢語否定觸發詞識別模型效果。否定覆蓋域識別實驗結果顯示,在CNeSp語料上除Sci.子語料外,否定覆蓋域識別獲得的精確率高于現有處理漢語否定覆蓋域識別的系統。實驗結果表明,本文采用的BiLSTM-CRF模型在處理漢語否定觸發詞識別和覆蓋域識別時能夠克服CRF模型和BiLSTM等循環神經網絡模型中存在的缺點,取得更好的實驗效果。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 九九热精品视频在线| 92精品国产自产在线观看| 亚洲欧美日韩中文字幕一区二区三区| 国产原创第一页在线观看| 色妺妺在线视频喷水| 国产久操视频| 美女视频黄频a免费高清不卡| 久久成人国产精品免费软件| 国产成人精品日本亚洲| 国产精品毛片一区视频播| 一级毛片高清| 国产免费羞羞视频| 国产精品熟女亚洲AV麻豆| 国产69精品久久| 国产菊爆视频在线观看| 直接黄91麻豆网站| 亚洲欧洲自拍拍偷午夜色| 色男人的天堂久久综合| 老司机午夜精品视频你懂的| 亚洲天堂视频网站| 欧美色亚洲| 日本不卡在线视频| 另类重口100页在线播放| 国产麻豆福利av在线播放| 激情六月丁香婷婷四房播| 深爱婷婷激情网| 尤物成AV人片在线观看| 久久婷婷人人澡人人爱91| 亚洲天堂精品视频| 免费在线观看av| 91精品免费久久久| 亚洲自拍另类| 伊人久久大香线蕉综合影视| 91精品视频播放| 日韩天堂网| 91蜜芽尤物福利在线观看| 极品私人尤物在线精品首页 | 免费在线看黄网址| 欧美日韩成人在线观看| 狠狠综合久久| 国产不卡网| 国产成人精彩在线视频50| 日本91在线| www亚洲天堂| 成人午夜在线播放| 九色综合伊人久久富二代| 中国一级毛片免费观看| 国产视频只有无码精品| 欧美亚洲激情| 国产精品久久久久久久伊一| 亚洲αv毛片| 国产精品自在在线午夜区app| 午夜福利视频一区| 国产主播一区二区三区| 日本三区视频| 日韩精品无码免费一区二区三区 | 国产无遮挡猛进猛出免费软件| 亚洲妓女综合网995久久| 国产精品9| 伊人久久婷婷| 青青操国产视频| 国产麻豆aⅴ精品无码| 亚洲午夜国产精品无卡| 久久77777| 高清不卡毛片| 日韩无码黄色网站| 综合社区亚洲熟妇p| 男人天堂伊人网| 亚洲伊人电影| 在线观看网站国产| 91麻豆国产视频| 中文字幕精品一区二区三区视频| 综合网久久| 国产成人精品视频一区二区电影| 国产一级毛片网站| 欧美在线中文字幕| 国产91丝袜在线播放动漫| 国产v欧美v日韩v综合精品| 综合天天色| 久久九九热视频| 五月婷婷亚洲综合| 亚洲永久免费网站|