999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的開放領域中文新詞發現研究

2023-07-07 03:10:18劉凡平沈振雷吳業儉
計算機應用與軟件 2023年6期
關鍵詞:文本模型

劉凡平 陳 慧 沈振雷 吳業儉

(上海二三四五網絡科技有限公司 上海 201203)

0 引 言

新詞是指隨著時代和網絡新媒體的發展,在某一時間段內或者某一時間點以來[1]首次通過各種途徑產生的、具有新形勢、新意義和新用法[2-3]的詞語,他們從未被任何詞典收錄,屬于未登錄詞,比如“隨申碼”“奧利給”和“佛系”等。根據中國語言文字工作委員會統計,自改革開放以來,中國平均每年產生800多個新詞語[4-5]。新詞的出現給輸入法的詞庫收錄和中文分詞等工作帶來了巨大的挑戰。輸入法詞庫的覆蓋率是輸入法強弱的關鍵指標之一[6],因此對最新出現的新詞,更快、更精準地收錄對輸入法來說至關重要。此外,對于中文分詞來說,新詞的出現使得自動分詞準確率嚴重下降,研究顯示,60%的分詞錯誤是由新詞導致的[7]。因此對于新詞的有效識別,對自然語言領域的研究具有重要的意義[8]。

1 相關工作

目前新詞發現的方法主要分為三類:(1) 基于規則的新詞發現方法。例如通過詞語出現的規律建立規則,判斷是否為新詞,鄭家恒等[9]在2002年使用構詞法識別網絡新詞,取得了較高的準確率;姜如霞等[10]在2019年使用基于規則和N-Gram算法生成新詞候選詞,并用左右熵的方式進行擴展和過濾來識別新詞。(2) 基于統計的新詞發現方法,例如通過條件隨機場(CRF)、信息熵等統計分析算法挖掘潛在的新詞。陳飛等[11]使用CRF對文本輸入序列進行標注,將新詞發現問題轉化為預測已分詞詞語邊界是否為新詞邊界的問題,取得了較好的效果。(3) 基于規則和統計結合的新詞發現方法,通過規則和統計方法的相互彌補,提升新詞發現的效果。周霜霜等[12]提出了一種融合人工啟發式規則、C/NC-value改進算法和條件隨機場(CRF)模型的微博新詞抽取方法,有效提高了微博新詞的F1值。顯然,以上方法都存在明顯缺陷。基于規則的方式,雖然針對特定領域可以達到很高的準確率,但在新詞發現的可擴展性、靈活性上存在很大弊端,甚至需要大量的人工參與總結規則,領域適應能力弱;基于統計的方式通過獲得的語料,分析詞頻、左右鄰接熵等統計特征判定新詞成詞的概率,雖然具有較強的領域適應能力和可移植性,但是面臨需要大規模語料庫和數據稀疏[13]等問題。

另外,受當前新詞發現研究方法可移植性差、需要大量人工規則或語料的限制,目前新詞發現的研究主要集中在解決某特定問題的新詞識別任務(人名、地名、翻譯縮寫等命名體的識別)以及某幾個特定領域術語(如軍事、財經等領域)的自動提取[11]。例如,韓春燕等[14]使用條件隨機場對微博語料進行命名體的識別,由于缺乏大量語料,采用半監督學習框架訓練模型提高了微博語料中命名體識別的效果;段宇鋒等[17]在2015年對植物專業領域的新詞自動化識別進行了探索等。然而有很多新詞,比如“逗鵝冤”“奧利給”“藍瘦香菇”等詞語,不屬于任何明確的特定領域且只在特定語境和情境下有效。對于這類屬于開放領域的詞語,目前大部分的新詞發現方法顯然不太適用。然而不僅僅局限于某個或某幾個領域的、面對開放領域的新詞發現算法和當前有領域限制的新詞發現算法相比還比較缺乏。

綜上所述,目前新詞識別算法仍然面臨不同領域可移植性能弱、需要大量人工參與和建設大規模語料庫、開放性領域新詞識別算法匱乏等問題。針對這些問題,本文在BERT預訓練模型的基礎上進行微調,將詞語和上下文輸入模型進行訓練,使得模型具有識別該詞語在上下文中是否成詞的能力。BERT預訓練模型的訓練語料由維基百科等大規模語料構成,因此對于開放性領域的文本,預訓練模型也擁有很好的表示能力,這使得該模型對于不同領域的新詞具有很好的識別能力,解決了傳統新詞識別方法需要大規模語料和不同領域移植能力弱的缺點;同時,訓練獲得的分類器自動判定字符串是否成詞,解決了規則法需要人工制定大量規則的缺陷。

2 本文研究方法

2.1 BERT預訓練語言模型

BERT模型是Google公司AI團隊[16]在2018年發布的一款新型語言模型。該模型性能卓越,在包括閱讀理解任務在內的11種不同的NLP任務中創造出最佳成績,其中在機器閱讀理解頂級水平測試中的表現全面超越人類,為NLP帶來了里程碑式的改變。如圖1所示,相比于其他語言模型如ELMO、GPT等使用淺層雙向或單向的網絡結構,BERT模型采用表義能力更強的深度雙向Transformer網絡結構來預訓練語言模型。深度雙向的編碼器更有利于融合字左右兩側的上下文,對于句意的理解更強。

圖1 BERT預訓練模型結構圖

BERT模型的主要創新點在于語言模型的預訓練方式上,它使用了Masked LM和Next Sentence Prediction兩個任務來訓練模型,以分別捕捉詞語和句子級別的表征。在Masked LM任務中,訓練方式為按照一定百分比隨機屏蔽句子中的token,然后預測被屏蔽的token來使得模型具有很好的詞語級別的表征和理解能力;而在Next Sentence Prediction任務中,將兩個句子A和B分別輸入模型,通過有監督的方式來訓練模型,讓模型判斷B句是否是A句的下一個句子,即A句和B句的關系,這讓模型具有了理解句子之間關系的能力。在本文新詞識別的任務中,模仿BERT預訓練模型Next Sentence Prediction任務的訓練方式,將詞語和詞語所在的上下文分別輸入模型,讓模型學習到該詞語與其上下文之間的關系。通過有監督的學習讓模型充分理解到該字串在下一句中是否成詞,從而來幫助實現新詞發現任務。

2.2 模型的輸入和句向量的表示

本文在BERT預訓練模型的基礎上進行了fine-tune,將正例及上下文和負例及上下文輸入模型進行訓練,使得模型具有識別該詞語在上下文中是否成詞的能力。實驗中,樣本分為兩部分:正例和負例。正例是一個正常詞語及其上下文組成的文本的特征向量,例如“秘書室[SEP]音樂會由東吳秘書室主辦”;負例為一個非正常詞語及其上下文的特征向量,例如“以發揮[SEP]以發揮樂曲的細微變化”。然后對正例標記為[0,1],負例標記為[1,0]。

對于中文語料,BERT模型使用單個字符作為輸入的原子字符。本文加載谷歌2018年公開的BERT預訓練模型作為字向量表,該模型采用了12層的雙向Transformer,隱藏層神經元節點數為768即隱向量大小為768維,每層的muliti-head為12。通過查詢該字向量表將輸入文本中的每個字轉化為768維向量作為模型的輸入,完成將高維語義空間的自然語言轉化成低維空間的embedding。同時,將BERT預訓練模型的參數作為模型的初始化參數,經過模型學習得到輸入文本融合上下文語義信息后的表征。此外,模型輸入除了字向量(token embeddings)外還包括位置向量(position embeddings)和區分上下句的分段向量(segment embeddings)。在BERT預測下一句的任務中,句子對中的兩個句子擁有不同的segment embedding,將它們進行簡單的相加后一起后送入到模型中。如圖2所示,本文模仿這種做法將詞語及其上下文分配不同的segment embedding,拼接后送入模型進行訓練。

圖2 句表征結構圖

2.3 模型的訓練

本文將新詞識別任務轉化成NLP的常見任務:分類任務。首先,對數據進行預處理,構造正負樣本輸入模型進行訓練,獲得可以識別該字串在其上下文中是否是詞語的二分類器;然后,將測試文本輸入模型進行預測,并將模型預測為正的詞語保存為詞語的初始版本;最后,對模型預測為正的詞語進行標準詞庫和篇頻過濾,得到新詞。其中鑒定詞語的過程采用有監督的學習方式,模仿BERT預訓練模型Next Sentence Prediction的訓練方式,將預測字串在上下文中是否成詞轉化為二分類問題來解決。本實驗加載Google在2018年公開的中文預訓練模型(BERT-base,Chinese)進行微調訓練分類器,采用交叉熵式(1)作為損失函數。通過反向傳播算法調節模型參數,最終使得模型具備詞語判別的能力。

(1)

式中:y為真實值;y′為模型的估計值;N為樣本數。

如圖3所示,本文將字串和對應的上下文編碼輸入BERT模型。

圖3 模型的訓練

圖3中,w1,w2,…,wn表示需要被判別是否成詞的token字串,s1,s2,…,sn表示該字串所在的上下文句子,[SEP]表示分割字串和上下文句子的分隔符。經過BERT的編碼之后,采用第一個token(即[CLS])的最后一個隱藏狀態的輸出作為整個句子的表示。拿到句子的輸出后做一個簡單的線性變換,最后通過一個Softmax層,經過式(2)的變換,將線性層的隱向量轉化成0到1之間的表示,即該字串在上下文中是否是一個真實的詞語的概率,j為1到k的自然數。

(2)

3 實驗與結果分析

本文的實驗由主實驗和對比實驗構成。主實驗方法為本文提出的基于BERT的新詞識別方法,對比實驗為基于互信息和左右熵的新詞發現算法和基于條件隨機場的新詞發現方法。基于互信息和左右熵的新詞發現算法主要將分過詞的文字使用N-Gram算法將文字分割為一個個字符片段,即候選詞。然后,根據成詞規律計算候選詞的凝固程度(互信息)和自由程度(左右熵)來判斷該候選詞是否是一個詞語。基于條件隨機場的方法則利用條件隨機場(Condition Random Field,CRF)可對輸入進行標注的特點,首先對輸入的句子進行分詞,將新詞發現轉化為序列標注問題,再將分好詞的句子進行新詞的抽取。

由于缺乏公開權威的分詞和新詞發現數據集,本文采用《人民日報》提供的人工標注的分詞和詞性標注語料,總計52 454條。將語料按照9∶1劃分為訓練集和驗證集用于模型的訓練和驗證。為了驗證三個模型在不同領域的文本上的泛化性能,即模型的可遷移能力,本文的測試集持續搜集每日由包括百度、新浪微博、知乎、搜狐新聞和Bilibili在內的多個網站熱搜榜文章,并對當日搜集到的語料進行一次新詞識別和搜集。該行為是持續行為,并非一次性行為。這些文章來源于娛樂、財經、社會和文化等不同領域,擁有不同的文本風格。另外,測試集采用最新熱搜榜的語料,擁有較高的時效性,對于模型是否真的可以發現優質的新詞可以更好判別。

3.1 評價方法

本文采用的算法指標有精準率P(precision)、召回率R(recall)和F1值(F1-measure)。由于沒有權威公開的數據集,且中文分詞方法也并不唯一,例如,“云南省科協”可以看作是一個詞,也可以分為“云南省”和“科協”兩個詞。不同的算法給出的分詞方案雖然可能不統一,但是可能都是正確的。因此將三個算法識別出的正確結果的合集看作是要召回的結果,如圖4所示。

圖4 模型評價方法圖

圖4中A、B和C分別表示三個算法識別為新詞的集合,其中A′、B′和C′則表示各自對應的正確結果,f(X)表示集合X的元素個數。那么以A算法為例,其精準率、召回率和F1值的計算公式為:

(3)

(4)

(5)

3.2 主實驗

3.2.1 主實驗訓練數據集的構造

本文的數據使用《人民日報》提供的中文分詞語料庫進行構造。正樣本由分詞數據庫內長度大于等于兩個中文字符的詞語及其上下文組成,格式如:“秘書室[SEP]音樂會由東吳秘書室主辦”,負樣本的詞語由不定個數的不成詞的字串組成,負樣本則由負樣本詞語及其上下文組成,格式如:“以發揮[SEP]以發揮樂曲的細微變化”。其中“[SEP]”為BERT字典中的分隔符,將詞語和上下文分割開來。詞語的最大長度為8個字符。構造的訓練集和驗證集的樣本數如表1所示。其中訓練集的正負樣本比約為1∶20,驗證集的正負樣本比約為1∶38。

表1 正負樣本數目表

3.2.2 主實驗流程

圖5為本文的實驗流程。首先對數據進行預處理并構造正負樣本,將詞語和上下文同時輸入模型進行訓練,得到在驗證集上精度很高的詞語分類器并保存。

圖5 實驗流程圖

然后如表2所示,使用滑動窗口的模式對爬取的熱搜榜語料進行子串分割等預處理,生成若干長度小于等于5的候選詞,構造測試集。

表2 測試樣例表

表3 詞語成詞概率表

(6)

3.2.3 主實驗結果及分析

表4為分類模型在驗證集上的精準率、召回率、F1值和準確率情況。由表可知,模型對于負樣本的識別能力很強,各項指標都基本接近1。模型對于正樣本的識別能力也非常好,精準率達到了0.93,召回率達到了0.88,效果符合預期。最后將測試集數據輸入模型進行預測,經過標準舊詞庫過濾之后,模型發現新詞1 184個。經校驗,其中1 142個詞語識別正確,模型精準率為0.962。

表4 驗證集上各實驗指標表

3.2.4 模型在開放領域真實最新語料中的表現

為了驗證該模型在最新真實數據上的泛化能力,本文收集了各門戶網站近7日的新聞和熱搜榜數據文本數據,其中文本類型包括娛樂、財經和社會等領域。將該文本數據集模型輸入模型。表5為每日文本數目、發現新詞數目和人工校驗準確率表。由表5可知,模型在近一周的新詞發現均值為79個(包含未登錄詞),人工校驗準確率為0.95,因此模型在不同領域上具有較強的泛化能力,克服了基于規則的新詞發現算法的領域針對性強、難移植的缺憾。

表5 模型的泛化表現

其中輸出的新詞樣例如表6所示,對于不同領域的文本,模型對新詞的識別比較準確,確實發現了一系列最近比較火,且目前詞庫尚未收錄的詞語,如“三不三報”“封控”等具有明顯疫情背景的詞語以及最近在媒體中經常提及的人名如“喬治弗洛伊德”等,由此可見,該模型在實際生產生活中具有很強的現實意義。

表6 新詞發現結果樣例表

3.3 對比實驗

本文中的對比實驗主要采用基于互信息和左右熵的新詞發現方法和基于條件隨機場的新詞發現方法。在相同的數據集上,使用這兩個方法來實現新詞發現任務。最后通過計算各算法的精準率、召回率和F1值來比較各算法性能。

3.3.1 基于互信息和左右熵的新詞發現

基于互信息和左右熵的新詞發現方法主要是通過計算候選詞的內部凝固度和邊界自由度來確定該字串是否為一個詞語[17-18]。內部凝固度用來衡量該詞語搭配是否合理,詞內部凝固度越大,表明漢字結合越緊密,它們構成詞語的可能性越大。比如在一句話“蜘蛛坐在網上等獵物”中,“蜘蛛”“獵物”等的凝固度就很大,“蛛坐”“在網”等詞的凝固度就很小,因此“蜘蛛”比“蛛坐”更有可能是一個詞語。互信息通常用來表示兩個信號之間的依賴程度,在這里用互信息來表示詞語內部的凝固程度。互信息的定義為式(7)所示,其中p(x)表示x在語料里單獨出現的概率,p(y)表示y在語料里單獨出現的概率,p(x,y)表示x、y在語料里一起出現的概率。

(7)

邊界自由度則用來衡量一個候選詞左右相鄰字的豐富程度,邊界自由度越大,該候選詞越有可能是一個詞語。比如對于“杯子”和“輩子”這兩個字串。“杯子”左右可以加的相鄰字就比“輩子”要豐富得多,即“杯子”擁有更大的邊界自由度。因此,“杯子”就比“輩子”更有可能是一個詞語。使用候選詞的左右信息熵來衡量邊界自由度的大小。左信息熵指候選詞與它左相鄰集合的信息熵之和,左信息熵越大表明候選詞的左鄰接詞越豐富,那么該候選詞是一個詞語左邊界的可能性就越大,右信息熵同理。左右信息熵的公式如式(8)、式(9)所示。其中,式(8)中sl是候選詞w的左鄰接字的集合,p(wl|w)是候選詞w出現的情況下其左鄰接字是wl的條件概率。式(9)同理。

(8)

(9)

如圖6所示,本實驗中基于互信息的新詞發現方法采用文獻[18]中的方法,算法流程主要包括語料的預處理散串的分析、根據互信息對候選詞進行過濾、根據候選詞的左右熵確定詞語邊界等步驟。首先將語料進行分詞后,將散串進行Bi-Gram的組合,計算字串組合的互信息,若互信息大于閾值則將該字串視為候選詞,然后計算候選詞的左右信息熵,根據計算結果進行過濾或擴展,最后得到新詞。本文將測試數據按圖6的步驟進行新詞抽取,其中字符長度閾值為5,互信息閾值為5,交叉熵閾值為0.07,經過標準舊詞庫過濾后,共輸出詞語909個,正確的有629個,精準率為0.692,低于本文主實驗的精確率。

圖6 基于互信息和左右熵的算法

3.3.2 基于條件隨機場的新詞發現

基于條件隨機場的新詞發現算法是利用CRF對輸入文本進行序列標注,從而達到分詞的效果,Xue[19]最早在2003年時將序列標注方法應用于中文分詞,并且對于未登錄詞取得了較好的召回率。本文借鑒文獻[20]用于命名體識別的網絡結構用于分詞任務。將《人民日報》(2014)的人工標注語料進行分詞標記后輸入網絡進行訓練得到分詞器。目前主流的分詞標記方法有三種,如表7所示。本文采用4-Tag的標記方式。其中“S”表示單獨的一個字,“B”表示詞語的開頭,“M”表示詞語的中間,“E”表示詞語的結尾,例如對于分好詞的句子“昆明|的|氣候|四季如春|”,那么對應的4-Tag標記為“BESBEBMME”。

表7 3種常用標記方法

模型結構如圖7所示,首先將文本使用word2vec預訓練模型對字進行嵌入,每個字的特征為300維;得到字嵌入之后,將字嵌入輸入到雙向LSTM中;輸出層接CRF使模型能夠同時考慮過去和未來的特征,并學習到狀態轉移矩陣使輸出標簽(tag)時的選擇前后相互關聯[21]。將測試文本輸入模型,得到被分詞的句子后的詞語序列,提取長度大于1的詞語,經過標準舊詞庫的過濾后,共輸出詞語1 742個,經過校驗,正確的個數為1 300個,精準率為0.746,遠低于本文的BERT模型的精準率。

3.4 對比實驗結果及分析

整合三個算法在開放領域測試集上的結果,統計結果如表8所示。由表8可知,三個算法共找出的正確詞語的個數為3 071個。由于基于CRF的新詞識別方法是基于分詞模式的,因此貢獻了最多的詞語數量,而基于互信息和左右熵的方法過濾依賴于詞頻的統計,因此貢獻了最少的新詞量。三個算法共同發現的詞語共123個,人工校驗準確率為100%,其中命名體為84個。

表8 實驗結果統計

將三個算法的并集看作需要召回的結果,計算召回率和F1值,結果如圖8所示。BERT算法的精準率遠高于其他兩個算法,同時擁有最高的F1值。這表明,對于開放領域的語料,本文提出的算法擁有更好的新詞識別能力。

圖8 各算法指標比較

命名體識別(Named Entity Recognition,NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,在本文中還包括電視劇名、電影名、熱點事件名和游戲裝備名等[22]。命名體的識別不僅是分詞和新詞識別的一個重要環節,同時也在句法分析、機器翻譯、信息檢索和自動問答等領域有直接的應用[23]。為了驗證三個算法對于命名體的識別能力,本文還對新詞集中各算法對命名體的召回情況做了統計,結果如圖9所示。由圖9可知,在CRF擁有最大新詞貢獻量的情況下,BERT對命名體的識別依然保持最高的召回率。

圖9 命名實體識別的召回率比較

4 結 語

針對目前新詞識別領域算法存在的移植性能弱、需要大量人工參與規則定制、需要大量語料以及數據稀疏等問題,本文提出了基于預訓練語言模型(BERT)的開放性領域新詞識別方法。該方法利用BERT模型對于句內上下文和句間聯系的超強理解能力,將詞語和上下文輸入模型,將新詞識別任務轉化為分類任務來完成新詞的識別。經實驗證明,與基于互信息和左右熵的新詞發現方法和基于CFR的新詞發現方法相比,本文提出的基于BERT的新詞識別方法在開放性領域的數據集上擁有更高的精準率和F1值。與此同時,BERT對于命名體的識別也擁有最高的召回率,實驗驗證了本文算法的有效性。但是,由于用戶在書寫文檔時存在輸入法誤操作、錯別字等各種情況的發生,這類風險詞并不屬于新詞,但目前算法只是通過篇頻過濾的手段對其進行初步過濾,并沒有做更精細的工作,日后對于這類風險詞的標注應該成為工作的重點。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲日韩精品无码专区97| 欧美色99| 午夜一级做a爰片久久毛片| 国产精品亚洲一区二区三区z| 五月天天天色| 白浆免费视频国产精品视频| 国产精品极品美女自在线看免费一区二区| 无码电影在线观看| 日本午夜精品一本在线观看 | 欧美中文字幕一区| 亚洲天堂久久| 午夜性爽视频男人的天堂| 国产麻豆精品久久一二三| 国产情侣一区| 亚洲天堂视频在线播放| 都市激情亚洲综合久久| 亚洲天堂网2014| 99热最新网址| 国产农村1级毛片| 欧美一级高清免费a| 日韩人妻精品一区| 亚洲三级片在线看| 国产97色在线| 国产a网站| 一级片一区| 亚洲欧美另类专区| 欧洲免费精品视频在线| 一本久道久久综合多人| 中文字幕欧美成人免费| 无码中文AⅤ在线观看| 久久精品人人做人人| 国产精品浪潮Av| 国产精品无码AⅤ在线观看播放| 欧美不卡二区| 日本精品中文字幕在线不卡 | 性色在线视频精品| 亚洲无码高清一区| 一本色道久久88| 97成人在线视频| 伊人久热这里只有精品视频99| 亚洲无码37.| 精品乱码久久久久久久| 国产欧美成人不卡视频| 久久人搡人人玩人妻精品一| 欧美午夜在线观看| 国产精品亚洲va在线观看| 国产精品无码制服丝袜| 日韩无码黄色| 丁香婷婷激情网| 日本国产精品| 亚洲精品卡2卡3卡4卡5卡区| 精品欧美视频| 欧美日韩精品一区二区在线线| 成人福利一区二区视频在线| 中文字幕免费视频| 黄色三级毛片网站| 六月婷婷综合| 国产浮力第一页永久地址| 亚洲欧美日韩动漫| h视频在线播放| 激情综合网激情综合| 这里只有精品在线播放| 久久天天躁夜夜躁狠狠| 国产欧美视频综合二区| 在线欧美国产| 美臀人妻中出中文字幕在线| 久久99精品久久久久久不卡| 日本午夜三级| 亚洲成人精品久久| 国产 在线视频无码| 亚洲国产91人成在线| 狠狠操夜夜爽| 婷婷综合缴情亚洲五月伊| 国产嫖妓91东北老熟女久久一| 亚洲欧州色色免费AV| 秘书高跟黑色丝袜国产91在线| 国产AV无码专区亚洲A∨毛片| 色综合成人| 欧美一区中文字幕| 国产色婷婷| 日本久久免费| 久草视频中文|