999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可擴展外部知識的分詞模型研究*

2022-02-12 12:04:38陳世友
艦船電子工程 2022年1期
關鍵詞:實驗信息模型

王 澤 陳世友

(中國船舶集團有限公司第七〇九研究所 武漢 430205)

1 引言

當前,無人作戰平臺已經普遍使用,無人化作戰形式正在成型。無人平臺首先需要接收作戰命令,然后理解作戰命令要傳達的作戰意圖,最后根據作戰意圖執行行動。其中無人平臺接收的作戰命令是一個中文文本,是一個字的序列,中文的書寫不像英文的書寫,詞與詞之間沒有空格間隔,又因為詞是承載語義的基本單位,因此理解作戰命令的第一步就是中文分詞,中文分詞的好壞直接影響作戰命令的理解。

目前,中文分詞普遍使用的方法有基于規則的方法、基于機器學習的方法和基于深度學習的方法。基于規則的方法準確率高,但是移植性、泛化性差,以及成本昂貴等不足;基于機器學習的具有準確率高,泛化性強,移植性弱等特點,依然需要許多人工特征;基于深度學習的方法不但具有高準確率,而且具有良好的泛化性,最重要的是深度網絡具有提取深度特征的優勢,減輕了手工構建特征等方面帶來的壓力。特別是預訓練模型使用,使得模型具有較好的移植性,在具體領域的少量有監督語料上微調即可獲取優秀的分詞結果。

自從C&W提出關于基于序列標注的統一框架[1],將中文分詞作為基于字符的序列標注任務并使用基于C&W提出深度學習框架進行中文分詞的相關研究越來越多[2~6],通過不斷優化編碼器,優化表示學習,融入更多特征,使得模型的效率不斷提高。例如使用雙向長短期記憶網絡(Bi-LSTM)編碼上下文信息,基于自注意力機制的預訓練用于表示學習等。然而,未登錄詞問題依然是中文分詞面臨的一個重大問題,例如一個地點名詞“無名高地”,如果無法獲取詞的上下文依賴信息,就無法提供詞邊界信息,就不能正確分詞,很可能就將其劃分為“無名”“高地”二詞。

字序列是指出現在句子中n-gram,然而并不是所有的字序列可以成為詞,只有那些承載一定意義的字序列才是詞。詞范疇信息是一種上下文信息,用于衡量字序列成為詞的程度。鄰接變化數是詞范疇信息的一種,根據詞是具有特定語義的字序列的特點,使用字序列在不同上下文環境中出現的次數衡量字序列是詞的程度。因此在大量無監督語料中使用詞范疇信息,從而得到相關詞范疇詞典。若是“無名高地”字序列出現在詞典中,說明“無名高地”字序列在語料中的不同上下文環境中多次出現,這樣才能被詞范疇信息捕捉到,幫助模型識別未登錄詞。由上述可知,詞范疇信息有助于識別未登錄詞。

同時,近年來在模型中融入外部知識增強模型性能成為一種趨勢[7~9],所以在基于深度學習的中文分詞模型中融入字序列的詞范疇信息無疑可以有效提高中文分詞的未登錄詞召回率。Tian等使用鍵值記憶網絡融入字序列的詞范疇信息進行中文分詞[10],受到Tian等另一篇文章的啟發,雙路注意力機制[11]可以克服鍵值記憶網絡忽略鍵中可能提供的信息,所以本文使用雙路注意力機制融入詞范疇信息,可以融入更多的詞范疇信息。

2 模型介紹

模型的整體架構如圖1。圖的底部是從一個字序列的詞典N,是獲取的詞范疇信息的結果。圖的頂部是基于字符標注的深度模型的骨架,包括編碼器、熟雙路注意力機制模塊、解碼器。分詞流程如下。

圖1 中文分詞模型結構圖

給定輸入的句子:

其中xi是每一個字。標記序列表示為

因此,分詞模型的條件概率可形式化為

其中Y是標記序列的集合,標記B、I、E、S分別代表字在詞的開頭、中間、結尾和單字成詞等詞邊界標記。n表示輸入句子X的長度。是根據模型選擇最可能的序列。att是使用雙路注意力機制在模型中融入詞范疇信息。最后輸出最大概率的標記序列。

在接下來的幾小節分別描述模型的每個部分。

2.1 編碼器

對于使用深度神經網絡進行分詞最為基礎與重要就是字符級的向量表示,將字符映射成向量的過程稱為編碼,映射的方法稱為編碼器。

依據編碼的結果,現在廣泛使用的編碼器可以分為兩類,離散型編碼器和分布式編碼器。離散型編碼器定義為生成字符向量的離散表示,分布式編碼器定義為生成字符的分布式表示的編碼器。離散表示方法是一種簡單的表示方法,特點是容易獲取,可解釋性強,但是無法表示字符間的關系。例如目前被廣泛使用的獨熱編碼(One-hot)。分布式表示是一種使用稠密向量表示字符的方法,特點是不易獲取,不可解釋性強,但是可以建模字符之間的關系。例如目前廣泛使用的編碼器有Bi-LSTM和BERT。

本文使用BERT[12]作為編碼器,將輸入的文本序列中的每個字表示成向量:

2.2 獲取詞范疇信息

鄰接變化數(Accessor Variety)[13]是一種詞范疇信息,在大量無監督語料上統計獲取。將AV識別的詞作為輔助特征,這樣可以從統計上捕獲更多的關于詞的邊界信息,從而進一步提升模型性能。

在一個句子中,以任意兩個位置為邊界的字序列都可能是一個詞,那么那些字序列才是一個真正的詞呢?實際上,如上文所述,詞作為承載語義的基本單位,即使用特定的字序列表示語義,因此詞可以出現在不同的上下文環境中而不會改變詞中的字和字順序,所以可以通過統計字序列的不同上下文環境的數量作為判斷字序列是一個詞的特征。這個方法就是鄰接變化數(AV)。

鄰接變化數可以表征字序列是一個詞的程度,如果字序列的鄰接變化數越大,那么這個字序列就越可能可能成為一個詞,換句話說,即一個特定的字序列在按不同的上下文環境出現的次數越多,那么這個字序列就可能是一個詞。據上所述,AV的定義如下:

式中,Lav(s)表示字序列s的左鄰接變化數,左鄰接變化數被定義為字序列s在句子中左側第一個字符不同的數量的字序列出現在句子首的次數;Rav(s)表示字序列s的右鄰接變化數,右鄰接變化數被定義為字序列s在句子中右側第一個字符不同的數量和字序列出現在句子結尾的次數。例如:

1)攻擊敵軍陣地;

2)突破敵軍防線;

3)消滅敵軍有生力量。

在這三句話中,“敵軍”二字組成的字序列就很大的可能是一個詞,“敵軍”的左鄰接變化數是3,右鄰接變化數也是3,所以“敵軍”的鄰接變化數是3,因此在不同上文中,“敵軍”字序列能有效地結合在一起,成為詞的可能性就變大了。

2.3 雙路注意力機制

注意力機制(Attention)已經被證明在NLP系統中融入外部知識是有效的。鍵值記憶網絡可以將鍵值對這樣成對出現的知識融入到模型中,但是鍵值記憶網絡計算鍵與隱藏層的注意力分布,并將注意力分布作為值的權重進行求和,這個過程中必然損失鍵中一些信息。因此本文采用雙路注意力機制,使用自注意力機制[14]分別編碼在詞范疇詞典中包含輸入中字的所有的字序列以及該字在字序列中的位置,能在模型中融入更多詞范疇信息。

例如,輸入句子中“攻”字,在詞范疇詞典中包含該字的序列,如“攻擊”字序列,“攻”字該在字序列的開頭,我們將這種位置信息稱為知識(Knowledge),標記K。知識有下表中的四種。同時將“攻擊等出現在詞范疇詞典中的字序列稱為上下文特征C(Context feature)。

表1 知識與標記

對于輸入句子中每一個字xi,在輸入的句子有包含該字的字序列,若是出現在詞范疇詞典中,則保留,否則丟棄,那么就可以得到輸入句子中每一個字xi的上下文特征集合:

xi是字序列ci,j中的一個字,對應可得到知識集合為

其中元素是四種知識標記的一種。例如“大”字在輸入句子中“陸軍部隊廣大官兵在奮斗強軍中攻堅克難”中的字序列有{“大”,“廣大”,“大官”,“隊廣大”,“廣大官”,“大官兵”},字序列最長長度設為3。假設在構詞范疇詞典N中有{“大”,“廣大”,“大官”},那么“大“”字的上下文特征集合為:

則知識

因此,關于上下文特征的自注意力機制可被形式化為

式中hi是編碼器將字映射到向量的結果,是詞ci,j的詞嵌入。然后我們可以獲得上下文特征C以自注意力分布為權重的編碼:

2.4 解碼器

與編碼器相反,將字向量映射到詞邊界標記的過程稱為解碼,映射的方法稱為解碼器。序列標注實質上是一個多分類任務,因此,一般廣泛使用的解碼器有條件隨機場(CRF)和softmax。

在使用模型為輸入句子的每一個字符生成在ai后,模型中解碼器以ai為輸入生成相應的標記。可形式化如下:

3 實驗與分析

3.1 實驗設置

論文實現了融入詞范疇信息的中文分詞模型。在實驗中用到的開發工具和環境如表2所示。

表2 實驗環境

由于沒有領域內關于作戰命令的數據集,本文收集了作戰命令共計4718句。首先采用ICTCLAS工具進行分詞,然后進行人工修正,最后作為中文分詞的語料集。在實驗當中,選擇其中的80%句子作為訓練集,20%作為測試集。

實驗通過召回率R、精確率P、F值以及未登錄詞(out-of-vacabulary,OOV)召回率四個指標進行評測。計算法方式如下:

BERT使用Google發布的Chinese base model,12層,768隱藏單元,多頭注意力設置成12,共有110M參數。雙路注意力機制模塊的上下文特征與知識使用768維向量編碼,參數隨機初始化。解碼器需要學習的參數隨機初始化。使用負對數似然函數作為損失函數。使用鄰接變化數的參數選擇長度不超過5個字的字序列,以及鄰接變化數的閥門設置為2。批處理大小設置為8,采用adam優化器,在數據集上的學習率設置為0.00001。

3.2 實驗結果與分析

實驗選取BERT+CRF作為基線,然后使用雙路注意力機制(BERT+BW-Attention+CRF)進行分詞,最后使用消融的方法研究上下文特征與知識分別對模型的作用,只加入上下文特征(BERT+CW-Attention+CRF)和只加入知識(BERT+KW-Attention+CRF),在分詞的過程中使用收集的專有名詞詞典。

表3 不同模型在語料集上的結果

從實驗結果來看,實驗1和實驗4對比,發現使用雙路注意力機制融入詞范疇信息對作戰文書的分詞是有提升效果的,尤其是未登錄詞的識別,從77.73提升至79.17。相信如果使用大規模數據集,可以捕獲更多的詞范疇信息,提升效果會更加明顯。對比實驗1和實驗2、3,可以發現分別加入兩個因素對分詞的提升是由效果的,相對來說,上下文特征加入使得模型的分詞的效果增福較大。對比實驗2、3和實驗4,可以發現實驗2的F1要高于實驗4,這是因為實驗4雙路注意力機制的參數偏多,導致過擬合,使得F1稍微下降,換句話說,即是融入詞范疇信息過多,稍微影響了F1值。實驗4的未登錄詞的召回率最優,說明模型可以學習到更多的知識,用于未登錄詞識別。

與使用鍵值記憶網絡融入詞范疇信息的模型對比。

表4 鍵值網絡在語料集上的結果

對比實驗2、3和實驗5,發現實驗2、3的F1和Roov值都略低于實驗5,這是因為實驗2、3只融入了兩個因素的單個因素,即是鍵值網絡損失一些信息,但依然可以獲得相對單個因素更多信息。而對比實驗4和實驗5,可以發現實驗5的F1高于實驗4,這說明名了實驗4出現了過擬合,但是,實驗5的Roov比實驗4的Roov的低,這個充分說明了實驗4可以學更多的知識,同時也說明了上文中提到使用鍵值記憶網絡會損失部分信息。

4 結語

本文研究了在作戰文書的中文分詞任務,構建了中文分詞語料集,并實現了使用雙路注意力機制融入詞范疇信息的中文分詞模型。文中使用字序列鄰接變化數作為詞范疇信息,雙路注意力機制使用自注意力分別對上下文特征與詞邊界知識編碼。實驗表明,文中提出模型比基線模型在F1值以及未登錄詞的召回率上都有明顯提升,相對于使用鍵值記憶網絡融入詞范疇信息的中文分詞模型,保持F1基本不變的條件下,提高未登錄詞的召回率。

從實驗中可以發現上下文特與知識對中文分詞的效果都有提升的作用,但是提升的效果不同,因此可以研究在模型中以不同程度加入二者帶來的提升,例如加入第二層自注意力機制。此外,可以看到軍事領域的分詞任然存在巨大的挑戰,如未登錄詞的識別,我們還可以從融入不同外部知識提升中文分詞模型效果,如向模型中加入如詞性標記、句法等先驗知識,或者融合基于模板的知識,或者知識圖譜來提高中文分詞在軍事領域的效果。

猜你喜歡
實驗信息模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 青青操视频免费观看| 99人妻碰碰碰久久久久禁片| 一边摸一边做爽的视频17国产| 五月激情综合网| 国产精品私拍99pans大尺度| 午夜人性色福利无码视频在线观看| 就去吻亚洲精品国产欧美| 97色伦色在线综合视频| 成人福利在线看| 欧美伊人色综合久久天天| 久久无码av一区二区三区| 精品国产三级在线观看| 免费人成又黄又爽的视频网站| 亚洲无码电影| 亚洲熟妇AV日韩熟妇在线| 美女无遮挡被啪啪到高潮免费| 国产高潮流白浆视频| 日韩免费成人| 少妇被粗大的猛烈进出免费视频| 凹凸国产熟女精品视频| 亚洲精品无码人妻无码| 国产国产人成免费视频77777| 久久精品欧美一区二区| 国产精品亚洲五月天高清| 精品国产电影久久九九| 又黄又湿又爽的视频| 超碰91免费人妻| 一本大道香蕉中文日本不卡高清二区| 99视频国产精品| 91免费精品国偷自产在线在线| 欧美日韩午夜| 国产精品久久久精品三级| 国产91视频免费观看| 高清无码一本到东京热| 久久香蕉国产线看观看亚洲片| 日本手机在线视频| 国产a网站| 国产哺乳奶水91在线播放| 色播五月婷婷| 国产精品福利导航| 波多野结衣视频网站| 欧美v在线| 久久青草视频| 999在线免费视频| 精品丝袜美腿国产一区| 中文字幕第1页在线播| a毛片免费看| 亚洲综合专区| 中文字幕在线免费看| av在线无码浏览| 91精品专区国产盗摄| 国产在线视频自拍| 欧美在线中文字幕| 怡春院欧美一区二区三区免费| 亚洲一区无码在线| 成人在线第一页| 香蕉eeww99国产在线观看| 在线观看免费黄色网址| 18黑白丝水手服自慰喷水网站| 无码啪啪精品天堂浪潮av| 色视频国产| 四虎成人精品| 在线国产资源| 91在线一9|永久视频在线| 狠狠色综合久久狠狠色综合| 久久semm亚洲国产| 欧美久久网| 四虎在线观看视频高清无码| 国产成人h在线观看网站站| 欧美另类图片视频无弹跳第一页| 国产成人无码久久久久毛片| 九色视频线上播放| 国产91在线|中文| 欧美午夜在线视频| 最新午夜男女福利片视频| 成人无码一区二区三区视频在线观看 | 久久人体视频| 国产真实乱子伦视频播放| 又大又硬又爽免费视频| 精品一区国产精品| 日韩东京热无码人妻| 一级毛片中文字幕|