999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BI_LSTM_CRF神經網絡的序列標注中文分詞方法

2019-01-10 01:48:14姚茂建李晗靜呂會華姚登峰
現代電子技術 2019年1期
關鍵詞:方法模型

姚茂建 李晗靜 呂會華 姚登峰

關鍵詞: 自然語言處理; 中文分詞; 神經網絡; 雙向長短時記憶條件隨機場; 字嵌入; 序列標注

中圖分類號: TN711?34; TP391.1 ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)01?0095?05

Abstract: The mainstream Chinese word segmentation method based on supervised learning algorithm requires a lot of corpora labeled manually, and the extracted local feature has sparse problem. Therefore, a bidirectional long short?term memory conditional random field (BI_LSTM_CRF) model is proposed, which can automatically learn the text features, and model the text context dependent information. The tag information before and after sentence character is considered in CRF layer, and the text information is deduced. The word segmentation model has achieved perfect word segmentation results on datasets of MSRA, PKU and CTB 6.0, and the experiment for the model is carried out with news data, MicroBlog data, automobile forum data and restaurant review data. The experimental results show that the BI_LSTM_CRF model has high word segmentation performance in testing set, and strong generalization ability in cross?domain data testing.

Keywords: natural language processing; Chinese word segmentation; neural network; bidirectional long short?term memory random field; word embedding; sequence labeling

0 ?引 ?言

中文分詞是中文自然語言處理必需的過程,是進一步進行詞性標注、機器翻譯、信息檢索的基礎。分詞效果直接影響著中文自然語言任務結果的好壞,所以中文分詞具有重要意義。然而中文是一種復雜的語言,存在一詞多意、未登錄詞、語句歧義現象,只有結合上下文信息才能有效地進行分詞。近些年,中文分詞研究取得了持續發展。中文分詞常用的方法可以分為以下幾大類:基于規則和字典的方法、基于統計的方法、基于神經網絡的方法。

基于規則和字典的方法主要思想是建立一個充分大的詞典,按照一定的算法策略將待分詞的字符序列與詞典中收錄的詞條進行匹配,若在詞典中存在,則匹配成功,完成分詞[1]。但其對詞典依賴性很強,對歧義和未登錄詞識別效果不佳等問題?;诮y計的方法是基于訓練語料庫來學習任意字符相鄰出現的概率,得到分詞模型,通過計算字符序列切分最大概率作為分詞結果[2]。該方法需要人工定義和提取特征,其性能也受到訓練語料、特征設定的影響,存在特征過多、模型復雜、容易過擬合的問題。隨著深度學習的快速發展,近年來神經網絡算法被廣泛用于自然語言處理任務中。由于神經網絡可以從原始數據中自主學習特征,不僅替代了人工提取特征的工作量,同時也避免了人為特征設定的局限性。

為了提高中文分詞的性能,應用BI_LSTM_CRF神經網絡處理中文分詞任務,使用BI_LSTM_CRF網絡構造更具表征的字符信息,本文系統性地比較了4字詞位標注與6字詞位標注方法在測試集上的測試結果,實驗結果表明采用6字詞位標注的方法能更好地表征詞語中的詞位信息,并且性能更加優越。使用6字詞位標注方法的神經網絡分詞模型分別在新聞數據、微博數據、汽車論壇數據、餐飲點評數據進行了測試,實驗結果顯示,BI_LSTM_CRF神經網絡分詞模型在跨領域數據測試上也有很好的泛化能力。

1 ?神經網絡模型在自然語言處理領域中的應用

長短時記憶(Long Short?term Memory,LSTM)網絡是遞歸神經網絡(Recurrent Neural Network,RNN)的一種變種,在很多任務上表現的比RNN更好,可以學習長期依賴信息。1997年,Schuster等人在LSTM網絡模型基礎上提出了雙向長短時記憶(Bidirectional Recurrent Neural Networks,BI_RNN)模型,由于是雙向輸入,在記憶長時信息方面比LSTM更具有優勢。以上述神經網絡為基礎的模型在處理與時間相關的序列任務中取得了很大的成功,通常模型都能對長短時依賴信息進行表達。

文獻[3]對神經網絡建立概率語言模型,該方法對n?gram模型有顯著的改進,并且利用了較長的上下文信息。文獻[4]使用神經網絡結構處理中文自然語言任務,描述了一種感知器訓練神經網絡的替代算法,以加速整個訓練過程。文獻[5]將LSTM網絡模型應用于中文分詞中,以解決上下文長距離依賴關系,并取得了不錯的分詞效果。2016年,Yao等人提出采用BI_LSTM網絡模型處理中文分詞,該模型將過去和未來上下文中文信息都考慮進去,中文分詞效果得到了提高。2017年,李雪蓮等針對LSTM神經網絡模型復雜、訓練時間長等問題,提出基于GRU(Gate Recurrent Unit)模型,使得模型訓練更加簡化并且取得了與LSTM模型相當的分詞效果。

4 ?結 ?論

本文主要研究了BI_LSTM_CRF神經網絡來實現中文分詞,實驗中不僅使用MSRA,PKU,CTB 6.0數據集做了測試,比較了4詞位標注與6詞位標注模型的表現性能,實驗結果顯示6詞位標注模型表現出了更好的分詞性能。同時,采用6詞位標注的模型對新聞數據、微博數據、汽車論壇數據、餐飲點評數據不同領域進行了測試,結果表明6詞位標注的模型在跨領域中文分詞也具有良好的性能,說明模型具有很好的泛化能力。

注:本文通訊作者為李晗靜。

參考文獻

[1] WU A. Word segmentation in sentence analysis [C]// Procee?dings of 1998 International Conference on Chinese Information Processing. Beijing: Chinese Information Society, 1998: 1?10.

[2] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282?289.

[3] BENGIO Y, VINCENT P, JANVIN C. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3(6): 1137?1155.

[4] ZHENG X, CHEN H, XU T. Deep learning for Chinese word segmentation and POS tagging [C]// 2013 Conference on Empirical Methods in Natural Language Processing. Seattle: Association for Computational Linguistics, 2013: 647?657.

[5] CHEN X, QIU X, ZHU C, et al. Long short?term memory neural networks for Chinese word segmentation [C]// 2015 Confe?rence on Empirical Methods in Natural Language Processing. [S.l.: s.n.], 2015: 1197?1206.

[6] GRAVES A. Long short?term memory [M]// Anon. Supervised sequence labelling with recurrent neural networks. Berlin: Springer, 2012: 37?45.

[7] ZHAO H, HUANG C N, LI M, et al. An improved Chinese word segmentation system with conditional random field [C]// Proceedings of the Fifth Sighan Workshop on Chinese Language Processing. [S.l.: s.n.], 2006: 162?165.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2013?09?07]. http://www.surdeanu.info/mihai/teaching/ista555?spring15/readings/mikolov2013.pdf.

[9] LAI S, LIU K, HE S, et al. How to generate a good word embedding [J]. IEEE intelligent systems, 2016, 31(6): 5?14.

[10] YAO Y, HUANG Z. Bi?directional LSTM recurrent neural network for Chinese word segmentation [C]// 2016 International Conference on Neural Information Processing. Berlin: Springer, 2016: 345?353.

[11] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions [C]// Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.: s.n.], 2017: 2664?2669.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 人妻21p大胆| 99中文字幕亚洲一区二区| 亚洲人成网站观看在线观看| 青青国产在线| 狠狠ⅴ日韩v欧美v天堂| 精品久久人人爽人人玩人人妻| 69综合网| 国产欧美日韩免费| 亚洲国产天堂在线观看| 麻豆精品国产自产在线| 欧美性色综合网| 国产原创自拍不卡第一页| 亚洲精品欧美重口| 国产精品无码AV中文| 国产手机在线小视频免费观看| 国产av剧情无码精品色午夜| 成人国产精品网站在线看| 3344在线观看无码| 免费播放毛片| 国内精品一区二区在线观看| 国产精品55夜色66夜色| 又爽又黄又无遮挡网站| 2022国产无码在线| 精品少妇人妻av无码久久| 国产亚洲高清在线精品99| 91蝌蚪视频在线观看| 人妻一区二区三区无码精品一区| 五月天福利视频| 久久人人妻人人爽人人卡片av| 丁香婷婷激情网| 日韩不卡高清视频| 国产免费好大好硬视频| 国产网站免费观看| 91在线精品麻豆欧美在线| 91美女在线| 亚洲精品无码抽插日韩| 国产成人精品第一区二区| AV在线麻免费观看网站| 亚洲无码免费黄色网址| 成人a免费α片在线视频网站| 国产精品性| 亚洲v日韩v欧美在线观看| 久久综合婷婷| 99er这里只有精品| 国产欧美视频综合二区| 久久久久亚洲av成人网人人软件 | 福利小视频在线播放| 日本道综合一本久久久88| 久久99国产乱子伦精品免| 韩日午夜在线资源一区二区| 国产成人综合亚洲网址| 日本一本在线视频| 色天天综合| 国产精品久久久久久久伊一| 免费视频在线2021入口| 人妖无码第一页| 国产幂在线无码精品| 99re在线免费视频| 91免费国产在线观看尤物| 国产凹凸视频在线观看| 欧美日韩在线观看一区二区三区| 欧美午夜在线播放| 欧美激情二区三区| 国产亚洲精品精品精品| 日韩精品成人在线| 亚卅精品无码久久毛片乌克兰| 91成人在线观看| 日韩激情成人| 中文字幕日韩丝袜一区| 久久久久国产一级毛片高清板| 青青国产视频| 蜜臀AV在线播放| 婷婷午夜影院| 欧美一级片在线| 青青青伊人色综合久久| 日韩无码视频播放| hezyo加勒比一区二区三区| 四虎精品国产AV二区| 国产一级做美女做受视频| 日韩视频免费| 3344在线观看无码| 热99精品视频|