刁 琦,古麗米拉·克孜爾別克,鐘麗峰,張 健,張志強
(1.新疆農業大學 計算機與信息工程學院,新疆 烏魯木齊 830052;2.新疆維吾爾自治區圖書館,新疆 烏魯木齊 830052;3.新疆虹聯軟件有限公司,新疆 烏魯木齊 830052)
基于循環神經網絡序列標注的中文分詞研究
刁 琦1,古麗米拉·克孜爾別克1,鐘麗峰2,張 健3,張志強1
(1.新疆農業大學 計算機與信息工程學院,新疆 烏魯木齊 830052;2.新疆維吾爾自治區圖書館,新疆 烏魯木齊 830052;3.新疆虹聯軟件有限公司,新疆 烏魯木齊 830052)
分詞是中文自然語言處理中的關鍵技術。在自然語言處理中,序列標注在中文分詞中有著極其重要的應用。當前主流的中文分詞方法是基于監督學習,從中文文本中提取特征信息。這些方法未能充分地利用上下文信息對中文進行分割,缺乏長距離信息約束能力。針對上述問題進行研究,提出在序列標注的前提下利用雙向循環神經網絡模型進行中文分詞,避免了窗口對上下文大小的限制,可以獲得一個詞的前面和后面的上下文信息,通過增加上下文能夠有效地解決梯度爆炸和爆的問題,然后再在輸入層加入訓練好的上下文詞向量,取得相對較好的分詞效果。實驗結果表明,該算法的使用可以達到97.3%的中文分詞準確率,與傳統機器學習分詞算法相比,效果較為顯著。
自然語言處理;循環神經網絡;序列標注;中文分詞;監督學習
分詞是中文處理的一項根本任務。詞是“最小的能獨立運用的語言單位”[1]。中文與英文有所不同,英文中詞與詞之間用空格天然分割,而中文具有大字符連續書寫的特點,需要對其進行有效分割。……