那 勇 李明全
(吉林廣播電視大學 吉林省遠程教育技術科技創新中心,吉林 長春 130022;吉林建筑科技學院,吉林 長春 130000)
中文自動分詞(Chinese Word Segmentation)顧名思義就是將一段連續中文序列按照規則自動分成單獨中文詞序列的過程。不同于拉丁語系,英文中相鄰單詞之間均以空格作為分解符,基本上可以非常簡單且準確的將英文分詞提取處理,而中文只是在句、段之間利用標點符號或換行符進行劃分,在詞與詞之間并沒有特定形式的分隔符。因此,相對于英文,對中文序列進行自動分詞處理要困難很多。
國外早在上世紀中后期就已經提出了比較成熟的自然語言處理(Neural Language Processing,NLP)和文本數據挖掘系統模型,而我國起步較晚,在上世紀末才開始構建中文的自然語言處理機制。中文分詞是自然語言處理中不可或缺的重要部分,由于中文信息處理的使用越來越廣泛,中文分詞的研究工作逐漸受到國內外專家的關注,開始提出很多行之有效的中文分詞系統模型,并在實踐過程中不斷得到改進和提高。
1984 年,北京航空航天大學梁南元教授設計實現了我國第一個自動中文分詞系統,即CDWS 書面韓語自動分詞系統。該系統自動分詞的方法采用最大匹配法,同時采用詞尾字構詞糾錯技術,切分精讀約為0.16%,分詞速度約為5-10字/秒。鑒于當時的技術水平,CDWS 分詞系統基本可以滿足詞頻統計和其他一些應用的實際需要。CDWS 分詞系統是我國關于中文自動分詞的首次嘗試,啟發了后來相繼提出的其他中文分詞技術,在我國中文分詞技術發展的歷史洪流中有著重要地位。
1991 年,北京航空航天大學又設計了CASS 韓語自動分詞系統。該系統改進了CDWS 自動分詞方法,采用一種變形的最大匹配法,即正向增字最大匹配法。CASS 系統通過可變長記錄的鍵值文件建立結構方式為首字索引的分詞詞典,可以識別不同種類的多義切分字段,分詞精確率得到提升,分詞速度也達到了約200 字/秒。
山西大學研制了ABWS 自動分詞系統,系統運用“兩次掃描-回溯”分詞方法,利用聯想-回溯的特殊方式來解決分詞過程中引起的組合切分歧義,準確率得到了大幅提高,達到了98.6%(不含非常用、未登錄的專用名詞),切分速度達到每分鐘約48 個詞。
清華大學研究了一種稱為SEG 的分詞系統,系統提供帶回溯的正向、反向、雙向最大匹配法和全切分-評價切分算法,用戶可自主選擇切分算法。對于中文分詞中的某種特殊情況,即一些中文詞序列永遠不會被某種分詞方法匹配出來的現象,系統在考慮到這種切分盲點的情況下,提出全切分概念,把中文詞序列中的所有可能的分詞結果找出來,再利用某種評價方法從所有可能的分詞結果中找到最優詞序列作為最終結果。該系統切分精度基本維持在99%左右,切分速度約30 字/秒。
國內外還有其他一些具有代表性的分詞系統,如中科院計算所提出的ICTCIAS 分詞系統,曾多次獲得國內外中文分詞大獎;哈爾濱工業大學提出的統計學分詞系統;微軟自然語言研究中心研發的通用多國語言處理平臺NLPwin 中也加入了中文信息處理模塊等。這些中文自動分詞技術正穩步提升切分的準確率和切分速度,為人們獲取精確的中文信息提供重要的技術保障。
由于中文信息處理技術在整個自然語言處理領域中起步較晚,遠落后于英文等處理技術,目前成熟的英文信息處理技術不能完全套用在中文語言的信息處理上,主要原因是對中文信息處理之前必須要對整個中文詞序列進行分詞這個預處理過程。中文中能夠獨立使用的最小單位是詞,而許多單個漢字即可組成一個詞,但很多漢字組合在一起卻是無法獨立使用的。因此,在中文信息處理過程中,必須要對成段的中文詞序列分割成語言語義學上的詞。所以,中文分詞在中文信息處理中處于關鍵地位,也是中文信息處理的基礎,中文分詞的準確度直接影響當下互聯網及人工智能領域中主要應用的關鍵性能。對中文自動分詞技術的研究具有非常重要的意義,可促進中文信息處理技術的快速發展。
作為人工智能的中級目標之一,自動翻譯就是利用計算機將多種自然語言進行自由互譯的過程,它也是計算語言學的重要分支,科學研究價值極高。在自動翻譯過程中,涉及到中文信息,如果不重視中文以詞為基本單位的特點,直接對整個詞序列進行單個漢字的逐一翻譯,顯然結果會出現嚴重偏差。但是引進高精確度的中文分詞技術后,結果會得到顯著提升。
搜索引擎是利用計算機程序,對互聯網中海量信息進行采集、組織處理后,提供給用戶所需檢索的信息的系統。搜索引擎包括全文搜索引擎、目錄索引搜索引擎、元搜索引擎、集合式搜索引擎等,如常見的百度、谷歌等屬于全文搜索引擎。中文自動分詞的準確性對于各類搜索引擎提取用戶所需信息是十分重要的,而搜索引擎要處理海量信息網頁,對分詞速度的要求一樣提出了超高的標準。
語音合成技術也是人工智能領域重要的一部分,它是將計算機通過電子、機械等方法產生的自然語言語音或者外部輸入的文字信息轉換成人類可以聽得懂且語句通順的語音輸出技術。簡而言之,語音合成技術就是讓計算機擁有人類的講話能力。目前,語音合成技術領域已經取得了豐碩的成果,如懶人聽書、智能播報、語音導航等。不難想象,語音合成技術的關鍵技術并不是讓計算機能夠發出聲音,而是讓計算機能夠發出正常人類在詞語之間的停頓,鑒于此,問題只有通過中文自動分詞技術才能得以更好的解決。
LSTM(Long Short Term Memory)神經網絡的主要特點是可以默認記住遠距離的詞序列信息而無需特別復雜的調試參數,它是專門為了解決長程依賴而設計的,同時最大程度避免了梯度膨脹或消失的問題。LSTM 內部結構復雜,其內部擁有少量記憶的LSTM 細胞單元替換了RNN 中普通的神經元,這些記憶單元成為LSTM 神經網絡的關鍵部分,它通過一種稱為門結構決定在某一時刻新增或刪除信息到記憶單元中。這種門結構由一個逐點乘法和一個sigmoid 神經網絡層組成,本質就是可選擇讓信息是否通過的方法。當sigmoid神經網絡層輸出為0 時,表示門已關閉,信息不可通過;當sigmoid 神經網絡層輸出為1 時,表示門已打開,信息可以通過。
條件隨機場模型主要用于自然語言處理技術中的分詞、文本標注和命名實體識別中,在機器學習領域,它屬于序列標記的無向圖判別模型。它運行的實質是將中文分詞問題轉化為中文分類問題,利用一定機制定義每個字在詞中的信息,即每個字在詞中的位置,來確定整個詞序列的預測結果。
如上所述,LSTM 神經網絡在嘈雜的文本中識別能力較強,但它不能將每個單詞作為序列的一部分來進行預測,只是孤立的預測每個單詞的標簽。所以,在處理數據量大、邏輯關系強烈的標簽時,效果不是很好。而CRF 模型則能夠預測相鄰的標簽序列,因此我們在LSTM 神經網絡層后加入一個CRF 推斷層,構建一個LSTM 與CRF 相結合的模型。此模型中的LSMT 神經網絡層可識別輸入序列的特征模式,有效解決了關于輸入序列的特征提取問題,同時CRF 推斷層利用特定的狀態轉移矩陣參數,利用相鄰標簽的依賴關系預測當前的標簽,實驗表明,這種LSTM+CRF 相結合的模型效果更好。
本文實驗是在一臺配置Nvidia Tesla K80 的GPU 上進行的,采用2014 年《人民日報》語料作為實驗數據集,把其中不足6 個字的句子去掉,在剩下的數據集中抽取5%作為測試語料,剩下95%作為訓練語料。作為對比數據,本文的實驗數據集還采用了自然語言處理與中文計算會議(NLPCC2015)提供的微博評測語料。
為了提高實驗數據可信度,本文對有無CRF 層對模型分詞性能的影響分別做了實驗,并對分詞結果進行對比。從下表的實驗結果中可以看出,當LSTM 模型中加入CRF 層后,分詞準確率有了明顯提高。分析其原因是由于LSTM 神經網絡輸出的是每個字的可能標簽分數,再利用特殊函數算出得分最高的標簽作為輸出標簽。但在某些特殊情況,如在標簽X 后有輸出一個X 標簽,對于這種導致分詞標簽分類錯誤的現象,在加入CRF 層后則大幅減少,根本原因在于CRF 層的特征函數對詞序列進行觀察學習,學習各種詞之間的約束關系,正是有了這些約束關系,分詞標簽分類錯誤就很少出現,也就提高了模型的分詞性能。
中文自動分詞技術是自然語言處理的 基礎模塊,同時也是中文信息處理的關鍵環節,分詞準確率的好壞直接影響中文信息處理結果。本文中利用的LSTM+CRF 相結合的模型處理中文自動分詞的方法可行,效果也比較好。但仍有需要改進的地方,如可嘗試在特征提取層面加入多任務模型,從而期望獲得更高的分詞性能。

CRF 層對模型分詞結果的影響