李淑平
摘 要:新詞識別是中文信息處理的重要課題,但因新詞產生的速度快,語法、語用靈活,詞典難以及時收錄等問題使新詞識別成為了中文信息處理領域的難點和熱點問題。新詞識別研究的方法主要有規則方法、統計方法以及規則與統計相結合的方法。新詞識別的規則主要有新詞詞性規則和新詞構詞模式規則。統計方法主要通過計算詞的TF/IDF值、詞內部概率、詞的頻次對比、詞的臨接類別等進行新詞識別。最后該文總結了中文新詞識別研究中存在的問題,指出未來研究的方向。
關鍵詞:新詞識別 構詞模式 詞內部概率 鄰接類別
中圖分類號:TP391 文獻標識碼:A 文章編號:1672-3791(2016)10(b)-0145-03
新詞識別研究是中文信息處理中的一個基礎性問題,它直接關系到中文分詞的效果,繼而影響到后續各級的信息處理問題。在應用領域中新詞識別對于信息檢索、數據挖掘、輿情監測、機器翻譯等各個方面都將產生影響。因此,新詞識別是中文信息處理的一個重要課題,但因新詞產生的速度快,語法、語用靈活,詞典難以及時收錄等問題使新詞識別成為了中文新詞處理領域的難點和熱點問題。
1 新詞的定義
“從詞典參照的角度,新詞語是指通過各種途徑產生的具有現代漢語基本詞匯所沒有的新形式、新意義或新用法的詞語;從時間參照角度,新詞語是出現在某一時間段內或自某一時間點以來首次出現的具有新詞形、新詞義或者新用法的詞匯”[1]。而新詞“按照來源可以分為以下幾類:命名實體、縮略語、方言詞、新造詞、專業術語、音譯詞、字母詞、詞義及用法發生變化的舊有詞語。”[2]。在中文信息處理領域,研究者一般把新詞視為未登錄詞來進行處理,根據構成新詞的規則和各種統計特征來進行新詞識別研究。
2 中文新詞識別研究的發展過程
國內關于新詞識別的研究,最早的一篇文章是1990年汪華峰[3]的《漢語自然語言理解中詞切分中新詞問題初探》,作者提出了一種基于統計的方法,這種統計方法根據漢字出現的頻次,生成n階詞表,之后將這個詞表和詞典匹配,刪去詞典中已有的詞,即為新詞。這篇文章嘗試了一種基于統計的新詞識別方法,代表了之后新詞識別的主流方向。
2002年之后關于新詞識別的文章越來越多,近十幾年來取得了較多的成果。統計方法或統計、規則方法相結合逐漸成為了主流方法,而采用單一規則方法的文章則非常少,各家總結出的統計特征也越來越多。徐遠方[4]使用支持向量機(SVM)將新詞識別看做一個分類問題利用詞特征進行識別,正確率達到61.78%,召回率73.68%,F 值為67.20%。林自芳[5]基于詞內部模式的方法進行新詞識別,準確率為65.7%,召回率為67.3%,F 值為66.5%。崔世起[6]等根據新詞構詞模式、詞性規則和獨立詞概率方法進行新詞識別,準確率達到95%以上。吳悅[7]等采用一種基于二元背景模型的新詞發現方法,準確率為57%,召回率為59%,F 值為58%。李鈍[8]等采用N-gram算法和局部匹配預測算法(PPM)識別新詞,準確率為92%,召回率為90.8%,F 值為91.3%。陳飛[9]等基于條件隨機場的方法識別新詞,準確率、召回率和F 值都達到了90%以上。丁建立[10]等采用免疫遺傳算法進行新詞識別,準確率為87.6%,召回率為79.5%,F 值為83.4%。從實驗結果來看,N-gram算法、局部匹配預測算法(PPM)、條件隨機場算法和免疫遺傳算法對新詞識別效果較好,而其他方法的結果大多數都在60%左右。
3 中文新詞識別的主要技術方法
新詞識別的方法總體上可以分為3類:基于規則的方法、基于統計的方法和規則與統計相結合的方法。
3.1 規則方法
基于規則的方法,主要利用的是語言學知識,總結新詞的構詞特點,建立規則庫,利用規則庫篩選新詞。這種方法的優點是準確率高,但缺點是構建規則庫工作量大、成本高,而規則不能概括所有的語言現象,對于不符合規則的新詞會造成漏召,且規則過多時規則之間也容易相互沖突,另外新詞產生的速度快、組詞靈活,因此,構建的規則庫往往難以適應新詞產生的速度,規則庫的更新困難。規則方法常與特定領域相關,移植性差。由于規則方法的種種局限,現在運用單一規則方法的研究非常少,而主要傾向于采用統計或統計加規則的方法。目前用在新詞識別中的規則主要有以下幾點。
3.1.1 新詞詞性規則
通過對新詞的詞性進行研究發現,新詞主要集中在名詞、動詞、形容詞這三類實詞上,其中名詞所占比例最高,而虛詞一般不構成新詞。如黃軒[11]等依據詞性將規則分為正規則和負規則來識別新詞。韓艷[12]等、周超[13]等按照常規構詞規則和特殊構詞規則等來識別新詞。
3.1.2 新詞構詞模式
為了充分利用新詞的構詞規則,各家對新詞的構詞模式進行了研究,王琳琳[14]主要研究了“1+···+1”模式以及“N+1”模式的新詞。林自芳在文中提到新詞的十一種模式。賈自艷[15]在文中運用禁用詞、后綴、前綴、名詞、特殊語義類、首詞是單字、不可擴展的實義詞、只做首詞的詞語列表、只做尾詞的詞語列表等規則層層過濾來識別新詞。
3.2 統計方法
統計方法主要以大規模語料庫作為訓練語料,根據新詞的特點統計各種有效數據來識別新詞。統計方法不依賴規則、不限定領域,移植性好。但統計方法的計算量往往很大,而且由于沒有規則,統計方法的準確率相對較低,往往形成大量垃圾串,垃圾串的過濾是統計方法的難點。隨著大規模語料庫的建立和海量的網絡資源,統計方法逐漸成為了新詞識別的主流方法,隨著研究的深入關于新詞識別的統計特征也越來越多,主要有以下幾點。
3.2.1 詞的出現頻數(TF)和出現文數(IDF)
新詞作為一種詞語,首先要滿足作為詞的特征,需要具備一定的使用度和通用度,即新詞要滿足一定的頻次和出現文數要求,這是新詞的一個基本判定條件,因此,多數學者會用到這一統計數據,如段宇鋒[16]、吳春穎[17]等都使用了TF/IDF作為識別新詞的統計特征。
3.2.2 詞內部概率
新詞作為詞,還需要滿足作為詞的獨立性和穩定性,而不是一個臨時性的組合,因此,對于字符或詞語,是否和鄰近的字或詞組合構成一個新詞,可用詞內部概率來衡量,如果兩個相鄰的字符或詞語它們的詞內部概率大,則說明它們結合緊密程度高、使用穩定,很可能是一個新詞。在具體算法中,各家的概念和公式會有所不同,如有的借用關聯規則理論提出成詞支持度和成詞置信度,判斷的依然是一個字串或詞組成新詞的概率,還有的使用互信息、粘結度等概念。還有學者將成詞概率細化為首尾單字成詞概率和改進位置成詞概率等。
3.2.3 時間特征
新詞是在一定的時期后新出現的詞,因此,它的一個重要特點是在之前的語料中沒有,而在某一時期后頻繁出現,因此,識別新詞可以引入時間特征,有些學者以某一時間為界將語料分為背景語料和前景語料,然后統計背景語料和前景語料的詞語出現的頻次對比,如果某一字符串或詞語在背景語料中很少,而在前景語料中大量出現,則它很可能是一個新詞。吳悅[7]等使用似然比來度量字符串在前景語料中的概率相比于在背景語料中概率的強烈程度。劉哲[18]等也使用了時間特征來識別新詞。
3.2.4 鄰接類別
新詞在詞的內部具有穩定性, 但詞的上下文語境卻很靈活,即它可以出現在多種語境中,可用上下文鄰接來反映詞的這個特征。上下文鄰接一般分為左鄰接和右鄰接,即當前詞的前一個字或詞和當前詞的后一個字或詞。由左鄰接和右鄰接組成的集合是上下文鄰接集合,這個集合元素越多,說明詞的上下文語境越靈活,越可能是一個新詞。如鐘將[19]等使用鄰接類別這一特征來識別新詞。有的文獻中也使用左右信息熵的概念來反映新詞的這一特征。
3.3 規則和統計相結合的方法
針對規則方法和統計方法各自的不足,也有學者將兩種方法相結合以提高識別效果。大多數學者采用的是統計方法為主規則方法為輔。如程濤[20]等、張蘇[21]等都采用統計和規則相結合的方法來識別新詞。
4 存在的問題
4.1 新詞識別的方法仍有一定局限性,識別效果有待提高
從目前新詞識別研究的成果來看,準確率、召回率及F 值仍然偏低,新詞識別中還存在著種種的問題沒有解決。如:新詞定義不統一,人工判定新詞的主觀性,新詞產生時間的模糊性,分詞后識別方法中的分詞錯誤,垃圾串過濾的復雜性等。
4.2 缺乏少數民族語的新詞識別研究
少數民族語言信息處理近年來獲得較大發展,形成了許多成果,在詞法、語法、語義、語音、語料庫、機器翻譯等領域都有成果,但新詞識別研究的成果卻幾乎沒有,因此,開展少數民族語言的新詞識別研究是迫切需要的。
4.3 多語種的新詞識別研究成果少
中國境內除漢語外,還有許多少數民族語言,各少數民族語言的信息化進程也越來越快,開展跨語言的信息處理研究也越來越重要,但關于多語種的新詞識別研究目前只看到劉冰洋[22]等的《多語種網絡文本快速新詞抽取》,它針對的是中英文語料,多語種的漢語和少數民族語新詞識別還沒有看到相關成果。
5 結語
中文新詞識別是未登錄詞處理中的一個重要內容,直接影響著中文分詞的效果。近年來的研究成果越來越多,該文總結了中文新詞識別的主要技術方法,分析評價了各自方法的優劣,指出了中文新詞識別研究中存在的一些問題,為開展更進一步研究奠定了基礎。
參考文獻
[1] 呂學強,黃河,李渝勤,等.BBS中文新詞自動挖掘[J].現代圖書情報技術,2007(1):37-39.
[2] 鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測[J].中文信息學報,2004,18(6):1-9.
[3] 汪華峰,陳峪.漢語自然語言理解中詞切分中新詞問題初探[C]//第一屆全國語言識別學術報告與展示會論文集.1990.
[4] 徐遠方,李成城.基于SVM和詞間特征的新詞識別研究[J].計算機技術與發展,2012,22(5):134-136.
[5] 林自芳,蔣秀鳳.基于詞內部模式的新詞識別[J].計算機與現代化,2010(11):162-165.
[6] 崔世起,劉群,孟瑤,等.基于大規模語料庫的新詞檢測[J].計算機研究與發展,2006,43(5):927-932.
[7] 吳悅,燕鵬舉,翟魯峰.基于二元背景模型的新詞發現[J].清華大學學報:自然科學版,2011(9):1317-1320.
[8] 李鈍,屠衛,石磊,等.基于上下文感知的中文新詞識別算法[J].計算機工程與設計,2012,33(10):4022-4027.
[9] 陳飛,劉奕群,魏超,等.基于條件隨機場方法的開放領域新詞發現[J].軟件學報,2013(5):1051-1060.
[10] 丁建立,慈祥,黃劍雄.一種基于免疫遺傳算法的網絡新詞識別方法[J].計算機科學,2011,38(1):240-245.
[11] 黃軒,李熔烽.博客語料的新詞發現方法[J].現代電子技術,2013,36(2):144-146.
[12] 韓艷,姚建民,朱巧明,等.不限領域的中文新詞的識別研究[J].鄭州大學學報:理學版,2008,40(3):67-71.
[13] 周超,嚴馨,余正濤,等.融合詞頻特性及鄰接變化數的微博新詞識別[J].山東大學學報:理學版,2015,50(3):6-10.
[14] 王琳琳.規則與統計相結合的中文新詞識別研究[J].嘉興學院學報,2014,26(6):124-130.
[15] 賈自艷,史忠植.基于概率統計技術和規則方法的新詞發現[J].計算機工程,2004,30(20):19-21.
[16] 段宇鋒,鞠菲.基于N-gram的專業領域中文新詞識別[J].現代圖書情報技術,2012(2):41-47.
[17] 吳春穎,王士同,蔡崇超.一種基于新詞發現的Web文本表示方法[J].計算機應用,2008,28(3):764-767.
[18] 劉哲,黃永峰,羅芳,等.網絡新詞識別算法研究[J].計算機工程與科學,2013,35(9):141-145.
[19] 鐘將,耿升華,董高峰.一種新詞檢測方法研究[J].數字通信,2013,40(2):1-5.
[20] 程濤,施水才,張玉杰,等.基于大規模語料庫的新聞領域新詞挖掘[C]//第三屆全國信息檢索與內容安全學術會議,2007.
[21] 張蘇,梁穎紅,牛麗.基于術語抽取技術的新聞新詞發現方法研究[J].蘇州市職業大學學報,2014(3):14-16.
[22] 劉冰洋,劉倩,張瑾,等.多語種網絡文本快速新詞抽取[J].中文信息學報,2014,28(2):78-84.