劉金輝


摘要:隨著互聯網上海量文本的涌現,自動文本處理已經成為一項重要的研究課題。為了正確地處理漢語文本,必須對其中的歧義詞匯進行消歧。本文給出了一種基于多種語言學知識的詞義消歧框架。結合《同義詞詞林》,抽取歧義詞匯的上下文中的多種語言學知識作為消歧特征,使用貝葉斯模型來確定它的語義。同時,將自動消歧結果應用于檢索引擎、機器翻譯系統和文語轉換系統。
關鍵詞:歧義詞匯 詞義消歧 上下文 消歧特征 貝葉斯模型
中圖分類號:TP391.2 文獻標識碼:A 文章編號:1007-9416(2016)07-0092-01
1 概述
詞義消歧是指使用計算機自動地確定歧義詞匯在上下文環境中所具有的真實含義。目前,詞義消歧是自然語言處理領域中的一個基礎性研究課題,它對信息檢索[1]、機器翻譯[2]和文本處理具有重要的支持作用。隨著互聯網的快速發展,網絡上涌現了大量的自然語言文本,迫切需要開發高質量的自然語言文本處理工具。而詞義消歧則是提高自然語言文本處理質量的關鍵性技術。目前,詞義消歧方法主要分為3類:有監督的詞義消歧、無監督的詞義消歧和半監督的詞義消歧[3]。
在歧義詞匯的上下文中,蘊藏著不同類型的語言學知識,諸如:詞形、詞性、句法、長度和語義信息。本文利用這些不同類型的語言學知識來為詞義判別過程提供指導信息。同時,使用詞義消歧結果來改善相關文本處理系統的性能。
2 基于多種語言學知識的消歧框架
本文綜合利用了歧義詞匯上下文中的詞形、詞性和語義信息,結合貝葉斯模型給出了一種漢語詞義消歧系統的框架結構,如圖1所示。
在這一框架中,主要包括以下模塊:漢語分詞模塊、漢語詞性標注模塊、語義類別標注模塊和消歧特征提取模塊。漢語詞性標注模塊的作用是:為每個漢語單詞添加詞性標注。語義類別標注模塊的作用是:查閱《同義詞詞林》,根據出現頻度來標注漢語詞匯的語義類別。消歧特征提取模塊的作用是:提取左、右詞匯的詞形、詞性和語義類別作為判別特征。詞義消歧模塊采用了貝葉斯模型,其輸入是消歧特征分量出現的概率,輸出結果是該歧義詞匯的語義類別。詞義消歧過程如公式(1)所示。
(1)
對于待消歧的歧義詞匯而言,共包含n個語義類別:S1, S2, …, Sn。在貝葉斯模型中,主要包括兩個參數:語義類別出現的先驗概率P(Si)和語義類別-特征向量出現的后驗概率P(Si|Feature)。
以該框架為基礎,可以實現一個面向Web的漢語詞義消歧系統。系統分為客戶端和服務器兩個部分。客戶端利用JSP語言來實現,使用Myeclipse作為開發工具。采用了Tomcat服務器。所實現的系統可以視為一個B/S結構,詞義消歧系統部署在服務器上。
3 詞義消歧框架的應用
互聯網上存在著海量的漢語文本信息。要想從網上找到感興趣的文字資料,必須采用檢索引擎。但是,常用的檢索引擎都是利用關鍵字匹配的方式來檢索漢語文本。在這一過程匯中,使用了字符串匹配的方法,沒有考慮到關鍵字的語義信息。其檢索的精確率受到了一定程度的影響,經常會得到大相徑庭的檢索結果。首先,使用該漢語詞義消歧系統來確定查詢關鍵字的語義類別。然后,采用該漢語詞義消歧系統來確定檢索到的文本中的關鍵字的語義類別。最后,根據查詢關鍵字的語義類別,檢索引擎可以自動地選出用戶所需要的漢語文本資料,這將大大地提高檢索的性能。
隨著對外貿易的快速發展,漢語資料的翻譯工作變得越來越繁重。單純依靠人來完成翻譯工作,將消耗大量的人力、物力和財力。因此,很多翻譯任務需要借助機器翻譯系統來完成。在翻譯轉換之前,使用該漢語詞義消歧系統根據上下文來確定歧義詞匯的語義類別,將會大大地提高機器翻譯系統的譯文輸出質量。同時,將會降低人工編輯自動譯文輸出結果的工作量。
在人們的日常生活中,文語轉換技術已經越來越普及了。在很多智能手機和幼兒識字學習機上,都安裝了文語轉換軟件,將文本信息變為語音信號朗讀出來。目前,文語轉換所面臨的一個難題是難以對文本句子實施正確地詞匯切分,所朗讀出來的語音很生硬,經常會出現斷句的錯誤。在詞匯切分之后,使用該漢語詞義消歧系統根據上下文來確定歧義詞匯的語義類別,糾正自動分詞結果中的錯誤。這將會大大地改善語音朗讀的效果。
4 結語
目前,詞義消歧是自然語言處理領域中的一個研究熱點。本文介紹了國內外現有的詞義消歧方法。對于輸入的漢語句子,分別進行分詞處理和詞性標注處理。查閱《同義詞詞林》來提取詞義消歧特征,結合貝葉斯模型來確定歧義詞匯的語義類別。給出了基于多種語言學知識的詞義消歧框架及其實現方案。同時,使用該詞義消歧系統來改善檢索引擎、機器翻譯系統和文語轉換系統的性能。
參考文獻
[1]張霖,張宇航.基于粗糙本體的信息檢索[J].信息化建設,2015,11: 246~246.
[2]宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29(5):125~135.
[3]全昌勤.基于語料庫的漢語詞義消歧方法研究[D].華中師范大學,博士學位論文.2005.