融合領域命名實體識別的查詢擴展方法研究

2012-07-25 11:05:38鄒俊杰余正濤劉躍紅宗煥云

計算機工程與設計 2012年3期

鄒俊杰，余正濤＋，劉躍紅，宗煥云，蘇磊

（1.昆明理工大學信息工程與自動化學院，云南昆明650051；2.昆明理工大學智能信息處理重點實驗室，云南昆明650051）

0 引言

查詢擴展是提高文本檢索準確率的最有效的手段，目前已廣泛應用于信息檢索和問答系統的文本檢索中［1－6］。其思想是利用和查詢相關的擴展詞對查詢進行重構，以提高檢索準確率。在通用領域中查詢擴展的方法有很多，主要有基于全局分析的查詢擴展技術［2－3］，基于局部上下文分析的查詢擴展技術［2］，基于語言模型的擴展技術［6］，基于隨機游走模型的查詢擴展技術［7］及基于用戶日志的查詢個性化擴展技術［8］。但上述方法對特定領域中的問題進行擴展時存在查詢結果偏離特定領域的問題。如：在旅游領域中，使用基于全局分析的查詢擴展技術［2］對問題 “云南的蘋果品質怎么樣？”進行查詢擴展時，會將 “手機、電腦”之類的詞添加到擴展詞列表中，而在旅游領域的受限域文本檢索系統中，擴展詞 “手機、電腦”等通常被認為是不合理的查詢擴展，其擴展的結果將會使查詢結果發生偏離，影響召回數據的準確率，因此需弱化甚至去除這些非領域擴展詞帶來的問題。在特定領域文本檢索系統中，由于選取的擴展詞符合領域特性，能檢索出相關性更高的文本，查詢召回的是相應的領域文本，而非召回和查詢詞相關的所有文本，因此加入領域知識來擴展查詢詞有利于解決查詢結果偏離問題。

目前，在特定領域中，查詢擴展方法的思想主要是依靠加入特定詞典或者特定規則來完成查詢擴展。比如在國外的生物醫學領域中，針對英文單詞的頻繁變化問題，文獻［9］提出了基于規則的方法來擴展查詢，文獻［10－11］用基于生物醫學領域的同義詞庫來擴展查詢，而類似這些方法有一定局限性。如在領域發生改變后需根據不同的領域重新構造新規則或領域詞典，而不同的語言其擴展方法可能存在較大差異。因此，這些方法的普適性較低，在一定程度上限制了其推廣。

綜上所述，在特定領域中，僅使用開放域中基本的查詢擴展方法會帶來查詢偏離問題，而通過編寫大量規則或更換領域詞典來解決查詢偏離問題，將會大大降低方法的普適性。為克服上述查詢偏離問題并兼顧查詢擴展的普適性，本文根據特定領域查詢擴展的特點提出一種結合領域命名實體識別與開放域查詢擴展方法進行查詢擴展，通過實驗表明，該方法不但改善了領域查詢擴展的偏離問題，同時改善領域查詢擴展方法的普適性。（本文如果沒有特別指明具體的受限域或特定領域，默認為云南旅游領域。）

1 領域命名實體識別與查詢擴展

1.1 領域命名實體識別

命名實體識別是自然語言處理中的一項基礎性子任務。目前在一些受限領域中，命名實體識別也得到了一定的應用。比如文獻［11－12］分別使用支持向量機（support vector machine）和隱馬爾科夫模型（hidden Markov model）對生物醫學領域的一些實體進行識別，文獻［13］使用了重疊條件隨機場對旅游領域的景點、特色小吃等實體進行識別，取得了很好的效果。

條件隨機場是一個無向圖模型，是一種用來標記數據的統計模型。最早是由Lafferty等人在文獻［14］中提出，模型的核心思想來自于最大熵模型，同時使用了隱馬爾科夫模型中提出的Viterbi算法、前向算法和前向后向算法來求解模型。通常情況下，條件隨機場都是使用其一階鏈式結構，其概率模型的表示形式為

式中：O——觀察序列，L——標記序列，Z（O）——歸一化因子，μk——特征權重，fk——狀態函數或轉移函數。當得到標記序列L以后就可以很容易的將序列所對應的命名實體詞序列提取出來。

文獻［13］提出了一種基于層疊條件隨機場（CCRFs）的旅游領域實體識別方法，該方法將識別過程分為兩層，低層模型采用字一級進行建模，識別地點及簡單景點、特產小吃等，然后將識別結果傳遞到高層模型，在高層采用詞一級進行建模，識別嵌套的景點、特產小吃，本文在其基礎上對旅游領域4個類別（景點、地方、風土民情、酒店）進行標注，并對每個類別再次細分并標注為18個小類，其類別信息見表1，利用上述標注語料，訓練出旅游領域的命名實體識別模型。

表1 旅游領域詳細類別

文獻［13］的方法在封閉測試中準確率為91.35%，開放測試中準確率為87.24%，本文采用相同的方法對上述類別進行試驗，也達到了85%以上的準確率。

1.2 基本查詢擴展方法

首先介紹本文使用的幾種基本查詢擴展方法：

（1）基于TF－IDF的查詢擴展：基于TF－IDF的查詢擴展模型的基本思想是，先對初檢回來的前N個信息片段（Snippets）進行分詞并去停用詞，然后利用TF－IDF權重計算方法式（2）對Snippets中的詞進行計算，選擇前k個分值靠前的詞作為查詢擴展詞并加入到原始查詢Q中再次檢索

（2）基于互信息的查詢擴展：從信息論的角度看，互信息（mutual information，MI）度量的是兩個隨機事件x和y發生的相互依賴程度，通常為這兩個隨機事件發生的概率p（·）的函數，如下表示

基于互信息的查詢擴展方法其核心思想是在文獻［16］的方法上，計算侯選詞Wi與問句Q的互信息。考慮信息檢索或問答系統中，查詢通常由多個關鍵詞構成，因此在選取擴展詞時，本文先計算候選擴展詞與查詢Q中的每個詞的互信息，再求和，最后做歸一化處理。其處理過程參照式（4），式中m代表初始查詢Q中的關鍵詞數，qt為初始查詢中的關鍵詞，Zm是歸一化因子，δ是一個平滑項，稱為防零因子，本文取δ＝0.01。P（wi，qt）為候選擴展詞wi與關鍵詞qt，同時出現的概率。式中P（·）的概率值均采用極大似然估計來計算

（3）基于局部上下文分析的查詢擴展：局部上下文分析［2］的思想是將術語看成概念，然后在上下文環境中計算概念與查詢之間的相關度并排序，利用排序結果選取排名靠前的概念作為候選擴展詞，通常使用概念和查詢詞的共現頻率的方法來選擇概念。概念的上下文環境類似于相關性反饋技術。對于傳統相關性反饋技術計算其相關性是根據初始召回的前N篇相關文檔與查詢Q對比進行分析，而局部上下文分析是從初始召回的前N篇文檔中的每篇文檔中選擇最好的一段，然后將選取的每一段與查詢Q對比來進行分析。局部上下文分析技術是全局分析技術和局部反饋技術相結合的實用技術，常用于查詢擴展。

本文采用類似于文獻［2－3］的方法來對旅游領域的查詢Q進行擴展。

首先需要確定上下文的段落集SP，利用Google召回的前N個信息片段集合S＝｛s1，s2，…，si，…，sn｝，對每一個片段si進行句子切分，然后利用式（5）來選取段落。其中length是統計si的句子數目；f（di）是自動摘要提取函數，本文采用了文獻［10］的方法來對文檔di進行自動摘要的提取。因摘要提取細節不是論文研究重點，故本文不對其詳述

然后利用段落集SP，計算每一個概念和查詢Q的相關度SIM （Q，C），計算公式如下

式中：Z——歸一化因子，δ——為了防止等式為零的平滑因子，tfij、tfcj——詞ti、概念 C 在段落 SPj中的詞頻；N——段落檢索集的段落總數，Ni、Nc——詞ti、概念C在出現在段落檢索集的段落數目。

接著對計算結果進行排序。最后選取前k個概念作為候選詞加入到初始查詢中。為了讓詞的排序有意義，使用Indri檢索平臺（www.lemurproject.org）的Indri查詢語言對查詢進行重構，重構后的查詢表達式如下式

式中：qi——原始查詢Q中的關鍵詞，ci——排序以后的第i個概念，wi——關鍵詞在查詢時的權重，本文使用和文獻［2］類似的方法來計算權重，見式（7）。式中，當wi是原始查詢Q對應的權重時i＝0；k表示擴展詞的個數，經過多次對k值的實驗，本文取k＝70

1.3 融合領域命名實體識別的查詢擴展方法

若在開放域的基本查詢擴展方法中，通過加入特定詞典或特定規則來完成特定領域的查詢擴展，則限制了查詢擴展方法的推廣，不僅使其普適性降低，同時會帶來查詢偏離問題。為克服上述查詢偏離問題并兼顧查詢擴展的普適性，本文根據特定領域查詢擴展的特點提出一種結合命名實體識別與開放域查詢擴展方法進行查詢擴展，其處理過程如圖1所示。

圖1 命名實體識別與基本查詢方法結合擴展過程

為發揮命名實體識別與基本查詢擴展方法兩者的優勢，同時克服其本身不足，如命名實體識別技術存在自身識別準確率的不理想問題、基本擴展方法在特定領域查詢存在偏離問題，本文將兩者進行結合并使用線性差值平滑法，具體結合方式用如式（8）進行處理

式中：wi——候選詞匯集中的第i個詞；Λwi——布爾型的概率函數，其表示在段落組成的序列O在進行旅游領域命名實體識別以后，詞wi是否是旅游領域的實體的概率，如果是，Λwi為1，否則為0；λ∈ ［0，1］是平滑參數；p（Wi｜Q）為在查詢Q的前提下，詞wi的概率，當結合方法為基于 TF－IDF的查詢擴展方法時p（Wi｜Q）＝Weigthi，當結合方法為基于互信息的查詢擴展方法時P（Wi｜Q）＝I（Wi：Q），當結合方法為局部上下文分析時p（Wi｜Q）＝SIM （Q，C）。

2 實驗與結果分析

由于目前沒有比較權威統一的旅游語料資源，所以本文人工收集了2300篇旅游領域的語料，其中包含了上述18個不同類別的語料，每個類別大約有120篇文檔。本文通過統計語料的詞頻信息篩選出旅游領域的停用詞表，同時加入了通用的停用詞表一起組成總停用詞庫，同時實驗中使用的外部信息摘要的片段數目設定為100。

2.1 建立識別模型

本文使用人工收集的2300篇旅游領域語料作為訓練集（相關語料資源可到http：//www.liip.cn獲取），采用文獻［13］中的原子特征模板和復合特征模板，并利用CRF＋＋工具對其進行訓練，生成旅游領域命名實體識別（SNER）模型，其平均識別準確率達到了85%。

2.2 λ參數的確定

采用逐步迭代的方法來確定式（8）中的λ。首先從基礎問句語料庫中按18個類別分別隨機抽取10個問句，組成180個問句集，然后對問句集去停用詞，組成訓練問句集QS，最后使用領域命名實體識別（SNER）技術分別結合TF－IDF方法、互信息方法、局部上下文分析方法進行實驗，實驗前采用逐步迭代的方法確定各方法的最優λ。本文λ取值從0到1，并設置步長為0.1進行迭代求解，得到圖2的實驗結果。經實驗驗證，當λ分別為0.5、0.8和0.6時獲得對應方法的最優解，這樣就確定了上述3個對比試驗中的最優λ值。

從圖2可以看出，當λ＝0時，式（8）退化為p（wi）＝p（wi｜Q），即為普通的查詢擴展方法，但隨著λ的增加命名實體技術所對應的Λwi（O）項逐步得到加強，其準確率得到逐步的提高。從圖2數據說明隨著λ值的增大，其準確率不會一直提高，當λ增加到一定值時，準確率達到最值點，隨后隨著λ的增加準確率會隨之下降，通過實驗室說明隨著λ比重的逐步增加，命名實體識別技術也能阻礙查詢擴展的準確率，因此不能只靠命名實體識別技術來提高查詢擴展的準確率。

圖2 不同參數λ的3種方法的平均準確率

2.3 查詢擴展方法對比

為驗證方法的有效性和普適性，本文選擇基于TF－IDF的查詢擴展方法、基于改進的TF－IDF查詢擴展方法、基于互信息的查詢擴展方法、基于改進的互信息查詢擴展方法、基于局部上下文分析和結合命名實體識別與局部上下文分析的查詢擴展作對比實驗。

對比實驗一：基于TF－IDF和基于改進的TF－IDF的查詢擴展實驗

基于TF－IDF的查詢擴展方法，其核心思想［15］如式（2）所示，加入命名實體識別進行改進，通過線性插值做平滑處理，用改進式（8）進行實驗，其中P（Wi｜Q）取式（2）所述 Weigthi。具體形式如下

對比實驗二：基于互信息和基于改進的互信息查詢擴展實驗

基于互信息的查詢擴展方法其核心思想參見式（4），基于改進的互信息查詢擴展方法，在互信息查詢擴展方法的基礎上結合命名實體識別技術，進行線性插值做平滑處理，用改進式（8）進行實驗，其中P （Wi｜Q）取式（4）所述I（Wi：Q），具體形式如下

對比實驗三：基于局部上下文分析和基于改進的局部上下文分析查詢擴展實驗

基于局部上下文分析的查詢擴展方法中心思想參見式（6）所述，對其進行改進，結合命名實體識別技術，進行線性插值做平滑處理，用式（8）進行實驗，其中P（Wi｜Q）取式（6）所述SIM （Q，C）。

在進行對比實驗之前需要確定式（8）中最優λ值。也就是確定上述3種不同方法的最優λ值，然后依次根據P（Wi｜Q）所取值代入式（8）進行實驗。

2.4 實驗結果

本文從實驗室2.3萬句的基礎問句語料庫中隨機抽取100個問句作為測試問句集。使用基于TF－IDF、基于改進的TF－IDF、基于互信息、基于改進的互信息、基于局部上下文分析以及基于改進的局部上下文分析分別進行查詢擴展實驗，得到表2、表3以及表4中的實驗結果，實驗表格中括號里面的內容為增長率。

由表2、表3以及表4實驗數據說明，領域命名實體識別技術對基于TF－IDF、基于互信息及基于局部上下文分析的查詢擴展都有較好的表現，且測試結果比較穩定。在對比實驗中所使用的基本方法（基于TF－IDF、基于互信息、基于局部上下文分析）通常都是針對開放域的系統，對受限域的問題沒有做相關優化，本文是對特定領域的查詢擴展進行研究，對于特定領域直接上述基本方法進行查詢擴展，實驗結果表明其平均準確率都不高，而加入特定領域命名實體識別技術以后，其準確率得到了很大的提高，相比其基本擴展方法平均P@n提高幅度均超過了50%，且任何單項提高都超過了10.4%以上。當然這與將結果定位在特定領域有關，但實驗確實說明提高幅度較大。

表2 基于TF－IDF及結合SNER的IF－IDF的改進對比實驗

表3 基于MI及結合SNER的MI的改進對比實驗

表4 基于LCA及結合SNER的LCA的改進對比實驗

通過表2到表4的實驗數據，可得出以下分析。第一，在特定領域的查詢擴展中，對開放域的基本查詢擴展方法上融入領域命名實體識別技術對獲取領域相關擴展詞有很大提高；第二，在上述對比實驗中，結合領域命名實體識別與局部上下文分析查詢擴展方法取得的效果最好；第三，因本文研究的是受限域系統，評價擴展詞是否是領域相關擴展詞，因此加入領域知識后其準確率得到一定的提高；第四，本文采用的技術可應用在很多特定領域，只需對相關領域定義模板并進行標注，然后利用CRF建立模型，因此本文方法具有一定的普適性。

另外，對本文查詢擴展方法進行穩定性比較，計算準確率在p@10到p@70之間的變化情況，實驗中取步長為10。圖3說明在加入領域命名實體識別技術（SNER）之前和之后的相關方法穩定性比較。從圖3分析可知，各基本方法加入領域命名實體識別技術之后，其下降速率得到明顯的緩解，相對加入領域命名實體識別技術之前的基本方法穩定。

圖3 3種方法穩定性分析

3 結束語

在受限域問答系統答案文本檢索查詢擴展中，將領域命名實體識別技術和通用領域基本查詢擴展方法相結合，有助于提高擴展效果，其中局部上下文分析查詢擴展方法提高最顯著。通過本文對比實驗說明，結合領域命名實體識別技術能很好改善受限域系統的查詢擴展性能，并提高查詢擴展的穩定性。問答系統查詢通常是以問句的形式表述，必然存在語義信息，下一步將在查詢擴展中考慮問句的語義信息來提高擴展的準確性。

［1］Attar R，Fraenkel A S.Local feedback in full－text retrieval systems ［J］.ACM，1977，24 （3）：397－417.

［2］Xu J，Croft W B.Query expansion using local and global document analysis ［C］.Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich，Switzerland：ACM，2006：4－11.

［3］Sun R，Ong C－H，Chua T－S.Mining dependency relations for query expansion in passage retrieval［C］.Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Seattle，Washington：ACM，2006：382－389.

［4］Callan J P，Croft W B，Broglio J.TREC and TIPSTER experiments with INQUERY ［C］.Readings in Information Retrieval：Morgan Kaufmann Publishers Inc，1997：436－439.

［5］Jing Y，Croft W B.An association thesaurus for information retrieval［R］.USA：University of Massachusetts，1994.

［6］Bai J.Query expansion using term relationships in language models for information retrieval［C］.Proceedings of the 14th ACM International Conference on Information and Knowledge Management.Bremen，Germany：ACM，2005：688－695.

［7］Collins－Thompson K，Callan J.Query expansion using random walk models ［C］.Proceedings of the 14th ACM International Conference on Information and Knowledge Management.Bremen，Germany：ACM，2005.

［8］Cui H，Wen J－R，Nie J－Y，et al.Probabilistic query expansion using query logs ［C］.Proceedings of the 11th International Conference on World Wide Web.Honolulu，Hawaii：ACM，2002：325－332.

［9］Cohen A M.Unsupervised gene/protein named entity normalization using automatically extracted dictionaries ［C］.Proceedings of the ACL－ISMB Workshop on Linking Biological Literature，Ontologies and Databases：Mining Biological Semantics.Detroit，Michigan：Association for Computational Linguistics，2005：17－24.

［10］Goldstein J，Kantrowitz M，Mittal V，et al.Summarizing text documents：Sentence selection and evaluation metrics［C］.Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley，California：ACM，1999.

［11］ WANG Haochang，ZHAO Tiejun.SVM－based biomedical name entity recognition ［J］.Journal of Harbin Engineering University，2006，27 （B07）：570－574 （in Chinese）. ［王浩暢，趙鐵軍.基于SVM的生物醫學命名實體識別［J］.哈爾濱工程大學學報，2006，27 （B07）：570－574.］

［12］CHEN Jin，CHANG Zhiquan.HMM－based biomedical named entity recognition and classification ［J］.Computer Era，2006，24 （10）：40－42 （in Chinese）.［陳錦，常致全，許軍.基于HMM的生物醫學命名實體的識別與分類［J］.Computer Era，2006，24 （10）：40－42.］

［13］GUO Jianyi，XUE Zhengshan，YU Zhengtao，et al.Named entity recognition for the tourism domain based on cascaded conditional random fields ［J］.Journal of Chinese Information Processing，2009，23 （5）：47－52 （in Chinese）. ［郭劍毅，薛征山，余正濤，等.基于層疊條件隨機場的旅游領域命名實體識別［J］.中文信息學報，2009，23 （5）：47－52.］

［14］Lafferty J，McCallum A，Pereira F.Conditional random fields：Probabilistic models for segmenting and labeling sequence data［C］.International Conference on Machine Learning，2001.

［15］Liu Y，Ciliax B J，Borges K，et al.Comparison of two schemes for automatic keyword extraction from MEDLINE for functional gene clustering ［C］.Proceedings of the IEEE Computational Systems Bioinformatics Conference.Washington，DC，USA：IEEE，2004：394－404.

［16］C hurch K W，Hanks P.Word association norms，mutual information，and lexicography ［J］.Comput Linguist，1990，16 （1）：22－29.