一種基于維基百科的中文詞語相關度學習算法

2016-05-04 00:41:27黃嵐杜友福

中文信息學報 2016年3期

關鍵詞：概念

黃嵐，杜友福

(長江大學計算機科學學院湖北荊州434000)

一種基于維基百科的中文詞語相關度學習算法

黃嵐，杜友福

(長江大學計算機科學學院湖北荊州434000)

詞語相關程度計算是語義計算的基礎。維基百科是目前最大、更新最快的在線開放式百科全書，涵蓋概念廣，概念解釋詳細，蘊含了大量概念間關聯關系，為語義計算提供了豐富的背景知識。然而，中文維基百科中存在嚴重的數據稀疏問題，降低了中文詞語相關度計算方法的有效性。針對這一問題，該文利用機器學習技術，提出一種新的基于多種維基資源的詞語相關度學習算法。在三個標準數據集上的實驗結果驗證了新算法的有效性，在已知最好結果的基礎上提升了20%—40%。

詞語相關度；維基百科；中文信息處理；回歸；鏈接結構

1 引言

計算詞語之間的相關程度是實現智能信息處理的基礎。比如當用戶檢索“Siri”時能自動識別出“iPhone”是與之相關程度很高的詞語，而詞語“梨”的相關程度則很低。利用詞語間語義相關程度來提升信息處理智能化水平，已成功應用于智能搜索[1-3]、文本分類與聚類[4-6]、文本理解[7-8]等領域。

傳統的詞語相關度計算方法往往需要從大規模人工編撰的語義資源中獲得背景知識，比如WordNet[9-10]、Cyc[11]、中文知網HowNet[12]等。這類語義資源由人工編撰和維護，耗費人力物力且更新周期長，難以捕獲新興事物。針對這個問題，從大眾編寫的在線百科網站中自動抽取結構化知識，并基于此開發語義分析技術，在近幾年得到很大發展。

維基百科*http: //www.wikipedia.org/是目前最大的在線百科網站，其內容雖然由用戶提供，但質量可以與專家編寫的傳統百科全書媲美[13]。維基百科的最大優點是涵蓋范圍廣、信息開放、更新快。目前針對英語詞語最成功的相關度計算方法大多基于英文版維基百科實現[14-18]。在用中文版維基百科實現針對中文詞語的相關度計算方法時我們發現，中英文版本在資源數據量上存在非常大的差別，比如中文版本中收錄的概念只有英文版本的百分之十。為了獲得有效的中文詞語相關度計算方法，必須解決中文維基百科中存在的數據稀疏問題。

本文針對中文維基百科中的數據稀疏問題，提出綜合多種資源的詞語相關度計算方法，并利用成熟的機器學習技術學習不同資源的最佳整合方式。本文首先介紹詞語相關度的基本概念和研究背景，歸納出幾類基本的利用維基百科資源實現詞語相關度計算的方法。基于此，選取用于中文詞語相關度計算的維基資源，并設計其描述特征。最后在三個基準數據集上評測各部分特征的表現，得出面向中文的詞語相關度計算模型。實驗結果表明，本文提出的計算模型在已知最好結果的基礎上提升了20%—40%。

2 詞語相關度的基本概念

在針對中文的詞語相關度計算研究方面，近年來利用知識庫的方法漸漸得到關注。比如，劉群等[19]和王紅玲等[12]利用知網HowNet實現了基于結構化知識庫的中文詞語相關度計算，用詞語對應HowNet意元間路徑長度衡量語義關聯程度。

在利用維基百科作為背景知識庫的研究方面，北京郵電大學的李赟等[20]研究了從維基百科中自動抽取語義相關詞對的方法，北京大學的萬富強和吳云芳將顯式語義分析方法應用于中文語境[21]。國防科技大學的汪祥和賈焰等[22]及華中師范大學的涂新輝和何婷婷等[23]均考察了用維基百科中的鏈接結構和分類體系來計算詞語間語義關聯程度的有效性，并分別采集了人工標注的中文詞語相關度數據集。據筆者所知，這兩個數據集是目前僅有的中文人工標注數據集，因此也是本文實驗的基準數據集。

縱觀目前中文詞語相關度研究，仍存在三個方面的問題沒有解決。首先，沒有量化中文維基百科中存在的數據稀疏問題，本文從各類型資源的角度進行了詳細分析，為選取計算資源提供了基礎。其次，不同類型資源的數據量和性質都不相同，傳統的線性整合方式缺乏理論支持。第三，沒有考慮維基百科類目結構與傳統結構化知識庫如WordNet和HowNet的本質區別。本文針對這三個問題，在借鑒英文成功計算方法的基礎上，提出一種新的基于機器學習的中文詞語相關度學習算法。

3 基于維基百科的詞語相關度計算方法

3.1 基于維基百科的結構化知識抽取

與傳統Web站點相比，維基百科的內容高度結構化，便于實現結構化知識的自動抽取。維基百科中的頁面大體分為五類: 文章(Article)、類目(Category)、重定向(Redirect)、消歧(Disambiguation)和管理(Administration)頁面。除管理頁面外，前四類常被用于抽取結構化知識[23-24]。比如從文章頁面中抽取單個概念的信息，從重定向頁面中獲得概念同義詞，從消歧頁面中獲取多義詞的不同釋義，從類目頁面和類目層級結構中獲取概念間的上位和下位關系。圖1展示了維基頁面中信息與結構化知識的對應關系。

除此之外，維基百科頁面之間的鏈接及其附帶的錨文本也是重要的結構化知識資源。比如“麥金塔電腦”頁面有“Macintosh”、“Macintosh電腦”、“蘋果機”等28個不同的錨文本，即其他維基頁面用這些詞語指向“麥金塔電腦”。這些鏈接錨文本提供了非常豐富的同義詞。同時，頁面附屬的出鏈接和入鏈接也可用于量化概念間的語義關聯強度。

從維基百科中抽取的結構化資源為相關度計算提供了豐富的背景知識。按照所用資源的類型，可將基于維基百科的詞語相關度計算方法歸納為四類: 基于鏈接結構的、基于文章全文的、基于類目層級結構的和綜合多種資源的計算方法。下面分別進行介紹。

3.2 基于鏈接結構的計算方法

維基百科文章之間存在大量互鏈接，構成了龐大的鏈接網絡，通常表示為一個有向無權圖。每個文章對應于圖中的一個頂點，文章的出鏈接和入鏈接分別對應于該頂點的出邊和入邊。

圖1 基于維基百科文章的結構化知識抽取

根據所使用的鏈接網絡是全局還是局部的，可將基于鏈接結構的相關度計算方法分為兩類。前者多采用基于全局網絡結構的圖隨機游走方法，代表為個性化PageRank算法(Personalized PageRank，PPR)[18]。不同詞語對應的跳轉向量(teleport vector)不同，生成的PageRank分布向量也不同，而分布向量間的相似度(如余弦相似度)即可作為詞語相似度。由于要遍歷整個網絡，這類算法的開銷大，且效果欠佳[18]。

第二種方法以文章節點的近鄰局部網絡結構為基礎，首先將文章表示為其鄰居節點的加權向量[16]。鄰居節點即對應于當前文章的鏈入和鏈出文章。然后用向量間相似度(或距離)作為詞語語義關聯程度。常用的向量相似度計算方法有Jaccard相似性、余弦公式、Google距離公式[25]等。

基于鏈接結構的計算方法不要求解析維基百科文章的內容，不依賴于語言相關的自然語言處理技術，因此通用性好、效率高。然而，由于鏈接結構依附于節點，即維基文章，此類方法往往只適用于概念，即存在對應維基頁面的詞語。前期研究中我們發現維基百科中收錄概念以實體居多，如人物、地點、事件等。很多常用詞語并不存在對應的維基概念，如“重視”、“方便”和“敵意”。僅考慮文章鏈接的方法無法處理這些未登錄詞語。針對這一問題，我們對基于鏈接結構的計算方法進行了擴展，使之也能適用于不存在對應維基概念的未登錄詞語(見4.1節)。

3.3 基于文章全文的計算方法

維基百科頁面也是以自然語言書寫而成，與其他文本無異，詞語出現過的文章一定程度上描述了詞語的含義。比如，“籃球”出現頻次最多的文章有“NBA”、“籃球”、“姚明”、“邁克爾·喬丹”等。此類方法的代表是由Gabrilovich和Markovitch提出的顯式語義分析(ESA，Explicit Semantic Analysis)方法[15,21]。

通過解析維基文章的內容，可將詞語表示為該詞語所出現過的文章的向量。其中每個維度對應一個維基文章，維度上的取值取決于詞語在文章中的出現頻次。換句話說，此類方法通過解析維基文章內容構建詞語的概念表示空間，即用維基概念表示詞語語義內涵。與傳統概念空間模型如LSA和LDA方法不同，這里每個維度都有著明確、顯式的定義，是可解釋的，因此稱為顯式語義分析。最后，詞語相關度可由其對應概念向量的相似度計算得到。本文稱這類方法為基于概念空間的計算方法。

適用范圍廣是此類方法的最大優點。只要是在維基文章中出現過的詞語，即可計算其語義關聯程度。比如本文所解析的中文維基百科版本中總共包含 48萬概念和122萬詞語，詞語數量遠遠超過了概念數量。

此類方法的不足主要存在于兩方面。首先，解析文章內容依賴于語言相關的自然語言處理技術，比如中文分詞，英文stemming等。其次，詞語對應的概念向量往往規模龐大，導致實時計算向量相似度的效率較低。比如，中文維基百科中的詞語平均出現在54.9篇文章中，最多出現于39萬篇文章，即概念向量中非零元素的平均數量為54.9，最大值為39萬。本文6.3節專門針對這些因素進行了實驗研究。

3.4 基于類目層級結構的計算方法

維基百科的文章和類目之間的包含與被包含關系構成了類目網絡，類似于WordNet中層級式的概念組織方式。因此最初基于維基百科的詞語相關度計算方法便是將定義于WordNet上的算法移植到維基百科的類目結構中[14]。

然而，維基百科的類目結構與WordNet的層級結構有著本質差別。首先，WordNet的層級結構有著嚴格的上下位關系內涵，而維基類目結構的內涵模糊。維基類目層級除了表示IsA和ClassOf關系之外，還可以表示地理位置的包含關系、關聯概念等等。其次，WordNet中同類POS詞語間的層級結構為嚴格的樹結構。而維基百科允許一個概念或類目有多個父類目，因此形成網狀結構。由于這些本質上的區別，基于維基類目結構的計算方法效果往往欠佳[14-16]。

類似于基于鏈接的計算方法，應用類目結構也要求首先將詞語映射到維基百科概念上。因此，此類方法的適用范圍有限。綜合上述分析，本文沒有使用類目結構這一維基資源。

3.5 綜合多種資源的計算方法

前述的三種計算方法都各有優點和缺點，為了揚長補短，整合多種資源來計算詞語相關度成為最自然的解決方案。比如可先用每種方法計算得到一個相關度數值，再取其加權平均值作為最終的詞語相關度[22]。然而，如何確定各類資源的權重仍有待解決。本文提出用機器學習算法，通過學習標注數據，即人工標注的詞語對間語義關聯程度，得到各種資源的最佳配置。

4 詞語相關度學習算法

4.1 特征設計

特征選取往往是決定機器學習算法有效性的關鍵。基于前面的分析，我們從鏈接結構和文章全文資源中抽取設計了八個特征，如表1所示。根據是否需要先將輸入詞語映射到維基概念，將特征分為兩類: 需要映射、描述概念間關聯的特征(F1-F3)和不需要映射、描述詞語間關聯的特征(F4-F8)。前者稱為概念相關度，后者稱為詞語相關度。

表1 各種相關度計算指標及其復雜度比較

4.1.1 概念相關度特征的計算方法

給定一對概念及其對應的鏈接向量li和lj，F2應用Google距離公式NGD(Normalized Google Distance)，計算li和lj間的距離，F3計算兩者間的余弦相似度。NGD的計算方法如式(1)所示。

(1)

其中，|l|為向量長度，|li∩lj|為li和lj交集的大小，|W|為維基百科中所有文章頁面的總數。NGD基于ci和cj的共現鏈接數以及各自特有的鏈接數來衡量兩者間的語義關聯程度。余弦相似度的計算方法如式(2)所示。

(2)

其中，lik為li中k維上的取值。具體實現時，向量li和lj均為稀疏向量，因此可只遍歷取值非零的元素。不同于NGD，余弦相似度考慮了每個鏈接的權重。沿用文獻[16]的方法，給定s和t為維基文章，且存在s→t的鏈接，則該鏈接的權重如式(3)所示。

(3)

4.1.2 詞語相關度特征的計算方法

概念相關度是進一步計算詞語相關度的基礎。給定一對詞語，F4和F5考查wi和wj的所有可能釋義，即所有可能對應的維基概念，并求得其間的最大和平均相關度。F6和F7考查wiwj作為詞組的可能性。比如詞語“麥金塔”和“電腦”所組成的詞組“麥金塔電腦”在維基百科中的出現次數可觀，說明“麥金塔”和“電腦”的相關程度較高。F6描述詞組wiwj在錨文本中出現的可能性，具體為wiwj出現在錨文本中的文章數量與其出現的維基百科文章總數之比。F7為詞組wiwj的出現頻次。F8則應用3.3節中描述的概念空間方法，先生成wi和wj對應的維基概念向量vi和vj，再計算vi和vj間的余弦相似度。

最后，F9為類特征。對于訓練數據，其取值等于該詞語對上所有人工標注數值的平均值。對于測試數據，其取值為算法的預測值。

4.1.3 特征的計算效率分析

表1還列出了各個特征的計算復雜度。其中，|L|為維基文章附屬鏈接向量的平均長度，并可根據鏈接方向分為入鏈接向量和出鏈接向量。中文維基百科中，入鏈接和出鏈接向量的平均長度分別為20.9和14.6，而英文維基文章的平均值分別為21.3和17.8。|S|指詞語所有可能對應的維基概念數量。比如“蘋果”有六個候選中文維基概念，每個概念表示一種可能釋義。而“apple”有37個候選英文維基概念。C指常量，因為F6和F7為wiwj作為詞組出現的先驗概率，可離線計算。|V|為概念向量(稀疏表示)的平均長度，比如中文維基百科中這一數值為54.9。

除了計算復雜度之外，是否必須實時計算是另一個影響計算效率的重要因素。無需實時計算的特征可預先離線計算得到，比如詞組可能性。而鏈接向量的交集運算等特征則需要基于輸入數據實時計算得到。綜合復雜度和計算實時性分析，描述詞語可能釋義間相關度的特征(即F4和F5)是最耗時的特征，而詞組可能性類特征是計算復雜度最低的特征。

4.2 機器學習算法

根據學習過程中是否利用了人工標注數據，機器學習算法可分為監督式和非監督式學習。監督式學習又可根據預測變量是數值型還是離散型，分為回歸和分類兩類。相關度學習屬于典型的回歸問題，即學習從一個數值變量集合到另一個數值變量的映射關系。經典的回歸學習算法有線性回歸、高斯過程、基于支持向量機的回歸算法、回歸樹等。在前期工作中我們得出平均性能最好的是高斯過程(Guassian Process)算法[26]，因此本文結果都基于Weka數據挖掘軟件[27]中高斯過程算法的實現得到。

5 實驗設計

5.1 數據集

本文用三個基準數據集來測試相關度計算方法的有效性: Sim353、Words240和Words30。為了學習概念相關度，首先通過人工消歧，為數據集中的詞語找到與之對應的維基概念。表2比較了三個數據集的規模，包括詞語對、詞語、概念對和概念的數量。

表2 基準數據集及其規模比較

Sim353數據集由Finkelstein等人收集[28]，原始數據集包含353個英語詞對，是廣泛用于測試詞語相關度算法的基準數據集。本文在Milne和Witten[16]處理得到的英文數據集(包含313個詞對)基礎上，參照其處理方式，對其中全部詞語進行人工消歧，并映射到中文維基概念。在去掉不存在對應概念的詞語和涉及這些詞語的詞對后，最終得到234個概念對。

Words240數據集是由國防科技大學的汪祥和賈焰等人[22]參照Finkelstein創建Sim353數據集的方法而收集的面向中文的詞語相關度基準數據集。經過人工消歧，得到218個維基概念對。

Words30數據集由華中師范大學的涂新輝和何婷婷等[23]收集，類似于Miller和Charles在1991年收集的數據集[29]。其中包含了30個中文詞對，人工消歧后得到26個維基概念對。

5.2 中文維基百科預處理

本文使用WikipediaMiner[24]工具解析維基百科XML備份文件。中文和英文分別是2012年5月23日和2011年7月22日生成的版本。其中，中文版本包含約48萬篇文章，英文版本包含約357萬篇文章，與維基百科官方統計數據一致*http: //en.wikipedia.org/wiki/Wikipedia: Non-English_Wikipedias。

對中文版本的預處理包括繁體中文到簡體中文轉換，使用中國科學院ICTCLAS分詞工具*http: //www.ictclas.org/對文章內容進行分詞，將英文詞語轉換為其小寫形式，過濾URL、數字和無意義字符。預處理后總共得到122萬詞語，其中包含44萬英文詞語。

5.3 性能指標

依照之前的研究，本文沿用Spearman相關系數作為衡量詞語相關度算法性能的指標[15-18,21-24]。Spearman相關系數衡量機器計算結果與人工標注值的一致程度。給定兩個變量，其取值介于[-1，1]之間，值越高意味著兩變量的取值正向單調相關程度越高。

為了清楚行文，以下用“相關度”表示語義關聯程度(即relatedness)，用“一致性”表示算法預測的結果與人工標注值之間相關性(即correlation)，即Spearman系數。除6.3節外，所有結果都是十次10-折交叉驗證得到的平均值。

6 實驗結果分析

本節首先分析了中文維基百科中的數據稀疏問題，然后依次分析了基于鏈接結構的概念相關度學習算法的效果、基于概念向量的詞語相關度學習效果和結合兩者的詞語相關度學習效果。最后探討了交叉數據集上的學習效果。

6.1 中文維基百科中的數據稀疏問題

中文維基百科有約48萬個文章頁面(即概念)，為英文維基百科文章總數的十分之一。除了概念收錄范圍上的巨大差距之外，數據稀疏問題也普遍存在于其他類型的維基資源中。表3從多個角度比較了中文和英文維基百科的數據規模。

表3 中文與英文維基百科中相關度計算資源的規模比較

續表

“平均錨文本數”指維基文章的平均鏈入錨文本數量，反映維基文章的別名多寡程度。比如“蘋果公司”有19個錨文本: “蘋果公司”、“蘋果電腦公司”、“Apple”、“蘋果”、“蘋果計算機”“Apple Store”和“蘋果機”等。而在英文維基百科中，“Apple Inc.”有84個錨文本。“平均概念數”反映錨文本的歧義程度，指每個錨文本可能對應的概念個數，數值越低，說明歧義程度越低。比如“蘋果”可以指“蘋果”、“蘋果公司”、“蘋果 (電影)”、“蘋果電腦”、“麥金塔電腦”和“iPhone”。在英文維基百科中，“apple”有37種可能釋義。“平均父類目數”指維基文章所屬父類目的平均數量，而“類目平均大小”指類目包含的子類目和文章數量的平均值。

從表3中可以看到，中、英文版本在文章的平均鏈接數上差別比較小。這說明局部鏈接結構是比較穩定的，實際實驗結果也顯示了這一點(表4)。而即便是這一最穩定的資源，其中的數據稀疏問題也已經嚴重影響到中文詞語相關度計算的有效性，凸顯出整合多種資源的必要。

6.2 概念相關度學習效果

表4列出了基于鏈接結構的概念相關度學習算法(即CRM，concept relatedness measure)在三個基準數據集上的效果，并比較了鏈接方向對學習算法的影響。最后一列CRM同時考慮出鏈接和入鏈接。

表4 基于鏈接結構的概念相關度學習算法準確度

在英文Sim353數據集上，Agirre等人[10]取得了0.78的一致性，為當前最好結果。其方法用到兩種資源: 從Web文本集中得到的詞語分布相似度(distributional similarity)和基于WordNet概念層級結構的概念相關度。Agirre與本文方法的最大不同在于使用支持向量機學習詞對排序，即不同詞對相關程度的相對大小。然而，實際應用中往往只有當前詞對的信息，無法與其他詞對進行比較。而且詞對相關度的具體數值往往比其相對排序更有價值，比如在計算文本間的語義相關程度時。與本文直接相關的是Milne和Witten提出的WLM算法[16]，該算法的最好結果為0.74，是本文算法的比較基準。

Sim353數據集上的比較結果顯示了數據稀疏問題的負面作用。同樣的算法和同源的數據，由于中文維基百科中的數據稀疏問題，中文相關度計算方法的一致性只有0.62，相較于英文的0.74下降了16%。

在針對中文的相關研究中，三個數據集上的已知最好結果分別為0.59、0.47和0.52，前兩者由汪祥等人[22]取得，后者由涂新輝等人[23]獲得(見表7)。直觀地看表4中的結果，在Sim353和Words240數據集上，使用單一鏈接結構的CRM方法與人工標注相關度的一致性已超過最好結果。然而，CRM的結果是在概念對上取得，而已知結果是針對詞語的，比較基準不同。本文第6.4和6.5節進行了更公平的比較。

6.3 基于概念空間的詞語相關度計算效果

依照3.3節和4.1.2節的描述，本節將詞語表示為概念空間中的向量，以概念向量間相似度作為詞語間語義關聯程度。理論上，這樣的計算方法適用于所有曾出現在維基百科中的的詞語。表5比較了基準數據集中能夠直接處理的詞語對與概念對數量，以及詞語相關度算法(即WRM，word relatedness measure)與概念相關度算法CRM的效果。由于本節測試的是單一特征(即F8)與人工標注(即F9)的一致性，沒有使用機器學習算法(6.4節將探討使用機器學習算法的效果)，因此沒有用交叉驗證的實驗方法，實驗結果是基于所有數據一次得到。

表5 基于概念向量的中文詞語相關度計算準確度

從表5中結果可以看到，WRM能夠直接處理的詞語對數并不多，甚至少于概念對的數量。這是由中文分詞問題造成的。數據集中的部分詞語可被切分為多個詞語，比如“中世紀”可被分為“中”“世紀”；“聯邦調查局”可被分為“聯邦”“調查局”；“不明飛行物”可被分為“不明”“飛行物”。在解析維基文章內容時，即構建詞語的概念向量表示時，這些詞語是經過切分的。也就是說，預處理過程會對“不明”“飛行物”分別構建概念向量，而倒排索引中不會存在“不明飛行物”對應的向量條目。因此，有必要對基準數據集中的詞語進行相同的分詞處理。

6.3.1 中文分詞的影響

本文采取的策略是切分輸入詞語，并將分詞所得詞語與原始詞語合并，構成詞語集合。比如“聯邦調查局”切分后集合由三個詞組成: {聯邦調查局，聯邦，調查局}。再提取每個詞語的概念向量，并將其合并。雖然索引中沒有“聯邦調查局”，但通過合并“聯邦調查局”(向量為空)、“聯邦”和“調查局”的概念向量即可得到“聯邦調查局”的概念表示。

這一策略成功處理了大多數原先不能直接處理的詞語。WRM在三個數據集上的處理率從原來的55%、93%、57%提升至99%、100%和100%。由于解析中文維基百科文章時過濾了所有數字，導致Sim353中有兩個詞語“5”和“7”不能處理，少了兩個詞語對，總共為311對詞語。

表6比較了分詞前后學習算法與人工標注的一致性。其中第五列中結果顯示，分詞之后，三個數據集上的一致性好像都有不同程度的下降。然而，第三列和第五列的計算基準不同，分詞后能夠處理的詞語對數大幅增加。以Words30為例，兩者分別在17對和30對詞語上計算得到。為了公平衡量分詞效果，我們只比較能直接處理的數據，即表6的第三列和第七列。結果顯示本文的分詞策略并不會負面影響詞語相關度計算結果: Words240和Words30數據集上的結果與分詞前持平，而在Sim353數據集上還有些微提升。同時，分詞能極大擴展算法的

表6 分詞對中文詞語相關度計算準確度的影響

適用范圍。因此本文余下部分所有涉及概念空間相似度(即F8)的部分都是經過分詞的。

6.3.2 概念向量長度的影響

概念向量的長度k對向量相似度算法的效果和效率有重要影響。k值越大，考慮的信息越全面，算法的開銷也越大。圖2比較了k的不同取值對詞語相關度計算的影響。k=10意味著詞語的概念向量中最多只包含該詞語出現頻次最多的前十個維基概念。圖2中橫軸的最后一個維度比較了當k取值為all時的情況，即考慮詞語出現過的所有概念。

從圖2(a)可以明顯看出k值并非越大越好。實際上，三個數據集上的最好結果都在k∈[150,500]取得。同時，k值越大，運行時間的開銷越大。當考慮所有概念時(k=all)，運行時間是只考慮前200概念的1000倍。因此，綜合效果和效率，我們選取k=200為缺省值。

圖2 概念向量長度對中文詞語相關度計算的影響: (a) 對準確度的影響； (b) 對效率的影響

6.4 詞語相關度學習算法的效果

上一節單獨考量了基于概念空間的詞語相關度計算方法的效果，并沒有用到機器學習。本節綜合基于鏈接結構的概念相關度和基于概念空間的詞語相關度，考察運用機器學習算法將兩者結合的效果。

給定一對詞語和指定的特征類型，算法分別在三個基準數據集上以十次10-折交叉驗證的方式構建高斯過程回歸模型，并對其進行測試。表7比較F4—F8中不同特征組合所生成模型與人工標注結果的一致性，并在最后一列對比已知最好結果。

表7 中文詞語相關度學習算法的準確度

首先，從表7第二列的結果中可以看出，由于采用了分詞和整合概念向量的策略，詞語相關度算法能夠處理所有詞語對。而概念相關度算法(即CRM)只能處理其中的已登錄詞語(見6.2節)，不能處理維基百科未收錄的詞語，適用范圍有限。

其次，在整體性能方面，應用機器學習所得的詞語相關度計算模型是有效的。在全部三個數據集上，訓練生成模型都取得了超過CRM且超過已知最好結果的準確度。由此可見，本文提出的詞語相關度學習算法不僅適用范圍更廣，且準確度更高。

在所有特征中，可能概念相關度(即F4、F5)和概念向量空間模型(F8)兩類特征的表示能力最強，它們的結合也取得了不錯的準確度(即表7第8列)。F4和F5是基于局部鏈接結構的，F8則是基于維基文章全文的，各自從不同角度描述了詞語之間的語義關聯程度。因此，這一結果也體現出綜合不同類型維基資源的必要性。

由于不能單從兩個詞語能否組成一個合法詞組來判斷詞語間的相關程度，因此沒有對詞組可能性類特征(即F6、F7)單獨進行測試。從表7第6列和第7列的結果可以看出，用詞組類特征描述詞語間關聯程度的效果并不明顯，尤其在Words30數據集上。這可能是因為Words30中詞語對作為單一詞組出現的可能性不高，比如“不明飛行物”和“飛碟”。相比較下，在效果最明顯的Words240數據集中，詞語對作為詞組出現的可能性較高，比如“發表”和“文章”、“北京”和“奧運會”、“自然”和“環境”等。

綜合考慮表7中的實驗結果，本文余下部分采用第8列對應的模型，即結合可能概念相關度(F4、F5)和概念向量空間模型(F8)兩類特征。

6.5 交叉數據集對詞語相關度學習效果的影響

本文首次同時使用了國內學者采集的Words240和Words30數據集與英文中最常用的Sim353數據集。在前面的實驗中我們發現，算法在不同數據集上的表現不盡一致。為了更深入了解數據集的性質與之間關聯，我們進一步開展了交叉數據集的實驗。

給定兩個數據集D1和D2，先用D1中的全部數據訓練生成詞語相關度計算模型，再在D2中的全部數據上進行測試。表8比較了三個數據集的所有可能交叉結果。

表8 交叉數據集對中文詞語相關

一般情況下，當訓練集和測試集為同一數據集時，訓練所得模型的一致性應該最高，盡管這樣的實驗方法存在過度擬合的風險。然而，值得注意的是，在Words240上訓練所得模型在另外兩個數據集上都取得了更好的結果，不僅接近本文算法在該測試數據集上的最好結果(即表8對角線上的結果)，更超過了已知的最好結果。比如，在Words30上取得了0.72的一致性，在已知最好結果基礎上提升了39%。這說明該模型具有很好的泛化能力，能很好預測未見詞語對的相關度，比較適合實踐應用。另外，由Sim353訓練生成模型的泛化能力也不錯，在Words240和Words30上取得的一致性均為0.63，相較于已知的最好結果0.47和0.52分別提升了34%和21%。相比較之下，Words30數據集由于其規模與前兩者相差較大，導致其生成模型的泛化能力有限。

7 結束語

本文針對中文維基百科中存在的數據稀疏問題，綜合鏈接結構和維基文章全文兩種不同類型的維基資源，從中分別抽取描述詞語間語義關聯程度的特征，應用機器學習算法從人工標注數據中學習不同特征的最佳配置。實驗結果驗證了本文所提出方法的有效性，在已知最好結果的基礎上提升了20%—40%。本文還系統考察了中文分詞、概念向量長度對詞語相關度計算的影響，研究了各類特征的預測能力，最后比較了不同基準數據集所生成模型的泛化能力。下一步的工作首先是將本文中的詞語相關度學習算法應用于中文文本分析任務，比如聚類和信息檢索。其次是進一步研究百科知識的跨語言處理和應用。

[1] 36Kr.下一代搜索引擎即將來臨: 知識圖譜的用戶體驗報告[OL]. 2014[2014-7-12]. http: //www.36kr.com/p/205737.html.

[2] Ruiz E L，Manotas I G，GarcíA R V. et al. Financial news semantic search engine[J]. Expert Systems with Applications，2011，38(12): 15565-15572.

[3] Milne D，Witten I H，Nichols，D M. A knowledge-based search engine powered by Wikipedia[C]//Proceedings of the 16th CIKM. New York: ACM，2007: 445-454.

[4] Gabrilovich E，Markovitch，S Feature generation for text categorization using world knowledge[C]//Proceedings of the 19th IJCAI. SanFrancisco: Kaufmann，2005: 1048-1053.

[5] Hu J，Fang L，Cao Y,et al. Enhancing text clustering by leveraging Wikipedia semantics[C]//Proceedings of the 31st ACM SIGIR. New York: ACM，2008: 179-186.

[6] Huang A，Milne，D Frank，E Witten，I H Clustering documents with active learning using Wikipedia[C]//Proceedings of the 8th IEEE ICDM. Washington，DC: IEEE Computer Society，2008: 839-844.

[7] Pippig K，Burghardt D，Prechtel N. Semantic similarity analysis of user-generated content for theme-based route planning[J]. Journal of Location Based Services，2013，7(4): 223-245.

[8] Yan P，Jin W. Improving cross-document knowledge discovery using explicit semantic analysis[C]//Proceedings of the 14th DaWaK. Heidelberg: Springer-Verlag，2012: 378-389.

[9] Huang L，Milne D，Frank E，Witten I H. Learning a Concept-Based Document Similarity Measure[J]. Journal of the American Society for Information Science and Technology，2012，63(8): 1593-1608.

[10] Agirre E，Alfonseca E，Hall K，et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C] //Proceedings of NAACL. Stroudsburg: ACL，2009: 19-27.

[11] Lenat D B. CYC: A large-scale investment in knowledge infrastructure[J]. Communications of the ACM，1995，38: 33-38.

[12] 王紅玲，呂強，徐瑞. 中文語義相關度計算模型研究[J]. 計算機工程與應用,2009(7): 167-170.

[13] Giles J. Internet encyclopaedias go head to head[J]. Nature，2005，438: 900-901.

[14] Strube M,Ponzetto S P. WkiRelate! Computing semantic relatedness using Wikipedia[C]//Proceedings of the 21st AAAI. Menlo Park，CA: AAAI Press，2006: 1419-1424.

[15] Gabrilovich E，Markovitch S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C]//Proceedngs of the 20th IJCAI. San Francisco: Kaufmann，2007: 1606-1611.

[16] Milne D，Witten I H. An effective，low-cost measure ofsemantic relatedness obtained from Wikipedia links[C].//Proceedings of the Advancement of Artificial Intelligence Workshop on Wikipedia and Artificial Intelligence. Menlo Park，CA: AAAI Press，2008: 25-30.

[17] Yazdani M，Belis A P. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia[J]. Artificial Intelligence，2013，194: 176-202.

[18] Yeh E，Ramage D，Manning C D，et al. WikiWalk: Random walks on Wikipedia for semantic relatedness[C]//Proceedings of the 2009 Workshop on Graph-Based Methods for Natural Language Processing. Stroudsburg，PA: ACL，2009: 41-49.

[19] 劉群，李素建. 基于知網的詞匯語義相似度計算[J]. 中文計算語言學，2002，7(2): 59-76.

[20] 李赟，黃開妍，任福繼，鐘義信. 維基百科的中文語義相關詞獲取及相關度分析計算[J]. 北京郵電大學學報，2009，32(3): 109-112.

[21] 萬富強，吳云芳. 基于中文維基百科的詞語語義相關度計算. 中文信息學報，2013，27(6): 31-37,109.

[22] 汪祥，賈焰，周斌，丁兆云，梁政. 基于中文維基百科鏈接結構與分類體系的語義相關度計算[J]. 小型微型計算機系統，2011，32(11): 2237-2242.

[23] 涂新輝，張紅春，周琨峰，何婷婷. 中文維基百科的結構化信息抽取及詞語相關度計算方法. 中文信息學報，2012，26(2): 109-114.

[24] Milne D，Witten I H.An open-source toolkit for mining Wikipedia[J]. Artificial Intelligence，2013(194): 222-239.

[25] Cilibrasi R L，Vitányi P M. The Google similarity distance[J]. IEEE Transactions on Knowledge and Data Engineering，2007，19(3): 370-383.

[26] Rasmussen C E，Williams C K I. Gaussian processes formachine learning[M]. Cambridge，MA: MIT Press，2006.

[27] Hall M，Frank E，Holmes G，et al. The WEKA Data Mining Software: An Update[J]. SIGKDD Explorations，2009，11(1): 10-18.

[28] Finkelstein L，Gabrilovich Y M，Rivlin E. et al. Placing search incontext: The concept revisited[J]. ACM Transactions on Information Systems，2002，20(1): 116-131.

[29] Miller G A，Charles W G. Contextual correlates of semantic similarity[J]. Language and Cognitive Processes，1991，6(1): 1-28.

Learning the Semantic Relatedness of Chinese Words from Wikipedia

HUANG Lan,DU Youfu

(College of Computer Science,Yangtze University,Jingzhou,Hubei 434000,China)

Semantic word relatedness measures are fundamental to many text analysis tasks such as information retrieval，classification and clustering. As the largest online encyclopedia today，Wikipedia has been successfully exploited for background knowledge to overcome the lexical differences between words and derive accurate semantic word relatedness measures. In Chinese version，however，the Chinese Wikipedia covers only ten percent of its English counterpart. The sparseness in concept space and associated resources adversely impacts word relatedness computation. To address this sparseness problem，we propose a method that utilizes different types of structured information that are automatically extracted from various resources in Wikipedia，such as article’s full-text and their associated hyperlink structures. We use machine learning algorithms to learn the best combination of different resources from manually labeled training data. Experiments on three standard benchmark datasets in Chinese showed that our method is 20%-40% more consistent with an average human labeler than the state-of-the-art methods.

word relatedness; Wikipedia; Chinese information processing; regression; hyperlink structure

黃嵐(1982—)，博士，主要研究領域為機器學習和文本分析。E?mail：lanhuang@yangtzeu．edu．cn杜友福(1961—)，碩士，教授，主要研究領域為人工智能。E?mail：dyf@yangtzeu．edu．cn

2014-02-26 定稿日期： 2014-07-15

長江青年基金(2015cqn52)

1003-0077(2016)03-0036-10

TP391