基于中文維基百科的概念獲取方法研究

2021-09-16 10:23:14蔡海博戴忠柱

遼寧師專學報(自然科學版) 2021年3期

蔡海博,戴忠柱

(營口理工學院基礎部,遼寧營口 115004)

0 引言

隨著科技的進步和網絡技術的普及,人們學習知識的途徑趨于多樣化,越來越多的知識出現在網頁文本中.知識是由概念以及概念之間的關系組成的,如何快速自動地獲取知識,首先需要解決的是盡可能多的獲取準確的概念,現在新的概念在網絡中呈爆炸式增長,準確獲取這些概念對人工智能、信息檢索、自然語言問答等領域都起到至關重要的作用.

文本中蘊含著豐富的語義知識,目前文本知識獲取的研究基礎是概念獲取,概念獲取的數量和質量將決定后續語義關系的獲取.我們可以快速獲取文本已有的概念,但是如何根據已有概念獲取文本中暫時未出現的隱性概念則更有研究價值.從文本中獲取盡可能多的概念和語義關系可以幫助計算機構建知識結構,最大限度地理解文本內容.由此可見,概念獲取在機器學習、人工智能等領域有廣闊的應用前景.

維基百科(Wikipedia,簡稱Wiki)是世界上最大的在線百科全書,截至2021年,維基百科共有280種語言版本,包含了5 500多萬頁的定義和描述性信息.其中,中文維基百科共收錄條目120多萬條,涵蓋了生活中各個領域的知識.維基百科條目具有準確性高、半結構化等特點,廣泛應用于信息抽取、信息檢索、知識問答等領域的研究.

1 相關工作

概念獲取是知識獲取研究不可逾越的關鍵一步.目前概念獲取研究主要是面向Web語料或者特定領域文本.總的來說,概念獲取的方法可以大體上分為兩類:一種是基于統計的方法,另一種是基于文本語義的方法.

基于統計的方法主要是利用概念出現的頻數,借助互信息、信息熵、TF-IDF等方法抽取概念.姚建仁[1]提出了一種基于互信息和上下文模式匹配的方法獲取概念,首先對文本進行詞法分析,利用詞的上下文依賴特征實現概念獲取,并且建立了概念獲取和驗證相統一的系統.劉磊[2]通過人工總結設定“是一個”上下位關系規則,借助《同義詞詞林》通過模式匹配的方法從文本中自動獲取下位概念,實驗表明該方法效果較好.

基于概念語義的方法是通過詞法分析和聚類總結出概念的構詞規則,設定約束條件獲取概念.顏端武[3]在對航空發動機領域語料分詞的基礎上進行N元切分,利用基于統計的方法通過設定約束規則實現自動提取候選領域概念,該方法充分利用了文本語言學的特征,可以有效地獲取概念,但最后驗證概念準確性時需要人工判斷和篩選,有待改進.Gaoying Cui[4]提出利用維基百科的定義句和分類標簽抽取概念,并從70萬維基頁面中抽取出5萬概念,實驗證明該方法準確率達到78.5%.

2 概念獲取

本文首先介紹了隱性概念的合成算法,然后利用基于語言學的方法從維基百科中抽取顯性概念,再通過詞法分析和基于統計的方法建立前部構件庫、后部構件庫和候選概念詞構件庫,最后通過基于TF-IDF的改進算法、基于構建特征向量的方法和混合加權方法計算候選概念詞構件的相似度[5],人工設定閾值合成隱性概念擴充至已有概念庫.隱性概念合成算法的具體流程如圖1所示.

2.1 顯性概念獲取

概念是人們在學習認知過程中,用于表述某一類事物的特征的詞匯[6].顯性概念是指在文本中已經出現并被認為可以描述事物本質屬性的詞匯,一般為名詞、動名詞或者形容詞.

2.1.1 語料庫的獲取及預處理

由于本文研究的是中文的知識獲取,所以選取中文維基百科語料庫作為研究對象.首先從維基百科官網下載最新的中文維基百科語料庫,并對其進行預處理,步驟如下:

(1)下載最新語料庫(https://dumps.wikimedia.org/zhwiki/)[7],獲取壓縮包,解壓后該文件為XML文檔(zhwiki-20210731-pages-articles.xml),文件大小為9.5 GB.

(2)抽取文本.利用Python語言抽取XML文檔正文內容[8].

(3)繁簡轉換.使用OpenCC工具化繁為簡,便于后續詞法分析和概念獲取.

2.1.2 顯性概念獲取及預處理

為使后續隱性概念獲取的召回率和準確率足夠高,需盡可能多地獲取中文維基百科正文中的已有概念,并對其進行預處理,具體步驟如下:

(1)抽取中文維基百科的所有標題.維基百科中的每一個標題對應一篇文本,這些文本都是經過人工編寫并且反復推敲的,所以用其構建初始的顯性概念庫.

(2)對正文內容進行分詞和詞性標注[9],并抽取其中名詞詞匯補充至顯性概念庫.

(3)對顯性概念庫中的已有概念進行去噪、去重處理.噪聲包括特殊符號、除中文以外的其他語種以及英文音譯的人名.

經過上述步驟后共得到3 076 842個概念,構成中文維基百科語料庫的顯性概念庫.

2.2 隱性概念詞構件庫的構建

對顯性概念庫中已有概念的知識挖掘是本文的研究重點,通過分詞和統計的方法,根據已有概念得到其前部構件庫、后部構件庫和隱性概念詞構件庫,具體步驟如下:

(1)分詞.利用分詞系統ICTCLAS對已有概念進行分詞處理,選取具有實際意義的詞匯作為候選前部構件和候選后部構件.

(2)統計.選取候選前部構件庫和候選后部構件庫中出現頻數≥100的多字詞和名詞詞性的單字構建前部構件庫和后部構件庫.

(3)將已有概念去除前部構件和后部構件構建隱性概念詞構件庫.

處理結果見表1.

表1 前部構件庫和后部構件庫的處理結果單位:個

2.3 隱性概念合成

本文通過3種方法計算隱性概念詞構件之間的相似度,并根據隱性概念詞構件和前部構件及后部構件的相關度,合成隱性概念,根據實驗結果選取最優方法.

2.3.1 基于TF-IDF的改進方法

該方法本質上屬于統計方法,若兩個隱性概念詞構件和同一個標題的相關度接近,則認為其相似.首先獲取兩個隱性概念詞構件和同一標題共現的所有語料,由于維基百科半結構化的特點,若隱性概念詞構件出現在定義句的位置,則認為其包含信息比其他位置更重要,故將其權重擴大為原來的3倍.算法具體步驟如下:

輸入:隱性概念詞構件共現的語料集合

其中,N為語料集合的總數.

隱性概念詞構件庫

其中m為隱性概念詞構件的總數.

公式(1)用于計算隱性概念詞構件和語料的緊密程度.其中:f1(Ctf,w i)表示隱性概念詞構件w i在語料C t的定義句中出現的次數;f2(Ct,w i)表示隱性概念詞構件w i在語料C t的其他位置中出現的次數.

公式(2)用于表示隱性概念詞構件的稀缺程度.

公式(3)用于計算隱性概念詞構件w i和語料C t的相關度.

公式(4)用于計算隱性概念詞構件之間的相似度.

2.3.2 基于構建特征向量的方法

該方法本質上屬于基于文本語義的方法,若兩個隱性概念詞構件出現的上下文語境相似,則認為其相似.首先獲取隱性概念詞構件共現的所有語料,對其進行分詞、詞性標注和去重處理,然后利用統計方法選取特征詞構建空間向量模型,最后利用余弦相似度的方法,計算其相似度.具體步驟如下:

(1)通過分詞、詞性標注和去重處理,篩選出名詞、形容詞和動名詞作為候選特征詞.

(2)利用統計方法選擇特征詞,并利用《同義詞詞林》擴充特征詞庫.

(3)構建空間向量模型,將隱性概念詞構件表示為由特征詞出現的頻數構成的向量.

(4)計算向量余弦相似度表示隱性概念詞構件之間的相似度sim2.

2.3.3 混合加權方法

上述基于TF-IDF的改進方法僅考慮詞頻對結果的影響,而基于構建特征向量的方法僅考慮語境的影響.混合加權方法綜合考慮詞頻和語境,并設定相應的權重,計算隱性概念詞構件之間的相似度.

公式(5)用于計算隱性概念詞構件之間的相似度.

3 實驗與分析

為驗證上述方法的有效性,選取人文、科學、藝術等不同領域的500個顯性概念進行驗證,考慮到實驗的運行效率,僅對前部構件進行處理.由于實驗合成的隱性概念數量較大,因此采用網絡驗證的方法驗證合成的隱性概念的準確性,即利用搜索引擎搜索合成的隱性概念,若該概念出現的頻數超過一定閾值,則認為該隱性概念是正確的.

3.1 基于TF-IDF的改進方法

根據上述2.3.1中的方法,計算隱性概念詞構件之間的相似度,并設定隱性概念詞構件相似度閾值為θ1,隱形概念詞構件和前部構件的相關度為θ2,超過閾值則可以合成隱性概念,僅考慮θ1取不同值時的實驗結果如圖2所示.

由圖2可以看出,合成隱性概念的個數隨著θ1取值的增大不斷減少,經網絡驗證,當θ1=0.75時,合成隱性概念的準確率相對較高,但是由于沒有考慮θ2的取值,準確率僅為37%.確定θ1的值后,由實驗結果可知,當θ2=0.5時準確率最高,可以達到54%.分析可得,僅僅考慮詞頻,效果不太理想.

3.2 基于構建特征向量的方法

由圖2可知,當θ1取值較大時,合成的隱性概念準確率較高,所以本次實驗選取θ1和θ2的值相對較大,實驗結果如表2所示.

由表2可知,當θ1和θ2取值越大,合成的隱性概念個數越少,經網絡驗證當θ1=0.75,θ2=0.5時,準確率最高,達到75%.可見概念的上下文語境要比詞頻的貢獻更大.

表2 基于構建特征向量方法合成隱性概念結果表

3.3 混合加權方法

上述兩次實驗結果顯示,當θ1=0.75時,效果相對較好.根據上述2.3.3中的方法,當α和θ2取不同的值時,合成的隱性概念結果如表3所示.

表3 基于混合加權方法合成隱性概念結果表

經網絡驗證,當α=0.4,θ1=0.75,θ2=0.5時準確率最高,達到82%,由此可見,綜合考慮概念的詞頻和上下文語義信息,合成的隱性概念效果更好.

4 結語

本文主要研究了隱性概念的合成問題,首先利用分詞和統計的方法獲取維基百科中的顯性概念,然后利用構詞特征構建前部構件庫、后部構件庫和隱性概念詞構件庫.經過計算隱性概念詞構件之間的相似度及隱性概念詞構件和前后部構件的相關度,合成隱性概念,實驗結果顯示可以有效擴充已知概念庫[10],但仍有以下不足需要考慮:

(1)由于本文使用分詞工具比較頻繁,因此分詞和詞性標注結果的準確性對實驗結果有一定的影響,可知實現更加準確的分詞方法也是以后待研究的工作.

(2)網絡驗證的準確性會有誤差[11],本文判斷概念正確與否的標準是概念是否在搜索引擎中以超過一定的頻數出現,但是有些概念可能暫時沒有在互聯網中出現,經過人工判斷后可能是正確的概念,比如“哈密頓望遠鏡”、“水利縣”、“爆炸系數”等.