李真 張優敏 夏冬梅 靳沖
摘 要:針對領域本體構建中實體關系種類不明確,以及中文文本中多出現復雜句式,復雜句子中實體關系的獲取比較難的問題,提出基于句子語法分析的實體關系獲取方法,通過對句法結構的分析,加入句法特征。以旅游領域的實體關系獲取為模型分別進行二組實驗。實驗表明,基于SVM關系抽取實驗中,加入了句法特征的那組實驗結果的F值提高了15個百分點,證明句法特征對基于SVM的實體關系獲取的有效性。
關鍵詞:實體關系;句法特征;支持向量機
中圖分類號:TP391文獻標識碼:A
國內外對實體關系的抽取都做了相關的研究,蔡鴻博[1]采用挖掘頻繁項集關聯性與分析詞結構信息相結合的方法來自動挖掘上位詞之間的上位關系,達到了較好的層次化效果;郭劍毅[2]提出一種改進的徑向基核函數融合多項式核函數及卷積樹核函數。本文前期也做過基于SVM(支持向量機)的概念、屬性及屬性值的對應關系獲取[3],但都沒有考慮復雜句式的問題,句法分析在處理復雜句式時有明顯的優勢,因此,本文在進行關系抽取時,通過對句法結構的分析,加入句法特征。以云南旅游領域實體關系獲取進行試驗驗證,結果表明該方法具有良好的可行性。
1 基于句法分析的實體關系抽取
特征的選擇。
在使用SVM進行實體關系獲取時,最核心的步驟就是構造特征向量,特征向量的構造需要選取合適的特征,特征選取不合適會直接影響到實驗的結果。由于中文文本中特征具有多樣性,在考慮到常用的詞特征、實體類型特征等的基礎上,引入一種句法特征。下面重點介紹一下句法特征。
(a)父類成分特征。父類特征主要表示在同一個句子中,兩個實體在句法分析樹中的結點是在哪個句法位置處顯示的。本文主要考慮五個句法成分:pp,np,zj,dj,vp。從離兩個實體最近的父結點開始,依次向上搜索,如果出現最近的公共句法成分為pp,np,zj,dj,vp中任一個,則其為父類特征。其中pp,np,zj,dj,vp在句法成分中分別表示動詞短信、名詞短語、整句、單句句型和介詞短語。
(b)兩個實體間的路徑特征。兩個實體在句法分析樹中的路徑,由兩個實體對應的結點間的句法成分構成。例如句子“滇池位于云南省昆明市的西南。”它的句法樹為[jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下圖所示,兩實體之間的路徑為np+dj-vp-sp。
(c)中心詞之間以及中心詞到實體之間的路徑。在分析了“云南省昆明市的西南”和“滇池”這兩個實體在語法分析樹中充當的成分后,發現它們都和動詞“位于”的關系比較密切,從句子的語義角色這方面來看,“云南省昆明市的西南”是“ 位于”的受動者,“滇池”是“位于”的施事者, 同時本文發現句子中的大部分關系都有這樣的一個角色依賴關系和中心詞。因此,本文在原有特征的基礎上加了兩個新特征:兩個實體分別到中心詞的句法分析路徑特征和中心詞特征。中心詞為“位于”,實體E1到中心詞的路徑為:np+dj-vp,實體E2到中心詞的路徑為:vp-sp。
2 試驗數據以及結果分析
(1)試驗數據以及評價指標。
為了證明SVM在實體語義關系抽取上具有可行性和有效性,本文分別設計了兩組相關的實驗室,其中第一組實驗是只有基礎特征實體關系抽取實驗;第二組是不斷加入句法特征的基于SVM的實體關系抽取實驗。由于本文在做實體關系抽取的實驗時,缺乏相關的權威語料,本文利用網絡爬蟲工具從互聯網上搜集了相關旅游領域的語料,主要包括酒店、景點、文化、小吃四類,文檔3000余篇,其中有2000篇是作為訓練語料,其余1000篇則作為測試語料。
在對實驗結果的評測中,本文采用信息抽取任務中比較權威的評測標準。即用召回率(R)來反映實驗結果的查全率,用準確率(P)來反映實體關系抽取的精度,用F值來表示實驗結果的最終性能指標,即:
(2)結果及分析。
由下表可知,每次加入的句法特征都起到了改進系統性能的作用,其中父類成分以及中心詞和實體距中心詞的路徑兩個特征對實驗的結果有很大的影響,提高了實體關系抽取的性能。
3 結論
實體關系的獲取是近年來文本信息處理領域的一個研究熱點。本文通過對兩個實體在句法結構樹中的位置進行分析,獲取實體之間的依存特征,在基于SVM的實體關系抽取中不斷地加入這些句子結構特征,實驗證明,句法分析對基于SVM的實體語義關系抽取具有顯著的效果。
參考文獻:
[1]蔡鴻博.基于上位詞的中文實體關系圖譜構建[D].哈爾濱工業大學,2014.
[2]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領域實體關系抽取[J].中文信息學報,2016,30(01):24-29.
[3]郭劍毅,李真,余正濤,等.領域本體概念實例、屬性和屬性值的抽取及關系預測[J].南京大學學報(自然科學版),2012,48(04):383-389.
[4]付瑞吉.開放域命名實體識別及其層次化類別獲取[D].哈爾濱工業大學,2014.
作者簡介:李真(1983-),女,碩士,講師,高級工程師,研究方向為信息抽取。