999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法分析的實體關系抽取

2018-05-14 09:39:00李真張優敏夏冬梅靳沖
科技風 2018年15期

李真 張優敏 夏冬梅 靳沖

摘 要:針對領域本體構建中實體關系種類不明確,以及中文文本中多出現復雜句式,復雜句子中實體關系的獲取比較難的問題,提出基于句子語法分析的實體關系獲取方法,通過對句法結構的分析,加入句法特征。以旅游領域的實體關系獲取為模型分別進行二組實驗。實驗表明,基于SVM關系抽取實驗中,加入了句法特征的那組實驗結果的F值提高了15個百分點,證明句法特征對基于SVM的實體關系獲取的有效性。

關鍵詞:實體關系;句法特征;支持向量機

中圖分類號:TP391文獻標識碼:A

國內外對實體關系的抽取都做了相關的研究,蔡鴻博[1]采用挖掘頻繁項集關聯性與分析詞結構信息相結合的方法來自動挖掘上位詞之間的上位關系,達到了較好的層次化效果;郭劍毅[2]提出一種改進的徑向基核函數融合多項式核函數及卷積樹核函數。本文前期也做過基于SVM(支持向量機)的概念、屬性及屬性值的對應關系獲取[3],但都沒有考慮復雜句式的問題,句法分析在處理復雜句式時有明顯的優勢,因此,本文在進行關系抽取時,通過對句法結構的分析,加入句法特征。以云南旅游領域實體關系獲取進行試驗驗證,結果表明該方法具有良好的可行性。

1 基于句法分析的實體關系抽取

特征的選擇。

在使用SVM進行實體關系獲取時,最核心的步驟就是構造特征向量,特征向量的構造需要選取合適的特征,特征選取不合適會直接影響到實驗的結果。由于中文文本中特征具有多樣性,在考慮到常用的詞特征、實體類型特征等的基礎上,引入一種句法特征。下面重點介紹一下句法特征。

(a)父類成分特征。父類特征主要表示在同一個句子中,兩個實體在句法分析樹中的結點是在哪個句法位置處顯示的。本文主要考慮五個句法成分:pp,np,zj,dj,vp。從離兩個實體最近的父結點開始,依次向上搜索,如果出現最近的公共句法成分為pp,np,zj,dj,vp中任一個,則其為父類特征。其中pp,np,zj,dj,vp在句法成分中分別表示動詞短信、名詞短語、整句、單句句型和介詞短語。

(b)兩個實體間的路徑特征。兩個實體在句法分析樹中的路徑,由兩個實體對應的結點間的句法成分構成。例如句子“滇池位于云南省昆明市的西南。”它的句法樹為[jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下圖所示,兩實體之間的路徑為np+dj-vp-sp。

(c)中心詞之間以及中心詞到實體之間的路徑。在分析了“云南省昆明市的西南”和“滇池”這兩個實體在語法分析樹中充當的成分后,發現它們都和動詞“位于”的關系比較密切,從句子的語義角色這方面來看,“云南省昆明市的西南”是“ 位于”的受動者,“滇池”是“位于”的施事者, 同時本文發現句子中的大部分關系都有這樣的一個角色依賴關系和中心詞。因此,本文在原有特征的基礎上加了兩個新特征:兩個實體分別到中心詞的句法分析路徑特征和中心詞特征。中心詞為“位于”,實體E1到中心詞的路徑為:np+dj-vp,實體E2到中心詞的路徑為:vp-sp。

2 試驗數據以及結果分析

(1)試驗數據以及評價指標。

為了證明SVM在實體語義關系抽取上具有可行性和有效性,本文分別設計了兩組相關的實驗室,其中第一組實驗是只有基礎特征實體關系抽取實驗;第二組是不斷加入句法特征的基于SVM的實體關系抽取實驗。由于本文在做實體關系抽取的實驗時,缺乏相關的權威語料,本文利用網絡爬蟲工具從互聯網上搜集了相關旅游領域的語料,主要包括酒店、景點、文化、小吃四類,文檔3000余篇,其中有2000篇是作為訓練語料,其余1000篇則作為測試語料。

在對實驗結果的評測中,本文采用信息抽取任務中比較權威的評測標準。即用召回率(R)來反映實驗結果的查全率,用準確率(P)來反映實體關系抽取的精度,用F值來表示實驗結果的最終性能指標,即:

(2)結果及分析。

由下表可知,每次加入的句法特征都起到了改進系統性能的作用,其中父類成分以及中心詞和實體距中心詞的路徑兩個特征對實驗的結果有很大的影響,提高了實體關系抽取的性能。

3 結論

實體關系的獲取是近年來文本信息處理領域的一個研究熱點。本文通過對兩個實體在句法結構樹中的位置進行分析,獲取實體之間的依存特征,在基于SVM的實體關系抽取中不斷地加入這些句子結構特征,實驗證明,句法分析對基于SVM的實體語義關系抽取具有顯著的效果。

參考文獻:

[1]蔡鴻博.基于上位詞的中文實體關系圖譜構建[D].哈爾濱工業大學,2014.

[2]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領域實體關系抽取[J].中文信息學報,2016,30(01):24-29.

[3]郭劍毅,李真,余正濤,等.領域本體概念實例、屬性和屬性值的抽取及關系預測[J].南京大學學報(自然科學版),2012,48(04):383-389.

[4]付瑞吉.開放域命名實體識別及其層次化類別獲取[D].哈爾濱工業大學,2014.

作者簡介:李真(1983-),女,碩士,講師,高級工程師,研究方向為信息抽取。

主站蜘蛛池模板: 国产精品成人观看视频国产| 久久国产高潮流白浆免费观看| 欧美日韩国产精品va| 在线观看国产精美视频| 国产欧美日韩综合在线第一| 国产精品尤物在线| 国内a级毛片| 日本不卡在线播放| 国产精品主播| 91精品国产自产91精品资源| 幺女国产一级毛片| 久久综合五月| 久久影院一区二区h| 中文精品久久久久国产网址 | 一本久道久久综合多人| 丁香婷婷激情综合激情| 日韩精品毛片人妻AV不卡| 99偷拍视频精品一区二区| 亚洲成人在线免费观看| 国模极品一区二区三区| 久草中文网| 欧美在线伊人| 波多野结衣久久精品| 国产一级毛片在线| 日韩欧美一区在线观看| 欧美精品在线视频观看| 欧亚日韩Av| 四虎国产永久在线观看| 性视频一区| 不卡视频国产| 亚洲综合一区国产精品| 亚洲精品自拍区在线观看| 在线精品亚洲国产| 人妻丰满熟妇AV无码区| 国产精品永久免费嫩草研究院| 国产AV无码专区亚洲精品网站| 国产欧美日韩精品综合在线| 国内毛片视频| 久久精品人妻中文系列| 欧美日韩在线第一页| 欧美区一区二区三| 51国产偷自视频区视频手机观看 | 人人看人人鲁狠狠高清| 亚洲高清日韩heyzo| 欧美人人干| 国产精品护士| 永久免费AⅤ无码网站在线观看| 国产精品黄色片| 国产一区二区三区在线无码| 88av在线| 丁香亚洲综合五月天婷婷| 国产一区二区色淫影院| 国产精品永久久久久| 日韩无码黄色| 高清色本在线www| 97综合久久| 欧美一区精品| 午夜精品久久久久久久99热下载| 99国产精品免费观看视频| 99热这里只有精品国产99| 欧美啪啪网| 亚洲Va中文字幕久久一区| 成人精品免费视频| 国产在线无码av完整版在线观看| 成人午夜精品一级毛片| 亚洲第一成年人网站| 91在线国内在线播放老师| 99久久国产综合精品2020| 国产亚洲精久久久久久无码AV| 亚洲综合色吧| 午夜日b视频| 国产高潮流白浆视频| 亚洲激情99| 女人18毛片一级毛片在线| 久久精品中文字幕免费| 久久性妇女精品免费| 国产拍揄自揄精品视频网站| 国产大片喷水在线在线视频| vvvv98国产成人综合青青| 国产美女91视频| 日韩精品亚洲人旧成在线| 女人18毛片一级毛片在线 |