999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實體關系抽取技術的研究

2020-12-03 01:54:22王瀚琳
數碼設計 2020年13期

王瀚琳

摘要:實體關系信息抽取涉及基于實體的上下文信息和來自注釋的信息,從不規則文本中提取與任務關聯的實體之間的關系信息。實體關系抽取是指根據實體的上下文信息和命名實體的注釋信息,從不規則文本中提取任務相關實體之間的關系信息。本文介紹了幾種具有代表性的實體關系抽取技術,以望為之后的研究者提供一定的參考。

關鍵詞:實體關系;監督學習;半監督學習;無監督學習

中圖分類號:TP391.1文獻標識碼:A文章編號:1672-9129(2020)13-0045-01

隨著機器學習和深度學習的發展,統計機器學習方法在挖掘相關任務中的應用變得越來越普遍,包含的種類也有很多,本文將介紹它的幾個主要的類別。

1關系抽取研究現狀

目前,在信息抽取領域中,SemEval-2010的評測任務八數據集,至今仍然是關系抽取任務中重要的評測數據集。

通過有監督的機器學習方法從不規則的文本中抽取出實體之間的主要關系的方法主要有兩種:一是將文本的語義信息表示為向量;二是將文本的語義信息通過核函數映射到高維空間,從高維空間中抽取出實體之間主要關系的方法。

基于半監督機器學習的實體關系抽取模型,首先,是用人工的方式選取少量的高質量的規則作為模板。然后,根據模板不斷地從數據集中進行迭代抽取出新的模板,新的模板評估結果符合預期后,會被添加到模板的集合中用于后續的迭代計算。具有代表性的基于半監督機器學習的實體關系抽取工作,是2015年Agichtein開發的Snowball系統。

基于無監督機器學習的實體關系抽取模型主要是通過聚類的方式從數據集中抽取出實體關系,此種方法雖然在技術和操作流程上比較簡答,但它在效果和性能方法并不令人滿意。

2基于規則匹配的關系抽取

在研究初期,研究者主要采用基于規則匹配的方法用于提取實體之間的關系,它適用于沒有規律的文本,但這些類型的規則對于較長范圍的模式和具有更大多樣性的序列來說是不適用的。這種方法在進行實體關系抽取任務時需要較多的人工干預,根據不同的任務需要相應領域的專家設計抽取規則,因此基于規則匹配的關系抽取方法存在很強的局限性,而且泛化能力差可移植性不強。

隨著規則集合的擴充,使用基于規則匹配的方法處理復雜的實體關系類型抽取的任務時,規則之間可能會發生沖突從而降低模型的效果。

3基于監督學習的關系抽取

在監督學習的框架下,需要將數據集中的數據進行標注。這一類方法一般將關系抽取任務作為分類問題進行建模,從文本中抽取兩個實體之間的關系可以看作找到一個合適的映射函數,通過映射函數計算出兩個實體之間概率最大的實體關系類型。

監督學習模型需要進行數據的處理和特征的提取,以便使用機器學習或深度學習過程中構造分類器,從而有利于模型進行分類和測試數據中實體之間的關系。

根據句子的特征信息構建表示句子特征的方法,常使用的特征信息有實體信息、實體類型信息、實體相對距離信息、實體之間單詞序列信息等。但是基于句子特征信息的關系抽取只獲取了淺層的句子信息,而基于核函數的關系抽取可以將特征映射到高維空間,從高維空間對句子進行分析,常用的核函數有字符串核、句法樹核、詞袋核、依存句法核等核函數。

優點是高質量的監督信號和有明確的負樣本,缺點是標注樣本成本高,增加新的關系難且成本高,對于新領域不具有很好的泛華性,使用范圍小,只對一小部分相關類型可用,不具有遷移性。

無論是基于句子特征信息的關系抽取方法,還是基于核函數的關系抽取方法,都需要人工設計特征的表示方法。

4基于半監督學習和無監督學習的關系抽取

基于半監督學習中的bootstrap方法的關系抽取模型的研究重點,是通過少量標注的數據集進行規則的學習,然后根據少量的實例或模板,在大規模的未標注的數據中抽取新的模板,為了防止誤差的疊加,需要對新模板進行評估,將準確率達到閾值標準的模板添加到模板庫中,然后繼續進行迭代抽取。雖然基于無監督學習的關系抽取方法省略了人工標注數據集的步驟,減少了人工干預,但是,通過聚類的方式抽取出的結果很難映射到實際的實體關系類型中,無法對結果進行分類。

半監督學習的優點是可以發現比基于規則的關系提取更多的關系和更少的人力投入,因為它只需要高質量的種子。缺點是隨著每次迭代,模式的集合更容易出錯、在通過元組共現生成新模式時必須十分小心和新的關系類型需要新的種子,即需要手動提供。

無監督學習的優點是幾乎不需要標注訓練數據,且不需要我們手動預先指定每個甘心去的關系,而是考慮所有可能的關系類型。缺點是系統的表現在很大程度上取決于約束和啟發法的構造有多好和關系不像預先指定的關系類型那樣規范化。

5實體關系抽取技術的創新

針對空間實體識別任務,在傳統的雙向長短期記憶網絡和條件隨機場混合模型的基礎上進行了改進。在特征表示層增加用于提取詞向量語義特征的全連接神經網絡,這種改進方式可以提升模型的特征提取能力。

通過在關系抽取的流程中添加空間實體類型識別模塊,對傳統的關系抽取方法進行了改進。改進后的方法可以識別出訓練樣本中未出現的關系類型。

6總結

根據不同的應用場景,選取合適的模型方法來對抽取實體之間的關系以滿足認為的需求是重要的研究領域。實體關系技術作為信息抽取技術的重要組成部分,人具有重要意義,如何根據不同場景選取合適的實體關系抽取技術,仍需要研究者們進一步探索與創新。

參考文獻:

[1] 張春云.實體關系抽取算法研究 [D].北京:北京郵電大學,2015.

[2] 譚鋒,李天真,崔亮亮.Web信息抽取系統研究綜述 [J].科技創新導報

[3] 李保利,陳玉忠,俞士汶.信息抽取研究綜述 [J].計算機工程與應用,2003 (10):1-5.

主站蜘蛛池模板: 中文字幕欧美日韩| 一区二区自拍| 亚洲精品爱草草视频在线| 亚洲中文在线看视频一区| 亚洲国产高清精品线久久| 日韩a级毛片| 亚洲欧美一区二区三区麻豆| 91丝袜乱伦| 真实国产精品vr专区| 精品无码国产自产野外拍在线| 免费不卡视频| 欧美一级爱操视频| 精品久久高清| 成人午夜视频在线| 91po国产在线精品免费观看| 欧美精品1区| 狠狠色丁香婷婷| 全免费a级毛片免费看不卡| 欧美性爱精品一区二区三区| 国产一区二区三区免费| 亚洲精品国产日韩无码AV永久免费网| 中文字幕首页系列人妻| 九九久久精品免费观看| 91免费观看视频| 成人午夜在线播放| 亚洲综合久久成人AV| 国产玖玖玖精品视频| 国产美女精品一区二区| 国产尤物在线播放| 亚洲网综合| 国产精品亚洲欧美日韩久久| 久久香蕉国产线看观| 99热国产这里只有精品9九| 尤物成AV人片在线观看| 国产精品黑色丝袜的老师| 日韩AV手机在线观看蜜芽| 日韩精品中文字幕一区三区| 2021国产在线视频| 中文无码精品A∨在线观看不卡 | 亚洲三级色| 亚洲成网777777国产精品| 91人妻在线视频| 青青草国产在线视频| 成人a免费α片在线视频网站| 欧美成人综合在线| 国产JIZzJIzz视频全部免费| 色综合久久久久8天国| 欧美性精品| 成人年鲁鲁在线观看视频| 四虎在线高清无码| 97国内精品久久久久不卡| 国产精品成人久久| 白丝美女办公室高潮喷水视频| 亚洲成人精品久久| 亚洲资源在线视频| 国产综合色在线视频播放线视 | 国产杨幂丝袜av在线播放| 99久久精品免费看国产电影| 国产精品成人AⅤ在线一二三四| 亚洲成人77777| 国产美女视频黄a视频全免费网站| 奇米精品一区二区三区在线观看| 亚洲视频色图| 99尹人香蕉国产免费天天拍| 亚洲中文久久精品无玛| 欧美激情视频二区| 国产午夜小视频| 最新国产网站| 午夜三级在线| 波多野结衣一区二区三区AV| 99在线观看视频免费| 成人免费午夜视频| 国产综合在线观看视频| 国产人人射| 欧美天堂久久| 亚洲精品久综合蜜| 亚洲区欧美区| 亚洲三级影院| 五月婷婷综合网| 久久国产热| 国产日韩AV高潮在线| 国产原创自拍不卡第一页|