999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開放域信息抽取研究綜述

2021-05-12 10:52:44高躍
現代計算機 2021年7期
關鍵詞:信息方法

高躍

(四川大學計算機學院,成都610065)

0 引言

隨著互聯網技術的高速發展,網絡上產生了海量的非結構化數據,自然語言處理(Natural Language Processing,NLP)中的信息抽?。↖nformation Extraction,IE)技術被用于從海量的非結構化文本中抽取出結構化的信息,這些結構化信息常用關系三元組(實體1;關系;實體2)的形式表示。傳統的信息抽取任務預先給定一組關系類別集合,限定關系類別以及文本的領域,在給定實體對的情況下可以將信息抽取看作是對實體對的多分類問題。但開放域信息抽?。∣pen Domain Information Extraction,Open IE)[1]不限定關系類別,從文本中抽取所有可能的關系三元組,例如:給定句子“自然語言處理是計算機科學的一個方向”,開放域信息抽取能夠從中提取出關系三元組(自然語言處理;是;計算機科學的一個方向),其中的關系類別不受限制。這些提取出的關系三元組可以用于許多下游工作,如:問答系統[2]、信息檢索[3]和知識圖譜構建[4]等。

Banko 等人[1]首次提出開放域信息抽取任務,吸引了大量研究者的關注,早期的開放域信息抽取方法大多使用從標注文本中自動學習[1,5-6]或者人工構造的模板[7-9],依賴句子的依存特征進行關系三元組的抽取,由于使用領域獨立的句法特征等信息,這些方法可以適用于不同領域和關系類型。一些研究者認為關系三元組缺失完整的上下文信息不利于下游任務的理解,且可能抽取出非事實性的、假設性的三元組,因此一些方法也探索了如何抽取具備完整上下文信息的關系三元組。Mausam 等人[5]分析三元組的上下文,并將其作為三元組的額外字段,Gashteovski 等人[10]用上下文信息對提取的三元組進行標注,一些系統[11-13]從三元組的上下文中提取額外的關系三元組,并使用修辭關系或依賴關系信息將其聯系起來,以獲得具有完整上下文信息的關系三元組。結構復雜的句子對于Open IE 方法來說是一個巨大的挑戰,難以使用規則等方法從復雜句子中抽取關系三元組,因此為了提高關系三元組抽取的準確度,一些方法[13-15]提出了將復雜的句子轉化為簡單的子句,并在這些簡單的子句中使用簡單的模板抽取三元組。隨著近幾年深度學習方法發展,基于深度學習的開放域信息抽取成為主流,Cui 等人[16]、Stanovsky 等人[17]將開放域信息抽取轉換為序列生成和序列標注問題,在多個數據集上取得了優秀的成績。

1 相關工作

自從Banko 等人[1]首次提出,開放域信息抽取任務已經獲得了長足的發展,現有的開放域信息抽取方法大致可以分為四類:基于學習的方法、基于規則的方法、基于子句的方法和基于深度學習的方法。此外,一些研究者針對不同語言的開放域信息抽取也進行了研究。

1.1 基于學習的方法

由于開放域信息抽取任務缺少大規模的標注數據,早期的方法都通過啟發式方法、遠監督方法等自動獲取大量標注數據,使用這些自動標注的數據自動學習得到抽取模板或者分類器進行關系三元組的抽取。TextRunner[1]首先識別句子中可能的實體,然后利用一組啟發式規則自動標注句子中可能的三元組集合,使用這些標注數據訓練樸素貝葉斯分類器,判斷兩個實體之間的文本是否表達了關系。類似地,WOE[6]使用維基百科信息框中的數據作為監督源進行遠監督標注,使用訓練的分類器判斷實體對之間的最短依存路徑是否隱含表達關系。WOE 系統首次顯示利用依存解析特征相比于淺層語言特征(如:詞性序列)能取得更好的結果,大多數后續開放域信息抽取方法都利用了依存解析特征。后續的OLLIE[5]也使用了依存解析,從遠監督標注數據的依存解析樹中自動學習抽取模板,在依存解析上進行關系三元組的抽取。最近有研究者提出ATP-OIE[18],與OLLIE 類似地從依存解析樹上學習模板,但不同的是ATP-OIE 針對關系三元組的每個部分單獨學習抽取模板,取得了較好的效果。

1.2 基于規則的方法

除了從標注數據中自動學習抽取的模板,早期還有一些方法使用人工總結的規則進行關系三元組的抽取,REVERB[7]通過定義一組人工定義的詞性序列模板對關系短語進行句法約束,避免不連貫和無信息的抽取,同時REVERB 作者認為正確的關系短語應該在語料庫中和不同的論元共同出現,對關系短語進行詞匯約束以減少關系短語的過度抽取。EXEMPLAR[8]使用一組人工構造的基于依存解析樹的模板,檢測關系觸發詞和與它相連的論元實體。PropS[19]認為從依存解析樹中直接抽取三元組很困難,使用一組規則將依存解析樹轉化為帶標注的有向圖,由于有向圖的形式比依存解析樹更簡單,只包含幾種節點和邊,因此從轉化后的有向圖中可以輕松抽取出關系三元組。與PropS 很相似,PredPatt[9]也基于普遍依存解析(Universal Dependency Parse)對句子構建了有向圖,使用規則在其上進行抽取。這些基于規則的方法往往能夠帶來精確的抽取,但構造規則需要觀察大量語料,耗時耗力。

1.3 基于子句的方法

結構復雜的長句子一直是開放域信息抽取的挑戰,為了提高開放域信息抽取在復雜長句子上的抽取效果,研究者嘗試將復雜的句子轉換為結構簡單的獨立子句,從這些子句中抽取關系三元組更簡單。經典的ClausIE[14]識別句子中的所有動詞,然后根據語法知識和依存關系識別依賴于這些動詞的子句部分,得到的子句會被判斷屬于哪一種類型,以便使用對應的模板抽取關系三元組。Angeli 等人[15]提出了Stanford OIE,巧妙地使用一個依存解析樹上遞歸向下的邊搜索算法解決了子句位置的識別問題,同時采用自然邏輯對得到的子句進行處理,使得從這些子句中抽取得到的三元組在下游任務中更有用。最近的Graphene[13]使用一組人工定義的簡化規則移除句子中不重要的從句和短語,最終將復雜的句子轉換為簡單緊湊的獨立句子,并使用模板從中抽取關系三元組。

1.4 基于深度學習的方法

近幾年,自然語言處理領域的許多任務運用深度學習技術取得了不俗的成果,基于深度學習的方法也逐漸在開放域信息抽取任務中占據主流。目前這些方法主要將開放域信息抽取看作是序列生成、序列標注和基于分塊(span-based)的選擇問題。Cui 等人[16]將開放域信息抽取看作是序列到序列的生成問題,使用編碼器-解碼器框架對輸入句子進行編碼,生成包含關系三元組序列和分隔符的輸出序列。簡單的序列生成模型可能會生成大量相似的冗余抽取,同時Beam 搜索無法很好處理句子中的三元組個數問題,Kolluru 等人[20]在序列生成模型的基礎上提出將生成的三元組序列添加到編碼端重新編碼,以指導后續三元組的生成。Stanovsky 等人[17]將開放域信息抽取轉化為序列標注問題,首先識別句子中可能的關系詞,然后針對每個關系詞對輸入句子進行BIO 標注,得到對應的關系三元組序列。SenseOIE[21]也使用序列標注方法,但將多個開放域信息抽取方法的輸出作為序列標注模型的輸入特征,利用了之前方法的優點。使用一個基于分塊的選擇模型,SpanOIE[22]得到句子中每個分塊屬于各個標簽的得分,為關系三元組中的每個角色(關系,論元)從句子中選擇得分最高的分塊作為相應的抽取。這些基于深度學習的方法相比于之前的基于規則的系統更靈活,同時不存在錯誤傳播等問題。

1.5 多語言方法

現有的開放域信息抽取研究大多集中在英語文本,但不同的語言在詞匯、句法和語義等層面具備很大差異,因此一些研究者針對英語之外的其他語言進行研究,提出了特定語言的開放域信息抽取方法。ZORE[23]在中文的依存解析樹上使用模板和語法知識進行抽取,最近有研究者提出使用端到端的指針-生成器的網絡[24]解決錯誤傳播問題,在中文上取得了較好的效果。針對西班牙語,有方法使用與REVERB 類似的基于詞性序列模板的句法約束進行開放域信息抽取[25]。

2 數據集

開放域信息抽取工作中常用的數據集有OIE2016、CaRB、PENN、Web、NYT 等,其中Web、NYT、PENN 數據集是人工標注的數據集。Web 數據集[8]中的句子來自網頁和新聞,這些句子往往不完整或者包含錯誤的語法,并且句子結構一般比其他數據集更簡單。NYT 數據集[8]中的句子來自《紐約時報》語料庫,書寫更加正式規范。OIE2016 數據集[26]是由QA-SRL 自動轉換而來,被現有的開放域信息抽取方法廣泛采用作為評價數據集,最近IMOJIE[20]采用眾包對OIE2016中的驗證集和測試集重新進行了標注,得到了更準確的數據集CaRB。表1 顯示了這些數據集的更多細節。

表1 數據集

3 結語

隨著互聯網上海量非結構化文本的產生,越來越多的研究工作從傳統的信息抽取轉向了開放域信息抽取,本文介紹了開放域信息抽取任務,對目前的開放域信息抽取研究工作進行了總結和梳理,列舉了被廣泛使用的評價數據集。近幾年深度學習技術的使用使得開放域信息抽取模型更加靈活,解決了之前方法的錯誤傳播問題,取得了不錯的效果,但目前這方面研究還是有一定的問題。一方面深度學習方法需要更加大量的標注數據,目前開放域信息抽取任務并沒有特別可靠的大規模標注數據,另一方面復雜句子的抽取仍然是一個很大的挑戰,同時對于抽取結果的評價方式也存在爭議。未來的開放域信息抽取工作可以思考如何自動標注更可靠的數據,或者引入外部信息輔助抽取,例如對遠監督獲得的標注數據進行去噪。后續工作也可以考慮對復雜句子進行處理,降低開放域信息抽取任務復雜度,使模型更好地學習到抽取需要的特征,同時在英語外的其他語言上的開放域信息抽取任務也還有很大的研究空間。

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 久久伊人久久亚洲综合| 精品一区二区三区水蜜桃| 色噜噜狠狠色综合网图区| 欧美中文字幕一区二区三区| 国产欧美日韩视频一区二区三区| 国产福利小视频高清在线观看| 日本午夜三级| 五月婷婷导航| 玖玖免费视频在线观看| 九九久久精品国产av片囯产区| 538精品在线观看| 久草中文网| 手机在线免费不卡一区二| 玖玖免费视频在线观看| 色综合成人| 人妖无码第一页| 99久久免费精品特色大片| 亚洲中文无码h在线观看| 国产毛片高清一级国语| 日本91视频| 亚洲精品视频免费| 国产性爱网站| 国产一区二区三区视频| 亚洲手机在线| www亚洲精品| 色综合天天综合| 在线观看国产黄色| 日本在线视频免费| 亚洲欧美在线精品一区二区| 国产成人久久综合777777麻豆| 国产福利免费视频| 欧美精品在线看| 久久综合一个色综合网| 日韩精品一区二区三区免费| 毛片手机在线看| 亚洲激情区| 国产精品精品视频| 国产成人你懂的在线观看| 午夜激情婷婷| 福利视频99| 精品一区二区三区无码视频无码| 一区二区自拍| 亚洲欧洲自拍拍偷午夜色无码| 亚洲侵犯无码网址在线观看| 亚洲中文字幕97久久精品少妇| 2020久久国产综合精品swag| 亚洲免费福利视频| 无码专区第一页| 综合色区亚洲熟妇在线| 亚洲天堂精品视频| 欧美不卡在线视频| 欧洲成人在线观看| 精品福利视频网| 天天色天天综合网| 永久成人无码激情视频免费| 综合色88| 亚洲自偷自拍另类小说| 国产嫩草在线观看| 色国产视频| 欧美在线黄| 日韩欧美综合在线制服| 91精品综合| 一级毛片无毒不卡直接观看| 精品一区二区三区中文字幕| 婷五月综合| 国产丝袜无码一区二区视频| 伦精品一区二区三区视频| 亚洲欧洲日韩国产综合在线二区| 国产对白刺激真实精品91| 中文国产成人精品久久| 亚洲天堂网2014| 色综合久久88| 一级毛片高清| 人妻丝袜无码视频| 97超级碰碰碰碰精品| 亚洲精品免费网站| 囯产av无码片毛片一级| 亚洲国产中文精品va在线播放| 久久a毛片| 亚洲欧美成人在线视频| 国产激情第一页| 毛片大全免费观看|