999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息抽取賦能地質調查發展綜述

2023-07-10 00:04:34張云飛郭俊杰
電腦知識與技術 2023年14期

張云飛 郭俊杰

關鍵詞:自然語言處理;信息抽取;知識服務

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2023)14-0102-04

0 引言

在地質學領域當中,長期以來由于技術方法及研究方向的多樣性已經積累了海量的地質資料。從數據的組成結構上來說,海量的地質資料數據包括大量結構化的數據及非結構的數據特別是文本數據及其地質圖件數據[1-2]。地質大數據時間上橫跨大,空間概念強,各種地質作用相互影響因素較多,包含各類不同的地質調查數據、相關的礦產勘查數據及長期的地調工作者工作與科研過程中產生的海量數據,從數據形式上包括文本數據、音視頻數據、圖表等形式多樣化類型,數據的來源也是多樣化的,包括各個級別的圖書館、各類礦產勘查當中的資料數據、發表的文獻數據及中國地質調查數據庫等[3-4],其中主要以非結構化數據居多。而且非結構化數據是非常重要的地質信息來源及非常有潛力的人機交互手段,是地質學家認知結果的一種自然語言的表現形式[5-6]。因此,面對大量地質調查報告、文獻等非結構化數據的增長與地質資料中蘊含豐富知識信息未被有效利用之間的矛盾,從地質文本當中挖掘知識已是地質信息科學迫切需要解決的問題[7-8]。

當前中國地質調查局“地質云”平臺完成資源管理、業務系統等信息化建設工作,但在數據量的應用僅是基本解決大量非結構化、半結構化的地質數據進行平臺組織、存儲和快速發現[9]。全國地質資料館館藏地質資料共245.191萬檔。這些海量的地質資料包括傳統的紙質資料已經完成了數字化的工作,其中數據量已經達到120TB以上,面對海量的地質調查數據資料,需要進一步樹立大數據思維、定量思維及獲取“地質資源”和形成核心“地質數據知識”的新思維方式,以數據密集型工作方法為基礎,進而實現地質數據高效便捷地集成與融合[7-8]。

英美等國家地質調查局結合地質社會需求,以問題作為研究的主線,設置與完成了地質大數據相關的研究及其利用的計劃。美國地質調查局頒布與制定了《美國地質調查局核心科學體系科學戰略(2013-2023)》,在這一文件當中非常明確地建立了地球科學領域當中研究的大數據體系與架構,對地球科學領域當中的核心體系進行了進一步的強化,期望能夠通過這種大數據的相關理論與方法來進一步地提升地質大數據中的搜集、數據的挖掘與分析[10]。

1 地質信息抽取關鍵技術

面對海量的數據信息,如何在此基礎上構建分學科、分場景的形式的智能化地質知識挖掘,從更多維度展示地質數據資源,一直是地質與其他行業關注的重點問題。隨著數據體量不斷增長,基于深度學習的方法興起對海量的信息內容進行自動分類、提取和重構,轉換,改進現有的基于機器閱讀理解的實體關系框架,便于構建知識圖譜或者能直接查詢的結構化信息[11]。可見信息抽取在機器翻譯、圖像識別與分類、語音識別等許多自然語言處理應用中嶄露頭角[12-13],然而地質領域中非結構化數據還未得到充分的利用與挖掘[14]。

信息抽取作為分析、抽取、管理文本知識的核心技術和重要手段,自誕生以來就得到了學術界與工業界的廣泛關注,是自然語言處理領域的重要研究方向之一,也是人工智能領域極具應用價值的核心研究課題。從非結構化文本中抽取出以結構化形式存儲的信息,可以被計算機直接處理和利用,實現讓機器能夠像人類一樣閱讀文本,進而完成查詢和推理等功能,一直是信息抽取追求的目標。現如今,信息抽取系統可應對海量非結構化文本,在各領域都有廣泛的應用。

1.1 地質實體識別與關系抽取聯合學習

地質實體識別(geology Entity Recognition)與關系抽取(Relation Extraction)屬于信息抽取兩項子任務,采用自然語言處理技術(NLP)定位非結構化地質文本中的實體,并抽取出三元組自動構建實體之間關系類型,是信息抽取中的關鍵。

在以往的研究中,實體關系抽取大多采用流水線方法[15-17],流水線的框架工作雖然易于執行,但其具有誤差傳播和信息丟失的缺點。為了解決這一問題,采用聯合抽取方法可有效解決了流水線模型的不足并獲得了三元組抽取領域最先進的性能。聯合學習方法將實體識別與關系抽取聯合建模,使兩個子任務在一個模型中共同優化,以實現子任務之間相互促進的目的。傳統的聯合抽取模型[18-20]都是基于特征向量的,這些方法需要人工參與構造特征。為了減少人工工作,基于神經網絡的聯合抽取方法[21-23]獲得了人們的關注。但是,現有的很多神經網絡聯合模型[24-25]是基于共享編碼層實現的。這種方法只是簡單地共享兩個子任務的編碼層,為了獲得關系三元組,其仍然采取的是先識別實體后提取關系的方法。所以,這不被認為是真正的聯合抽取。Zheng等人[26]提出了一種新的全局標注方案,其直接對三元組進行建模實現了真正意義上的聯合抽取。該方法使用了BiLSTM和具有偏置損失的LSTM對輸入數據進行聯合編碼,解決了錯誤累積的問題,但其采用的就近合并原則忽略了重疊三元組問題。Zeng等人[27]首先引入了重疊三元組問題,其給出了重疊的三種不同形式并提出了帶有復制機制的Seq2Seq模型來解決此問題。Fu等人[28]提出了一個端到端的實體關系抽取模型GraphRel,模型使用關系加權的圖卷積神網絡有效考慮了實體和關系之間的相互作用以及可能重疊的三元組,在解決三元組重疊問題上取得了良好的效果。盡管以上方法取得了很大進展,但是這些方法都將關系看作是映射到實體對象的離散標簽,使得關系識別成為一個簡單的分類問題。為此,Wei等人[29]基于BERT提出了一種級聯二級標記框架CASREL,該方法將關系視為從頭實體映射到尾實體的函數,模型只需要識別出在不同關系下與頭實體對應的尾實體,顯著提高了對重疊三元組的提取能力,達到了當時的最優水平。但其在標注過程中只是簡單地將各詞向量輸入分類器,忽略了實體的上下文信息和抽取的實體長度。

1.2 事件抽取

事件抽取任務是一種比較復雜的信息抽取任務形式,可以看作實體識別和若干關系抽取任務的總和,也是信息抽取領域最具有挑戰性的任務之一,在閱讀理解、文本摘要、問答系統等領域得到了廣泛的應用。領域事件抽取的時間類型是需要針對某一特定領域進行預定義,而且基于中文事件抽取由于中文語言特性問題,面臨著較大挑戰,使得研究更具有意義。

國內外對于英文事件抽取的研究展開較早,技術也較成熟。對于中文的事件抽取起步較晚,例如Feng 等人提出使用雙向長短期記憶網絡(Bi-LSTM)和卷積神經網絡來進行事件抽取[30];Chen和其他相關研究人員于2015年,提出了一種基于動態多池化卷積神經網絡(DMCNN)的事件抽取模型[31],可以捕獲語句中包含的多個事件信息;雖然也取得了一定的成果,但是距離英文還有一定的差距。國內外的事件抽取研究大多數都是圍繞ACE會議及其相關測評語料展開的。從ACE2005評測情況來看,參加英文事件抽取評測的單位比較多有BBN Technology、LockheedMarting、IBM 等公司以及荷蘭阿姆斯特丹大學。唯一參與中國賽事測評的機構是BBNTechnology,同時該機構在英文事件抽取的評測中獲當年最佳成績[32]。

地質的事件關系反映了之間的一種語義關系,可以為地質文本數據的深層理解提供關鍵線索[33],事件關系抽取的目的則是提取一段文本內容中兩個事件可能存在的關系[34],例如表1其中事件“化學風化作用”對氧、水和溶于水中的各種酸性物質、母巖、氧化、水解和溶濾、存在因果關系。

在當前事件之間存在多少種關系類型仍然是一個有爭議的問題,目前事件關系抽取主要研究共指關系、因果關系和時序關系,此外關系文本的多樣性和隱含性使得從文本中識別不同類型的事件關系面臨巨大挑戰。

1.3 指代消解

地質報告或其他文本的日常用語當中,在下文采用簡稱或代稱來代替上文已經出現的某一詞語,語言學中把這種情況稱為指代現象。指代現象能夠避免同一詞語重復出現所造成的語句臃腫、贅述等問題;但也因為這種省略造成指代不明的問題。

通常人們將指分成兩種:回指和共指。回指表示當前的,對應詞語與在前文出現的詞語之間有著緊密的含義聯系,在地質文章中這個情況也十分常見,由于本文中通常使用簡稱表示地質體的,因此在圖二的“該區”“該地層”本身并沒有意義。這種共指稱方法取決于語境含義,代詞共指代,它在不同的話語情境中可以表示為不同的實體。而共指是指某兩個。

詞語、名詞短語或代詞等指稱的都是真實世界中的同一個實體,因此這些指稱關系即使在斷章取義的情形下也成立。下面,我們就把本文中的各種名詞短語、或代詞等統稱,作為對命名實體的一次提到(簡稱提及)。共指和代指這二種概念雖有一定的重疊,但相互之間并不彼此涵蓋。通過單純的語言方法和模式很難處理全部的指代問題,所以必須針對不同的指代問題加以研究。共指和回指這兩種概念之間雖存在著一定的交集,但并不彼此涵蓋,所以通過簡單的理論方法和語言模式很難以解決全部的指代問題,所以對于不同的指代問題需要分別進行深入研究。

最初,像其他信息抽取問題一樣,共指消解方法研究漸漸從啟發式規則演化為機器學習方法。這種轉變主要歸功于統計自然語言處理以及MUC國際性會議標注了帶有指代關系的MUC-6(1995)和MUC-7 (1998) 語言資料庫,并公開化。從此,基于機器學習的共指消解進入科研人員視野。但傳統的機器學習研究精度不高、語義理解不夠,隨之引入一系列基于神經網絡的模型[35-39],應用到指代消解上去取得了更好的效果,同時具有更高的計算效率,避免了傳統共指消解模型的若干問題。

1.4詞義消歧

理解詞義是正確理解句子或全文的基礎,而判斷詞義離不開語境、語言背景、上下文關系。機器要像人類一樣自動評估和選擇詞義是一項艱巨的任務。

詞義消歧的發展歷程中,涌現了大量的解決辦法。例如,傳統的基于知識的詞消歧,結合機器學習的監督詞消歧等。前者的實現效果雖然出色且穩定,但強烈依賴于知識源的完備性,而現有語義知識源的缺乏性和靜態性極大地阻礙了此類消歧方法的改進。后者中最有效的策略之一是基于Word2Vec embedding的詞消歧模型,與傳統方法相比有所改進,但缺乏標注數據也限制了模型的靈活性和泛化性[40]。在當前出現的雙向長短期記憶網絡模型,借助于Bi-LSTM特性捕獲上下文中的語義信息和詞序信息,可以很好地表示目標詞的意義特征。[41]在此基礎上,額外添加了一種注意力機制(Attention)來了解上下文窗口中不同詞對目標詞的影響[42],是當前學術領域的先進技術之一。

2 總結

地質非結構化數據抽取技術的研究,一方面可以便于地質工作者對專業信息需求,和現在以及未來的結構化、系統性的研究,從而可以在需求上大大提高了數據獲取、計算、數據分析準確率,各研究部門與人員協調配合決定實施與調整的效率。另一方面也豐富了地質學科的各類數據庫,為今后的科學研究,包括地質學科信息圖譜的建立、找礦行動的建立等提供較為專業而易于利用的信息來源。本文先后調研了多篇嚴格篩選的國內外具有創新性的學術論文,并對此類成果的主要技術、模型方法等進行了對比總結,發現傳統的規則抽取需要具備一定的語言學水平,并且對特定領域有深入的理解和認知;機器學習則無法理解語句中的語義關系。目前來說,主要依靠深度學習技術的BERT處理模型在未來一段時間內,仍會成為人們關注的焦點。加之中國地質資料的信息抽取研究起步相對較晚,所以各種數據庫的工具資料都比較匱乏,對各種資料的格式也沒有統一的規范,同時也因為中文與英文的語言特點不同,在實際應用中的資料處理方式也多種多樣。

上述一些原因在一定程度上影響了有關科學研究的進行。所以,除了探索各種有效的建模方法,解決其中實際面臨的困難也成為當務之急。在標準和規范的幫助下,地質非結構化資料的信息提取這一研究方向將會獲得更好的發展,從傳統地質調查轉向人工智能的“尋金之路”。

主站蜘蛛池模板: 久久一本日韩精品中文字幕屁孩| 狠狠亚洲婷婷综合色香| 精品久久久无码专区中文字幕| 欧美日韩福利| 欧美日韩在线亚洲国产人| 免费99精品国产自在现线| 色综合天天综合| 久久精品无码专区免费| m男亚洲一区中文字幕| www.99在线观看| 激情無極限的亚洲一区免费| 一级毛片免费不卡在线| 国产特一级毛片| 国产人免费人成免费视频| 亚洲丝袜中文字幕| 色男人的天堂久久综合| 日本欧美视频在线观看| 亚洲欧美极品| 中文字幕精品一区二区三区视频| 国产精品视频公开费视频| 欧美国产中文| 精品国产三级在线观看| 亚洲va视频| 无码日韩人妻精品久久蜜桃| 日韩精品一区二区三区中文无码 | 国产成人综合在线观看| 91最新精品视频发布页| 久久午夜影院| 国产精品美女网站| 欧美人与性动交a欧美精品| 91福利片| 青青青视频免费一区二区| 国产成+人+综合+亚洲欧美| 亚洲人成在线精品| 欧美狠狠干| 福利视频一区| 亚洲成综合人影院在院播放| 天天爽免费视频| 国产aⅴ无码专区亚洲av综合网 | 国产美女免费网站| 91久久偷偷做嫩草影院电| 国产成人av一区二区三区| 亚洲精品777| 国产精品青青| 国产真实乱了在线播放| 欧美国产日产一区二区| 日韩午夜伦| 1769国产精品视频免费观看| 久久精品中文字幕免费| 国产SUV精品一区二区6| 2021国产乱人伦在线播放 | 日本三区视频| 真人高潮娇喘嗯啊在线观看| 国产乱视频网站| 中文字幕在线永久在线视频2020| 91无码人妻精品一区二区蜜桃 | 久久久久夜色精品波多野结衣| 亚洲第一极品精品无码| 国产福利免费在线观看| 国产午夜看片| 日本亚洲成高清一区二区三区| 国内视频精品| 久久国产成人精品国产成人亚洲| 天天操天天噜| 丰满的少妇人妻无码区| 欧美一级在线看| 久久综合婷婷| 午夜高清国产拍精品| 国产精品.com| 2019国产在线| 青青青草国产| 亚洲天堂网站在线| 国内精品视频区在线2021| 国产成人无码Av在线播放无广告| 国产欧美视频在线| 亚洲精品777| 中文无码影院| 久久网综合| 亚洲人成亚洲精品| 她的性爱视频| 国产极品美女在线播放| 欧美成人免费一区在线播放|