999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國內(nèi)外事件抽取技術(shù)應(yīng)用研究分析

2022-11-25 03:49:21閆文浩
科學(xué)與信息化 2022年20期
關(guān)鍵詞:文本信息研究

閆文浩

南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 江蘇 南京 210095

引言

事件抽取是信息抽取的主要任務(wù)之一,其主要任務(wù)是將非結(jié)構(gòu)化文本中的事件以結(jié)構(gòu)化方式抽取出來。與信息抽取任務(wù)中的命名實(shí)體識別任務(wù)不同,事件信息中往往包含多個組成元素,并且各個元素相互影響。ACE[1]定義中的事件由事件觸發(fā)詞(Event Trigger)和描述事件結(jié)構(gòu)的元素(Argument)構(gòu)成。因此事件抽取任務(wù)往往需要經(jīng)過觸發(fā)詞識別來判斷事件類型,然后抽取描述事件結(jié)構(gòu)的元素加以分類形成最終的事件信息。

事件抽取作為信息抽取的重要內(nèi)容之一,一直以來也是國內(nèi)學(xué)者關(guān)注的重點(diǎn)。目前國內(nèi)學(xué)者重心在于對事件抽取技術(shù)更迭的歸納探究,還鮮有學(xué)者從事件抽取應(yīng)用領(lǐng)域分析事件抽取技術(shù)應(yīng)用研究的發(fā)展歷程。為了分析國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展與演變過程,本文選取CNKI和Web of Science核心合集的論文數(shù)據(jù)對國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程展開分析。

1 數(shù)據(jù)來源與研究方法

為分析國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,本文分別選取CNKI數(shù)據(jù)庫以及Web of Science核心合集數(shù)據(jù)庫作為本文數(shù)據(jù)來源。在CNKI數(shù)據(jù)庫中,以“事件抽取”為檢索詞,時間跨度為2000年至2022年2月,得到國內(nèi)論文共674篇,并將題錄信息導(dǎo)出。在Web of Science核心合集數(shù)據(jù)中,以“Event Extraction”、“Content Extraction”為檢索詞,時間跨度為2000年至2022年2月,得到國外論文數(shù)據(jù)共1153篇,并將題錄信息導(dǎo)出。

為表現(xiàn)論文主題詞隨時間發(fā)展的變化特點(diǎn),本文借助Vosviewer工具繪制國內(nèi)外事件抽取研究關(guān)鍵詞疊加時間圖,可以得到各個時期研究主題詞的變化特點(diǎn)以及各時間段國內(nèi)外的研究熱點(diǎn)。

2 事件抽取技術(shù)應(yīng)用方向分析

為探究國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展的時間演化趨勢,進(jìn)而對國內(nèi)外事件抽取技術(shù)應(yīng)用研究內(nèi)容進(jìn)行梳理,需要獲取國內(nèi)外相關(guān)研究關(guān)鍵詞各時間段的分布規(guī)律。因此本文選取前文所導(dǎo)出的國內(nèi)外文獻(xiàn)題錄信息導(dǎo)入Vosviewer工具,選擇關(guān)鍵詞出現(xiàn)次數(shù)為5次以上,并為保證準(zhǔn)確性,去除出現(xiàn)頻次最高的“事件抽取”,“Event Extraction”等關(guān)鍵詞,最終得到國內(nèi)外事件抽取研究關(guān)鍵詞疊加時間圖,其中節(jié)點(diǎn)顏色由深到潛分別代表了某個關(guān)鍵詞出現(xiàn)時間從由遠(yuǎn)及近。最終得到的關(guān)鍵詞結(jié)果可大致分為三大塊,分別代表2000至2010年,2010至2017年,2016至2022年間出現(xiàn)的熱門關(guān)鍵詞。

在2000至2010年間,國內(nèi)出現(xiàn)的關(guān)鍵詞主要體現(xiàn)技術(shù)變化,沒有表現(xiàn)出事件抽取技術(shù)的應(yīng)用方向;而國外出現(xiàn)較多的關(guān)鍵詞有蛋白質(zhì),基因等關(guān)鍵詞。在2010至2017年間,國內(nèi)關(guān)鍵詞出現(xiàn)了新聞事件、突發(fā)事件、微博等;這個階段國外的研究熱點(diǎn)詞有生物學(xué)文本挖掘,社交媒體等。在2017至2022年間,國內(nèi)出現(xiàn)了生物醫(yī)學(xué)事件抽取、醫(yī)療事件抽取、知識圖譜、事理圖譜等關(guān)鍵詞;此階段國外與事件抽取技術(shù)應(yīng)用相關(guān)的熱點(diǎn)詞有推特、知識圖譜等。

綜上所述,國內(nèi)外事件抽取技術(shù)的應(yīng)用領(lǐng)域已經(jīng)十分廣泛,主要可分為以下四大類。一是新聞類事件抽取研究。新聞文本作為傳播信息的重要途徑之一,其中蘊(yùn)含大量事件信息:二是生物醫(yī)學(xué)類事件抽取研究,許多學(xué)者將事件抽取應(yīng)用生物醫(yī)學(xué)領(lǐng)域各類文本,抽取關(guān)鍵信息;三是社交媒體文本事件抽取研究。社交媒體文本蘊(yùn)含大量生活事件信息;四是知識圖譜構(gòu)建。知識圖譜的構(gòu)建所需要的知識數(shù)據(jù)依賴于實(shí)體識別,關(guān)系抽取,事件抽取等技術(shù)的識別結(jié)果。

3 事件抽取技術(shù)應(yīng)用研究現(xiàn)狀分析

由上文分析可知,雖然國內(nèi)外不同時間段研究的側(cè)重點(diǎn)不同,但是總的來說,主要的應(yīng)用方向有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取技術(shù)在事理圖譜、知識圖譜構(gòu)建中的應(yīng)用。

3.1 新聞事件抽取研究

對于新聞文本中事件抽取一直以來就是國內(nèi)外事件抽取技術(shù)應(yīng)用的重點(diǎn)方向之一。在新聞事件文本中,文本規(guī)模大且事件種類繁雜,且不同事件類型數(shù)量分布不均勻,因此如何給新聞事件分類是新聞文本中事件抽取的研究熱點(diǎn)之一。李響[1]等基于支持向量機(jī)模型,融合了詞法、句法和語義三類不同類型的特征,完成了新聞事件的類型識別。此外,國內(nèi)學(xué)者開始關(guān)注外文新聞文本中事件抽取研究,如有些學(xué)者已經(jīng)開始對越南語以及泰語新聞文本中的事件信息進(jìn)行抽取。

目前國內(nèi)外關(guān)于事件抽取技術(shù)在新聞文本上的逐漸趨于成熟,并且我國學(xué)者開始將研究目光轉(zhuǎn)向非中文新聞文本,未來國內(nèi)學(xué)者對于新聞事件抽取的研究可能將不再局限于中文新聞文本,而是面向各種的語言新聞文本。

3.2 生物醫(yī)學(xué)類事件抽取研究

近年來,事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用研究成為國內(nèi)外學(xué)者共同的研究熱點(diǎn),國外對于生物學(xué)文本事件抽取研究起步更早。

國內(nèi)外對于生物醫(yī)學(xué)類事件抽取研究主要還是對于生物醫(yī)學(xué)事件觸發(fā)詞識別的問題,以及復(fù)雜生物事件信息的抽取等。生物醫(yī)學(xué)領(lǐng)域有一些非常規(guī)的數(shù)據(jù),如生理儀器記錄的測量值等,可以看作是生理信號,其往往是波形數(shù)據(jù)。為了從生物醫(yī)學(xué)信號中提取各類事件,Yazdani[2]等提出了一種名為相對能量(Rel-En)的快速新型非線性濾波方法,可以提取信號中的波形信息,從而識別相應(yīng)的事件。近年來,對醫(yī)療事件的抽取成為國內(nèi)研究的熱點(diǎn),余輝[3]等基于BiLSTM-CRF模型,提出了一種抽取治療事件的方法,可以有效識別并抽取中文臨床指南中的治療事件信息。

對事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用一直以來都是國內(nèi)外學(xué)者的研究重點(diǎn),相關(guān)研究也逐漸趨于成熟,并且開始將事件抽取技術(shù)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域的非常規(guī)數(shù)據(jù)上。事件抽取技術(shù)在生物醫(yī)學(xué)領(lǐng)域中非常規(guī)數(shù)據(jù)上的應(yīng)用將會是未來的研究方向之一。現(xiàn)有的研究中對于醫(yī)療事件信息的抽取起步相對較晚,研究也較少,近年來越來越多的學(xué)者將自然語言處理技術(shù)應(yīng)用到醫(yī)療信息文本之中,醫(yī)療事件信息抽取將是未來研究的熱點(diǎn)之一。

3.3 社交媒體類文本事件抽取研究

社交媒體類文本包含大量生活文本,其中大部分內(nèi)容往往與民眾生活狀態(tài)息息相關(guān),因此將事件抽取技術(shù)應(yīng)用到社交媒體文本之中是近幾年來國內(nèi)外共同的研究熱點(diǎn)。

國內(nèi)外主流的社交媒體工具有所區(qū)別,國內(nèi)最好文本來源為微博數(shù)據(jù),國內(nèi)諸多學(xué)者就如何抽取微博文本中的事件信息展開研究。微博文本數(shù)量大、信息豐富,同時其文本短小,內(nèi)容種類繁雜,包含大量冗余信息。為了從微博文本中提取更多的有效信息,張炫[4]將實(shí)體之間的關(guān)聯(lián)關(guān)系考慮進(jìn)來,提出了基于詞向量的狄利克雷過程事件混合模型為核心的事件信息抽取算法,在微博文本事件抽取實(shí)驗(yàn)中取得了更優(yōu)異的結(jié)果。

國外的主流的社交媒體工具則是推特,因此國對于社交媒體文本事件抽取的研究主要集中在推特文本上。推特文本和微博文本相似,其中蘊(yùn)含著大量事件信息,如何從中抽取事件信息是國外學(xué)者的研究重點(diǎn)。推特作為國外主流的社交媒體,大量用戶在推特上分析他們的生活日常。為了提取推特文本中的生活事件信息,Yen[5]等利用推特上共享的視覺和文本信息來提取生活事件信息,實(shí)驗(yàn)結(jié)果表明,該方法在生活事件提取上是有效的。

社交媒體信息蘊(yùn)含著大量事件信息,但同時其包含的事件種類事件元素多而雜,給事件抽取技術(shù)應(yīng)用帶來諸多困擾,國內(nèi)外學(xué)者對于社交媒體文本事件抽取上的主要的研究內(nèi)容就是去除無用信息,盡可能全面的獲取有價值的事件信息,將社交媒體文本中的無序事件信息轉(zhuǎn)換可為可供分析研究的信息是現(xiàn)在以及未來研究的重心所在。

3.4 知識圖譜研究

事理圖譜、知識圖譜是我國近期的研究熱點(diǎn)內(nèi)容之一,而事件抽取是構(gòu)建領(lǐng)域事件知識圖譜重要環(huán)節(jié)之一。國內(nèi)目前許多的知識圖譜研究都需要以事件抽取為基礎(chǔ)。廖豪勁[6]先提出了一個事件抽取模型ON-TLNN,然后提出了ON-LSTM與圖卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型完成了事件關(guān)系抽取任務(wù),最終實(shí)現(xiàn)了基于特定場景事理圖譜的知識問答系統(tǒng)。

隨著信息抽取技術(shù)不斷進(jìn)步,現(xiàn)在的學(xué)者已經(jīng)不僅僅滿足于抽取信息,而是將抽取出的信息整合起來構(gòu)建事理圖譜、知識圖譜等,這都要以成熟的事件抽取方法作為基礎(chǔ)。未來隨著事件抽取技術(shù)愈加成熟,也將進(jìn)一步推動知識圖譜構(gòu)建研究。

4 事件抽取技術(shù)應(yīng)用研究發(fā)展趨勢分析

隨著事件抽取技術(shù)不斷成熟,目前事件抽取技術(shù)已經(jīng)有諸多應(yīng)用,結(jié)合上文對事件抽取技術(shù)應(yīng)用研究的梳理,本文認(rèn)為,未來該領(lǐng)域存在一些發(fā)展趨勢。

4.1 應(yīng)用文本種類進(jìn)一步拓展

目前事件抽取技術(shù)已經(jīng)應(yīng)用多種文本之中,除上文所說的生物醫(yī)學(xué)文本、新聞文本、社交媒體文本外,事件抽取技術(shù)還應(yīng)用到了金融文本、古文文本等文本中,都取得了一定的成績。不同種類的文本各有特點(diǎn),包含獨(dú)特的事件信息,將事件抽取技術(shù)應(yīng)用到更多的領(lǐng)域文本之中,是學(xué)者們未來探究的方向之一。

4.2 非常規(guī)文本事件抽取研究

目前生物醫(yī)學(xué)領(lǐng)域已經(jīng)有將事件抽取技術(shù)應(yīng)用到非常規(guī)文本上的研究,并證實(shí)了可行性。除了生物醫(yī)學(xué)領(lǐng)域外,其他各領(lǐng)域都也有著非常規(guī)文本的數(shù)據(jù),其中也蘊(yùn)含不同種類的事件信息。如何將事件抽取技術(shù)應(yīng)用到這些非常規(guī)文本的數(shù)據(jù)之中,提取其中的事件的信息需要學(xué)者們進(jìn)一步展開探索。

5 結(jié)束語

本文以CNKI和Web of Science收錄的論文為數(shù)據(jù)來源,并借助Vosviewer工具獲取國內(nèi)外自2000年至2022年間的熱門研究關(guān)鍵詞來分析梳理國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,主要得出以下結(jié)論:①事件抽取技術(shù)主要的應(yīng)用有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取在事理圖譜、知識圖譜構(gòu)建中的應(yīng)用;②事件抽取技術(shù)在更多領(lǐng)域文本上的應(yīng)用和非常規(guī)文本上的應(yīng)用是未來需要學(xué)者們進(jìn)一步研究的方向。

猜你喜歡
文本信息研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
視錯覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 全部毛片免费看| 亚洲欧洲自拍拍偷午夜色| 国产正在播放| 日韩一区二区在线电影| 午夜欧美在线| 亚洲中文字幕国产av| 在线色国产| 欧美午夜小视频| 亚洲第一成网站| 91av成人日本不卡三区| 精品国产欧美精品v| 99热这里只有精品在线观看| 91九色最新地址| 国产成人AV男人的天堂| 久久国产V一级毛多内射| 久久国产精品无码hdav| 亚洲人成色在线观看| 97国产在线视频| 免费不卡视频| 国产成人做受免费视频| 亚洲性日韩精品一区二区| 四虎影视库国产精品一区| 国产视频自拍一区| 亚洲激情区| 波多野结衣视频网站| 国产乱子精品一区二区在线观看| 国产成人AV综合久久| 国产自视频| 四虎亚洲精品| 亚洲欧美不卡| 九九九九热精品视频| 亚洲午夜福利在线| 97国产成人无码精品久久久| 国产永久在线视频| av无码一区二区三区在线| 亚洲国产成人久久77| 性喷潮久久久久久久久| 久久国产乱子| 91精品人妻一区二区| 国产主播一区二区三区| 在线观看无码av免费不卡网站| 日本精品αv中文字幕| 欧美福利在线| 露脸一二三区国语对白| 国产凹凸视频在线观看| 国产91在线|中文| 婷五月综合| 国产精品lululu在线观看| 欧美色伊人| 国产一区亚洲一区| 一级爆乳无码av| 日本亚洲最大的色成网站www| 伊人蕉久影院| 99在线观看精品视频| 欧美国产日本高清不卡| 色综合久久久久8天国| 精品综合久久久久久97超人| 91成人精品视频| 凹凸国产分类在线观看| 波多野结衣在线se| 欧美亚洲另类在线观看| 国内精品视频区在线2021| 亚洲色图欧美| 亚洲一级毛片免费观看| 国产精品手机在线播放| 一本大道视频精品人妻| 久久先锋资源| 欧美精品成人| 毛片在线播放网址| 野花国产精品入口| 91精品久久久无码中文字幕vr| 日本久久久久久免费网络| 欧美精品亚洲精品日韩专区va| 成人无码一区二区三区视频在线观看| 宅男噜噜噜66国产在线观看| 中文字幕欧美日韩| 99视频在线免费看| 在线播放91| 在线另类稀缺国产呦| 国产无人区一区二区三区| 久久久久久国产精品mv| 国产成人精品高清不卡在线 |