999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用研究

2021-11-10 11:53:24熊晗
電子制作 2021年21期
關(guān)鍵詞:分類文本結(jié)構(gòu)

熊晗

(重慶工商職業(yè)學(xué)院軟件教研室,重慶,400052)

1 研究背景

目前深度學(xué)習(xí)框架針對訓(xùn)練樣本有較高的要求,常見的自然語言處理可以使用普通文本語料,比如bert可以使用預(yù)訓(xùn)練的詞向量做fine-tune,但在一些特定領(lǐng)域,比如法律、公安、金融領(lǐng)域等等,有較多的專業(yè)名詞,且標注語料通常不多,使用普通語料訓(xùn)練的詞向量進行下游任務(wù)效果不佳,針對這些場景的自然語言處理,存在如下的一些問題:

(1)專業(yè)領(lǐng)域文本的內(nèi)容少部分詞語比較專業(yè)化,但又非常關(guān)鍵。使用預(yù)訓(xùn)練的詞向量來做fine-tune,很可能沒有很好的挖掘出專業(yè)詞匯的信息特征,導(dǎo)致效果不好。

(2)針對部分短文本使用CNN、RNN這類依靠位置順序關(guān)系的模型,可能對非連續(xù)性以及短距離的語義信息建模能力不足。

(3)文本數(shù)量巨大,針對模型訓(xùn)練需要大量的標注樣本也是困難點之一。

近年基于圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用目前相關(guān)的研究內(nèi)容主要為以下兩種:①針對圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的綜述。介紹圖神經(jīng)網(wǎng)絡(luò)的核心思想,以及如何運用圖結(jié)構(gòu)表示語言模型,并如何將相關(guān)的自然語言處理任務(wù)場景結(jié)合起來。②基于圖卷積神經(jīng)網(wǎng)絡(luò)的框架研究與改進,這部分文章,結(jié)合現(xiàn)實的自然語言處理實際問題,重點研究圖卷積網(wǎng)絡(luò)的構(gòu)架改進以及自然語言的圖表示模型。

通過研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語言處理結(jié)合已經(jīng)有理論基礎(chǔ)認證,并有部分實際工作。本文重點將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點,并針對具有圖結(jié)構(gòu)關(guān)系的文本場景(比如社交評論,微博關(guān)注等等),提取文本之間的關(guān)系信息,提升自然語言處理任務(wù)效果。

2 研究內(nèi)容

■2.1 文本的圖模型結(jié)構(gòu)表示

作為圖神經(jīng)網(wǎng)絡(luò)來說,如何將圖結(jié)構(gòu)的數(shù)據(jù)進行表示,是能否將該結(jié)構(gòu)用于圖神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)的關(guān)鍵問題。同樣,我們針對自然語言處理任務(wù)中的文本,就需要研究圖嵌入方法,即旨在將圖的節(jié)點表示成一個低維向量空間,同時保留網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和節(jié)點信息,以便在后續(xù)的圖分析任務(wù)中可以直接使用現(xiàn)有的機器學(xué)習(xí)算法。

本項目將以下兩個思路進行文本圖結(jié)構(gòu)表示:

第一類,將每個文本作為頂點,將頂點之間的實際拓撲關(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。

第二類,是基于文本的實體與共指關(guān)系連接構(gòu)建。將文本中的實體作為節(jié)點,并把實體之間的共指,同現(xiàn),鄰近實體連接作為邊。從而使用圖結(jié)構(gòu)進行表示。

■2.2 圖卷積神經(jīng)網(wǎng)絡(luò)模型的研究

圖卷積神經(jīng)網(wǎng)絡(luò)直接將多層神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)之上,并且根據(jù)鄰接點與鄰邊信息生成進行圖嵌入表示。假設(shè)一個圖結(jié)構(gòu)為G=,其中V是圖G的所有頂點,E是圖G中所有邊。設(shè)X為所有頂點V的特征值,則我們用X∈Rnxm其中n代表V的數(shù)量,m代表V的特征值維度。按照圖神經(jīng)網(wǎng)絡(luò)的定義,對于一層的GCN計算我們可以將圖卷積神經(jīng)網(wǎng)絡(luò)定義為:其中N表示根據(jù)圖結(jié)構(gòu)生成的鄰接矩陣。為對稱標準化,目的是避免鄰接矩陣對角線為零的情況,W0 則為權(quán)重矩陣,ρ表示激活函數(shù)例如RELU,L(1)表示經(jīng)過一次迭代計算后,各個頂點的下一層隱狀態(tài)。卷積過程構(gòu)架如圖1所示。

圖1 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架

輸入為圖結(jié)構(gòu)的數(shù)據(jù),每次選取一個點作為中心點,按照公式1進行一次計算,當(dāng)遍歷完所有點后,一層計算完成,經(jīng)過多層堆疊,直到所有的點計算出來的圖嵌入向量收斂則訓(xùn)練完成。構(gòu)建好圖模型后,后續(xù)根據(jù)下游任務(wù)添加相應(yīng)神經(jīng)網(wǎng)絡(luò)層即可:

其中?(.)表示通過圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的狀態(tài)更新函數(shù),X表示所有頂點的特征集,A表示頂點對應(yīng)的鄰接矩陣。

3 實驗設(shè)計

本次實驗選取自然語言處理任務(wù)中的分類任務(wù)來進行對比,分類任務(wù)是自然語言處理中的基本任務(wù)之一,實現(xiàn)簡單,驗證相對容易且清晰。

考慮到圖卷積神經(jīng)網(wǎng)絡(luò)的處理特點,實驗選取的語料需要專業(yè)領(lǐng)域較強,標注量不大,并且具有一定圖結(jié)構(gòu)關(guān)系的文本。本次實驗爬取知乎上相關(guān)文章5400篇,內(nèi)容包括計算機技術(shù)類、金融投資類、旅游類等共8類別,采用人工取其中400篇文章進行類別標記,平均每種類別標記50篇。同時爬取文章之間的鏈接跳轉(zhuǎn)關(guān)系,文章作者之間的關(guān)注關(guān)系,以及粉絲關(guān)系,建立文章之間的拓撲圖關(guān)系如圖2所示。

圖2 文章之間的關(guān)系拓撲

將關(guān)系圖轉(zhuǎn)換成鄰接矩陣N,則可以帶入到公式1進行迭代計算。最后加上softmax層采用公式2,即可在迭代收斂時,判斷出文章類型。總體流程圖如圖3所示。

觀賞竹栽培品種整理。主要開展牡竹屬、慈竹屬等觀賞竹栽培品種的整理與新品種定名工作,現(xiàn)階段已完成牡竹屬1種新品種的定名,取得國際登錄號;以及川牡竹1號、硬頭黃7號新品種登錄的申報工作。

圖3 實驗任務(wù)處理流程圖

損失函數(shù),我們使用交叉熵來進行計算,如公式3所示:

其中DY表示有標簽的文章集合,F(xiàn)表示文章所有的特征值集合,Y是所有文章的標注矩陣。結(jié)合公式2的結(jié)果,即可計算損失函數(shù)。

結(jié)構(gòu)采用兩層GCN結(jié)構(gòu),直接將爬取到的文本關(guān)系網(wǎng)絡(luò)作為輸入,進入兩層GCN隱藏層,最后加上softmax進行輸出,該結(jié)構(gòu)能將文本的鏈接關(guān)系放入神經(jīng)網(wǎng)絡(luò)中,對這部分信息進行有效挖掘,也是后續(xù)觀察分類效果的關(guān)鍵點。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架

4 實驗分析

為了測試圖卷積神經(jīng)網(wǎng)絡(luò)針對選取文本的分類效果,本文選擇了幾種常見的自然語言處理的機器學(xué)習(xí)構(gòu)架來進行比較,選取的幾種常見模型介紹如下:

TF-IDF+LR:采用詞袋模型的經(jīng)典分類算法,其主要的思想是將每篇文章的關(guān)鍵詞提取,通過詞頻與逆詞頻的處理,找到主要關(guān)鍵詞,在進行邏輯回歸算法分類。

LSTM:LSTM是一種典型的RNN構(gòu)架算法,采用長短期記憶模型,對每個文本的字進行學(xué)習(xí)處理,來理解文本內(nèi)容。

FastText:fasttext是facebook出品的一種快速的文本分類算法,其中新思想與Word2vector思路一致,都是通過深度學(xué)習(xí)中間變量來表示文本向量。

Bert:Bert作為自然語言處理近年來的佼佼者,在各項任務(wù)都取得了不錯成績,但前期的大量訓(xùn)練只有大型公司才能完成,使用fine-tune進行遷移學(xué)習(xí),但針對特定領(lǐng)域,效果有待提升。

加上本文使用的GCN針對文本的分類,5中方法的實驗效果如表1所示。

表1 真實數(shù)據(jù)上5中分類算法的指標比較結(jié)果

通過結(jié)果可以看出在本次實驗選擇的語料文本特點下,使用GCN圖卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)果相對于其余4中經(jīng)典的文本分類常用算法框架來說,效果有一定的提升。

5 結(jié)束語

本文針對目前近年來流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對象,結(jié)合了圖卷積神經(jīng)網(wǎng)絡(luò)的特點,選取自然語言處理中的分類任務(wù)為目標,設(shè)定了在特定場景下的一些具有圖網(wǎng)絡(luò)關(guān)系的語料進行研究。使用實驗證明,在專業(yè)詞匯較多,文本簡短、文本之間有豐富連接關(guān)系,且標注數(shù)據(jù)量較少的語料場景下,圖卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果更好。

猜你喜歡
分類文本結(jié)構(gòu)
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
分類算一算
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
論《日出》的結(jié)構(gòu)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 久久a级片| 91在线免费公开视频| 特级毛片8级毛片免费观看| 91av成人日本不卡三区| 四虎永久在线| 国产麻豆另类AV| 黄网站欧美内射| 国产一级在线播放| 99视频只有精品| 国产精品露脸视频| 免费a在线观看播放| 欧美激情成人网| 婷婷激情亚洲| 九色视频在线免费观看| 欧美区在线播放| 日本道中文字幕久久一区| 成人av手机在线观看| 国产精品开放后亚洲| 国产福利免费视频| 日本手机在线视频| 毛片免费视频| 青青青国产视频| 欧美精品亚洲精品日韩专| 美女黄网十八禁免费看| 国产91导航| 日本日韩欧美| 国产福利2021最新在线观看| 亚洲天堂高清| 国产亚洲欧美在线专区| 91免费在线看| 国产成人三级| 国产成人亚洲毛片| A级毛片高清免费视频就| 欧美一区二区三区不卡免费| 国产96在线 | 亚洲自偷自拍另类小说| 3D动漫精品啪啪一区二区下载| 理论片一区| 久久精品娱乐亚洲领先| 日本国产精品| 亚洲人成色在线观看| 亚洲色图综合在线| 久久综合九色综合97婷婷| 欧美第九页| 亚洲国产午夜精华无码福利| 欧美成人一级| 久久人体视频| 亚洲无码高清视频在线观看| 婷婷综合在线观看丁香| 任我操在线视频| 亚洲人成影院午夜网站| 亚洲午夜国产精品无卡| 欧美精品啪啪一区二区三区| 色亚洲成人| 亚洲无线国产观看| 热久久这里是精品6免费观看| 国产成人午夜福利免费无码r| 精品伊人久久久大香线蕉欧美| 亚洲天堂视频网站| 久久无码av一区二区三区| 中文无码影院| 国产麻豆另类AV| 久草网视频在线| 欧美一区二区精品久久久| 亚洲成人高清无码| 被公侵犯人妻少妇一区二区三区| 中文字幕永久在线看| 亚洲精品制服丝袜二区| 无码丝袜人妻| 亚洲精品福利视频| 在线精品亚洲国产| 无码久看视频| 久操线在视频在线观看| 亚洲91精品视频| 狠狠色狠狠色综合久久第一次| 亚洲天堂啪啪| 亚洲精品国产乱码不卡| 国产喷水视频| 67194亚洲无码| 91亚洲视频下载| 一级片一区| 91精品啪在线观看国产60岁|