999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合實體信息的圖卷積神經網絡的短文本分類模型分析

2023-04-29 17:51:59王治學
信息系統工程 2023年9期
關鍵詞:模型

王治學

摘要:基于融合實體信息,建立圖卷積神經網絡模型,該模型結構分別由類別輸出、特征學習、嵌入輸入以及實體鏈接四個模塊構成,將其應用于短文本分類,在實際操作中,可以利用實體鏈接工具對短文本中實體進行抽取,并在圖卷積神經網絡支持下,進行建模、拼接以及融合處理,最后完成短文本分類。相較于傳統文本分類方法,前者不僅可以保證極高的分類準確率,其分類性能也明顯優于目前文本分類領域中現有主流方法,對后續自然語言處理更進一步研究有著重要現實意義。

關鍵詞:融合實體信息;圖卷積神經網絡;短文本分類;模型

一、前言

通過對現階段傳統文本分類方法應用情況的調研與分析,相較于長文本分類,短文本由于具有句子不規則性、數據規模大以及語義稀疏性等特點,致使短文本分類相對困難,且現有模型難以滿足短時間高效率準確分類短文本的要求。因此,提出基于融合實體信息的圖卷積神經網絡模型建立并應用于短文本分類的思路,從后續實驗結果來看,這種分類方法在短文本分類方面的性能表現明顯優于目前大部分主流方法,不僅準確率高,且能夠起到豐富語義表達的作用,使表達精確度得到進一步提高。

二、短文本數據基本特點

現階段自然語言處理過程中常用短文本分類,能夠為輿情分析、對話問答以及情感分析等領域的文本信息處理提供針對性服務,不僅可以提升自然語言處理效率,又能起到極為重要的作用。相較于長文本,若以常規文本分類方法對短文本類型進行劃分,整個操作過程具有較大難度,短文本數據基本特點具體表現在以下幾個方面:

1.短文本語義呈稀疏性

與長文本不同的是,前者在內容方面并未包含過多單詞數量,短文本分類目的是提取其中有用信息,而提取有用信息的前提是要保證短文本中具有實際語義的詞語較多,才能將有用信息進行分類,但由于短文本語義呈稀疏性特點,在一定程度上加大了短文本分類難度。

2.數據規模大

網絡中有大量短文本數據存在,以人工方式處理數據,既不能滿足對數據處理時效性要求,同時也會投入較多成本,降低該項工作經濟性。

3.短文本句子呈不規則性

如對話消息、新聞標題以及微博等均屬于短文本句子范疇,句子內容與人們日常生活極為貼近,句子表述雖然較為簡潔,但整個結構形式偏向口語化,句子內容中經常會出現較多網絡熱詞或流行語,在文本信息處理過程中,難以保證分類器可以對短文本句子精準識別,識別難度較大。

三、基于融合實體信息的圖卷積神經網絡模型在短文本分類中應用可行性分析

一般情況下,對短文本分類定義,是指將未經過標記的大量文本,對其選擇合適標簽,其中基于深度學習、圖神經網絡以及基于統計的方法常應用于文本分類中。

1.基于深度學習的方法在短文本分類中應用。相較于傳統文本分類算法,前者近些年在各種先進技術支持下,在該領域取得了顯著成果,可以對更復雜文本的特征進行深層次的自動提取,滿足端到端處理文本信息需求。卷積神經網絡所提出的TextCNN算法,則是在多個卷積核利用基礎上,將文本間的局部信息更加精準地捕獲;TextRNN算法可以在較長的序列中捕獲上下語義關系,但循環神經網絡有可能在訓練期間發生梯度消失現象,難以做到將長距離序列信息進行學習[1]。

TextCNN算法與TextRNN算法應用的前提均要先完成對每條文本的建模處理,但在該環節極易將語料庫的全局特征忽略。針對上文所提出的短文本數據呈語義稀疏性特點,為降低該方面情況對短文本精準分類干擾影響,提出不需要語料庫外部支持建立主題記憶網絡的一種算法,并應用于文本分類中,通過自動挖掘主題完成文本分類。從整體上看,上述所提及的各類算法,僅能做到對文本局部信息進行建模處理,仍是無法滿足文本全局信息重點關注的要求。

2.基于統計的方法在文本分類中應用。目前包含設計工程特征與分類兩種形式的算法,前者對需要進行處理的文本數據進行特征提取,并作后續分類器輸入詞條使用,獲取數據特征時,常用詞袋模型。分類算法是以梯度提升決策樹、支持向量機等模型為基礎提出并用于文本分類的算法。針對復雜程度較高的文本特征工程,仍要以人工方式處理數據。海量數據均依靠人工處理,使得整個數據處理過程耗時多。同時,人工處理也會額外增加成本,加上這種傳統方法獲取的文本均呈現高稀疏性、高維度特點,特征表達能力較差,直接影響短文本分類任務完成質量。

3.通過對目前文本分類中圖神經網絡應用情況的調研與分析,依賴語料庫所提出的異構文本圖(TextGCN),其中包含了文檔與單詞節點,再借助圖卷積神經網絡模型進行學習,能夠將圖內相鄰節點信息聚合處理,并用于表示文檔與單詞節點。在應用TextGCN前提下,搭建TensorGCN模型,該模型同樣可以使用語料庫中所包含的文檔和單詞節點完成基于語義、句法及序列三種不同形式的異構圖建立。相較于TextGCN,TensorGCN可以融合兩種傳播學習方式,分別是圖內信息傳播,對單圖上相鄰節點信息進行聚合;另一種則是圖間信息傳播,起到對不同類型圖的異構信息進行協調作用?;谌诤瞎濣c及邊權值建立圖注意力網絡,可以滿足為各個文本進行同構圖建立需求,再借助引力模型對整個語料庫所包含單詞節點的重要性進行評估,同時在掌握節點間點互信息基礎上對邊權重獲取,進而達到基于圖注意力網絡分類整圖目的。

上述方法在實際應用過程中同樣需要語料庫支持,利用語料庫中包含的信息完成文本圖建立,再通過全局信息對文本表示強化處理,該過程不會涉及使用外部信息擴充文本操作以達到降低短文本稀疏性影響目的。

結合以上內容,提出基于融合實體信息的圖卷積神經網絡模型建立,鏡文檔中單詞對應實體通過實體鏈接引入,該單詞鏈接則是實體置信度,作為文檔和實體之間邊的權重,同時基于文檔、實體、單詞三種節點建立異構圖[2]。通過圖卷積神經網絡進行傳播學習,可以向文檔節點和單詞節點傳遞實體信息,使節點特征能夠被更加準確地表示,實體節點被引入后,除了可以對短文本起到擴充作用以外,又能對文本單詞進行消歧處理,實現短文本特征空間稀疏性影響被有效降低。

四、基于融合實體信息的圖卷積神經網絡模型建立與分類性能驗證

(一)融合實體信息的圖卷積神經網絡模型結構

如圖1所示,融合實體信息的圖卷積神經網絡模型分別由類別輸出、特征學習、嵌入輸入以及實體鏈接四個模塊共同構成。該模型結構中各模塊功能作用如下:

1.實體鏈接模塊

依靠實體鏈接工具,在維基百科實體上映射短文本中的單詞。在該模塊中,可以將短文本中詞語概念歧義、標注問題等進行有效解決,并對原短文本內容擴充處理,起到豐富短文本表達的作用。在使用實體鏈接工具基礎上,在維基百科實體上映射單詞,再通過外部知識庫,擴充短文本的單詞概念。融合實體信息的圖卷積神經網絡模型結構參考圖1。

2.嵌入輸入模塊

根據具體要求,對文檔、實體以及單詞進行嵌入處理,再分別映射到高維向量空間。下游自然語言處理任務對應表征,常用詞嵌入表達,以數字形式將短文中詞匯語義進行捕獲,滿足對過于抽象語義概念準確處理的需求,該方式被廣泛應用于文本信息處理領域,如文本分類、知識挖掘以及問答系統等。現階段文本分類中較為常用Word2Vec與Glove這兩種詞嵌入方式,前者對單詞語義進行捕獲時,需要通過包含局部上下文信息的滑動窗口,對單詞間存在的相關性深度挖掘,獲得單詞表示;后者對單詞的全局語義信息進行捕獲時,則是要借助全局詞共現矩陣,以完成單詞的嵌入向量表示。

在高維向量空間映射單詞、實體及文檔時,要先將圖卷積神經網絡節點輸入特征構成,以隨機初始化特征進行單詞嵌入,以預訓練的維基百科實體特征作為實體節點嵌入;而文檔節點,則是要將文檔中所有單詞的預訓練詞嵌入平均值進行計算,最終得到數值,即為表示文檔輸入特征。

3.特征學習模塊

基于異構圖卷積神經網絡訓練輸入的嵌入特征,經過訓練學習后,即可獲得文檔特征和單詞特征表示。因短文本自身特殊性,僅從語料庫中獲取信息,無法保證可以獲得足量具有實際語義的詞語?;诖?,本文提出在對外部實體信息加以利用的基礎上,建立3種不同形式異構圖{G=(ν,ε)},分別是單詞節點:W={w1,w2,…,wm};文檔節點:D={d1,d2,…,dn};實體節點:點E={e1,e2,…,ep};v=D∪E∪W[3]。節點間關系用ε邊集中元素進行表示,文檔中單詞頻率確定連接文檔節點與單詞節點的邊數量,換句話說,是將詞頻—逆文檔頻率看作文檔節點與單詞節點之間邊的權重,再由語料庫中詞共現信息確定連接2個單詞節點的邊。維基百科實體上映射文檔中單詞所對應置信度確定連接文檔節點和實體節點的邊。

4.類別輸出模塊

在該模型結構中負責融合特征學習模塊學習的單詞特征表示與BERT預訓練獲得的詞嵌入特征,再利用BiLSTM對文本上下文特征捕獲,拼接分別得到的隱藏狀態特征與特征學習模塊中的文本特征,線性變換后,即可確定短文本所屬類別。在該模塊中,需要對短文本中詞序特點進行綜合考慮,詞序是影響短文本分類準確性關鍵要素之一,將圖卷積神經網絡學習達到的文檔節點和單詞節點表示,借助BiLSTM模型對其分類進行細化,目的是通過提高模型精度達到對短文本類別精準預測目的。

其中BERT預訓練模型可以將包含上下文語義信息的詞嵌入有效生成,此時拼接處理從特征學習模塊所獲得單詞節點表示與BERT預訓練的單詞節點表示,拼接完成后,將作為BiLSTM的輸入。拼接BiLSTM輸出的節點隱藏狀態和GCN學習獲得文檔節點特征,其通過softmax后,即可獲得文本預測標簽。再以交叉熵損失方式訓練最終的分類結果,訓練所得即是短文本對應的真實標簽[4]。

(二)融合實體信息的圖卷積神經網絡模型分類性能實驗結果

1.為更進一步驗證本文所提出融合實體信息的圖卷積神經網絡模型在分類性能方面所表現出的效果,將選用3個短文本基線數據集,用作分類性能實驗研究對象,分別是AGNews、R52及MR。其中AGNews由4個類別的英文新聞數據集組成,不同類別數據集均包含上萬條訓練樣本以及約2000條測試樣本,隨機從不同類別數據集中抽取任意300條數據,并標記訓練集,1700條數據標記測試集。R52由52個類別數據集組成,訓練樣本超過6500條,測試樣本超過2500條。MR則是電影評論中二分類情感數據集,包含正負面評論語,總計超過10000條,訓練集約7000條,測試集約3500條。

使用NLTK庫將AGNews與R52數據集中的停用詞進行去除,出現頻率不超過5次的詞均要全部去除;因MR數據集中文本略短,可以省去停用詞或低頻詞去除環節。各類數據集基本情況示意參考表1。

2.參數設置:基于PyTorch框架應用,在訓練和測試環節,將詞嵌入維度調整至150,學習率設置為0.001。利用Adam完成隨機梯度優化,檢測經過200次迭代處理后的數據集,其模型性能是否達到預期效果,模型性能保持10次以上無任何變化時,即可提前結束訓練。

3.從實驗結果來看,發現AGNews與R52數據集上所反映出的模型性能表現均優于傳統模型。該情況出現原因與圖結構滿足不同類型相鄰節點間信息相互傳遞要求有著直接關系,通過將節點上信息進行聚合處理,實現以更豐富信息表示對應特征。使用單詞間的詞共現特征為邊的權重時,可用全局共享方式,且優于傳統模型的局部信息共享[5]。

分析MR數據集,TextGCN模型準確率未超過CNN和BiLSTM模型,該情況出現與TextGCN模型沒有考慮情感分類中詞序所產生影響相關,后者在實際操作過程中均完成了連續詞序列構建。相較于其他數據集,前者因文本太短,所構成的文本圖并不大,進而對節點間信息傳遞產生一定制約。

AGNews、R52、MR數據集在ETGCN模型中均反映出較高準確率,準確率明顯高于其他模型,雖然R52數據集在ETGCN模型中的準確率低于其他2個數據集,但其準確率與TenserGCN模型相近,R52數據集的準確率略低表現與自身文本長度較長有關,將句法特征引入TenserGCN模型后,可以使該模型對文本較長數據集的適用性進一步提升。

4.綜合所有模型準確率平均值,其中ETGCN模型分類性能顯著增強,在實際應用過程中,能夠將文本中單詞對應實體信息融入異構圖中,再通過圖卷積神經網絡向相鄰文檔節點和單詞節點傳遞實體信息,起到對文檔節點和單詞節點語義表達進行豐富的作用。引入實體信息后,也使單詞本身所存在的二義性問題所產生影響得到有效緩解,極大地提高了語義表達的精確度。經過BiLSTM模型處理后單詞節點和文檔節點特征表示,可以將文檔的上下文語義信息更加準確地捕獲,以強化短文本分類效果,特別是在情感短文本分類方面有著出色表現。

5.在維持上述其他參數不變前提下,僅調整詞嵌入維度,詞嵌入維度調整至150時,ETGCN模型的分類準確率最高,詞嵌入維度調整至50時,ETGCN模型的分類準確率最低,準確率由低向高排序:150>100>200>250>300>50。說明詞嵌入維度調整過高,不會對模型分類性能起到提升效果;嵌入維度調整過低,則會限制圖內節點信息傳播。

五、結語

綜上所述,基于融合實體信息的圖卷積神經網絡模型建立,并將其應用于短文本分類中,相較于常規文本分類方法,前者在模型分類性能方面明顯優于現階段文本分類中所應用的已有模型,不僅具有極高準確率,其中外部實體信息引入,對文檔和單詞節點語義表達起到一定豐富作用,也解決了單詞所存在的二義性問題,進一步提高了語義表達精確度,尤其是依賴語序進行文本分類方面,有著明顯的應用效果,從而打破傳統文本分類方法對短文本分類難度大的困境。

參考文獻

[1]李文靜,白靜,彭斌.圖卷積神經網絡及其在圖像識別領域的應用綜述[J/OL].計算機工程與應用:1-25[2023-05-25].

[2]王永貴,鄒赫宇.多任務聯合學習的圖卷積神經網絡推薦[J/OL].計算機工程與應用:1-9[2023-05-25].

[3]孫雋姝,王樹徽,楊晨雪.附加特征圖增強的圖卷積神經網絡[J/OL].計算機學報:1-20[2023-05-25].

[4]王佳宇,李楹,馬春梅.融合實體信息的圖卷積神經網絡的短文本分類模型[J].天津師范大學學報(自然科學版),2023,43(01):67-72.

[5]李享.基于圖卷積神經網絡的文本表示與文本分類研究[D].北京:北京交通大學,2022.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美一级大片在线观看| 四虎在线高清无码| 国产呦视频免费视频在线观看| 扒开粉嫩的小缝隙喷白浆视频| 成人福利在线视频| 免费播放毛片| 国产亚洲一区二区三区在线| 女人一级毛片| 国产在线无码一区二区三区| 国产迷奸在线看| 波多野结衣的av一区二区三区| 国产电话自拍伊人| 91精品国产福利| 欧美精品xx| 五月天福利视频| 国产福利在线免费观看| 亚洲va在线∨a天堂va欧美va| 国产乱子伦精品视频| 福利视频久久| 一本无码在线观看| 国产麻豆va精品视频| 亚洲国产亚综合在线区| 久久精品66| 激情网址在线观看| 国产真实自在自线免费精品| 国产91透明丝袜美腿在线| 亚洲国产系列| 成人福利在线观看| 亚洲精品在线影院| 中国一级特黄视频| 亚洲美女一级毛片| 四虎影视无码永久免费观看| 久久综合亚洲鲁鲁九月天| 亚洲h视频在线| 在线无码九区| 2021国产精品自产拍在线| 美女亚洲一区| 天天色综合4| 久久精品国产亚洲AV忘忧草18| 久久99这里精品8国产| 亚洲天堂久久新| 成人免费午夜视频| 色综合婷婷| 一本色道久久88亚洲综合| 亚洲天堂自拍| 亚洲天堂日韩在线| 国产极品美女在线播放| 国产麻豆福利av在线播放| 99视频在线免费观看| 成人在线视频一区| 露脸真实国语乱在线观看| 人妻无码AⅤ中文字| 欧美国产日韩在线| 国产农村精品一级毛片视频| 欧美成人手机在线视频| 久久人妻xunleige无码| 欧美黄网在线| 天堂成人在线| 97成人在线视频| 99久久99视频| 免费无遮挡AV| 理论片一区| 伊人网址在线| 91口爆吞精国产对白第三集| 日韩欧美国产三级| 国产最新无码专区在线| 国产精品久久久精品三级| 国产成人高清在线精品| 精品免费在线视频| 欧美午夜视频在线| 国产美女无遮挡免费视频| 视频一区亚洲| 国产精品片在线观看手机版 | 久久综合结合久久狠狠狠97色| 欧洲极品无码一区二区三区| 四虎永久在线精品影院| 亚洲中文字幕日产无码2021| 国产男女免费完整版视频| 亚洲无码四虎黄色网站| 日韩大乳视频中文字幕 | 欧美中日韩在线| 操国产美女|