999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖小波網絡模型的文本分類研究

2022-06-15 09:06:12馬誠賈凱莉李云紅高子明候嘉樂
電子設計工程 2022年11期
關鍵詞:分類文本模型

馬誠,賈凱莉,李云紅,高子明,候嘉樂

(西安工程大學電子信息學院,陜西西安 710048)

隨著互聯網技術的發展,文本信息呈指數增長。面對海量的文本信息,如何對各種文檔進行恰當的表達和分類,從中快速、準確地找到所需的信息,已成為眾多研究者關注的焦點。文本分類過程主要涉及文本表示、特征選擇、分類器設計3 個步驟。其中最重要的步驟為文本表示。詞袋(Bag of Words,BoW)模型[1]是最常用的文本表示方法,由于其將文本表示為One-hot 向量,忽略了語法和語序信息,因此丟失了大量的文本信息。為了解決文本表示中存在的問題,神經網絡模型被應用于文本表示,如卷積神經網絡(Convolutional Neural Networks,CNN)[2-5]、遞歸神經網絡(Recurrent Neural Networks,RNN)[6-9]、膠囊神經網絡(Capsule Neural Networks)[10]等。與傳統的文本表示方法相比,RNN 在獲取短文本的語義方面表現優越,但在學習長文檔的語義特征方面效果較差;CNN 進行文本表示時,與n-gram[11]有些類似,只能提取連續單詞的語義成分,可能會失去單詞之間的長距離語義依賴性[12]。

近年來,由于圖卷積網絡(GCN)[13-14]能更好地捕獲非連續詞和長距離詞的語義和語法信息,引起了眾多研究者的關注。Kipf 和Welling[15]提出GCN 模型,該模型通過譜圖卷積的局部化一階近似對圖卷積進行逼近與簡化,使得計算復雜度降低,并可以對局部圖結構和節點特征進行編碼,學習隱藏層表示,改善了文本分類性能。Chiang 等人[16]為了降低圖卷積網絡的時間復雜度與內存復雜度,提出了聚類GCN方法,該方法使用圖聚類算法對子圖進行采樣,并對采樣子圖中的節點進行圖卷積。由于鄰域搜索也被限制在采樣子圖范圍內,因此聚類GCN 能同時處理較大的圖和使用較深的體系結構,所用時間短、內存少。Xu 等人[17]為了降低計算復雜度并提高分類準確率,提出了GWNN(Graph Wavelet Neural Networks)方法,該方法用圖小波代替圖拉普拉斯的特征向量作為基集,并且利用小波變換和卷積定理定義卷積算子。Yao等人[18]提出TextGCN模型,該模型是將整個文本語料庫建模為文檔字圖,并應用GCN 進行分類。

文中在Text-GCN[18]模型研究基礎上建立基于圖小波網絡文本分類模型(Text-GWNN)。Text-GWNN模型使用改進的TF-IDF 算法計算詞與文檔間的權重,能突出特征詞對類別的重要程度;同時,該模型在節點域是稀疏及局部化的,具有較高的計算效率。此外,通過超參數s更加靈活地調整節點的鄰域,能更有效地根據鄰域節點獲取中心節點表示,從而改善文本分類效果。通過R8、R52 及Ohsumed 英文語料庫的驗證,提出方法提高了文本分類性能,具有較高的文本分類準確率。

1 Text-GWNN文本分類模型

圖1 為使用Text-GWNN 模型進行分類的原理框圖。對文本進行分類,首先需要對文本進行預處理,包括去除停止詞、分詞并清洗不需要的數據和去除標點符號;其次利用清洗后的文本通過詞共現及詞與文檔的關系構建文本圖;最后訓練分類模型,在測試集上對分類模型進行測試,并對分類結果進行評價。

圖1 Text-GWNN模型分類框圖

1.1 構建文本圖

根據語料庫的特點,使用詞共現原理及詞與文檔的關聯構建無向文本圖。在語料庫中,節點的數目為文檔數加上文檔中不重復出現的詞的數目。根據詞與文檔的關系,如果詞在該文檔中,則使用改進TF-IDF 算法建立詞與文檔之間的權重關系;否則,詞與文檔之間的權重為0。改進TF-IDF 算法的計算方式如式(1)所示:

其中,tfik指的是詞i在文檔k中出現的次數,N為總文檔數,ni為出現詞i的文檔數,C為總類別數,ci為出現詞i的類別數。

根據詞共現理論,采用PMI 算法建立詞與詞之間的權重關系:

其中,Nij為詞i和詞j出現在同一滑動窗口的數目,Ni為語料中包含詞i的滑動窗口數目,N為語料中滑動窗口的總數目。

1.2 圖小波文本分類模型

假設無向圖G=(V,E),其中V代表所有節點的集合,E代表邊的集合。通常用拉普拉斯矩陣L=D-A表示圖,其中A為鄰接矩陣,代表兩個節點之間的連接關系,D為度矩陣,代表每個節點與其他節點連接的個數。

文中采用GWNN 模型[17](兩層網絡)進行文本分類,該模型是基于圖數據操作的。正則化后的拉普拉斯矩陣為:

其中,?代表哈達瑪積,y為卷積核,可以用對角矩陣g(θ)代替UTy,哈達瑪積可以被視作矩陣乘法。上式可以被簡化為:

圖小波變換是將信號從頂點域變換為譜域進行操作,其是以一組小波基Ψs=(Ψs1,Ψs2,…,Ψsn) 為基礎,每個Ψsi都代表以節點i為中心,鄰域范圍為s的信號。因此,圖信號x的圖小波變換為圖小波逆變換為圖小波卷積被定義為:

其中,Gs=diag((g(sλ1),…g(sλn))),g(sλi)=eλis,U為拉普拉斯的特征向量。

圖小波神經網絡(GWNN)為一個多層的神經網絡,其傳播規則為:

其中,Ψs為小波基,為圖小波變換矩陣,是對角濾波矩陣,h為非線性函數。

2 仿真實驗

實驗采用R8、R52 及Ohsumed 英文語料庫進行文本分類任務,對提出的文本分類方法進行評估。

2.1 實驗數據

使用R8、R52 和Ohsumed 3 個標準數據集。其中,R8為8種類別的數據集,而R52為52種類 別的數據集,Ohsumed 為23 種心血管疾病病例的數據集。各數據集的統計信息見表1。

表1 數據集統計信息

2.2 實驗設置

實驗基于Python 語言實現,采用Tensorflow 框架對Text-GWNN 模型進行數據集測試驗證。

1)實驗參數設置

根據Text-GCN 及GWNN 模型進行參數設置,并通過反復多次實驗驗證,最終設置Text-GWNN 模型各參數的取值,具體見表2。

表2 實驗參數設置

2)評價指標

采用文本分類中常用的準確率(Accuracy)、召回率(Recall)、F1 值對文本分類結果進行評價,其中TP、FP、TN和FN分別代表正陽性、假陽性、正陰性和假陰性的分類數量。各評價指標的計算如式(11)所示:

2.3 實驗結果與分析

將文中模型與TF-IDF+LR、PV-DM+LR、LSTM、Bi-LSTM 和Text-GCN 文本分類模型對比,并在R8、R52 和Ohsumed 數據集進行實驗驗證。為驗證Text-GWNN 模型的有效性,通過分類準確率、召回率、F1值3 個評價指標進行實驗結果評估,結果如表3~表5所示。

表3 分類準確率比較

表4 分類召回率比較

從表3~表5 列出各方法的實驗結果可以得出,Text-GWNN 與TF-IDF+LR、PV-DM+LR以及LSTM、Bi-LSTM文本分類方法相比,對于R8、R52及Ohsumed3個數據集,Text-GWNN 分類評價指標均高于對比的分類方法,該結果說明文中方法可以改善文本分類效果。

表5 分類F1值比較

Text-GWNN 模型與TextGCN 模型相比,R8、R52及Ohsumed 3 個數據集的分類評價指標有所提高,Text-GWNN 模型測試準確率分別達到了98.09%、93.91%、69.30%,分別提升了0.92%、0.22%、1.01%,結果證明Text-GWNN 分類模型可以有效提高文本分類結果。

圖2 給出了參數s對Text-GWNN 模型分類準確率的影響,參數s代表鄰域范圍,其取值范圍一般為s∈[0.5,1]。當s較小時,無法將與該節點有關的節點信息全部包含在其中;當s的取值太大時,又會將無關的信息包括進來,因此,要合理選擇s值。對于不同的數據集,參數s的取值往往不同。從圖中可以看出,對于R8、R52 和Ohsumed 3 個數據集,分別取s=0.9、0.7、0.5 時,Text-GWNN 模型分類準確率最高。

圖2 參數s 對分類準確率的影響

3 結論

文中提出基于圖小波網絡模型(Text-GWNN)的文本分類方法,該方法利用圖小波卷積的局部化特性,能更好地捕獲局部詞共現信息,改善文本分類效果。通過R8、R52 及Ohsumed 3 個英文語料庫測試,驗證了模型的有效性。未來工作中,將會研究加入池化層的圖小波網絡模型對文本分類性能的影響,并嘗試將其應用于中文文本分類;另一方面,還會研究Text-GWNN 網絡深度對于文本分類性能的影響,并在情感分類任務中應用該模型。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 高清大学生毛片一级| 亚洲人成电影在线播放| 国产区免费精品视频| 极品国产在线| 黄色免费在线网址| 国产啪在线| 97成人在线观看| 国产精品短篇二区| 亚洲天堂视频网站| 日韩高清成人| 欧美综合成人| 精品福利视频网| 自偷自拍三级全三级视频| 无码免费视频| 国产视频一区二区在线观看| 素人激情视频福利| 欧美一级高清片久久99| 3D动漫精品啪啪一区二区下载| 欧美在线免费| 国产十八禁在线观看免费| 性视频久久| 亚洲综合色在线| 自拍偷拍欧美日韩| 精品免费在线视频| 久久亚洲高清国产| 成年午夜精品久久精品| 国产丝袜丝视频在线观看| 久久夜色撩人精品国产| 夜精品a一区二区三区| 成人免费午间影院在线观看| 在线观看亚洲成人| 国产日韩AV高潮在线| 亚洲无码精品在线播放 | 四虎国产在线观看| 在线中文字幕日韩| 美女无遮挡免费视频网站| 精品国产免费人成在线观看| 欧美综合成人| 欧美人人干| 无码视频国产精品一区二区| 中文字幕在线看视频一区二区三区| 无码人妻热线精品视频| 精品国产香蕉伊思人在线| 久久人搡人人玩人妻精品一| 国产熟女一级毛片| 毛片基地视频| 中国毛片网| 欧美色综合网站| 国产区福利小视频在线观看尤物| 欧美国产成人在线| 欧美成人亚洲综合精品欧美激情 | 日本手机在线视频| 青青青国产在线播放| 国产在线一区视频| 中国一级特黄视频| 国内精品九九久久久精品| 在线无码九区| 欧美日韩在线国产| 一区二区三区精品视频在线观看| 久久国产精品国产自线拍| 嫩草在线视频| 亚洲男人天堂2020| 91免费观看视频| 亚洲国语自产一区第二页| 成AV人片一区二区三区久久| 色综合婷婷| 免费av一区二区三区在线| 九色综合伊人久久富二代| 伊人久久久久久久| 国产精品护士| 亚洲日本一本dvd高清| 亚洲无码91视频| 亚洲国产精品无码AV| 青青草原国产免费av观看| 一区二区三区在线不卡免费| 97在线国产视频| 精品视频免费在线| 日本午夜网站| 九色视频在线免费观看| 国产中文一区二区苍井空| 精品少妇人妻一区二区| 久久性视频|