999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于有監督雙詞主題模型的短文本分類方法

2024-12-31 00:00:00衛紅敏
現代信息科技 2024年10期

摘" 要:針對短文本存在的語義稀疏及語義模糊等問題,提出一種有監督的雙詞主題模型(Su-BTM),將其應用于短文本分類。在BTM主題模型的基礎上引入主題-類別分布參數,識別主題-類別語義信息,建立主題與類別的準確映射,并提出Su-BTM-Gibbs主題采樣方法,對每個詞的隱含主題進行采樣。在兩個中英文短文本數據集上進行對比實驗,實驗結果表明,該方法相比經典模型具有更優的分類效果。

關鍵詞:語義稀疏;BTM主題模型;隱含主題;短文本分類

中圖分類號:TP181" " 文獻標識碼:A" " " 文章編號:2096-4706(2024)10-0056-04

A Short Text Classification Method Based on Supervised Biterm Topic Model

WEI Hongmin

(Shandong Huayu University of Technology, Dezhou" 253034, China)

Abstract: In response to the problems of semantic sparsity and ambiguity in short texts, this paper proposes a Supervised Biterm Topic Model (Su-BTM) and applies it to short text classification. Based on the BTM topic model, distribution parameter between topic and category is introduced to identify semantic information between topic and category, accurate mapping between topic and category is established, and a Su-BTM-Gibbs topic sampling method is proposed to sample the implied topics of each word. Comparative experiments are conducted on two datasets of Chinese and English short texts, and the results show that this method has better classification performance compared to classical models.

Keywords: semantic sparsity; BTM topic model; implied topic; short text classification

0" 引" 言

短文本分類是自然語言處理領域的一項重要任務,廣泛應用于社交媒體監控、情感分析[1]、產品評論分類[2]等場景。近年來,隨著現代信息科技及互聯網技術的迅速發展,微信、微博等社交網絡平臺飛速發展,短文本的數量逐漸增多[3,4]。由于短文本存在數據量少[5]、語義特征稀疏[6]、類別不平衡[7]等問題,導致了短文本分類的精度不高。

黃佳佳等人提出潛在狄利克雷分布模型(Latent Dirichlet Allocation, LDA)[8],得到文檔-主題和主題-詞分布,從而提高文本分類的精度。之后,雙詞主題模型(Biterm Topic Model, BTM)被提出[9],通過詞對的結合擴大語料庫,對短文本語義稀疏的問題進行改進。BTM和BERT模型[10]通過綜合考慮文本主題特征信息和全局語義信息,增強了文本語義,從而解決了語義特征稀疏的問題。

鑒于此,本文提出了一種Su-BTM主題模型用于短文本分類。Su-BTM主題模型利用語料庫中的類別標記信息,在BTM主題模型的基礎進行改進。1)引入主題-類別分布參數,由此來識別主題與類別之間的語義關系,將主題與類別進行精確的映射,以完成文檔的主題分類。2)采用Su-BTM-Gibbs采樣方法,對語料庫中所有共現詞對的隱含主題進行采樣,在同類別的文檔中進行采樣。3)主題-類別分布參數可以將主題進行分類,更準確地計算出單詞-主題的概率,提高短文本分類的準確度。

1" Su-BTM的概率圖

Su-BTM的概率圖模型如圖1所示,在短文本語料庫中,| B |為語料庫中由兩個單詞組成詞對的總數,其中B = {b1, b2, …, bn},b = {wi, wj}為一個詞對,Z為的是所有的詞對的主題分布。θ為全局主題分布參數,φ為主題-詞分布參數,δ為主題-類別分布參數。

在Su-BTM模型中,θ、φ和δ服從Dirichlet分布,為多項式參數分別生成主題、詞和類別,α、β和γ為相應的Dirichlet分布的先驗參數。Su-BTM模型語料庫中所包含的詞對生成過程如下:

步驟1:每一個主題z生成一個服從φz~Dir(β)的主題-詞分布。

步驟2:整個語料庫生成一個服從θ~Dir(α)的全局主題分布。

步驟3:每個主題z生成一個服從α~Dir(γ)的主題-類別分布。

步驟4:每一個詞對b ∈ | B |。

從全局主題分布θ中抽取出服從z~Multi(θ)的主題z。

從主題z中抽取出服從(wi, wj)~Multi(φz)的詞對(wi, wj)。

按照上述生成過程,詞對b的聯合概率如式(1)所示:

其中,p(z) = θz為主題z的概率;p(wi | z) = φi | z為主題z下詞wi出現的概率;p(wj | z) = φj | z為主題z下詞wj出現的概率。

因此,生成詞對語料庫的概率如式(2)所示:

文檔主題推斷的公式如式(3)所示:

其中,p(z | d)為文檔d的主題概率,基于Su-BTM中估計的參數 p(z | b)可以通過貝葉斯公式計算,如式(4)所示:

其中,p(z | (wi, wj)) = θz φi|z φj|z,文檔中單詞對的條件概率p(b | d),計算如式(5)所示:

其中,n(b)為詞對b在文檔d中出現的次數,且p(b | d)為均勻分布。

2" Su-BTM模型參數估計

Su-BTM主題模型中,求得以下參數:主題概率θ、主題-詞分布φ和主題-類別分布δ。基于BTM-Gibbs采樣算法,Su-BTM的Gibbs采樣算法得到了極大的改進。其中所求參數不需要直接計算,而是對每個詞對b的隱含主題進行采樣,再通過Dirichlet的先驗參數α、β和γ進行計算。對詞對b的概率分布進行抽樣,從而得到隱含主題參數z。

依據Su-BTM-Gibbs,每個詞對b的條件概率的計算公式如式(6)所示:

其中,除了詞對b以外的其他詞對的主題分布為z?b,nz為詞對b屬于主題z的次數,nw|z為單詞w屬于主題z的次數,nb|z為詞對b在主題z中出現的次數,詞對b與其所包含的wi, wj屬于同一個主題。

主題-詞概率分布φ,全局主題概率分布θ,主題-類別概率分布δ的概率估計如式(7)~(9)所示:

Su-BTM模型的Gibbs采樣算法描述如Algorithm1所示:

Algorithm1:Gibbs sampling algorithm for Su-BTM

Input:topic number K,hyper parameters α、β、γ、|B|

1.rondomly initialize topic assignments for all the biterms

2.for 1 to ni do

3." " " "for i ∈ | B | do

4." " " " " get zb from Eq(6)

5. update nz、、

6." end

7.end

8. computer φ in Eq(7)and θ in Eq(8)and δ in Eq(9)

Output:θ、φ、δ

如Algorithm1所示,對語料庫中所有詞對b進行初始化。然后在每次迭代時,對于語料庫中的每一個詞對b,通過式(6)計算得到詞對b的主題zb,并更新以下參數:nz、、。最后通過式(7)至式(9)得到主題-詞概率分布φ,全局主題概率分布θ,主題-類別概率分布δ。

3" 實驗分析

3.1" 數據集描述

實驗選取中文搜狗新聞標題短文本數據集(sogou)和英文亞馬遜評論短文本數據集(AMAZON),隨機抽取部分文檔并構建訓練集。具體描述如下:選取sogou數據集中的5類文檔:體育、教育、科學、科技和汽車;選取AMAZON數據集中的5類文檔:Digital_Product、Baby_Product、AMAZON_FASHION、Professional_Books和Clothing。其中測試樣本與訓練樣本的比例為2:8,實驗數據集如表1所示。

為驗證了基于Su-BTM主題模型的短文本分類方法的有效性,與SVM、BTM和LDA模型進行實驗比較。

3.2" 實驗結果及分析

3.2.1" Su-BTM主題推斷與類別映射

對Su-BTM模型進行主題推斷,在搜狗數據集上,類別和主題之間的相似度以及與主題最相關的前5個詞的概率分布如表2、表3所示。其中類別C = 5、主題數K = 6,其中,α、β和γ的值設為0.01。

如表2、表3所示,在sogou數據集上,主題0的映射類別為“教育”,主題1的映射類別為“科技”,主題2的映射類別為“房產”,其他主題與類別之間準確映射,映射的相似度大于99%。如表3所示,主題0的前5個特征詞,都與主題“教育”有關,概率最大的詞“教育”的概率為0.037 0。同樣的,在其他主題下,特征詞都與對應的主題相關。

3.2.2" 短文本分類結果

通過短文本分類,來驗證Su-BTM主題模型的有效性。BTM、LDA是利用BTM、LDA主題模型直接進行分類,SVM指采用LDA主題模型的K個主題為特征的SVM分類算法。在AMAZON數據集上的實驗結果如表4所示。

如表4所示,在AMAZON數據集上,當類別為“Digital_Product”時,LDA的Precision、Recall和F1分別為52.9%、52.3%和63.5%,SVM的分別為63.7%、69.7%和66.2%,BTM的分別為73.5%、70.3%和69.7%,Su-BTM的分別為95.8%、92.4%和90.4%,Su-BTM比BTM的三種分類結果分別高了22.3%,22.1%,20.7%,Su-BTM比SVM的三種分類結果分別高了32.1%,22.7%,24.2%,Su-BTM比LDA的三種分類結果分別高了42.9%,40.1%,26.9%。在其他類別上也是如此,基于Su-BTM的短文本分類算法的分類結果均優于其他經典模型。

在sogou數據集上,對比分析Su-BTM、BTM、LDA和SVM模型在不同的主題數下,分類的Macro-F1、Macro-Recall和Macro-Precision,實驗結果如圖2所示。

如圖2所示,縱坐標表示分類的Macro-F1、Macro-Recall和Macro-Precision,橫坐標表示主題的數目。從圖中可以看出,隨著主題數的增加,分類的各種指標逐漸升高并趨于穩定。當K = 10時,Macro-Precision的值達到最高,LDA為64.8%,SVM為76.8%,BTM為83.6%,明顯的低于Su-BTM。在Macro-Recall和Macro-F1分類指標上,基于Su-BTM模型的分類精度更高。

4" 結" 論

本文在BTM模型的基礎上引入主題-類別分布參數,結合Su-BTM-Gibbs主題采樣方法,從而識別出主題-類別語義信息,將主題與類別進行映射,來完成文檔的主題分類任務。綜合實驗表明,基于Su-BTM的短文本分類方法能明顯提高分類精度。

參考文獻:

[1] 鄧入菡,張清華,黃帥帥,等.基于多粒度特征融合的新型圖卷積網絡用于方面級情感分析 [J].計算機科學,2023,50(10):80-87.

[2] 喻濤,羅可.結合產品特征的評論情感分類模型 [J].計算機工程與應用,2019,55(16):108-114.

[3] 關慧,宗福焱,曲盼.基于BTM和長文本語義增強的用戶評論分類 [J].計算機技術與發展,2023,33(7):181-187.

[4] 張志昌,曾揚揚,龐雅麗.融合語義角色和自注意力機制的中文文本蘊含識別 [J].電子學報,2020,48(11):2162-2169.

[5] 段丹丹,唐加山,溫勇,等.基于BERT模型的中文短文本分類算法 [J].計算機工程,2021,47(1):79-86.

[6] 王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類 [J].電子學報,2012,40(11):2346-2350.

[7] 馬慧芳,邢玉瑩,王雙,等.融合詞語共現距離和類別信息的短文本特征提取方法 [J].計算機工程與科學,2018,40(9):1689-1695.

[8] 黃佳佳,李鵬偉,彭敏,等.基于深度學習的主題模型研究 [J].計算機學報,2020,43(5):827-855.

[9] 劉良選,黃夢醒.融合詞向量特征的雙詞主題模型 [J].計算機應用研究,2017,34(7):2055-2058.

[10] 付文杰,楊迪,馬紅明,等.融合BTM和BERT的短文本分類方法 [J].計算機工程與設計,2022,43(12):3421-3427.

作者簡介:衛紅敏(1997—),女,漢族,山東德州人,助教,碩士,研究方向:數據挖掘、機器學習。

主站蜘蛛池模板: 亚洲欧美综合精品久久成人网| 啦啦啦网站在线观看a毛片| 亚洲女同欧美在线| 2021国产v亚洲v天堂无码| 日本精品视频一区二区| 国产第一页第二页| 国产高潮视频在线观看| 亚洲人成网站在线观看播放不卡| 国产亚洲精久久久久久无码AV| 欧美专区在线观看| 福利小视频在线播放| 人人91人人澡人人妻人人爽| 国产00高中生在线播放| 久久香蕉国产线看观看式| 欧洲亚洲一区| 色网站在线视频| 欧美一区二区精品久久久| 狠狠色成人综合首页| 国产永久免费视频m3u8| 成人亚洲天堂| 伊人无码视屏| 国产嫩草在线观看| 99热亚洲精品6码| 国产99视频在线| AV不卡国产在线观看| 亚洲妓女综合网995久久| 久久男人资源站| 伊人丁香五月天久久综合| 久久久久国产一级毛片高清板| 欧美国产三级| 久久久久无码精品| 久久亚洲高清国产| 亚洲欧美日韩视频一区| 日韩视频精品在线| 亚洲黄网视频| 欧洲一区二区三区无码| 亚洲一区二区视频在线观看| 亚洲中文字幕国产av| 国产精品久久国产精麻豆99网站| 国产丝袜无码精品| 手机在线看片不卡中文字幕| 亚洲日本中文字幕天堂网| 免费一级毛片| 国产成人精品视频一区二区电影 | 欧美视频在线播放观看免费福利资源 | 精品1区2区3区| 日本91视频| a级毛片网| 鲁鲁鲁爽爽爽在线视频观看 | 日本午夜在线视频| 精品福利网| 国产在线观看人成激情视频| 国产黑丝视频在线观看| 激情综合网激情综合| 久久久噜噜噜久久中文字幕色伊伊| 精品国产99久久| 久久a级片| 91久久精品日日躁夜夜躁欧美| 无码日韩人妻精品久久蜜桃| 久热中文字幕在线观看| 91无码视频在线观看| 久热中文字幕在线观看| 美女扒开下面流白浆在线试听| 国产v精品成人免费视频71pao| 8090午夜无码专区| 国产区免费| 97成人在线视频| 亚洲欧美日韩另类在线一| 亚洲国产精品日韩欧美一区| 亚洲大尺码专区影院| 爆乳熟妇一区二区三区| 国内精品免费| 青青草原国产av福利网站| 欧美综合区自拍亚洲综合天堂 | 国产爽爽视频| 免费看黄片一区二区三区| 亚洲日韩AV无码一区二区三区人| 色播五月婷婷| 亚洲三级片在线看| 亚洲精品图区| 久久久久国产一区二区| hezyo加勒比一区二区三区|