999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題-詞向量的多粒度特征協同表達多義詞研究

2021-09-09 08:19:38汪靜徐昶王瑩瑩
現代計算機 2021年19期
關鍵詞:語義分類文本

汪靜,徐昶,王瑩瑩

(1.湖北廣播電視大學軟件工程學院,武漢 430074;2.湖北廣播電視大學導學中心,武漢 430074)

0 引言

隨著移動終端的普及和網絡的高速發展,人們在媒體平臺上自由發表評論,由此產生了大量文本數據。如何從爆發式增長的文本中篩選出有效信息是當前的研究熱點,而文本自動分類可以適當解決這一問題。因此,如何通過文本分類技術挖掘文本的潛在價值,成為目前廣泛關注的一項任務。

文本分類是計算機依據對文本內容的分析,將其判別為提前確定好的類別中的一類或幾類[1]。其中文本表示是文本分類的前提保障,其質量的好壞對分類效果造成直接影響,傳統的文本表示方法大多基于空間向量模型(VSM)[2]和主題模型[3]。近幾年隨著深度學習理論的逐漸成熟和硬件設備的有力支撐,新興模型Word2Vec[4]進入行業大眾視野,其根據上下文語義關系映射出詞語在空間中的位置,成為文本表示的新方法。2013年Word2Vec工具的開源使詞向量受到界內研究者的追捧,并在各類自然語言處理任務中展現了巨大的應用潛力。如Fan[5]、Yao[6]等人分別將Word2Vec應用于問答系統中多標簽文本分類問題和大規模新聞文本分類問題中,分類效果較傳統的文本分類方法均有較大提升。

然而漢語詞匯中存在大量一詞多義的現象,Word2Vec模型單純用唯一的詞向量混合表示詞語的多重語義顯然是不合理的,業內學者對此展開了相關研究。Tian[7]假設所有的單詞具有相同的語義個數,通過Skip-Gram模型使用概率混合模型學習詞向量的表達,但這種假設與實際情況相違背,可借鑒性不大。為解決上述問題,Neelakantan等人[8]提出一種名為NP-MSSG的非參模型,訓練出不同個數的向量對多義詞進行表示。而Chen等人[9]依據提前定義好的多義詞列表,自動學習多義詞的多個向量表達,但其過度依賴外部資源庫的質量。因此,如何通過合適的語言模型有效表達多義詞是一個值得深究的問題。

通過以上分析,本文區別于當前主流的神經網絡分類方法僅將詞向量局限于文本預處理過程[11],在詞向量文本表示法的基礎上研究對詞向量的優化和改進。

1 Skip-Gram模型訓練過程及其局限性

鑒于Mikolov等人在文獻[4]中指出Word2Vec模型中的Skip-Gram訓練模型針對數據稀疏問題更有效,且適用于語料庫較大的情況,因此本文優先選擇Skip-Gram訓練模型作為后期改進算法的基礎模型。

為優化傳統線性Softmax函數計算復雜度高的問題,Skip-Gram模型采用基于霍夫曼樹的層次Softmax(Hierarchical Softmax)函數[12-14]。其輸出層對應一棵二叉樹,數據集中的詞語作為葉子結點,各個詞語出現的次數作為權值構造Huffman樹[11]。則目標函數表達式如公式(1)所示:

(1)

通過Skip-Gram模型訓練,一個詞語僅對應唯一的詞向量[17-18],則多義詞對應的詞向量混雜表達了多重語義,造成詞向量在不同語境中代表的含義不明確,進而對文本分類的效果造成一定影響,側面體現出Skip-Gram模型在一詞多義問題上的局限性。

2 基于主題-詞向量的多義詞表示

2.1 多粒度協同表達的主題-詞向量

針對上述Skip-Gram模型存在的問題,本文提出“主題-詞向量”的概念,并在Skip-Gram模型的基礎上引入LDA主題模型[19],提出Topic-SG語言模型計算主題-詞向量,利用細粒度的語義特征和粗粒度的主題特征協同表達主題-詞向量,使詞向量結合主題特征向量區分多義詞詞向量在特定主題下的含義。如公式(2)所示,“錘子”的詞向量與代表“電子設備”類主題的主題向量融合即可得到“錘子”在“電子設備”主題下的主題-詞向量,同理通過公式(3)可得到“錘子”在“工具”類主題下的主題-詞向量。二者依據主題向量的特征區分多義詞“錘子”的詞向量,其中“錘子”對應的向量是細粒度的語義特征,“電子設備”、“工具”對應的向量則是粗粒度的主題特征,兩者協同表達,可以更準確地定位每個詞語在具體上下文的精確語義。

錘子 電子設備

[v11v12…v1m]⊕[z11z12…z1m=[v11v12…v1mz11z12…z1m]

(2)

錘子 工具

[v11v12…v1m]⊕[zk1zk2…zkm]=[v11v12…v1mzk1zk2… zkm]

(3)

2.2 主題-詞向量的訓練過程

本文借助LDA主題模型的訓練得到“文檔-主題”概率分布Θ和“單詞-主題”關聯性概率分布Φ,以及每個潛在主題下概率最大的前n個詞語。對于某一文檔d={w1,w2,…,wl}中的單詞wi,可依據概率分布P(ti|wi,d)∝P(wi|ti)P(ti|d)分配一個主題ti[20]。最終LDA訓練模型呈現收斂效果后,每篇文檔中的每個詞語w將被賦予一個或多個特定的主題t,每個詞語和對應的一個或多個主題組合成一個或多個詞語主題對(w,t)用于后續主題-詞向量的訓練。

Topic-SG模型首先需將文本形式的詞語主題對(w,t)初始化為計算機可以理解的向量形式,則先將每個詞語隨機初始化為固定維數的m維向量,并通過Skip-Gram模型根據上下文語義關系訓練出每個詞語對應的詞向量vw。同時,將每個單詞所屬的主題同樣進行向量初始化,初始化的主題向量需依據LDA模型的輸出結果,每個初始化的主題向zw由分配給同一主題的前n個單詞的詞向量求平均所得,且主題向量維數與詞向量相同。LDA模型最初預設定的主題數k決定主題向量個數,將已初始化的主題向量zw輸入Topic-SG模型訓練,并保持詞向量不變。Topic-SG語言模型示意圖如圖1所示。

不同于Skip-Gram模型,Topic-SG語言模型同時考慮當前詞及其所屬的主題信息對上下文進行預測。將當前詞所屬的主題理解為具有相同主題的詞語集合,同樣用一個向量進行表示。借鑒詞向量的訓練機制映射文本的主題信息,最終學習出文本層面粒度較粗的主題向量,代表該主題下所有單詞的語義信息的集合。

圖1 Topic-SG語言模型示意圖

采用層次Softmax方法優化學習過程,Topic-SG模型的目標函數如公式(4)所示:

(4)

(5)

(6)

(7)

Topic-SG模型收斂后計算出的詞向量vw和主題向量zw拼接即可得到詞語w在主題z下的主題-詞向量wz。詞向量在詞語層次進行細粒度的語義特征描述,主題向量在文檔的主題層次進行粗粒度的抽象描述,二者拼接融合,從多粒度特征協同表達多義詞在特定語境主題中的主題-詞向量,由此緩解了傳統Skip-Gram模型存在的多義詞詞向量在具體語境下指代不明的問題。主題-詞向量wz的組成如公式(8)所示:

wz=vw⊕zw

(8)

3 實驗

3.1 實驗數據集

本文實驗選用搜狗實驗室提供的中文新聞文本分類數據集。在預處理階段對原始文本進行格式化處理,并從中抽取新聞內容用于主題-詞向量的訓練和文本分類的數據集。采用jieba分詞工具對格式化處理后的新聞語料進行分詞[21]。

3.2 多義詞的主題-詞向量實驗

此處將本文所提的基于Topic-SG語言模型的主題-詞向量與基于Skip-Gram模型訓練的詞向量進行詞語相似性的比較,相似性的衡量標準由詞向量之間的余弦距離決定[22]。

首先使用Skip-Gram模型訓練語料庫中的所有詞向量,在訓練之前需初始化系列參數,其中,詞向量的維數設定為100,模型中上下文窗口大小默認設置為5,神經網絡的學習速率設定為0.05,訓練完成后得到如表1所示的結果。

表1 與“蘋果”最相似的前10個詞語(Skip-Gram)

針對本文所提的Topic-SG模型計算主題-詞向量,先利用GibbsLDA++工具對大規模語料庫訓練得到每篇文檔中單詞的主題標簽,其中設置隱含主題數k為50,超參數取值α=50/k、β=0.01,迭代次數為1000次。隨后通過Topic-SG模型學習出詞向量及其所屬的主題向量,模型參數與上述Skip-Gram模型的參數設置一致。對主題-詞向量計算相似詞的實驗結果如表2所示。

表2 與“蘋果”最相似的10個詞(Topic-SG)

由表1中的實驗結果可以看出,Skip-Gram模型訓練出的詞向量混雜了多重語義,而表2中的結果顯示Topic-SG模型能計算詞向量“蘋果”分別在“電子設備”和“水果”兩個不同主題下的相似詞。將多義詞“蘋果”的相似詞進行降維及聚類可視化展示,如圖2所示,“蘋果”相似詞分別形成的聚類簇呈現出較明顯的分隔區。由此驗證了Topic-SG模型能識別并訓練出多義詞在不同主題下的詞向量的有效性。

圖2 “蘋果”多義詞的聚類可視化

3.3 文本分類實驗

本文借助最經典的TF-IDF算法計算單個詞語的權重,通過對主題-詞向量的加權求和轉化為文本向量用于文本分類。將提出的Topic-SG模型與VSM模型、LDA模型以及TF-IDF加權的Word2Vec模型的文本分類效果進行對比,分類器均采用SVM分類算法[23]。所有實驗采用五折交叉驗證評估模型的分類效果,并用準確率P、召回率R和F1綜合指標進行測評,測試結果如表3所示。

表3 四種分類方法的測試結果(%)

將表中各類別的平均F1值以柱狀圖的形式展現,如圖3所示。

由圖3可以直觀看出,唐明等人[10]提出的TF-IDF加權的Word2Vec模型的文本分類效果較VSM模型和LDA模型兩種基礎方法有較明顯的提升,由此驗證了Word2Vec模型應用于文本分類的可行性。

本文提出的文本分類方法與加權Word2Vec模型相比又有一些提升,原因在于本文是基于Topic-SG模型計算出的主題-詞向量表示文本向量,而加權的Word2Vec模型中文本向量由Skip-Gram訓練出的詞向量與TF-IDF計算出的權重組合表示,其中主題-詞向量相比于單純的詞向量嵌入了主題特征,同一多義詞

圖3 F1值對比圖

可結合語境主題產生不同的主題-詞向量,從而增大了文本向量的區分度,進一步提高文本分類效果。

圖4利用箱形圖展現了四種文本分類方法的分類結果。基于SVM模型和TF-IDF加權Word2Vec模型應用于文本分類的實驗結果顯示,此兩種方法的F1值四分位距較大,穩定性有待進一步提高。基于LDA模型的文本分類方法雖然正常值分布較集中,但F1值卻整體偏低且有出現異常值的概率。而本文所提的文本分類方法相比于其他三種方法表現得更穩定,F1平均值相對最高。綜合考慮上述文本分類方法的準確性與穩定性,本文所提的基于Topic-SG模型計算出的主題-詞向量更適用于文本分類。

圖4 F1值對比箱形圖

4 結語

當前主流的自然語言處理研究僅將詞向量簡單地作為一種文本預處理環節,缺乏對詞向量本身特點的深入分析。本文的工作以詞向量本身的不足作為切入點,有助于進一步深刻理解和擴展詞向量這一新型語言模型的應用深度和廣度。

針對詞向量無法較好解決文本中普遍存在的多義詞問題,本文深入研究基于Skip-Gram模型的詞向量的生成機制,提出“主題-詞向量”的概念,試圖定位詞匯在上下文中的精準含義,利用多粒度特征協同表達多義詞在不同語境中所表示的含義,并將主題-詞向量概念應用于文本分類問題。實驗結果表明,本文提出的“主題-詞向量”概念及其實現模型Topic-SG,能更好地完成混合了多種語義的文本分類問題。

后續將對“主題-詞向量”這一概念及其訓練過程進行更深度的剖析,考慮使用不同類型的大規模語料庫,借助多元化數據理解特定環境下的語言特點,提高主題-詞向量在各類應用中的普適性。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 全裸无码专区| 亚洲三级片在线看| 亚洲精品少妇熟女| 国产高清在线观看91精品| 人妻无码中文字幕第一区| 中文字幕天无码久久精品视频免费 | 国产成人一区二区| 日韩色图区| 日本a级免费| 最新国产精品第1页| 91视频免费观看网站| 亚洲自偷自拍另类小说| 天天色综网| 亚洲av色吊丝无码| 白浆免费视频国产精品视频 | 亚洲无码不卡网| 亚洲欧洲日韩国产综合在线二区| 久久伊人操| 亚洲天堂网在线视频| 亚洲第一色网站| 性视频久久| 成人久久精品一区二区三区| 欧美成人午夜视频| 亚洲床戏一区| 在线观看国产小视频| 九九久久精品免费观看| 福利视频99| lhav亚洲精品| 午夜国产理论| 韩日免费小视频| 国产永久在线视频| 国产黄色视频综合| 国产在线视频自拍| 色有码无码视频| 亚洲国产亚洲综合在线尤物| 欧美成人a∨视频免费观看| 国产精品丝袜视频| 国产精品中文免费福利| 99久久精品国产自免费| 手机在线免费毛片| 国产人妖视频一区在线观看| 国产精品三级专区| 在线一级毛片| 亚洲日本精品一区二区| 国产人妖视频一区在线观看| 欧美日韩高清在线| 婷五月综合| 色综合久久88| 亚洲资源站av无码网址| 亚洲成在人线av品善网好看| 欧美亚洲一二三区| 婷婷六月综合网| 国产成人亚洲精品无码电影| 干中文字幕| 亚洲欧洲日韩久久狠狠爱| 亚洲精品国产精品乱码不卞| 欧美区一区二区三| 国产69囗曝护士吞精在线视频| 狠狠色婷婷丁香综合久久韩国| 综合成人国产| 日本午夜影院| 四虎在线高清无码| 国产欧美视频在线| 狼友av永久网站免费观看| 国产人成午夜免费看| 国产麻豆另类AV| 国产自在线拍| 特级做a爰片毛片免费69| 国产AV毛片| 国产污视频在线观看| 成人欧美在线观看| 99热这里只有免费国产精品| 免费国产无遮挡又黄又爽| 成人亚洲天堂| 国产美女无遮挡免费视频网站 | 91成人在线观看| 亚洲视频二| 亚洲天堂在线视频| 国产欧美日韩va另类在线播放| 国产精品精品视频| 午夜啪啪福利| 久久国产高清视频|