999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖深度學習的金融文本多標簽分類算法

2022-04-18 10:56:08金雨澄王清欽苗仲辰林越峰項雅麗
計算機工程 2022年4期
關鍵詞:關聯(lián)語義文本

金雨澄,王清欽,高 劍,苗仲辰,林越峰,項雅麗,熊 贇

(1.復旦大學 計算機科學技術學院,上海 210438;2.上海市數(shù)據(jù)科學重點實驗室,上海 200438;3.上海金融期貨信息技術有限公司,上海 200120)

0 概述

在移動互聯(lián)網時代,金融新聞資訊成為人們高效獲取市場情報的主要途徑。然而隨著新聞數(shù)量的爆發(fā)式增長,如何準確地對金融文本進行分類用以精準推薦或輔助決策,成為亟待解決的問題。由于單條新聞文本常常同多個標簽相關聯(lián),因此多標簽文本分類問題受到廣泛關注[1-3]。

二元關聯(lián)是解決多標簽問題最常用的思路[1-3]。二元關聯(lián)把多標簽分類轉化為多個二分類問題[4],每次針對一個標簽類別開展,即每次判斷樣本是否屬于某個類別。不同的標簽與文本中不同的特征有關。文獻[1]提出的CAML算法使用標簽注意力機制為每個二分類問題進行特征提取。然而,CAML使用固定窗口大小的卷積網絡融入上下文信息,導致模型只能提取固定長度的局部短語信息。文獻[2-3]提出的MSATT-KG和BiGRULWAN 算法分別使用密集連接卷積層和雙向門控循環(huán)網絡代替一維卷積層,從而關注到文本中不同粒度的上下文信息。文獻[5]提出的ZACNN 算法在CAML 的基礎上進一步融入標簽語義特征等先驗知識,以提升模型在小樣本場景下的性能表現(xiàn)。然而,這些工作都忽略了標簽之間的復雜依賴關系,二元關聯(lián)中多個二分類問題并不是相互獨立的。

圖深度學習[5-7]通過深度網絡刻畫了圖節(jié)點之間的關聯(lián),其在蛋白質分子屬性推斷[8]、交通流量預測[9]、金融欺詐檢測[10]、新聞文本分類[11]等領域得到了成功應用。在多標簽文本分類中,也有一些工作通過圖深度學習刻畫了標簽層級結構。文獻[12-13]分別提出使用Tree-LSTM(Tree-structured Long Short Term Memory)網絡和圖卷積神經網絡(Graph Convolution Network,GCN)對標簽的層級結構和標簽語義描述進行編碼表示。上述方法都依賴于預先定義的標簽層級結構和豐富的標簽語義信息。然而,在金融領域,這樣的標簽結構信息獲取依賴于專業(yè)領域人員,對標簽劃分層級結構的代價很大,并且由于尾部標簽出現(xiàn)頻次較低,尾部標簽對應的二分類問題中正負樣本數(shù)量嚴重失衡,但上述工作難以直接處理這種數(shù)據(jù)的不均衡性問題。

本文通過建模金融文本多標簽分類中標簽之間的相關性,提出基于圖深度學習的金融文本多標簽分類算法,在不依賴于標簽層級結構等先驗知識的前提下,學習語義信息以建模標簽之間的復雜依賴關系。該算法根據(jù)原始數(shù)據(jù)集中的標簽分布構建標簽關聯(lián)圖,對新聞文本使用雙向門控循環(huán)網絡進行上下文語義嵌入,并將通過標簽注意力機制得到的文本特征表示作為圖上對應標簽節(jié)點的屬性信息,進一步使用圖神經網絡融合標簽之間的關聯(lián)與文本信息得到新聞的特征表征,利用多個線性層預測新聞文本在標簽空間中的概率分布。同時,為解決二元關聯(lián)中尾部標簽正負樣本嚴重不均衡的問題,選用非對稱損失函數(shù)[14]作為優(yōu)化目標。

1 問題定義

給定一段新聞文本,經過分詞、去除停用詞等處理,將原始輸入文本轉換為字符序列d=[w1,w2,…,wm],其中:wi表示輸入序列中的第i個單詞;m表示輸入文本長度。標簽空間被定義為集合{l1,l2,…,lL},其中:L代表標簽空間中的標簽數(shù)量。每個新聞文本可能屬于一個或多個標簽,表示為標簽集合C。本文多標簽文本分類任務的目標是學習一個映射函數(shù)f(·),將字符序列映射為一個標簽集合C,即f(d)=C,0 ≤|C| ≤L。具體地,輸入新聞樣本d,對于每個標簽li,模型輸出該樣本屬于標簽li的概率,最終根據(jù)輸入樣本關于L個標簽的概率構造輸出標簽集合C。

2 基于圖深度學習的多標簽分類算法

本節(jié)將詳細介紹本文提出的基于圖深度學習的多標簽文本分類模型FMLG,其中所使用的重要符號定義如表1 所示。

表1 重要符號定義Table 1 Definition of important symbols

2.1 模型框架

圖1 展示了FMLG 模型的基本框架。輸入新聞文本d。首先,將原始字符序列轉換為嵌入表示,并進一步表示為融合上下文信息的語義嵌入向量,由于不同標簽會側重不同的文本特征,因此多標簽注意力網絡使用多個注意力頭提取標簽相關的文本特征;然后,為了捕捉標簽之間的依賴關系并學習更豐富的語義信息,在構建標簽關聯(lián)圖的基礎上,模型使用門控圖神經網絡實現(xiàn)標簽間的語義特征交互;最后,多個線性層被用于預測標簽的概率分布。

圖1 FMLG 模型框架Fig.1 Framework of FMLG model

2.2 上下文語義嵌入

JOHNSON 等[15]指出,預訓 練的詞嵌入 表示可以使模型訓練過程更加穩(wěn)定,因此,使用word2vec[16]進行嵌入表示學習。單詞序列經過嵌入表示后得到向量序列為了在嵌入表示中融入上下文信息,進一步使用雙向門控循環(huán)網絡對向量序列H進行編碼,得到一系列文本的上下文語義嵌入表示

2.3 多標簽注意力網絡

由于文本中常常包含大量冗余信息且每個標簽側重不同角度的文本特征,因此FMLG 使用標簽注意力{q1,q2,…,qL}進行特征提取,對每個注意力向量有qi∈注意力權重計算方式如下:

其中:αij代表文本中第j個字符與標簽li的相關程度;fai代表同標簽li相關的文本向量表示。最終可以得到文本的向量表示

2.4 圖語義交互層

盡管FMLG 模型利用了標簽注意力來提取與各個標簽相關的文本特征,但這樣的做法只是在標簽與文本之間建立聯(lián)系,仍然無法捕捉標簽之間的關系。本文先利用統(tǒng)計關系對標簽進行構圖,再通過門控圖神經網絡[17]對其進行特征交互。這不僅可以在模型中顯式地融入標簽之間的關聯(lián),而且其中的門控機制也可以自適應地捕捉到更豐富的相關文本特征。

本文模型首先根據(jù)訓練集構建標簽關聯(lián)圖G,圖G為有向帶權圖,其中節(jié)點集V由數(shù)據(jù)集中的所有標簽組成,邊權Aij被定義為標簽li和lj之間的條件概率,條件概率通過訓練數(shù)據(jù)集估算得到,即:

其中:I為指示函數(shù)。給定圖G,模型使用門控圖神經網絡進行特征交互。圖上節(jié)點的初始向量表示設置為注意力層提取得到的特征,即首先通過圖上的信息流動從鄰節(jié)點聚合信息:

然而從鄰節(jié)點聚合到的信息可能存在噪聲,因此模型使用門控機制自適應選擇有效信息,信息聚合與傳遞的具體過程如下:

其中:||代表拼接操作。

最終,對于每個類別,模型訓練一個二分類器:

2.5 損失函數(shù)

由于大部分標簽只在少數(shù)樣本中出現(xiàn),因此采用二元關聯(lián)解決多標簽分類會導致二分類問題中正負樣本比例的嚴重失衡。本文采用非對稱損失函數(shù)(Asymmetric Loss)[14]處理非均衡分布問題。非對稱損失通過權重衰減因子和置信度閾值平衡正負樣本在損失中的占比。預測概率同真實概率pi之間的非對稱損失函數(shù)Lasy計算如下:

其中:L+和L-分別代表樣本作為正類和負類時帶來的損失。權重衰減因子γ用于為易分負樣本的損失賦予更小的權重,置信度閾值m用于忽略預測置信度較高負樣本帶來(<m)的損失。上述2 個參數(shù)可以減少負樣本在損失中的占比,使模型更注重正樣本產生的優(yōu)化信息。

3 實驗與結果分析

本節(jié)通過實驗驗證FMLG 模型的有效性,并分析討論實驗中的場景數(shù)據(jù)以及相關的參數(shù)設置。

3.1 數(shù)據(jù)集

實驗使用的金融新聞數(shù)據(jù)集中共包含84 707 條中文金融新聞文本,文本的平均長度為598 個中文字符。每條文本由新聞標題和內容兩部分組成。數(shù)據(jù)集中的每條文本都被打上多個金融類話題標簽,共包含115 個標簽。數(shù)據(jù)集中每條文本平均被打上1.5 個標簽,35%的文本標簽數(shù)量大于1,13%的標簽在數(shù)據(jù)集中出現(xiàn)次數(shù)少于100 次。

3.2 對比算法

下面介紹本文采用的對比算法:

1)CAML[1]。由于文本中存在大量冗余信息且不同標簽對應著不同的文本特征,因此該方法提出在卷積神經網絡的基礎上,進一步使用注意力機制為每個標簽進行特征提取。

2)BiGRU-LWAN[3]。由于卷積神經網絡只能提取局部信息,而雙向GRU 可以捕捉長距離依賴,因此該方法將CAML 的卷積神經網絡替換為雙向GRU。BiGRU-LWAN 在多個多標簽文本分類數(shù)據(jù)集上都取得了極佳的效果,是一個極具競爭力的對比算法。

3)ZACNN[5]。RIOS 等提出在CAML 中融入標簽的語義信息以進一步提升模型在尾部低頻標簽上的性能表現(xiàn)。

3.3 實驗設置

實驗預處理階段使用jieba(https://github.com/fxsjy/jieba)對文本進行分詞,并取文檔頻率大于4 次的字符組成詞表。預訓練嵌入表示維度設置為100。隨機劃分70%、15%、15%的數(shù)據(jù)分別作為訓練集,測試集和驗證集,并將在訓練集中出現(xiàn)次數(shù)少于100 次的標簽視為尾部少樣本標簽。

對于本文提出的FMLG 算法,經雙向GRU 編碼后的特征維度dc,門控圖神經網絡隱藏層維度都設置為300。非對稱損失函數(shù)中的γ和m分別被設置為2 和0.05。對于CAML 算法,CNN 的卷積核大小設置為3,特征維度dc設置為100。BiGRU-LWAN 的特征維度設置為300。ZACNN 的卷積核大小設置為3。

為了使得模型有著更好的泛化能力,實驗中對于上述所有模型的詞嵌入層向量表示和注意力系數(shù)使用概率為0.2 的Dropout[18]。訓練階段優(yōu)化器選用Adam[19],學習率設置為10-4,ZACNN 訓練輪數(shù)設為30 輪,其余模型設置為10 輪。本文實驗中選擇廣泛使用的評價指標精度、召回率和F1 值來評估模型的性能對比,并基于驗證集選擇最優(yōu)的模型進行測試。

3.4 實驗結果

在FMLG 模型上分別進行2 組實驗。FMLG/BCE 和FMLG/ASL 分別表示使用交叉熵和非對稱損失函數(shù)訓練的FMLG 模型。表2、表3 展示了模型在所有標簽和尾部標簽上的性能表現(xiàn),其中,加粗數(shù)據(jù)表示最優(yōu)結果。

表2 模型在所有標簽上的性能表現(xiàn)Table 2 Model performance on all labels %

表3 模型在尾部標簽上的性能表現(xiàn)Table 3 Model performance on tail labels %

從表2、表3 所列出的實驗數(shù)據(jù)可以看出:

1)ZACNN 模型效果最差。ZACNN 中標簽的嵌入表示通過標簽名稱中字符的嵌入表示取平均得到,但是由于標簽名稱同對應文本特征存在較大的語義鴻溝,因此導致模型表達能力欠缺。

2)BIGRU-LWAN 效果優(yōu)于CAML,表明卷積網絡只能提取固定長度的局部信息的特點具有局限性,雙向GRU 可以更好地建模上下文之間的長距離依賴。

3)相比BIGRU-LWAN,F(xiàn)MLG/BCE 取得了更好的結果,且在尾部標簽上的提升更為明顯,這表明顯式地建模標簽之間的關聯(lián)能夠提升模型性能。

4)對比FMLG/BCE 和FMLG/ASL 可以發(fā)現(xiàn),使用非對稱損失函數(shù)能夠大幅提升模型在正負樣本失衡條件下的召回率與F1 值。

為了更加直觀,在表4 中進一步列出部分測試樣例預測結果,其中文本中的下劃線部分代表新聞中的重要信息。從中可以發(fā)現(xiàn),相比性能最優(yōu)的對比算法BIGRU-LWAN 算法,F(xiàn)MLG 可以預測出更為完整的標簽集合。以樣例1 為例,由于標簽“A 股策略”和“研判優(yōu)選”在訓練集中存在共現(xiàn)關系,它們在標簽關聯(lián)圖中存在連邊,F(xiàn)MLG 可以通過圖語義交互層學習兩者之間的依賴關系,從而實現(xiàn)更為準確完整的預測輸出。

表4 部分測試樣例預測結果Table 4 Prediction results of some test samples

3.5 消融實驗

為表明語義交互層帶來的提升不完全是由于更深層的網絡結構導致,實驗中還將圖神經網絡中的鄰接矩陣替換為單位陣。從表5 實驗結果可以發(fā)現(xiàn),使用單位陣代替標簽關聯(lián)圖會導致性能下降。這表明在模型中通過構建標簽關聯(lián)圖的方式顯式建模標簽之間的關聯(lián)具有重要意義。

表5 不同鄰接矩陣對實驗結果的影響Table 5 Influence of adjacency matrix to experimental result %

此外,還通過實驗探究不同圖神經網絡結構對實驗結果的影響,實驗結果見表6。可以發(fā)現(xiàn),門控圖神經網絡取得了更好的效果,進一步驗證了從鄰節(jié)點聚合到的信息往往存在噪聲,門控機制可以從中自適應選擇有效信息。

表6 不同圖神經網絡對實驗結果的影響Table 6 Influence of different graph neural networks to experimental result %

4 結束語

本文提出基于圖深度學習的多標簽文本分類算法FMLG,通過標簽統(tǒng)計信息構建關聯(lián)圖,并利用門控圖神經網絡挖掘標簽之間的關系。在與各個算法的對比實驗中,F(xiàn)MLG 在所有標簽和尾部標簽的宏觀F1 值上最高取得了2.0%和4.5%的提升,這表明顯式建模標簽之間的關系可以大幅提升模型的泛化能力。為了進一步解決二元關聯(lián)中正負樣本不均衡的問題,F(xiàn)MLG 使用非對稱損失函數(shù)作為優(yōu)化目標。相比現(xiàn)有算法,F(xiàn)MLG 在所有標簽和尾部標簽宏觀F1值上最高取得了3.1%和6.9%的提升。由于現(xiàn)實場景中標簽數(shù)量較多,數(shù)據(jù)集中的樣本常常只被打上部分標簽,使用存在標簽缺失的樣本訓練模型會對性能造成較大的負面影響。后續(xù)將在本文工作的基礎上使用PU learning[21-22](Positive-Unlabelled learning)進一步模型在標簽缺失場景下的魯棒性。

猜你喜歡
關聯(lián)語義文本
“苦”的關聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美日韩在线观看一区二区三区| 中字无码精油按摩中出视频| 亚洲AⅤ波多系列中文字幕| 亚洲精品无码抽插日韩| 日本精品视频| 2020国产精品视频| 69综合网| 国产精品永久免费嫩草研究院| 欧美一级一级做性视频| 999在线免费视频| 国产精品欧美激情| 国产女人18毛片水真多1| 国产精品久久久久婷婷五月| 伊人激情综合网| 亚洲精品777| 亚瑟天堂久久一区二区影院| 国产精品hd在线播放| 国产区精品高清在线观看| 在线色国产| 中字无码av在线电影| 91视频国产高清| 国产精品黄色片| 国产欧美高清| 久99久热只有精品国产15| 999精品色在线观看| 999国产精品| 人妻丰满熟妇啪啪| 亚洲综合日韩精品| 天天躁夜夜躁狠狠躁躁88| 波多野结衣无码中文字幕在线观看一区二区| 成人在线观看一区| 韩国v欧美v亚洲v日本v| 欧美午夜视频| 精品国产成人三级在线观看| 一级片免费网站| 成人看片欧美一区二区| 亚洲欧美精品日韩欧美| 欧美色视频在线| 在线国产综合一区二区三区| 91精品aⅴ无码中文字字幕蜜桃| 九九九精品成人免费视频7| 亚洲国产中文综合专区在| 老汉色老汉首页a亚洲| 国产精品妖精视频| 日韩一区二区三免费高清| 91丝袜乱伦| 欧美成人免费一区在线播放| 精品无码国产一区二区三区AV| 在线观看国产精美视频| 又黄又湿又爽的视频| 久久这里只有精品23| 欧美日本二区| 国产成人无码综合亚洲日韩不卡| 专干老肥熟女视频网站| 久久青草热| 国产精品综合久久久| 日韩免费毛片视频| 国产一区二区三区日韩精品| 成人毛片免费在线观看| 伊大人香蕉久久网欧美| 精品免费在线视频| 国产成人精品一区二区免费看京| 色哟哟色院91精品网站| 亚洲啪啪网| 97超级碰碰碰碰精品| 欧美日韩一区二区在线播放| 国产99视频精品免费观看9e| 国产精品自在线拍国产电影| 黄色a一级视频| 91精品啪在线观看国产60岁| 国产丝袜91| 亚洲AⅤ综合在线欧美一区| 国产在线观看成人91| 久久美女精品| 成人午夜免费观看| 国产精品护士| 欧美视频在线播放观看免费福利资源| 日韩精品无码免费一区二区三区| 国产亚洲精品在天天在线麻豆| 美女扒开下面流白浆在线试听| 91精品免费久久久| 国产一级小视频|