999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SGC-LDA模型的財經文本主題研究

2022-08-09 05:49:10覃桂雙
計算機工程與應用 2022年15期
關鍵詞:文本模型

傅 魁,魯 冬,覃桂雙

武漢理工大學 經濟學院,武漢 430070

財經數據挖掘被廣泛應用于各種經濟領域,如股票價格預測[1]、經濟不確定性度量[2]以及經濟周期預測[3]等。當前財經領域模型研究主要是定量的模型,針對結構化數據進行研究[4],而對于非結構化的財經文本類數據關注較少。同時,當今互聯網上的財經文本數據呈現出信息量龐大、增長速度迅猛、非結構性、主題模糊、高度動態性、覆蓋范圍廣等特征,造成了“信息豐富而知識匱乏”等問題,而傳統數據挖掘技術難以應用其中,導致無法從財經文本中高效而準確地獲取有價值的財經信息。因此如何實現對財經文本中隱含的主題進行準確的建模,成為一個亟待解決的問題。

當前,主題建模技術被廣泛應用于股票趨勢分析[5]、財經政策主題提取[6]、行業分類[7]、短視頻的喜好率預測[8]、投資者情緒識別[9]等領域。準確進行財經主題建模,并保證模型的時效性,是對財經統計數據的一種有效補充,對于促進經濟領域中的評估經濟狀況、預測市場波動和趨勢、抑制通貨膨脹、為投資者和決策者提供有價值的參考、改善投資策略等都至關重要同時大有裨益。

LDA模型是應用最常見的主題模型,諸多學者由基本LDA模型出發,致力于構建可以滿足不同應用場景需求的LDA擴展模型。其中,Blei等人[10]提出CTM(correlated topic model)模型,該模型將分布替換為邏輯正態分布,通過計算協方差矩陣來度量不同主題之間的關聯度。Rosen-Zvi等人[11]提出并構建作者-主題模型(author-topic model,ATM),通過引入作者要素,研究文本主題與文本作者以及不同文本主題之間的關系。Li等人[12]引入有向無環圖以全面表征所有主題之間的關聯性,建立PAM(pachinko allocation model)模型。王振飛等人[13]提出MTLDA(microblog topic latent dirichlet allocation)方法,通過時間片劃分完成了微博話題的生成,證實話題演化結果與實際情況吻合。Wang等人[14]通過對文本主題的演化進行建模,有效識別了動態主題,其方法稱為TM-LDA模型。

雖然傳統的LDA模型在主題發現方面優勢明顯,但其難以有效解決建模文本的稀疏性和噪聲性的問題,并且采用滑動時間窗口技術對主題進行動態性建模容易造成主題間斷。因此本文考慮引入一種通用財經主題以過濾文本噪聲,采用滑動時間窗口技術,同時加入遺傳因子保持不同主題間的連續性,提出并構建SGCLDA模型的財經文本主題模型。本文提出的方法有以下幾點優勢:

(1)基于滑動窗口技術,引入財經主題遺傳因子和通用財經主題,提出改進的SGC-LDA財經文本主題模型,彌補了傳統主題模型在研究財經主題領域的不足,提升對于財經文本主題研究的精度。

(2)基于通用財經主題的文本噪聲過濾建模,有效降低了財經文本數據中噪聲數據帶來的負面影響。

(3)引入財經主題遺傳因子以解決采用滑動時間窗口技術對主題進行動態性建模容易造成主題間斷的問題。

(4)運用財經文本對于本文所提出的SGC-LDA模型進行實證分析,驗證了模型在財經文本挖掘領域的優越性。

1 LDA主題模型

主題模型是一種文本內容的概率生成模型,能找到生成文本的最佳主題和詞項,最大程度表示文本所蘊含的含義,有效解決文本、潛在主題和詞項之間的語義關聯問題[15],因此常被用于文本主題建模。主題模型包括如潛在語義分析(LSA)[16]、概率潛在語義分析(PLSA)[17]和潛在狄利克雷分布(LDA)[18]等,其中運用最為廣泛的是LDA模型。

LDA模型是一個包含文本、主題和詞語三個層次的貝葉斯模型,通過非監督學習的方式對大規模文本集中的潛在主題信息進行識別。其基本原理是模擬了一篇文本的生成過程,即根據一篇文章的主題循環抽取主題對應的詞語從而生成一篇文本,基于LDA模型的文本具體生成過程如下所示:

(1)給定文本d,選擇d的長度N即d包含的詞項總數,N~Poisson(ξ)。

(2)選擇θ,使θ~Dirichlet(α)。

(3)選擇N個詞項中的每個詞項:

①選定主題Zn,使Z n~Mutinotional(θ)。

②根據p(w|Z n,β)的計算結果選擇詞項w n,其中,矩陣βKV中βij=p(W j=1|Z i=1)。

對應的圖模型如圖1所示。

圖1 LDA模型圖Fig.1 LDA model diagram

2 財經主題建模

2.1 財經主題建模框架

為解決主題模型存在的問題,本文在LDA模型的基礎上,考慮時間因素,基于滑動窗口技術(sliding-window technique),引入財經主題遺傳因子(genetic factor of financial topic)和通用財經主題(common financial topic),提出一種SGC-LDA(sliding-window,genetic factor and common financial topic LDA)模型,從而解決傳統LDA模型在財經文本建模中存在的噪聲問題和主題間斷問題,更好地反映財經文本的關鍵主題。

本文財經主題建模框架如圖2所示,包括核心步驟文本噪聲過濾、時間片劃分、引入遺傳因子和SGC-LDA財經主題建模四部分。具體來說:

圖2 基于SGC-LDA模型的財經文本主題建模框架Fig.2 Financial text topic modeling framework based on SGC-LDA model

(1)基于通用財經主題的文本噪聲過濾。為減少噪聲數據的影響,本文引入通用財經主題,以捕獲通用語義和噪聲干擾詞,定義描述特定財經主題的常規主題為功能財經主題,假定每個財經文本都是功能財經主題和通用財經主題的混合,本文結合通用財經主題和功能財經主題實現文本噪聲過濾。

(2)對財經文本進行時間片劃分。為避免文本數量稀少時間片的跨度太大的問題,本文結合等時間切分和等文本數量劃分兩種方法,先對文本采用等時間片切分,當該切分的時間片下文本數量達不到既定的閾值時,自動合并下一個時間片的文本作為當前窗口的文本。

(3)引入財經主題遺傳因子。本文通過引入財經主題遺傳因子,將前一時間片此項分布后驗概率乘以財經主題遺傳因子作為后一時間片此項分布的先驗概率,來保持財經主題的連貫性。

(4)SGC-LDA財經文本主題建模。結合上述三點,本文提出并構建SGC-LDA模型,并將其用于財經主題建模。

2.2 基于SGC-LDA模型的財經文本主題建模

本文財經文本主題模型可以用時間片、財經主題、詞項和概率四個元組表示為:

其中,Zi1={(w1,p(w1|z1)),(w2,p(w2|z2)),…,(w n,p(w n|z n))}(Zi2,Zi3,…,Z in表達式同理),z為財經主題模型隱含主題,w為特征詞表中的詞項,p為對應財經主題中相應詞項的概率;T為每個時間窗口對應的時間片。

2.2.1 基于通用財經主題的文本噪聲過濾

財經類文本主要由財經主題和非財經噪聲數據構成,為了解決噪聲問題,本文基于混合一元模型[19]思想,引入通用財經主題,以收集噪聲詞,通過將噪聲詞的生成過程添加到模型結構中來解決噪聲問題。具體而言,定義通用財經主題,以捕獲通用語義和噪聲干擾詞,而描述特定財經主題的常規主題稱為功能財經主題,假定每個財經文本都是功能財經主題和通用財經主題的混合。

混合一元模型假設每個文本僅涉及一個主題,這種假設可以間接豐富文本級別的主題的詞項標記樣本,從而為稀疏的文本進行有效建模。基于混合一元模型思想,文本W具體的產生流程主要包括2個步驟:第一步,按照語料庫級主題分布θ,選取主題Z w;第二步,基于第一步的條件,獨立于主題-詞項分布生成N d個詞項標記,進一步生成文本W。假設有Z1,Z2,…,Z n,生成文本W的概率表示為式(2):

混合一元模型通過為所有詞項分配相同的主題來對文本建模,本文基于混合一元模型的思想,提出并構建本文文本噪聲過濾模型。首先,由Dirichlet先驗α得到功能財經主題上的語料庫級多項式分布θ。其次,從Dirichlet先驗β得出所有主題的詞項多項式分布φ。最后在單詞生成過程中,對于每個文本d,從分布θ得出功能財經主題z t,進一步根據Dirichlet先驗η在所選功能財經主題和所有通用財經主題上生成多項式分布πd。對N d個標記詞項重復以下過程N d次:從分布πd采樣主題z dn,然后從分布φz d采樣標記詞項w dn。圖3為本文提出的文本噪聲過濾建模圖模型,參數說明如表1。

圖3 基于通用財經主題的文本噪聲過濾建模圖模型Fig.3 Text noise filtering modeling graph model based on general financial theme

表1 參數說明Table 1 Parameter description

由于共軛Dirichlet多項式的設計可以有效地邊緣化多項式分布φ、θ和π。因此,只需要采樣兩個主題分布z′和z。其中功能財經主題z′t和z t在給定所有其他變量的情況下交替采樣,直到收斂。

與混合一元模型及LDA模型的推導過程類似,K個功能財經主題上z′的條件后驗概率如式(3)所示:

其中,表示分配給功能財經主題k的文本數量;N v和N kv分別表示詞項類型v的數量和分配給財經主題k的單詞總數;N dv表示財經文本d中出現的單詞類型v的數量;是在財經文本d中分配給所選功能財經主題的標記詞項的數量;上標“-d”表示除去文本d后的財經文本數量。

此外,z在所選功能財經主題z′和通用財經主題C上的條件后驗概率如式(4)所示:

其中,N dk表示在文本d中分配給財經主題k的標記詞項的數量;上標“-dn”表示從位置(d,n)除去zdn后的財經文本數量。本文提出的文本噪聲過濾模型的Gibbs采樣推斷算法。

2.2.2 財經主題遺傳因子

由于當前時間片內的語料信息中攜帶了歷史信息,即相鄰時間片的語料間存在繼承關系,本文將這種關系定義為“財經主題遺傳”。本文在傳統的時間窗口法的基礎上,根據“財經主題遺傳”的思想,在財經主題建模過程中基于以下方法來維持財經主題的遺傳性:將時間片t-1的詞項分布后驗概率乘以財經主題遺傳因子g的結果作為時間片t的詞項分布先驗概率。

由于時間片t內的語料信息中包含有時間片t至時間片t-1的信息,因此計算時間片t+1的主題分布時僅考慮時間片t的計算結果即可。一般而言,g不同取值會對實驗結果產生不同的影響,過小的g值將導致前后財經文本的主題無法對齊,過大的g值則容易造成非相關財經主題因為共詞的出現被強制對齊的問題。為了便于模型的高效實現,本文根據簡化遺傳度處理方式,財經主題遺傳因子g的計算如式(5)所示:

其中,Token t-1表示t-1時間片內的詞項數目,λ為自定義參數。結合權重λ值及相鄰時間片的詞項數目進行變換,類似于對文本語料進行平滑處理,有助于解決對文本語料進行切分導致財經主題連續性被破壞的問題。

2.2.3 SGC-LDA財經文本主題建模

基于SGC-LDA模型的財經文本主題建模具體做法是,首先采用等時間片對財經文本進行切分,當該切分的時間片下文本數量達不到既定的閾值時,自動合并下一個時間片的文本作為當前窗口的文本;然后,將前一時間片t-1輸出的財經主題-詞項分布的后驗概率φt-1乘以遺傳因子g得到的φt=gφt-1,其結果作為當前時間片t內財經主題-詞項分布的先驗概率;同時,定義通用財經主題πt,通過在每個時間片中將噪聲詞的生成過程添加到模型結構中來解決噪聲問題;最后構建財經主題模型,SGC-LDA財經文本主題具體建模過程如下所示:

首先將財經文本按照設定好的時間段劃分為t個時間片文本集,每一個時間片文本集內對應一個φt和θt。

(1)抽取時間段t。

(2)如果是第一個時間片t=1,則θt=Dirichlet(αt)。

(3)否則,計算計算φt=gφt-1。

(4)對于給定文本d,采樣一個功能財經主題分布θt=Dirichlet(αt),抽取財經主題概率分布θt:p(θt|αt)。

①對于文本d中的每個詞項,選擇一個財經主題z t:p(z t|θt),生成每一個詞項w t:p(w t|z t,βt)。

②對于文本d:

采樣一個功能財經主題z′t~Multinimial(φtn)。

采樣一個z′t及所有通用財經主題的混合分布πt~Dirichlet(ηt)。

對于Nt個詞中的每個詞Wtn,采樣一個財經主題Ztn~Multinimial(πt),采樣一個詞項Wtn~Multinimial(φtn)。

對應的圖模型如圖4所示。

圖4 SGC-LDA財經文本主題建模圖模型Fig.4 SGC-LDA financial text topic modeling graph model

為了更好地描述財經文本的主題,本文基于文本對于財經主題的貢獻度選出代表性文本,對于指定財經主題內容的覆蓋度即貢獻度較高的文本將被選為該財經主題的主題文本,從而對不同財經主題進行擴充。主題文本的選擇按照文本中包含指定財經主題的關鍵字比例來進行,計算方法如式(6)所示:

其中,topic是財經主題總數,n代表文本M的中包含主題t k的關鍵詞個數,N代表文本M的詞項總數量,如果文本中N>5,則該文本為候選主題文本。按照內容覆蓋度對計算結果進行排序,為所有的財經主題選擇主題文本。

3 實驗及結果分析

綜合Alexa排名[20]、百度權重、PageRank值(PR值)[21]等評估標準,本文選取新浪財經、鳳凰財經和中國經濟網這三個財經新聞網站平臺,為本文實驗提供財經文本數據。本文通過網絡爬蟲技術,從上述平臺的財經新聞模塊爬取了自2019年1月1日至2019年12月31日共一年的財經文本,總計10 950篇。

3.1 對比基準模型及模型評價指標

(1)對比基準模型

為了驗證本文提出的SGC-LDA模型的泛化能力、模型在保持財經主題的連續性等方面的優勢,本文選取傳統LDA模型作為本文的對照模型。

(2)模型評價指標

衡量模型的困惑度(Perplexity)是當前用于衡量主題模型泛化能力的常用方法,通過對比新模型與基準(Baseline)模型的困惑度,驗證新模型對于未觀測數據具備更好預測能力。困惑度的計算表示為式(7):

其中,M代表測試文本集中文本的數量,N d代表文本d中詞語的數量,w d代表文本d中的詞語,p(w d)代表文本中詞語w d出現的概率。

3.2 財經文本主題建模過程與結果分析

3.2.1 模型參數設定

(1)根據經驗的參數取值

(2)文本語料的時間段劃分方法

為了研究不同的時間段劃分方法對模型性能產生的影響,本文分別選取了以2個月、3個月、4個月為一個時間片的不同劃分方法,然后均取第一個時間片,對比不同主題數取值下的模型困惑度值結果。從圖5可知,三種方式下的困惑度均隨著主題個數的增加而降低,其中按照2個月為一個時間片的劃分方式進行建模,其困惑度始終低于其他兩種,說明在該劃分方式下本文模型性能最優。所以本文將實驗的財經文本以每2個月劃分為一個時間片的方式進行財經主題建模。

圖5 不同時間段劃分方式下的模型困惑度對比Fig.5 Comparison of model confusion degree under different time period division methods

(3)SGC-LDA模型在不同時間片內的最佳主題數量

對于同一主題模型,主題數量K的不同取值會對建模效果產生不同的影響。為了獲得最佳建模效果,一般通過計算主題模型的困惑度來確定K的取值,主題模型對新樣本的分類效果和泛化能力同困惑度大小成負相關關系。當預測數據的不確定程度較高時,困惑度折線圖中曲線的拐點處對應最優主題數取值點。實驗過程中選取不同的K值,觀察本文模型(時間片均為2個月)與傳統LDA模型的困惑度變化情況,結果如圖6所示。

圖6 LDA與SGC-LDA模型的困惑度對比Fig.6 Comparison of confusion degree between LDA and SGC-LDA models

從圖6中可以看出每個時間片中的主題模型以及傳統LDA模型下的困惑度指標雖然都隨著主題數的增加而降低,但是具體取值有所區別,其中以傳統LDA模型的困惑度最高,說明LDA模型性能表現最差。另外,各個模型的最佳主題取值也有所區別,分析得出,t1~t6時間片內的財經主題模型、LDA模型分別取6、6、6、5、5、6、6的時候,模型的性能相對較好,主題抽取結果較為理想。

3.2.2 財經文本主題分析

針對所有實驗語料進行建模,得到財經主題的詞語分布情況。對不同時間片內的語料利用SGC-LDA模型、對所有語料利用LDA模型分別進行財經主題建模,部分建模結果對比如表2所示。

為了更直觀地表示財經主題模型的標簽和權重,本研究采用詞項概率分布進一步生成財經主題模型的詞云圖,可視化SGC-LDA模型建模結果生成的詞云圖如圖7所示。

圖7 SGC-LDA財經主題模型的詞云圖表示Fig 7 Word cloud diagram representation of SGC-LDA financial topic model

從表2可以看出傳統LDA模型輸出結果存在較多的噪聲數據,而本文提出的SGC-LDA模型在輸出結果主題詞幾乎不含噪聲詞,且從表2中t2到t3時間片和圖7中t1到t6時間段所展示的主題詞的變化,能夠反映出的財經主題的連貫性十分明顯,體現出財經主題的遺傳特性,綜上可以分析得出以下結論:

表2 SGC-LDA模型與傳統LDA模型的財經主題詞項對比(示例)Table 2 Comparison of financial subject terms between SGC-LDA model and traditional LDA model(example)

(1)通用財經主題在財經主題建模去噪能力方面表現出一定的有效性。

財經文本中經常出現“本報訊”“責任編輯”和“本報記者”等詞項,通用財經主題能夠有效過濾這些背景噪聲詞。因此,通用財經主題在某種程度上成功地收集了干擾詞,有助于SGC-LDA模型發現更多一致的功能財經主題。

(2)SGC-LDA模型在財經文本主題建模方面表現出優越的分類性能和主題連續性。

對表3進行分析發現,t2、t3時間片財經主題模型下,主題1~6分別與投資理財、民生時事、商業動態、金融市場、宏觀經濟、產業經濟有關。由此可見基于SGCLDA模型對財經文本進行主題建模,財經主題分布的輸出結果中主題間重疊度低,指定財經主題下的詞項能夠清晰準確描述該主題,且相鄰時間片之間的主題也具有較強的關聯性。而傳統LDA模型由于建模時間跨度大,包含語料信息過多,因此輸出的財經主題包括一些背景噪音詞,如“億元”“記者”和“鳳凰網”等,模型分類效果較差。所以,相較于傳統LDA模型,本文提出的SGC-LDA模型具備優越的分類性能和主題連續性。

(3)財經文本主題主要由投資理財、民生時事、商業動態、金融市場、宏觀經濟、產業經濟六個主要部分組成。

①財經主題普遍具有明顯的投資理財專業領域知識主題特征。財經主題1中包含大量關于“基金”“風險”和“財富”等與投資理財領域知識相關的詞項。通過人工觀察相對應的新聞文本,發現該類新聞主要來自于平臺上的理財模塊,該板塊文章主要是針對投資理財的專業方法論、理財傳奇故事和理財產品等。

②財經主題普遍具有社會熱點話題(包括民生時事、商業動態和金融市場)特征。如從時間維度上看,t1~t4時間片(2019年1月—2019年8月)財經主題出現的“豬肉”“非洲豬瘟”“價格上漲”等詞項與“2019年非洲豬瘟疫情”相關。

③財經主題普遍具有明顯的反映宏觀經濟政策和產業經濟狀況能力的特征。如t1時間片的“降息”、t2時間片的“降準”、t3時間片的“定向降準”、t4時間片的“穩中有降”等,有效地反映了我國2019年央行定向降準降息,降低企業融資成本,提高市場流動性,從而促進相關企業和產業發展的舉措。

(4)結合財經主題特征詞和財經文本對財經主題的擴充,能夠更完整準確地描述其財經主題。

為了提高建模結果的可讀性,通過本文模型得到財經文本的不同主題的主題詞,根據前文進一步選擇具有代表性的財經文本對每一主題進行擴充,利用主題詞和主題新聞完成所有語料的財經主題描述。以表1中t3時間片財經主題5為例,按照式(9)選出該主題對應的財經文本,綜合分析新聞文本的語義內容和選定的財經主題特征詞,對其進行描述,結果為“央行定向下調中小銀行人民幣存款準備金率,旨在降低小微企業和民營企業的融資成本,深化金融供給側結構性改革,但此次降準不能被視為央行貨幣政策轉向寬松的信號,因為實際上市場感受到的是中性偏緊縮的貨幣政策”。結果證明,對財經主題進行主題擴充和描述有效提高了建模結果的可理解性。

3.2.3 財經主題動態性分析

根據“財經主題遺傳”的思想,同一財經主題往往出現在連續的時間片中,且主體強度上下波動,具有動態性的特征,因此對于財經主題動態性的研究同樣具有重要意義。為了描述和分析財經主題的動態性,本研究繪制了重要主題的主體強度及所有用戶的主題強度變化率圖,如圖8、圖9和圖10所示。

圖8 時間窗口內財經主題模型部分主題的演化趨勢Fig.8 Evolution trend of some themes of financialtheme model within time window

圖9 財經主題的平均主題強度變化率分布Fig.9 Distribution of average topic intensity change rate of financial topics

圖10 財經平均主題強度變化率分布Fig.10 Distribution of average topic intensity change rate in finance

通過綜合分析可以發現以下演化規律:

(1)財經主題的主題內容和強度均在事件序列上隨著財經熱點話題的變化發生明顯變動。結合圖8,由于t1時間片中,發生了非洲豬瘟蔓延以及樂清女孩乘滴滴遇害案開庭等事件,“民生時事”主題的主題強度在t1時間片中達到峰值;隨著財經領域新舊事件的迭代更新,t2時間片中“民生時事”主題的主題強度出現很大幅度的下降,投資理財方面的主題強度持續保持穩定狀態,而金融市場的主題強度由于科創板的試點的逐步推行開始上升且保持在較高的概率;t3中,由于商業動態頻繁,如樂視網原董事長賈躍亭卸任、富貴鳥陷入債務危機等事件,商業動態主題中出現了相應的詞項,且主題強度持續升高,隨著熱度下降,其主題強度在后續時間片中開始逐漸下降,直到t6時間片中由于大眾對于雙十一、雙十二活動的關注,以及王思聰所投資的熊貓直播破產等事件,商業動態主題的主題強度達到峰值。

結合圖9財經主題中財經熱點主題的強度變化率發現,其主題強度的變化率平均保持在80%的水平,這說明財經熱點主題普遍具有明顯的動態變化性。

(2)投資理財領域知識主題為財經主題的重要組成部分,且主題內容和強度均存在一定穩定性。觀察圖7財經主題的詞云圖可以發現,整個時間窗口中,關于“基金”“外匯”和“股票”等投資理財領域的詞項一直是財經主題模型的核心特征,穩定不變。結合圖8,“投資理財”主題在整個時間窗口中一直保持在較高的概率,波動幅度較小。結合圖9投資理財領域知識主題的強度變化率可知,財經主題模型中投資理財領域知識主題強度的變化率相較于財經熱點主題較小,維持在20%左右,進一步說明該類型主題變化具有一定的穩定性。

(3)整體財經主題呈現較為明顯的動態性。觀察圖10可知,在整個時間窗口中,絕大部分財經文本的平均主題強度變化率維持在50%到80%之間,其中有9 373篇文本的財經主題其平均主題強度變化率超過50%,占比達85.6%,這說明財經主題整體上隨時間推移都呈現出較為明顯的波動。由于財經主題與當前的經濟政策、市場環境、社會時事、產業發展等的變化都有關系,尤其是經濟政策的發布、推行與對財經主題模型的主題強度變化率的影響最為突出,因此呈現出較為明顯的波動性。

4 結語

傳統財經領域研究通常關注結構化數據,較少關注非結構化的財經類文本數據,并且財經文本數據蘊含的信息量巨大。因此對于財經文本的分析,具有重要的意義。為了解決傳統方法存在的噪聲干擾、主題間斷等問題,并系統化研究財經主題,本文在LDA模型的基礎上,提出一種SGC-LDA財經主題模型,對財經統計數據的相關研究提供有效補充。通過對真實財經文本數據的實證分析,得到以下4點結論:(1)通用財經主題在財經主題建模去噪能力方面表現出一定的有效性;(2)SGC-LDA模型在財經主題建模方面表現出優越的分類性能和主題連續性;(3)財經文本主題主要由投資理財、民生時事、商業動態、金融市場、宏觀經濟、產業經濟六個主要部分組成;(4)結合財經主題特征詞和財經文本對財經主題的擴充,能夠更完整準確地描述其財經主題。同時對于模型動態性進行分析,得出以下3點結論:(1)財經主題的主題內容和強度均在事件序列上隨著財經熱點話題的變化發生明顯變動;(2)投資理財領域知識主題為財經主題的重要組成部分,且主題內容和強度均存在一定穩定性;(3)整體財經主題呈現較為明顯的動態性。

本文提出并構建了用于財經主題建模的SGC-LDA模型,實證表明,該模型對財經文本的主題識別、連續性以及噪聲過濾等方面表現出一定的有效性。本研究的不足之處有:(1)財經文本的數據來源需要進一步豐富和拓展以及所構建的模型應進行經濟領域應用方面的合理探索;(2)僅對財經主題的識別方法和模型進行了研究和實證分析。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 免费无码AV片在线观看国产| 99无码中文字幕视频| 国产精品真实对白精彩久久 | 亚洲视频在线网| 欧美日韩国产成人在线观看| 精品少妇三级亚洲| 国产a网站| 日韩激情成人| 精品自窥自偷在线看| 丰满人妻久久中文字幕| 伊人久久大香线蕉影院| AV老司机AV天堂| 国产成人av一区二区三区| 中文字幕在线日韩91| 国产无码制服丝袜| 色有码无码视频| 四虎影视国产精品| 伊人激情综合网| 亚洲一区色| 茄子视频毛片免费观看| 国产精品999在线| 亚洲av日韩av制服丝袜| A级全黄试看30分钟小视频| 人妻少妇乱子伦精品无码专区毛片| 亚洲成av人无码综合在线观看| 暴力调教一区二区三区| 亚洲欧美在线看片AI| 国产精品久久久久久久久久久久| 国内嫩模私拍精品视频| 国产乱肥老妇精品视频| 91在线视频福利| 国产高清在线丝袜精品一区| 人妻精品久久无码区| 精品无码一区二区三区电影| 亚洲黄网在线| 日韩免费毛片视频| 四虎永久免费网站| 亚洲无码视频一区二区三区| 国产午夜小视频| 国产精品自在自线免费观看| 国产男女免费完整版视频| 婷婷丁香色| 99er这里只有精品| 97在线免费| 在线看片免费人成视久网下载| 国产剧情伊人| 久久6免费视频| 五月天天天色| 老司国产精品视频91| 欧美日韩国产系列在线观看| 国产精品无码AV中文| 日本高清免费不卡视频| 成人在线天堂| 久久中文电影| 婷婷综合缴情亚洲五月伊| 国产一区二区三区在线无码| 精品视频免费在线| 精品国产一区二区三区在线观看 | 国产综合日韩另类一区二区| 日韩天堂网| 青青青视频蜜桃一区二区| 亚洲综合激情另类专区| 午夜福利在线观看成人| 欧美精品亚洲日韩a| 18禁影院亚洲专区| 欧美一级夜夜爽www| 四虎永久免费网站| 99久久亚洲精品影院| 九色在线观看视频| 国产第三区| 狠狠色丁香婷婷综合| 欧美一级大片在线观看| 国产偷国产偷在线高清| 好久久免费视频高清| 亚洲综合第一页| 69视频国产| 91黄色在线观看| 亚洲国产精品一区二区高清无码久久 | 国产在线视频自拍| 91在线免费公开视频| 亚洲精品在线91| 特级毛片8级毛片免费观看|