999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成SVM數據流分類算法的公司微博金融事件檢測方法

2021-08-12 08:56:10夏千姿倪麗萍倪志偉朱旭輝
計算機應用與軟件 2021年8期
關鍵詞:分類金融文本

夏千姿 倪麗萍 倪志偉 朱旭輝 李 想

(合肥工業大學管理學院 安徽 合肥 230009)(合肥工業大學過程優化與智能決策教育部重點實驗室 安徽 合肥 230009)

0 引 言

隨著近年來自媒體與社交網絡不斷發展,社交平臺成為報道公司新聞和重要活動的主要媒介之一,且由于其信息傳播速度遠快于傳統媒體,成為人們接收信息的重要來源。Petrovic等[1]指出,在報道與政治和商業有關的事件時,推特平臺報道速度遙遙領先。由于金融市場對金融事件的突發較為敏感,因此從與特定公司相關的微博中識別公司金融事件具有重要意義,可以幫助投資者了解企業動態,明確競爭對手策略,預估可能引起的市場變動,以此作出有價值的投資決策。

從微博平臺上進行金融事件檢測的本質是社交平臺事件檢測的一個特定應用,雖然近年來社交平臺事件檢測研究取得了一定的進展,學者提出了多種針對社交平臺特點的事件檢測方法。從微博平臺中檢測金融事件仍存在如下三個方面的挑戰。

(1) 雖然事件檢測技術已經發展了很長時間,但是過去研究主要集中在熱點事件或突發事件檢測方法上,這些事件往往沒有針對某個具體領域,因此針對特定領域的事件檢測在方法和應用上仍不成熟,對于金融事件目前在定義上尚沒有一個廣泛認可的標準。如何通過分析與公司相關的微博信息特點,抽取有效的金融事件類型是值得進一步研究的。

(2) 社交媒體平臺所報道的事件信息主要為非結構化文本信息,不能簡單地利用傳統定量數據算法來計算,需要先將非結構化文本進行表征。而傳統的表征方法主要利用統計方法如詞頻、TF-IDF等進行,沒有真正考慮到文本的語義信息,影響了后續分析的準確率。因此有必要從文本結構化表征的角度研究與公司相關的微博信息表征方法。

(3) 社交平臺信息具有實時性和動態性,針對這一特性研究者往往通過考慮數據到達的時間順序以解決動態性問題。然而這些方法仍存在計算成本較高及對概念漂移適應能力不強的問題。其次,社交平臺中的信息更新速度快,信息量大,存在信息過載現象。因此如何優化算法提高抗噪能力是非常重要的。

針對上述挑戰,本文從文本表示及文本數據流分類兩個方向來對基于微博的金融事件檢測方法進行研究。本文中文本表示主要是結合詞向量及觸發詞對非結構化文本進行語義層面信息提取,以實現較少信息丟失的短文本結構化表示;數據流分類主要是提出一種基于集成SVM的數據流分類算法,該算法能對微博信息中的金融事件類型進行動態分類,且能有效檢測概念漂移。

1 方法概述

本文所考慮的事件檢測方法主要利用數據驅動的監督分類算法實現。其基本原理為:首先確定已標注的訓練語料,其次利用特征工程對訓練語料進行表示,最后利用監督分類算法進行訓練并對金融事件類型進行預測識別。具體分為金融事件類型定義、文本預處理與金融事件檢測3個步驟。

1.1 金融事件類型定義

對于金融事件類型的定義,針對不同的研究角度,已有學者給出了不同的定義,如表1所示。Hogenboom等[2]主要研究從異構新聞中提取金融事件,定義了涉及十種不同相關公告涉及的事件主體(如關于首席執行官的公告)的金融事件;Han等[3]則從商業事件的角度,參考了ACE[4]事件語料庫的構建,針對中文在線新聞的特點,為商業行為定義了8種事件類型和16種事件子類型;Zhang等[5]考慮從在線社交媒體數據中提取公司行為事件信息,定義了六種事件類別;Shi等[6]利用金融時間序列數據進行金融事件識別,側重于識別四種類型的股票事件。本文在綜合上述文獻和公司微博中報道的與金融相關的主要事件特點基礎上,擬將公司金融事件類型定義為七類。

表1 金融事件類型相關研究

1.2 文本表示方法

文本預處理是信息檢索、文本挖掘、自然語言處理等研究的基礎,目的是將非結構化原始文本轉換為可由計算機處理的數據形式[7],在文本挖掘中起著關鍵作用,并且極大地影響了最終的實驗效果[8]。傳統的文本挖掘方案通過利用BT、TF、TF-IDF來表示單詞的權重并建立文檔項矩陣[9]。Wu等[10]指出模式匹配是表示推特文本的最佳方式,通過詞頻獲得單詞權重,再利用NLTK計算相似度,并執行特征處理。但由于公司微博中的信息通常為短文本單詞數量有限,且金融文本中專業術語多樣化,導致詞頻信息無法有效使用[11]。Shi等[6]則先提取文本主題句,然后利用哈爾濱工業大學社會計算與信息檢索研究中心開發的觸發詞提取算法,提取12個與事件類型相關的文本特征來實現特征處理。該方法更適用于具有嚴謹結構和語法的長文本,且需要利用較多的領域知識,通過手工構建金融領域的事件標注語料庫,不適用于公司微博金融事件檢測中。

本文考慮到微博中所發布的信息量大、短句多、具有隨機性和口語化且非嚴格語法等特征,使用NLPIR工具對社交媒體數據流短文本進行詞性標注,從中提取動詞,通過構造的噪聲詞典消除噪聲動詞,并通過構造擴充觸發詞典來挖掘觸發金融事件的動詞,最終對整篇文章進行加權向量化表示以轉化為計算機可識別的結構化數據形式。

1.3 金融事件檢測方法

關于從文本中檢測事件,主要是指從文本中檢測出用戶感興趣的事件信息,并以結構化的形式呈現出來,例如事件發生的時間、地點、發生原因、參與者等[12]。事件抽取任務最基礎的部分包括識別事件觸發詞及事件類型,抽取事件元素同時判斷其角色,然后抽出描述事件的詞組或句子。事件抽取方法主要有流水線方法和聯合抽取方法,本文的方法屬于前者,這種流水線方法一般將事件抽取任務轉化為多階段的分類問題:事件觸發分類器、元素分類器、元素角色分類器、屬性分類器和可報告性分類器;后者主要包括多模型聯合推理、利用結構化預測(概率圖模型、馬爾可夫邏輯網絡)的聯合建模,以及近年來發展的深度學習方法[13-15]。

在金融事件檢測中,大多數的研究關注于從網絡新聞或公司年報中檢測金融事件。例如,Jacobs等[16]基于英文新聞提出了一種有監督的分類方法來檢測公司金融事件。Hájek[17]從美國公司的年報中提取情緒與詞袋信息,然后使用多層感知神經網絡對可能引起異常股票收益的公司行為進行分類。Arendarenko等[18]提出了一種基于本體(約200條手工制作的語法規則)的商業事件信息提取框架。Daniel等[19]研究了推特平臺上事件的影響性,然而其重點不在于檢測事件,而是通過分析推特的情緒來獲取事件對市場的影響。在金融事件分類檢測方法上,常用的有監督分類檢測方法有支持向量機[6](SVM)、樸素貝葉斯[3,20-21]和基于模型的方案[3,10]等。其中SVM表現出特別突出的性能[22],是金融領域最廣泛應用的數據挖掘技術[7]。而集成學習在提高學習系統泛化能力方面具有顯著優勢,且已被證明是提高預測準確性和將復雜且困難的學習問題分解為更易解決子問題的有效方法[23]。Wang等[24]使用集成SVM進行自動模糊分類,通過與單個SVM分類器及其他分類方法進行比較,實驗表明所提出的集成SVM分類器性能優越。Shan等[25]提出了一種基于混合標記策略的漂移數據流在線主動學習集成的新框架,包括集成分類器和非固定標記算法,動態對分類器和決策閾值調整,也表現出較好的實驗結果。但集成學習的缺點是構造方案復雜,需要大量標記數據,以及具有高時間復雜度。本文考慮使用集成學習來解決數據流問題,為解決構造的復雜性問題,結合社交平臺所帶來的動態數據環境伴隨瞬時數據流及概念漂移等特征,提出一種基于滑動時間窗口模型的集成SVM分類算法,大大減少訓練數據,形成更易構建的集成算法。

綜上,本文考慮到微博數據的非結構化、低維、數據量大及更新迅速等特征,提出一種詞嵌入和觸發詞典的短文本表示方案,以準確掌握數據特征;并提出一種DSESVM算法,由多個SVM基分類器組成的集成分類模型以提升算法分類效果;結合短文本表示方案與DSESVM算法,形成對公司金融事件進行檢測的框架。本文框架利用滑動窗口模型,檢測概念漂移。

2 公司金融事件檢測模型

2.1 事件檢測框架

本文提出了一個事件檢測框架,可用于檢測來自微博的潛在公司金融事件。該框架分為公司金融事件類型預定義、觸發詞典構造、文檔向量化和事件類型分類檢測幾個部分,如圖1所示。

圖1 事件檢測框架

本文框架的具體步驟如下:

步驟1定義公司金融事件類型。

步驟2根據觸發詞典獲取事件中的觸發詞。觸發詞是最清楚地表達事件發生的關鍵詞,通常是動詞,本文使用監督學習來更好地識別事件觸發詞。根據七類事件類型,邀請專家將10%的微博文本標記為事件檢測的種子事件。為確保標注質量和一致性,對該數據進行比較和討論,最終輸出統一的標注結果。其余的原始數據被分成三部分,由專家分別進行標記。然后,對已標記的種子微博文本進行分詞及詞性標注,抽取其中動詞文本。其次,利用詞頻對提取的動詞進行排序,根據專家給定閾值提取觸發詞及噪聲詞。這里的噪聲詞是指某些動詞頻繁出現在種子微博中,但對公司的金融事件行為沒有觸發意義。最后,通過詞嵌入算法擴充原始觸發詞構造成為觸發詞典,噪聲詞構成噪聲詞典。

步驟3由噪聲詞典對文檔去噪,并由觸發詞典進行加權向量化表示。

步驟4利用基于DSESVM的數據流分類算法識別微博文本的潛在事件類型。

為了解釋事件檢測的流程步驟,給出示例如圖2所示。

圖2 公司金融事件檢測案例

對于圖2中文檔預處理中的文檔,首先提取文檔中的動詞,得到“加速、收購、加大、投入、宣布、收購、是、開展”;然后根據噪聲詞表進行去噪處理,明確噪聲詞“是”,得到去噪后的觸發詞“加速、收購、加大、投入、宣布、收購、開展”;其次利用詞嵌入算法進行向量化表征,并根據擴充后的觸發詞典進行加權處理,得到對文檔的向量化表征;最后利用DSESVM算法對文檔進行預測,得出事件類別。該事件的正確類別應為融資并購。

2.2 公司金融事件分類

本文綜合現有文獻及公司微博中信息的特點,將公司金融事件類型定義為七類,具體事件類型及描述如表2所示。

表2 公司金融事件類型

2.3 觸發詞典構建

觸發詞是事件檢測中最重要的元素,代表著事件類型。本文認為擴展觸發詞具有重要意義,原因在于:首先,同一個事件可以由不同的觸發詞表示,并且這些觸發詞通常具有相似的含義;其次,種子語料庫在整個文件中占比較小;最后,在不同的時間階段,同一個單詞在微博文本中的語義可能不同。本文中,Word2vec的Skip-Gram模型用于對觸發詞基于語義的向量化表示,并可據其計算得到同義詞以擴展為觸發詞典。Word2vec算法是基于類似情境的單詞具有相似含義的假設,通過神經網絡模型獲得單詞的低維實數向量表示,將離散詞映射到N維真實空間,以表達豐富的語義信息,解決詞袋模型的向量稀疏性問題,挖掘詞語間的語義關聯性。Word2vec可在語義上表達單詞映射至高維空間,因此可使用單詞距離來衡量詞義的相似性。本文利用Google提供的開源詞向量化工具Word2vec來訓練基于Skip-gram模型的單詞向量,使用余弦相似度計算單詞間的語義差異。若單詞間語義差距小于閾值,意味著語義相似度較高,有較大可能進行觸發詞典擴展。

2.4 文檔向量化

文檔的向量化表示是數據處理的第一步,常用方法包括TF-IDF、BOW等。本文采用基于觸發詞的文檔表征方案,在提取文檔特征時,僅考慮潛在觸發詞,消除大量對文檔分類無意義常用單詞的影響。并根據觸發詞典,對文檔特征進行加權以增加觸發詞在文檔表示中的影響力。

假設B是時間窗口[1,T]微博文本中的數據流:

B={B1,B2,…,Bi,…,BT}

(1)

每個時間窗口Bi中的數據流由n個文本組成:

Bi={Pi1,Pi2,…,Pij,…,Pin}

(2)

對每篇文檔Pij提取動詞:

(3)

利用噪聲詞典N去噪,以獲得降噪后的動詞:

(4)

利用Word2vec獲得文檔Pij的一組單詞向量:

(5)

利用觸發詞典E加權,以獲得每篇文檔向量化表示:

(6)

2.5 DSESVM算法

本文提出的集成SVM的數據流挖掘算法(DSESVM算法)是由多個SVM基分類器組成的集成分類器。其中,數據流檢測框架基于CDSMM算法[21];基分類器權重通過計算當前數據塊的分類精度得出;并通過假設檢驗檢測概念漂移,動態調整基分類器以適應概念變化;利用錯誤分類與被替換基分類器訓練集重新構建新訓練集,以訓練得到新基分類器,對較低準確度的基分類器予以替換,以提升整體分類精度。該算法可有效增強概念漂移實例對新分類器訓練的影響,使算法能夠快速檢測概念漂移并適應新實例。DSESVM算法中符號定義如表3所示。

表3 DSESVM算法符號定義

續表3

算法流程如下:

步驟1構造集成分類器EC:當S中的實例數達到d時,如果num

步驟2噪聲過濾:用EC對S中的每個實例進行分類,如果被EC錯誤分類,則將其添加到數據集ErrInst中。

步驟3權重更新:用S更新EC中各基分類器的權重,表示為Weight_S。

步驟4概念漂移檢測:計算EC上對數據塊S的分類錯誤率,并使用該值檢測概念漂移。

步驟5分類器調整與更新:一旦檢測到漂移并且集成分類器中基分類器的數量達到K,則使用錯誤分類緩沖器ErrInst構造新的分類器C_new,分類正確率為其權重。并利用ErrInst更新EC權重,記為Weight_E。計算權重數組Weight_S和Weight_E的均值,記為Weight_ave,替換EC的權重。如果新分類器C_new權重大于Weight_ave中的最小權重,則用ErrInst中的實例與Weight_ave中的最小權重相對應的基分類器C_k訓練集來組成訓練數據,訓練得到替換分類器C_new′及其權重Right_new。利用其替換基分類器C_k和權重以獲得更新的EC。

DSESVM算法偽代碼如算法1所示。

算法1DSESVM算法

輸入:集成分類器EC=Null,數據流DS,集成分類器的容量K,訓練集的大小d。

輸出:已訓練的集成分類器EC。

開始

1.While(新數據到達){

2.讀取d個數據形成當前數據塊S;

3.If(num

4.C_num=getNewClassifier(S);

5.EC=AddBaseClassifier(EC,C_num);

6.

//利用S訓練新分類器C_num,并

//將其添加到EC中

7.num++;

8.Else

9.For(E_j∈S)

10.If(EventType(E_j)≠getpredict(EC,E_j));

//E_j被EC錯分類

11.ErrInst=AddInstance(ErrInst,E_j);

//將E_j加入ErrInst

12.End if

13.End for

14.Weight_S=UpdateWeight(EC,S);

15.err=getErrorRate(EC,S);

//利用S更新EC權重,并計算其錯誤率

17.If(U>μα&&num==K)

//概念漂移檢測

18.C_new=getNewClassifier(ErrInst);

//利用ErrInst訓練得到新基分類器

19.Right_new=getAccuracy(C_new,S);

//計算C_new的正確率

20.Weight_Err=UpdateWeight(EC,ErrInst);

//更新EC權重

21.Weight_Ave=getMean(Weight_S,Weight_Err)

//u利用Weight_S與Weight_Err計算平均權重數組

22.If(Right_new>min(Weight_Ave))

23.C_k=getBaseClassifier(EC,min(Weight_Ave));

//找到Weight_Ave中所對應最小權重的基分類器C_k

24.C_new′=getNewClassifier(ErrInst+

getTrainData(C_k));

//利用ErrInst與C_k訓練構成替換基分類器C_new′

25.EC=UpdateBaseClassifier(EC,C_k,C_new′);

//更新EC

26.End if

27.End if

28.End if

29.End while

下面詳細解釋數據流分類算法的一些重要部分:

(1) 基分類器的選擇。本文面向公司微博進行關于金融事件的分類,SVM是金融領域中使用最廣泛的數據挖掘技術,實驗已證明其具有較好的預測能力[22]。因此,選擇SVM作為基分類器。

(2) 概念漂移檢測。以分類錯誤率作為度量指標,利用假設檢驗檢測數據流中的概念漂移[21]。

對當前數據塊上的分類錯誤率進行假設檢驗,μ_0為常數,初始化為前五個數據塊的分類錯誤率均值。給定顯著置信性水平α=95%,如果式(7)成立,則表明錯誤率發生較大變化,且發生了概念漂移,反之,則認為概念分布是穩定的。

(7)

(3) 替換基分類器選擇規則。選定當前數據塊和錯誤分類實例中分類效果最差的基分類器為被替換的基分類器。通過更新當前數據塊和錯誤分類實例的權重數組,計算平均權重數組,選擇對應于最小權重的基分類器作為分類效果最差的基分類器。

(4) 新分類器的訓練原理。該算法應用于數據流中,各基分類器訓練集無重復。當選擇替換的分類器時,新分類器將由錯誤分類的實例與被替換的分類器訓練集共同訓練得到。

(5) 集成分類器EC分類預測策略。集成分類器EC采用加權投票機制進行分類預測。對未知實例進行分類時,具有最多加權投票的類別為未知實例的預測類別。

3 實 驗

3.1 數據集與評估指標

本次實驗選取微博平臺關注度超過一百萬的新聞媒體博主發布的關于中國五家知名上市公司的相關微博信息,如表4所示。數據從2012年1月至2018年7月,總數為20 000條,通過刪除重復和無意義數據,最終獲得15 000條實驗數據,具體5家公司相關的微博數據量分布如表5所示。微博格式包括標題、發布人、發布時間、內容及由三位專家給定的標簽,最終公司金融事件的分布如表6所示。

表4 微博新聞媒體博主詳表

表5 微博的數據量表

續表5

表6 公司金融事件類型分布表

本文用于評估事件檢測性能的評估指標為精度(P)、召回值(R)和F1值(F1),其中:P度量所有提取事件中正例的比例;R度量在所有正例中預測正確的正例比例;F1是精確率和召回率的調和平均值,相當于精確率和召回率的綜合評價指標。相關的計算公式如下:

(8)

(9)

(10)

3.2 公司金融微博觸發詞典構建

本文將公司金融事件分為七類,對于每類事件,將隨機選取的200條數據標記為種子微博,從其中提取動詞,結合詞頻排序與領域知識,獲取每個類的關鍵特征觸發詞與噪聲。最終,得到315個觸發詞與7個事件類型的52個噪聲詞,如表7所示。

表7 種子觸發詞表

Word2vec算法用于獲取種子觸發詞的同義詞。若擴展較多,會導致擴展詞匯超出原始單詞同義詞范疇;若擴展范圍較小,則會忽略某些同義詞。因此,在本文中選擇與觸發詞的相似度在前十位的單詞,以將觸發詞擴展為觸發詞典。最終,七類事件獲得38 256個觸發詞,如表8所示。

表8 公司金融微博觸發詞表

3.3 文檔向量化表征算法評估

為了評估文檔向量化結果,使用相同的分類算法DSESVM來顯示不同表示方法下的實驗結果差異。通過將BOW、TF-IDF、Word2dvec和Triggers分別與DSESVM相結合,形成四種實驗方案。本文根據時間順序將15 000個實驗數據分成每個時間窗口500條,并在總數為30的時間窗口的數據流下進行預測實驗。分類模型將當前時間窗口的數據視為測試集,將之前時間窗口的數據視為訓練集。即文檔中的動詞首先分別由TF-IDF、BOW、Word2vec和觸發詞典分別進行文檔表示,然后利用DSESVM算法在第10到第30個時間窗口分別進行分類預測,其中DSESVM算法中基分類器個數設為9。

實驗結果如表9所示,“MAX”表示最佳實驗結果,“MEAN”表示實驗結果平均值。在第10到30個時間窗口中,可以看出基于相同分類方法DSESVM,觸發詞典的文檔表示明顯優于其他三種表示方案,精度為66.2%,召回率為63.0%,F1值為64.6%。BOW+DSESVM、TFIDF+DSESVM、Word2vec+DSESVM僅獲得10.3%、8.7%、62.4%的F1值。通過對實驗結果的分析,可以得出與BOW、TF-IDF和Word2vec相比,基于觸發詞典的文檔表示能獲得更好的語義表征,有助于模型獲得更好的結果。

表9 文檔向量化性能比較表

3.4 公司金融事件檢測模型評估

為了進一步說明DSESVM算法的學習效果,通過觸發詞典對文檔進行向量化表征,并利用Bagging、Random Forest、AdaBoost[26]三種常用的集成分類算法對表示結果進行分類比較。當模型訓練及分類結束后,獲得當前時間窗口的預測結果。表10為四種分類模型的各時間窗口內最佳與平均的實驗結果。圖3詳細展示了四種分類算法與本文提出的觸發詞表示方法結合下的分類準確率。本文算法精度為66.2%,召回率為63.0%,F1值為64.6%。與其他三種分類預測算法相比,最優F1值增加了4.1~5百分點,平均F1值增加了5.6~7.2百分點。與AdaBoost、Bagging和Random Forest相比,該算法使用較少的訓練數據并獲得了更好的實驗結果。

表10 公司金融事件檢測算法性能比較表

(a) 精度

3.5 概念漂移檢測評估

為了進一步說明考慮動態數據流內概念漂移檢測的必要性,本文進行概念漂移檢測對比實驗。如圖4所示,本文所提模型在時間窗口10、11、12、13、15、16、17、28、29和30中檢測到概念漂移。該模型使用概念漂移檢測機制調整更新基分類器,以確保模型能夠適應概念漂移后的數據特征,從而確保模型對未來數據檢測性能的穩定性。例如,當模型從時間窗口10到17檢測到概念漂移時,調整更新模型中的分類器,在第18個窗口中的F1值明顯高于第17個窗口中的F1值,并在第19至27窗口中獲得更穩定的實驗結果。

圖4 Triggers-DSESVM的實驗結果

為了顯示概念漂移檢測對實驗結果的影響,進行檢測概念漂移和未檢測概念漂移的進一步對比實驗。如表11所示,概念漂移檢測的實驗結果平均F1值增加了5.8百分點,明顯優于未概念漂移檢測的結果。綜上,概念漂移檢測對實驗結果具有顯著影響,進一步證實在動態數據內進行概念漂移檢測的必要性。

表11 概念漂移檢測對比結果 %

3.6 參數分析

模型Triggers-DSESVM的部分參數參考李燕等[21]的參數設置。如數據塊尺寸d設置為500,集成分類器的基分類器個數K設置為9,錯誤分類緩沖實例的閾值e設置為100。

3.6.1Word2vec維度選擇

Word2vec的維度選擇對模型的復雜性和有效性有一定的影響。若維度較小,則表示的單詞將無法在語義上區分;若維度較大,則模型的時間復雜度和空間復雜度急劇增加,且模型的學習效率將降低。在此基礎上,進行維度選擇實驗,通過改變維度觀察模型的性能變化。實驗結果如表12所示。

表12 不同詞向量維度的實驗結果表 %

可以看出,當維度從50增加到200時,F1值略微增加,然后開始衰減。因此,本模型的Word2vec維度選擇為200維。

3.6.2文檔向量化表示的權重選擇

在文檔中取出動詞后,將根據噪聲詞典和觸發詞典執行去噪和加權處理。該方法可以消除噪聲的影響,增強文檔表示中觸發詞的權重,并最終使文檔得到更好的語義表示。若權重太小,觸發詞的影響將被削弱,且觸發詞在表示中的效果將會降低;而過大的權重設置將導致過分強調已知的觸發詞,忽略未知潛在觸發詞在文檔表示中的影響。實驗結果如表13所示。

表13 不同權重設置下實驗結果表 %

可以看出,去除噪聲的實驗效果明顯優于未經處理的實驗效果。當權重設為1.4時,平均P與F1具有最佳實驗結果。因此,該模型選擇去噪,并將權重值設為1.4。

4 結 語

傳統的金融事件檢測方法存在短文本語義表示及動態分類檢測效果不理想等問題;傳統的文本表示方法存在高維、稀疏、語義信息丟失等;傳統分類檢測方法無法適用于具有概念漂移、數據量大、短句多和口語化等特征的社交媒體數據中。因此,本文提出了一種應用于微博文本的公司金融事件檢測模型。為提高公司金融事件檢測性能,本文首先結合Word2vec與觸發詞對文檔進行表示,其次提出DSESVM集成分類算法來處理大量的微博文本流,以達到實時檢測事件的目的,來自微博的實際數據實驗結果證明了文檔向量化和集成數據流分類方法的有效性。

后續研究將從以下兩個方面進一步完善提出的事件檢測模型:(1) 關注多標簽數據分類問題,同一條微博信息可能與多種類型的金融事件有關,因此如何解決這個問題是后續研究重點;(2) 目前算法中使用固定時間窗口且數據塊大小固定。由于實驗中流入時間窗的數據量導致實驗語料規模受限,會影響分類結果,因此將研究如何優化算法以提高算法對數據規模的自適應能力。

猜你喜歡
分類金融文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
何方平:我與金融相伴25年
金橋(2018年12期)2019-01-29 02:47:36
君唯康的金融夢
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
P2P金融解讀
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产剧情一区二区| 亚洲免费毛片| 狠狠色综合久久狠狠色综合| 久操中文在线| 免费看黄片一区二区三区| 欧美一区二区三区国产精品| 国产免费福利网站| 97人人模人人爽人人喊小说| 午夜影院a级片| 亚洲国产天堂在线观看| 99无码中文字幕视频| 亚洲精品第一在线观看视频| 免费在线看黄网址| 91小视频在线| 日本影院一区| 四虎精品国产AV二区| 国产99视频免费精品是看6| 久久久久亚洲av成人网人人软件| 成人夜夜嗨| 日韩东京热无码人妻| 日韩美一区二区| 999在线免费视频| 3p叠罗汉国产精品久久| 亚欧乱色视频网站大全| 国产区精品高清在线观看| 国产jizz| 国产AV毛片| 国产精品男人的天堂| 一区二区三区四区在线| 99久久精品久久久久久婷婷| 久久久精品久久久久三级| 亚洲人成网线在线播放va| 欧美一区二区精品久久久| 国产精品思思热在线| 日韩一区二区三免费高清| 毛片基地视频| 高清久久精品亚洲日韩Av| 欧美一区国产| 久久婷婷色综合老司机| 香蕉国产精品视频| 国产永久无码观看在线| 99视频在线免费看| 真人免费一级毛片一区二区| 国产精品微拍| 亚洲成在人线av品善网好看| 久久青草免费91线频观看不卡| 91人妻在线视频| 日本在线免费网站| 久久伊伊香蕉综合精品| 欧美区一区| 中文字幕在线观| 国产av无码日韩av无码网站 | 国产真实乱子伦精品视手机观看 | 人妻中文字幕无码久久一区| 无码网站免费观看| 国产精品hd在线播放| 亚洲无线一二三四区男男| 69av在线| 亚洲人人视频| 欧美日韩亚洲国产主播第一区| 午夜无码一区二区三区| 99精品免费在线| 激情综合婷婷丁香五月尤物 | 97久久免费视频| 99在线免费播放| 老色鬼久久亚洲AV综合| 国产福利免费视频| 1769国产精品免费视频| 亚洲国产天堂在线观看| 国产精品无码在线看| 中文字幕在线一区二区在线| 狠狠色香婷婷久久亚洲精品| 国产特一级毛片| 91综合色区亚洲熟妇p| 亚洲天堂免费观看| 国产精品久久久久婷婷五月| 免费人成网站在线观看欧美| 欧美激情综合一区二区| 手机精品视频在线观看免费| 丝袜无码一区二区三区| 亚洲色图欧美在线| 国产精品久久国产精麻豆99网站|