999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM的金融新聞傾向性

2018-11-17 01:47:26鄭國偉呂學強夏紅科周建設
計算機工程與設計 2018年11期
關鍵詞:百度關鍵文本

鄭國偉,呂學強,夏紅科,周建設

(1.北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101;2.首都師范大學 北京成像技術高精尖創新中心,北京 100048)

0 引 言

當前文本情感傾向性分析主要有基于統計[1,2]和基于規則[3,4]兩大類。文獻[1]中將情感、位置和關鍵詞等屬性作為抽取關鍵句的因子,然后把關鍵句群進行有監督和半監督的情感分類,該方法效果較好,但抽取關鍵句方法有待完善。文獻[2]中方法利用含有否定詞表、傾向性詞表、程度詞表的情感詞表訓練文本進行特征擴展,該方法相比其它方法可以獲得比較好的結果,但沒有考慮上下文,效果仍然可以提高。有針對性的對金融新聞文本分類在國內外研究相對較少,羅明等[3]提出了采用詞匯和語義規則提取新聞文本中事件語義標注信息,并將該信息用于機器學習分類的特征,同時該方法融合了數據驅動和知識驅動在文本中的優點取得了相對較好的分類效果,但是方法過于復雜。吳江等[4]提出基于語義規則的web金融新聞文分情感分析,該方法通過機器學習方法Apriori抽取文本屬性,構建情感辭典和語義規則,從而計算情感傾向,該方法復雜效果也一般。胡新辰[5]使用LSTM進行語義關系的分類,取得較好的效果。本文分析了現有的方法,提出了基于LSTM金融文本傾向性的方法:首先在前人基礎之上增加百度百科查詢和公司名與公司代碼映射提出了公司名識別方法;然后使用doc2vec模型比較句子與標題相似度,同時綜合考慮句子位置、領域動詞、公司名信息提出關鍵句群的提取方法;接著使用word2vec和TFIDF表示句子,最后使用LSTM模型對關鍵句群進行分類的金融新聞傾向性分析的方法。

1 公司名識別

公司名識別是金融新聞關鍵句群抽取很重要的研究點,然而到目前為止,這方面的研究成果相對較少,據我們所知,對于公司名識別近幾年常用方法有以下幾種:哈寅晨等[6]總結公司名稱的特點,分別對公司名全稱和簡稱,設計了不同標注方式,提出基于條件隨機場的雙模型兩次掃描策略,一次掃描識別公司名全稱,第二次掃描利用之前掃描的公司名信息改善分詞和優化詞性標注結果,以此為基礎識別公司名全稱,雖然取得一定效果,但通過總結特點的方法并不能覆蓋全部公司名特征,因此該方法仍需要完善。林也莉[7]提出了一種多策略學習算法,先從列表型的語料庫中抽取出競爭對手公司名,然后將該結果作為種子對其它兩種語料標注,最后用標注好的語料通過自動學習生成抽取模型,即boost地從其它兩種類型的語料中抽取出公司名。文獻[8]中利用互聯網搜索和上市公司名信息進行識別,在數據測試集上正確率可達82.8%,召回率達68.93%。該方法取得了比較好的結果,但是該方法的公司名辭典沒有考慮公司股票代碼和百度百科查詢的信息,同時有部分著名公司由于產品較多,在百度搜索返回結果里介紹產品的較多并未識別為公司名稱。

根據以上對已有公司名識別方法的分析總結,大部分方法對于公司簡稱的識別準確率仍然比較低,有的方法中復雜規則和知識庫的構建嚴重影響方法的應用,在文獻[8]中提出的方法效果相對來說最好,通過對大量網上金融新聞文本的特征分析,本文在該文獻的基礎之上提出一種基于公司名簡稱辭典和百科查詢的方法,即在原來方法的基礎之上,對公司簡稱辭典加入公司簡稱和公司代碼的映射,增加百度百科查詢因子。該方法容易理解,實現方便,可擴展性強且對新公司名有著較好的識別效果。首先提取每個待處理文本中N元組(N-gram)集合作為候選公司名,結合基礎辭典計算相似度、判斷元組是否在含有六位公司代碼的句子中、將每個元組進行百度百科和百度搜索進行綜合評分,最后將N元組集合中得分高于閾值α的N元組作為公司名。

1.1 公司名基礎辭典建立

在文獻[8]中公司名庫則是利用新浪財經開放接口獲得公司簡稱,排除了人工過程中主觀因素干擾,取得相對較好的效果,然而該方法僅以公司簡稱作為公司名庫,標題或新聞文本中如果出現上市公司的公司代碼,則沒有識別出代碼前一段字符串為公司名,實驗中,我們對大量金融新聞文本研究發現,文本中有大約23.8%的公司名稱會伴隨著公司代碼出現在金融新聞文本中,且這些公司名均出現在六位公司代碼之前。本文從國內三大證券交易所獲得公司代碼和公司簡稱創建基礎辭典且兩者在詞典里互為映射,如在基礎詞典中‘000027’和‘深圳能源’均代表深圳能源集團股份有限公司。

1.2 公司名稱識別

首先初始化N元組集合得分,分別將N元組集合中N元組與以上所創建的基礎公司名詞典進行相似度匹配,得出候選公司名集合。一個N元組X和一個公司名Y相似度計算方法為

(1)

式中:α,β為權重,count為既屬于X也屬于Y字的統計,start表示N元祖X的以公司名Y開頭,end表示N元祖X以公司名Y結尾,經過學習,其值分別設為0.4和1時取得最優結果。

將候選公司名集合進行進百度搜索和百度百科查詢更新集合得分,如果百度搜索結果中出現“股票代碼”,“公司”,“集團”,“企業”則被認為是一條有效的查詢。如果單條百度百科查詢結果中標題不為空,或者概要和基本信息中出現“股票代碼”、“公司”、“集團”、“企業”,則該條查詢被認為是有效查詢,表1和表2分別是通過百度百科和百度搜索對關鍵詞“百度”的查詢結果。

表1 百科查詢結果

根據上述兩表可知,如果僅僅以表2百度搜索返回的結果來看,10條搜索數據僅有2條搜索結果證實“百度”是一家公司,結合表1百度百科查詢則證明“百度”非常有可能是一家公司,結合百度百科查詢和百度搜索更新候選公司名得分,互聯網查詢更新得分為

表2 百度搜索結果

search(X)=η*count(X∈search_list)+
γ*baike_query(x)

(2)

式中:η為百度搜索權重,count為百度搜索中有效的查詢條數,γ為百度百科查詢權重,baike_query為百度百科返回值。通過對數據學習,權重參數γ和η分別設為0.2和1.3取得最優解。

公司名識別總的計算方法為

name=λ*Sim+μ*search

(3)

式中:name為N元祖的最終得分,λ和μ為權重,Sim為計算N元組與公司名詞典相似度,search為互聯網搜索N元祖更新結果。經過學習,λ和μ分別設為1和1.12取得最佳效果。

公司名識別總的過程如下:

(1)將待處理新聞文本分解為N元組集合;

(2)在含有六位公司代碼的句子中且在公司代碼之前的N元組得分加1;

(3)將每個N元組依次和基礎辭典進行相似度匹配更新得分;

(4)最后將候選公司名進行百度搜索和百度百科查詢更新得分,得分高于α的N元組設為公司名。

2 關鍵句群抽取

相關文獻多使用以下幾種方法:在文獻[9]中結合關鍵詞,根據漢明距離計算新聞文本中每個句子與關鍵詞的關聯程度來提取關鍵句群,該方法雖然簡單,但是抽取的效果較差。文獻[10]中提出了基于改進文本情感關鍵句抽取的生成方法。充分利用TFIDF抽取文本的關鍵詞,分析句子中的關鍵詞數量,用情感詞典分析句子的情感程度,采用余弦相似度計算句子與主題的相似度,從而實現情感關鍵句的抽取。文獻[11]中使用支持向量機SVM(support vector machine)和深度學習方法遞歸神經網絡RNN(recursive neural network)的結合,在句子和篇章兩個級別上抽取特征,并在新聞和博客語料的基礎之上分別對句子和篇章進行訓練,綜合兩者的分類結果得出情感關鍵句。文獻[8]中綜合公司名、領域動詞、標題相似度和語句位置4個特征的方法,該方法效果相比較其它方法比較好,但計算相似度時僅僅使用簡單的匹配。根據我們對大量金融新聞文本分析發現,新聞標題承載著文本較重要信息。新聞的關鍵句多出現在文本的開始或者文本的結尾處,因此我們將文本開始和結束位置的句子設為有較高的權重。doc2vec是基于word2vec深度學習模型,它可以用實數值表示句子,用于句子之間相似度計算。本文提出基于深度學習框架doc2vec文本相似度匹配綜合特征屬性關鍵句群抽取方法:首先將新聞標題加入關鍵句群,使用doc2vec模型計算文本中句子與新聞標題相似度,同時綜合句子在新聞文本中的位置、句子中是否含有公司名或者六位公司代碼、是否含有領域動詞信息再次更新句子集得分,得分高于閾值Φ的句子集作為新聞關鍵句群,如果沒有句子得分高于閾值,則將得分最高的句子加入關鍵句群。句子位置的打分公式為

(4)

式中:Si為文本中第i個句子,abs為求絕對值,n是文本中句子總數,通過該機制,文本開始和文本結束位置的句子可以獲得較高的得分,符合新聞文本中重點放在文本開始或者文本結束處的規律。句子總得分為

Score(Si)=∑Wj*Scorej(Si)i=1,2,3…n

(5)

式中:Score(Si)為句子Si的最終得分,Si為一篇新聞文本中第i個句子,j是句子打分特征集合,包含句子位置(position)、是否含有公司名(name)、是否含有領域詞(field)以及句子和新聞標題的相似度(similarity),Wj為特征j得分權重,Scorej(Si)代表句子Si在特征j方面的打分。

關鍵句群抽取過程如下:

(1)將新聞標題加入關鍵句群;

(2)使用訓練好的doc2vec模型進行每個句子與新聞標題的相似度計算,更新句子得分;

(3)用式(4)對候選句子位置信息更新得分,判斷句子中是否有領域詞信息如果含有則記為1否則為0、句子中是否含有公司名或者公司代碼含有記為1否則為0,再次更新每個句子得分;

(4)根據句子的得分進行倒序排列,得分大于閾值Φ的句子作為新聞文本關鍵句群,如果候選關鍵句群中沒有句子得分大于Φ,得分最高的句子加入關鍵句群。

3 基于LSTM關鍵句群分類

3.1 LSTM模型

LSTM網絡模型可以學習長依賴信息,模型隱藏層之間有閉環,隱藏層之間的權重控制LSTM網絡的記憶,負責記憶的調度,模型將隱藏層當前的記憶狀態作為下一時刻計算的部分輸入。模型將傳統的RNN的輸入層和隱藏層植入到記憶單元中,通過門結構管理細胞的狀態,圖1是LSTM門結構。

圖1 LSTM單元門結構

Xt為t時刻LSTM單元的輸入數據,ht是輸出,C是不同時刻記憶單元的值。遺忘門決定信息的通過量,該門將Xt和上一時刻輸出ht-1作為輸入,輸出值在0和1之間,值用來描述每個部分通過量的多少,0代表完全舍棄,1代表全部通過。ft值的計算公式為

ft=σ(wf[ht-1,xt]+bf)

(6)

式中:σ為sigmoid函數或稱為“輸入門層”,該結構決定應該更新的值,wf是遺忘門權重,bf為遺忘門偏執。

it=σ(wi[ht-1,xt]+bi)

(7)

(8)

(9)

sigmoid層決定當前狀態的輸出部分,狀態通過tanh得到區間在-1和1的值,該值乘以sigmoid門的輸出Ot,輸出本時刻的輸出值。Ot和ht的更新公式分別為

Ot=σ(wo[ht-1,xt]+bo)

(10)

ht=Ot*tanh(Ct)

(11)

式中:wo為更新輸出值的權重,bo是更新輸出值偏執,ht為最終輸出值。

3.2 基于Word2vec和TFIDF的文本表示

Word2vec采用分布式方法表示文本[12],該模型表示文本既可以解決傳統向量空間模型的高緯度稀疏問題,同時還補充了傳統模型所不具備的語義表示,對短文本的分類有明顯的優勢[13]。TFIDF是一種詞頻統計方法,用于統計詞或字在一類文本中的重要程度,該方法的引入解決了Word2vec無法區分詞匯在文本中的重要程度問題。Word2vec和TFIDF的結合使文本向量的表示更加準確。

TFIDF是一種統計方法,其思想主要是:如果某個詞或字在一類文本中出現的次數較高,同時很少出現在其它文本中,則認為該詞或字具有很好的類區別效果。TFIDF即TF×IDF,TF代表詞t在文檔d中的概率,IDF為詞t的區別類效果,即越少的文檔中有詞t,則IDF值越大,TF和IDF的計算公式分別為

(12)

(13)

式中:f(t,d)代表詞t在文檔d中出現的次數,dft為含有詞t的文檔數,N為所有文檔數。詞t在一篇文檔中的權重計算公式為

tfidft=tf(t,d)*idft

(14)

Word2vec是一種深度神經網絡概率模型,用來計算詞向量,與傳統方法相比,該模型可以充分利用上下文的語義信息。Word2vec有兩種訓練模型,分別為CBOW和skip-gram。本實驗中采用CBOW訓練模型,CBOW的表示為

p(wt|τ(wt-k,wt-k+1,…,wt+k|wt))

(15)

式中:wt是詞典中的某個詞,通過和wt相鄰的上下窗口為k的詞來預測詞wt出現的概率,τ表示為將窗口左右相鄰詞的向量做相加運算的運算符。結合Word2vec和TFIDF,詞t在一片文檔中的詞向量表示為

v(t)=word2vec(t)*tfidf(t)

(16)

式中:v(t)表示經兩種模型加權后詞向量表示,word2vec(t)為經word2vec模型訓練出t的詞向量,tfidf(t)是經TFIDF模型訓練出t在文檔中的詞向量權重。句子向量的表示為使用式(16)的方法將句子中詞的詞向量相加。

3.3 基于LSTM關鍵句群傾向性分析

一篇新聞文本傾向性分析可以轉化為判斷其關鍵句群的整體傾向性,傾向性判斷機制如下:用訓練好的LSTM模型分別對每個關鍵句進行傾向性判斷,如果正向的關鍵句數大于負向的關鍵句數,則該新聞文本被認為是正向的;如果負向的關鍵句數大于正向的關鍵句數,則認為新聞文本是負向的;如果正向和負向關鍵句數相同,則新聞文本的傾向取決于新聞標題傾向性,在對關鍵句進行傾向性分析時,我們使用jieba對句子進行分詞并去除停用詞,提高分類效果同時提高效率。新聞傾向性分析的流程如下:

(1)用LSTM模型訓練已標注好的語料,直至滿足各項參數要求;

(2)對第二節獲得的關鍵句群進行分詞,去除停用詞;

(3)用Word2vec和TFIDF對句子進行訓練,獲得句子向量;

(4)使用訓練好的LSTM模型對句子向量進行傾向性分類;

(5)使用傾向性判斷機制分析一篇新聞文本中關鍵句群中的正、負向數,得出一篇新聞文本的傾向性。

4 實驗結果與分析

本節主要從公司名識別、關鍵句群抽取和新聞文本傾向性三方面實驗結果做分析。公司名識別和關鍵句群的評價指標主要分析其精確率、召回率,新聞文本傾向性主要從準確率分析其效果。

4.1 公司名識別結果分析

新聞標題里公司名比較多,因此本實驗從實驗數據中隨機選擇500條新聞標題,其中200條用于學習參數α的值,通過對實驗數據學習,在α值設為2.3時可以取得最優效果,300條數據被等分3組進行公司名識別的驗證。表3為測試結果。

表3 公司名識別效果

綜合表3中3組測試數據,本文提出的公司名識別的準確率和召回率平均值可以達到83.81%和70.85%,百度百科查詢加入方法中對新公司名稱識別也有提高,詞典中加入公司名與公司代碼映射,在處理N元組時更有側重。實驗結果表明,本文提出的公司名識別方法效果更優且擴展性更好。

4.2 關鍵句群抽取結果分析

4.2.1 參數學習

實驗中我們使用網格搜索方法學習各個特征屬性權重Wposition、Wname、Wfield、Wsimilarity的值,設置步長為0.01,我們對人工標注好的500篇新聞文本進行訓練,300篇用于測試,Wj均初始化為0.25,在滿足0

圖2 準確率和召回率變化

如圖2所示,acc為準確率,recall代表召回率,隨著Φ值的變化,準確率和召回率有著相反的變化,在Φ值取0.58時可以取得較好的效果,實驗中我們把Φ值設為0.58。

4.2.2 結果分析

將900篇標注好的文本進行關鍵句群抽取測試,數據被等分為3組,表4為測試結果。

表4 關鍵句群抽取結果

根據對表4的各項指標分析,關鍵句群抽取效果比較好,平均準確率和召回率分別可以達到74.38%和71.75%。表中第一組數據中準確率和召回率均為最高值,其它兩組實驗結果相差不大,分析原因,由于新聞文本長度不同,所包含句子的條數不同,抽取結果也會有差異,實驗結果表明,本文提出的關鍵句群抽取方法有效。

4.3 新聞傾向性結果分析

對新聞文本和其關鍵句群進行傾向性標注,4000篇語料中,3100篇用于訓練,900篇新聞文本等分為3組作為測試數據。在相同實驗數據情況下,本文方法分別針對SVM、CNN以及文獻[4]中的SAFT-SR方法進行實驗效果比對,其中SVM采用線性核函數以及梯度下降算法選取其參數,CNN模型采用含有128個神經元的一層卷積層以及含有128個神經元的一層池化層和兩個神經元的全連接softmax層,本文分類模型則采用含有128個神經元的LSTM層和一個含有2個全連接的softmax層,分類結果見表5。

表5 不同分類方法的測試結果

表5中,分析得出,相比對照的方法,本文提出的新聞文本傾向性分析取得最高的準確率,本實驗方法和CNN均為深度學習模型,其效果明顯高于傳統機器學習模型SVM,SAFT-SR方法基于復雜的語義規則,擴展性較差,該方法的準確率僅比SVM模型稍微高點,遠低于深度學習模型。在對短文本分類時,LSTM性能優于CNN模型,在3組測試數據中本文實驗方法準確率比CNN模型平均高3個百分點,比傳統機器學習SVM分類方法高出8.79個百分點,同時比SAFT-SR方法高出8.7個百分點。本實驗方法準確率高于所有對比方法,驗證了本方法的有效性。

5 結束語

針對金融新聞的傾向性判定,本文提出了基于LSTM模型的判定方法。公司名識別、關鍵句群抽取和文本傾向性判斷均取得較好的效果。關鍵句群抽取結果對新聞文本傾向性分析準確率有著關鍵的作用,抽取效果的好壞直接影響文本分類的效果,雖然已經取得不錯的效果,但仍然有不小的提升空間,下一步的研究方向可以放在改善抽取關鍵句群的效果上。公司名識別已經取得了較高的準確率,如果下一步可以將深度學習用于公司名識別,這將是一個不錯的嘗試。

猜你喜歡
百度關鍵文本
高考考好是關鍵
Robust adaptive UKF based on SVR for inertial based integrated navigation
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
百度遭投行下調評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
百度“放衛星”,有沒有可能?
太空探索(2014年4期)2014-07-19 10:08:58
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 99ri精品视频在线观看播放| 欧美中文字幕无线码视频| 毛片最新网址| 69av免费视频| 中文字幕久久亚洲一区| 久久这里只有精品国产99| 99国产精品免费观看视频| 一级毛片免费高清视频| 日韩中文欧美| 美美女高清毛片视频免费观看| 国产亚洲成AⅤ人片在线观看| 夜夜操国产| AV在线天堂进入| 日本精品视频一区二区| 囯产av无码片毛片一级| 国产在线专区| 午夜激情婷婷| 欧美中文字幕在线视频| 国产精品成人免费视频99| 四虎亚洲国产成人久久精品| 久久人人97超碰人人澡爱香蕉| 青青青草国产| 久久夜色精品| 久久一日本道色综合久久| 一本色道久久88| 黄色网在线| 日本福利视频网站| 日本人妻丰满熟妇区| 国产精品女在线观看| 亚洲日韩Av中文字幕无码| 国产亚洲欧美另类一区二区| 日韩一区精品视频一区二区| 国产永久免费视频m3u8| 亚洲欧美一区二区三区麻豆| 天天综合色网| 亚洲成AV人手机在线观看网站| 亚洲欧美在线综合图区| 国产精品爽爽va在线无码观看 | 国产成人无码综合亚洲日韩不卡| 好吊妞欧美视频免费| 久久96热在精品国产高清| 免费毛片视频| 一级一级一片免费| 国产小视频在线高清播放| 国产综合另类小说色区色噜噜| 一级香蕉人体视频| 国产99视频精品免费视频7| 日韩成人在线视频| 免费在线看黄网址| 久久婷婷五月综合97色| 久久精品人人做人人爽| 99在线观看视频免费| 久久久亚洲色| 亚洲天堂.com| 国产成人免费高清AⅤ| 亚洲性视频网站| 久久毛片基地| 亚洲欧美一区在线| 成人免费午夜视频| 久久这里只精品热免费99| 内射人妻无码色AV天堂| 国产美女精品人人做人人爽| 久久亚洲国产视频| 精品国产91爱| 最新国产精品第1页| 欧美精品v欧洲精品| 国产亚洲视频在线观看| 欧美一级特黄aaaaaa在线看片| 一级看片免费视频| 国产电话自拍伊人| 美女被躁出白浆视频播放| 国产成人啪视频一区二区三区| 亚洲视屏在线观看| 成年人视频一区二区| 97se亚洲综合在线天天| 91美女视频在线| 国产不卡一级毛片视频| 亚洲天堂免费| 欧美一区二区福利视频| 97亚洲色综久久精品| 亚洲九九视频| 亚洲高清资源|