陳可嘉,陳榮暉
(福州大學(xué)經(jīng)濟(jì)與管理學(xué)院,福州 350116)
根據(jù)中國(guó)結(jié)算數(shù)據(jù)顯示,截至2019年9月30日,滬深兩市投資者總數(shù)達(dá)1.57×108,其中個(gè)人投資者達(dá)到1.56×108。與此同時(shí),投資者在線論壇不斷涌現(xiàn)并受到廣大投資者歡迎,這些在線評(píng)論包含的投資者情緒被學(xué)術(shù)界認(rèn)定是造成股票市場(chǎng)系統(tǒng)性偏差的重要成因之一[1-2]。許多投資者喜歡在進(jìn)行股市投資時(shí)查看在線論壇的評(píng)論,分析后再進(jìn)行投資。但伴隨互聯(lián)網(wǎng)快速發(fā)展,信息體量快速增長(zhǎng),投資者無(wú)法輕易從中獲取重要信息,故借助計(jì)算機(jī)手段來(lái)科學(xué)測(cè)度其中的投資者情緒受到越來(lái)越多的投資者關(guān)注。基于情感詞典的方法是文本情緒的常用分析方法[3],所使用的情感詞典是否全面且精確將對(duì)投資者情緒測(cè)度結(jié)果產(chǎn)生重大影響,進(jìn)而影響投資者收益[4]。
當(dāng)前關(guān)于投資者情緒測(cè)度的研究多是基于現(xiàn)有的通用情感詞典而開(kāi)展[5-6]。其中,知網(wǎng)情感詞典(HowNet)、中國(guó)臺(tái)灣大學(xué)情感詞典(NTUSD)和清華大學(xué)情感詞典(THUSD)被較高頻率采用。HowNet包含漢語(yǔ)和英語(yǔ)褒貶的評(píng)價(jià)詞、情感詞,并構(gòu)建了詞語(yǔ)之間大型關(guān)系網(wǎng)絡(luò);NTUSD來(lái)源于中國(guó)臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的中文情感極性詞典,包含2 810個(gè)褒義詞和8 276個(gè)貶義詞;THUSD多是通過(guò)對(duì)線上文本進(jìn)行多輪人工篩選后而產(chǎn)生。這些通用情感詞典主要是通過(guò)閱讀大量文本或現(xiàn)有詞典,人工篩選出具有較強(qiáng)情感傾向的詞語(yǔ),再對(duì)其標(biāo)注情感極性或情感強(qiáng)度,進(jìn)而構(gòu)成詞典,此類(lèi)方法耗費(fèi)大量的人力物力,自動(dòng)化程度低,與待分析文本聯(lián)系不夠緊密[7]。針對(duì)人工構(gòu)建效率較低,也有較多學(xué)者提出改進(jìn)。Bracewell[8]使用種子詞和現(xiàn)有詞典創(chuàng)建初始情感詞典并通過(guò)半自動(dòng)方式實(shí)現(xiàn)情感詞典構(gòu)建;楊超等[9]通過(guò)對(duì)HowNet和NTUSD進(jìn)行擴(kuò)展,并標(biāo)注其情感傾向;周詠梅等[10]在詞典庫(kù)情感種子詞基礎(chǔ)上采用圖排序模型的方法來(lái)構(gòu)建情感詞典。這些研究在一定程度上提高了詞典構(gòu)建效率,但是所構(gòu)建的詞典仍然是通用型,缺乏行業(yè)特異性[11]。Rao等[12]針對(duì)新聞?lì)I(lǐng)域情感分析則采用具有3種修剪策略的算法來(lái)自動(dòng)構(gòu)建單詞級(jí)情感詞典;嚴(yán)仲培等[13]提出了面向旅游在線評(píng)論的情感詞典構(gòu)建方法。這些詞典與應(yīng)用領(lǐng)域聯(lián)系較為密切,擁有較好的行業(yè)特異性,但是在已有研究中關(guān)于針對(duì)股市的仍然較少。孟雪井等[14]通過(guò)綜合Hounet、NTUSD和THUSD三大詞典并結(jié)合智能算法得到股票市場(chǎng)投資者關(guān)鍵詞庫(kù),并應(yīng)用于投資者情緒指數(shù)構(gòu)建,該研究方法覆蓋三大詞典庫(kù)工作量較大,且未對(duì)情感極性進(jìn)行深入分析,會(huì)限制情感詞典的使用。目前針對(duì)情感詞典情感強(qiáng)度的研究,主要通過(guò)計(jì)算詞語(yǔ)“空間”距離得出。Colace等[15]從文本中抽取詞語(yǔ)構(gòu)成融合圖,再針對(duì)性地對(duì)詞語(yǔ)進(jìn)行情感傾向計(jì)算;Mukkamala等[16]則是構(gòu)建了一個(gè)四元模糊集,通過(guò)計(jì)算各模糊集之間關(guān)系得出情感強(qiáng)弱。這些研究在情感強(qiáng)度計(jì)量方面取得一定突破,但是存在缺乏對(duì)情感強(qiáng)度的調(diào)整的問(wèn)題,具有一定改進(jìn)空間。
情感詞典構(gòu)建作為文本情緒分析的基礎(chǔ)性研究,現(xiàn)有研究仍然存在效率較低、情感判斷不夠精細(xì)、針對(duì)特定領(lǐng)域缺乏行業(yè)特異性等問(wèn)題。為此,提出針對(duì)股市的情感詞典自動(dòng)構(gòu)建與優(yōu)化方法,提高情感詞典構(gòu)建效率,并優(yōu)化提升詞典精確度:一是在構(gòu)建股市基本情感詞典基礎(chǔ)上,選用Word2vec無(wú)監(jiān)督添加高頻情感詞語(yǔ)并判斷極性與賦值,降低人工添詞工作量;二是將情感詞典構(gòu)建問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,選用自行改進(jìn)的模擬退火算法對(duì)股市情感詞典情感優(yōu)化,不斷提升情感詞典性能。
提出的股市情感詞典自動(dòng)構(gòu)建與優(yōu)化方法主要包括三個(gè)階段:第一階段為基本情感詞典構(gòu)建;第二階段為高頻情感詞語(yǔ)添加;第三階段為情感分值優(yōu)化。整個(gè)股市情感詞典構(gòu)建與優(yōu)化流程如圖1所示。

圖1 股市情感詞典構(gòu)建與優(yōu)化
在股市投資者情緒分析中,通過(guò)文本挖掘技術(shù)對(duì)指定文本的語(yǔ)義開(kāi)展分析,不僅需要識(shí)別投資者的情感悲喜、判斷投資者觀點(diǎn)是同意或反對(duì),更主要的目的在于了解投資者對(duì)于股市“上漲”或者“下跌”的預(yù)期以及其接下來(lái)的投資意愿,故股市情感詞典構(gòu)建需要考慮股市特點(diǎn)。在基本情感詞典構(gòu)建中,就需要考慮相關(guān)因素。基本情感詞典構(gòu)建主要由基本情感詞語(yǔ)挑選和程度副詞與否定副詞挑選兩個(gè)部分構(gòu)成。
1.1.1 基本情感詞語(yǔ)挑選
在股市文本情緒分析中,情感詞語(yǔ)為“多”或“空”對(duì)情感分析具有至關(guān)重要作用,在基本情感詞語(yǔ)挑選中,就需要做到做好相關(guān)詞語(yǔ)篩選工作。股市情感不僅受到常規(guī)情感詞語(yǔ)影響,投資者還容易受到一些股市專(zhuān)業(yè)詞語(yǔ)影響,例如“拋售”、“拉高”等詞語(yǔ)。除此之外,股市影響因素眾多,一些詞語(yǔ)在一定情境下,其情感極性也會(huì)發(fā)生變化。例如爆發(fā)負(fù)面信息后,“長(zhǎng)生生物”、“樂(lè)視”在股市中均表達(dá)負(fù)面情感。先構(gòu)建基本情感詞典,并在此基礎(chǔ)上進(jìn)行擴(kuò)充。其中基本多空情感詞語(yǔ)主要通過(guò)詞頻統(tǒng)計(jì)分析與人工篩選相結(jié)合的方法來(lái)完成,通過(guò)對(duì)大量文本進(jìn)行詞頻統(tǒng)計(jì),可從中挑選出股民經(jīng)常使用的詞匯,結(jié)合人工篩選,就可以得出股市中常用的基本詞語(yǔ)。
1.1.2 程度副詞和否定詞挑選
參考梁亞偉[17]的情感分析模型,以情感詞語(yǔ)為中心,抽取其中的程度副詞和否定詞,以子句為單位,逐一計(jì)算情感傾向值,進(jìn)行加權(quán)平均,進(jìn)而得出文本的情緒指數(shù)。故情感副詞和否定詞在情感分析中起到關(guān)鍵作用,否定副詞將左右文本真實(shí)情感方向,而程度副詞則是情感程度強(qiáng)弱的重要載體。例如“我堅(jiān)定認(rèn)為股市會(huì)上漲”相比“我認(rèn)為股市不會(huì)下跌”,兩句雖然都在表達(dá)看多股市,但是其情感強(qiáng)弱具有差異,在對(duì)股市投資者情緒計(jì)量時(shí)需要做到差異化對(duì)待。
1.2.1 Word2vec介紹
投資者在網(wǎng)絡(luò)論壇發(fā)表的評(píng)論數(shù)量繁多,但內(nèi)容相對(duì)簡(jiǎn)潔、直接,主要表達(dá)其對(duì)于股市投資的觀點(diǎn)和看法,且股市用語(yǔ)較少存在一詞多義等情況,故在構(gòu)建詞空間向量時(shí)主要考慮構(gòu)建效率。Word2vec是在2013年由Mikolov等[18]構(gòu)建的一種神經(jīng)概率語(yǔ)言模型,它減少了計(jì)算復(fù)雜度,在詞向量計(jì)算上具有明顯的優(yōu)勢(shì)。Word2vec詞向量構(gòu)建多是基于詞語(yǔ)的上下文內(nèi)容得出,在分析上下文語(yǔ)義信息這一基礎(chǔ)上,進(jìn)而得出兩個(gè)詞語(yǔ)的相似度。其已在評(píng)論情感[19]、關(guān)鍵詞抽取[20]、情感詞典構(gòu)建[21]等領(lǐng)域已成功應(yīng)用。Word2vec包含兩種訓(xùn)練模型,分別是CBOW和Skip_gram。
CBOW模型是通過(guò)給定上下文內(nèi)容用以預(yù)測(cè)給定詞,其數(shù)學(xué)表示如式(1)所示:
P[(Wt|τ(Wt-k,Wt-k+1,…,Wt,…,Wt+k-1,Wt+k)]
(1)
式(1)中:Wt為該語(yǔ)料詞典中的詞語(yǔ),即通過(guò)和Wt相鄰上下文窗口大小為k的詞來(lái)預(yù)測(cè)詞Wt出現(xiàn)的概率;τ運(yùn)算符表示將上下文窗口相鄰的詞匯的詞向量作相加運(yùn)算。
Skip_gram則是通過(guò)當(dāng)前詞預(yù)測(cè)其上下文內(nèi)容,即通過(guò)詞匯Wt去預(yù)測(cè)相鄰窗口k內(nèi)詞匯的概率。其數(shù)學(xué)表示如式(2)所示:
P(Wt-k,Wt-k+1,…,Wt,…,Wt+k-1,Wt+k|Wt|)
(2)
實(shí)際應(yīng)用中,Skip_gram的語(yǔ)義準(zhǔn)確率高于CBOW,故選用Skip_gram模型用于詞語(yǔ)向量空間構(gòu)建。
1.2.2 高頻備選情感詞語(yǔ)
從大量文本中挑選詞語(yǔ)將其添加到情感詞典中去,需要先對(duì)文本進(jìn)行分詞處理。使用Jieba工具對(duì)文本進(jìn)行分詞處理,去除停用詞后,并以交易日為單位統(tǒng)計(jì)每日高頻詞語(yǔ),挑選詞頻最高的若干個(gè)詞語(yǔ)作為情感詞語(yǔ)備選詞。如每日備選詞已在情感詞典中去,則不再添加;如為新詞,將其添加到詞典中等待詞性判斷與賦值。
1.2.3 高頻情感詞語(yǔ)極性判斷與賦值
選用Word2vec工具來(lái)判斷新添加高頻情感詞語(yǔ)情感極性并對(duì)其賦予情感分值。通過(guò)Python的Gensim工具訓(xùn)練Word2vec模型,得出單一詞語(yǔ)在文本中的空間向量,A、B、Ai、Bi為各維度的數(shù)值,通過(guò)式(3)空間距離計(jì)算方法可得出詞語(yǔ)的關(guān)聯(lián)關(guān)系SAB。
(3)
在關(guān)聯(lián)度計(jì)算的種子詞的選擇方面,通過(guò)對(duì)東方財(cái)富“股吧”詞頻統(tǒng)計(jì)并結(jié)合人工篩選,選擇了5個(gè)看多詞語(yǔ)與5個(gè)看空詞語(yǔ),將其作為與備選詞關(guān)聯(lián)度計(jì)算的種子詞。所選看多詞語(yǔ)為“上漲”“利好”“看多”“紅”“買(mǎi)入”;看空詞語(yǔ)為“下跌”“利空”“看空”“綠”“賣(mài)出”。上述詞語(yǔ)考慮了股市的走勢(shì)特點(diǎn)、股民操作行為等多因素,符合股市特點(diǎn)。
高頻詞語(yǔ)備選詞依次與種子詞計(jì)算關(guān)聯(lián)度,并根據(jù)其與看多種子詞的關(guān)聯(lián)度spos和看空種子詞的關(guān)聯(lián)度sneg強(qiáng)弱判斷其情感極性。強(qiáng)弱關(guān)系sw則以其累加關(guān)聯(lián)度為依據(jù),計(jì)算方法如式(4)所示:
(4)
式(4)中:N為整數(shù),當(dāng)該詞語(yǔ)與看多種子詞關(guān)聯(lián)度之和更大時(shí),其取值為正數(shù),反之為負(fù)數(shù)。
1.3.1 股市情感詞語(yǔ)分值優(yōu)化模型
杜偉夫等[22]的研究將文本挖掘問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,并利用模擬退火算法求解。參考其研究思想將每個(gè)情感詞語(yǔ)的情感分值作為優(yōu)化對(duì)象,情感波動(dòng)情況與股市波動(dòng)情況一致性為優(yōu)化目標(biāo),并通過(guò)改進(jìn)模擬退火算法實(shí)現(xiàn)優(yōu)化過(guò)程。每個(gè)子句情感值Bi計(jì)算方法如式(5)所示:
(5)
式(5)中:Zl為每個(gè)子句中的情感分值,當(dāng)句子中包含情感詞則計(jì)算得分,如果不包含則該句子不計(jì)算分?jǐn)?shù);Fl為否定詞詞語(yǔ)得分,如果存在否定詞則為-1,不含則為1;Dl為程度副詞得分;l為每個(gè)子句編號(hào);len(sen)為所包含的子句數(shù)量。根據(jù)該程度強(qiáng)弱進(jìn)行計(jì)算得分。例如“我堅(jiān)定認(rèn)為股市不會(huì)上漲”句子得分為“上漲”情感詞得分、“堅(jiān)定”程度詞得分和“不會(huì)”否定詞得分三者的乘積。
每日均會(huì)產(chǎn)生大量子句來(lái)影響股票市場(chǎng),采用均值方法來(lái)衡量每日的投資者情感程度,故每日情感傾向值Kt計(jì)算方法如式(6)所示:
(6)
將先前兩日的變化情況作為當(dāng)日投資者情緒,每日的投資者情緒指數(shù)Vt計(jì)算方法如式(7)所示。而休市期間的數(shù)據(jù),將其歸入上一交易日處理。
Vt=Kt-Kt-1
(7)
為更好地體現(xiàn)詞典的準(zhǔn)確性,將每日投資者情緒指數(shù)Vt與獲取的每日漲跌情況Rt歸一化后的殘差平方和作為算法求解目標(biāo),歸一化方法如式(8)所示,目標(biāo)函數(shù)f如式(9)所示:
(8)
(9)
式中:t為期數(shù);Z(Vt)為標(biāo)準(zhǔn)化后的當(dāng)期情感分值;Z(Rt)為標(biāo)準(zhǔn)化后的當(dāng)期收益率。
1.3.2 股市情感詞語(yǔ)分值優(yōu)化
根據(jù)1.3.1所示的股市情感詞典優(yōu)化模型,選用改進(jìn)模擬退火算法進(jìn)行優(yōu)化。傳統(tǒng)模擬退火算法(simulated annealing,SA)由Steinbrunn等[23]于1953年提出,其思想?yún)⒖嘉矬w退火降溫過(guò)程,使得算法在溫度低值時(shí)趨向最優(yōu)解,該算法對(duì)于解決大規(guī)模組合優(yōu)化問(wèn)題具有較大的優(yōu)勢(shì),在解決收斂速度較慢、搜索空間窄、效率不高等問(wèn)題上更為突出,故該方法可用于解決股市情感詞典構(gòu)建中情感詞語(yǔ)分值優(yōu)化問(wèn)題。一般模擬退火算法步驟如下。
步驟1 輸入:初始解X0、降溫方式g(T)、初始溫度Tmax、平衡條件、停止準(zhǔn)則等。
(1)生成初始解X=X0。
(2)初始溫度T=Tmax。
步驟2 重復(fù)以下步驟。
(1)針對(duì)當(dāng)前溫度T,重復(fù)如下步驟。①生成隨機(jī)候選解X′,令Δf=f(X′)-f(X);②若Δf≤0,直接令X=X′,否則以概率exp(-Δf/T)接受解X′;③滿足平衡條件條件時(shí),結(jié)束(例如迭代到了最大次數(shù))。
(2)更新溫度,即T=G(T)。
(3)滿足停止準(zhǔn)則時(shí)(T 步驟3 輸出得到的最優(yōu)解X。 為進(jìn)一步提高算法性能,在傳統(tǒng)模擬退火算法的基礎(chǔ)上,引入改進(jìn)參數(shù)Iimp并改變其概率接受,避免其陷入局部最優(yōu),算法流程如圖2所示。具體步驟如下。 圖2 算法流程圖 在獲取初始情感詞典后,將其作為當(dāng)前最優(yōu)解,計(jì)算其目標(biāo)值f(X)。 隨機(jī)選擇一定比例的情感詞語(yǔ),對(duì)其進(jìn)行情感分值優(yōu)化:使用1.2.1節(jié)訓(xùn)練的Word2vec模型對(duì)該詞語(yǔ)進(jìn)行關(guān)聯(lián)度分析,分別計(jì)算其與看多種子詞與看空種子詞的之間的相關(guān)關(guān)系,并取兩者中較大值P,P計(jì)算方法如式(10)所示: (10) 采用隨機(jī)取值方法,對(duì)該情感詞的情感分值執(zhí)行增加P或者減去P的操作。 計(jì)算改變后的目標(biāo)值f(X′),并計(jì)算Δf=f(X′)-f(X)是否優(yōu)化,如果已經(jīng)優(yōu)化則接受本次改變,如果未優(yōu)化,則進(jìn)行判斷,如滿足以下條件也可接受本次改變。 (1)Δf (2)改進(jìn)參數(shù)Iimp取值為接受輪次Acc的整數(shù)倍。 如果不滿足上述條件,則標(biāo)記改進(jìn)參數(shù)Iimp+1,取消本次變化,開(kāi)始當(dāng)前溫度新一次迭代。如滿足優(yōu)化條件,則令改進(jìn)參數(shù)Iimp=0,接受本次改變?yōu)楫?dāng)前最優(yōu)解,并開(kāi)始當(dāng)前溫度的新一輪迭代。 當(dāng)?shù)螖?shù)到達(dá)設(shè)定值時(shí),則進(jìn)行降溫操作,降溫變化函數(shù)G(T)為T(mén)=0.99T。 降溫后,開(kāi)始新的溫度條件迭代,若溫度低于設(shè)定的最低溫度Tmin則結(jié)束算法,輸出結(jié)果。 數(shù)據(jù)于2019年4月14日通過(guò)Python爬蟲(chóng)從東方財(cái)富“上證指數(shù)”股吧論壇中獲取前10 000 頁(yè)評(píng)論數(shù)據(jù),獲取字段包括評(píng)論標(biāo)題和日期,原始數(shù)據(jù)共有800 000 條,去除重復(fù)數(shù)據(jù)和由于評(píng)論更新導(dǎo)致進(jìn)入該時(shí)間段的數(shù)量較少的時(shí)段數(shù)據(jù),最終獲取2018年5月25日—2019年4月14日共745 726 條數(shù)據(jù)。指數(shù)漲跌數(shù)據(jù)通過(guò)東方財(cái)富Choice金融終端獲取該時(shí)段內(nèi)交易日上證指數(shù)每日收益率215條。 2.2.1 基本情感詞詞典構(gòu)建情況 多空情感詞語(yǔ)挑選主要通過(guò)對(duì)新浪財(cái)經(jīng)博客內(nèi)容去除停用詞后,進(jìn)行詞頻統(tǒng)計(jì),并依據(jù)詞頻統(tǒng)計(jì)結(jié)果進(jìn)行人工挑選得出。根據(jù)挑選結(jié)果可將詞語(yǔ)分為技術(shù)面情感詞典和消息面情感詞語(yǔ),共有207個(gè)詞語(yǔ),其中看多情感詞語(yǔ)100個(gè),看空情感詞典為107個(gè),表1列舉了部分詞語(yǔ)。 表1 部分情感詞語(yǔ) 人工篩選了否定詞和程度副詞,并根據(jù)其感情程度進(jìn)行分級(jí),程度副詞包括:不為過(guò)、多、過(guò)、過(guò)于、略、逾、足、尤其、百分之百、最、倍加等;否定詞則包括:不是、否、不會(huì)、沒(méi)、沒(méi)有、別、休、否、弗、勿、罔等。 2.2.2 高頻情感詞語(yǔ)添加情況 在情感詞語(yǔ)添加中,選擇詞頻排名前20的高頻詞語(yǔ),通過(guò)結(jié)果分析發(fā)現(xiàn)所構(gòu)建的股市情感詞典針對(duì)股票市場(chǎng)具有良好的適應(yīng)力,能較大限度地添加影響文本情緒的相關(guān)詞語(yǔ)。從消息面和技術(shù)面兩個(gè)角度出發(fā),都可對(duì)原有情感詞典進(jìn)行補(bǔ)充,進(jìn)一步提升所構(gòu)建股市情感詞典的行業(yè)特異性。此外,方法可以對(duì)一些中性詞語(yǔ)進(jìn)行情感極性標(biāo)注,例如“2449”被判定為看空情感詞語(yǔ),則主要因?yàn)槠錇樵撈陂g內(nèi)的最低點(diǎn),“中信證券”一詞被判定為看空,則因?yàn)槠浔幌嚓P(guān)機(jī)構(gòu)調(diào)為賣(mài)出評(píng)級(jí),引發(fā)了市場(chǎng)回調(diào)。“入摩”和“入富”等詞語(yǔ)則主要是因?yàn)樵撌录槭袌?chǎng)帶來(lái)增量資金,提高市場(chǎng)信心,在股民看來(lái)是正面事件,則判定為看多詞語(yǔ)。表2列舉了情感分值絕對(duì)值較高的高頻情感詞語(yǔ),從表2可見(jiàn)技術(shù)面情感詞語(yǔ)相對(duì)消息面情感詞語(yǔ)在情感表達(dá)方面有更強(qiáng)情感極性,相對(duì)而言消息面情感詞語(yǔ)表達(dá)因出現(xiàn)頻率較低,其情感極性則較弱。 表2 部分新增情感詞語(yǔ)和情感分值 2.2.3 情感詞典優(yōu)化情況 在優(yōu)化流程中,每次選擇1%的詞語(yǔ)開(kāi)展優(yōu)化,在對(duì)情感詞語(yǔ)的優(yōu)化上也有較好的效果,除了對(duì)新增高頻情感詞語(yǔ)優(yōu)化結(jié)果較好。從表3可知,部分基本多空情感詞語(yǔ)相對(duì)原始情感分值均有較大的變動(dòng),且其變化方向也區(qū)分了該詞語(yǔ)的情感極性。例如對(duì)股市影響的比較重大的資金相關(guān)詞語(yǔ)“融資額旺季”的權(quán)重得以提升。 表3 部分情感詞語(yǔ)分值變化 2.2.4 情感詞典構(gòu)建效果分析與比較 為了評(píng)估本文方法的有效性和實(shí)用性,選擇NTUSD、THUSD和HowNet與本文方法進(jìn)行比對(duì)分析。 行業(yè)特異性的提高,將提升文本利用情況,增加情感詞典對(duì)于文本的覆蓋率,使得文本詞語(yǔ)利用率得以提升,所構(gòu)建的投資者情緒指數(shù)將有更多的情感詞語(yǔ)來(lái)與文本。從表4可知,本文方法相比其他情感詞典具有更強(qiáng)的覆蓋率,為78.50%,比THUSD提升47%,較HowNet也提升36%。 表4 各情感詞典覆蓋數(shù)量 進(jìn)一步使用準(zhǔn)確率QAcc、精確率PPre、召回率RRec和F1對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。各指標(biāo)代表以下含義。 (1)準(zhǔn)確率:對(duì)于股市走勢(shì)漲跌的測(cè)算趨勢(shì)正確的比例。 (2)精確率:測(cè)算結(jié)果為上漲且正確占全部預(yù)測(cè)為上漲的比例。 (3)召回率:測(cè)算結(jié)果為上漲且正確占全部實(shí)際為上漲的比例。 (4)F1:對(duì)精確率和召回率的整體衡量,其計(jì)算方法如式(11)所示。 (11) 由表5可知,本文方法所建情感詞典在投資者情緒表達(dá)的準(zhǔn)確率、精確率、召回率和F1均高于其他三種情感詞典,其中準(zhǔn)確度高其他6.98%~11.17%,精確率高其他8.51%~12.56%,召回率高其他7.92%~16.84%,F(xiàn)1高其他7.86%~14.66%.說(shuō)明該股市情感詞典在股市投資者情緒分析中具有更好的精度。 表5 各指標(biāo)計(jì)算結(jié)果 現(xiàn)有情感詞典構(gòu)建方法存在自動(dòng)化程度低、缺少情感計(jì)量等問(wèn)題,探索一個(gè)具有自動(dòng)化構(gòu)建和自動(dòng)優(yōu)化的情感詞典具有重要意義。引入Word2vec用于高頻詞語(yǔ)情感分析,結(jié)合前期構(gòu)建的基本情感詞語(yǔ)和程度副詞、否定詞,生成當(dāng)期投資者情緒指數(shù),并將情感詞典構(gòu)建轉(zhuǎn)化為數(shù)學(xué)優(yōu)化問(wèn)題,引入改進(jìn)參數(shù)并變更概率接受的改進(jìn)模擬退火算法,用于情感詞語(yǔ)情感分值優(yōu)化。通過(guò)將其與NTUSD、THUSD和HowNet相比,本文方法所構(gòu)建的情感詞典可以提高文本覆蓋率,對(duì)股市有更強(qiáng)的行業(yè)特異性,將其運(yùn)用于股市所構(gòu)建的投資者情感指數(shù)較其他詞典有更好的精度。總體上,提出的股市情感詞典自動(dòng)構(gòu)建與優(yōu)化方法具有良好性能。
2 實(shí)驗(yàn)分析
2.1 數(shù)據(jù)介紹
2.2 結(jié)果與分析





3 結(jié)論