doi:10.3969/j.issn.1673-0194.2025.15.028
[中圖分類號(hào)]F832 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2025)15-0089-04
0 引言
隨著全球氣候的惡化以及傳統(tǒng)化石能源的逐漸枯竭,可再生能源近年來受到廣泛關(guān)注,并深受政府部門和投資者的青睞。可再生能源股市為相關(guān)企業(yè)提供了便捷的融資渠道,因此,研究可再生能源股價(jià)預(yù)測(cè)問題,有助于吸引更多投資者關(guān)注,激發(fā)產(chǎn)業(yè)活力,進(jìn)而推動(dòng)綠色金融產(chǎn)業(yè)和社會(huì)經(jīng)濟(jì)的可持續(xù)性發(fā)展。股價(jià)預(yù)測(cè)技術(shù)有著重要的經(jīng)濟(jì)和社會(huì)價(jià)值,能夠幫助投資者優(yōu)化決策、降低風(fēng)險(xiǎn),并在防范金融市場(chǎng)風(fēng)險(xiǎn)、合理配置社會(huì)資金以及促進(jìn)經(jīng)濟(jì)平穩(wěn)發(fā)展等方面發(fā)揮關(guān)鍵作用。
行為金融學(xué)理論指出,投資者心理和情緒易受外界信息干擾,這些信息在投資者間迅速傳播,最終影響股票價(jià)格。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的投資者通過網(wǎng)絡(luò)、社交媒體獲取信息并發(fā)表觀點(diǎn),財(cái)經(jīng)新聞、股吧評(píng)論等非結(jié)構(gòu)化數(shù)據(jù)逐漸成為投資者情緒研究的重要來源[1]。Liu和Hamori[2]研究了新聞標(biāo)題情緒與清潔能源股票波動(dòng)性的聯(lián)系,證實(shí)了新聞情緒在預(yù)測(cè)股票收益率和波動(dòng)性方面的有效性。Herrena等[3]發(fā)現(xiàn)Twitter投資者情緒的加入有效提高了對(duì)可再生能源股票收益率和波動(dòng)性的預(yù)測(cè)能力。與傳統(tǒng)股票市場(chǎng)相比,國(guó)內(nèi)外關(guān)于可再生能源股票投資者情緒的研究仍處于起步階段。近年來,深度預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)將自然語(yǔ)言處理技術(shù)推向新高度。Liu等4利用FinBERT模型分析Stocktwits平臺(tái)上的投資者情緒,并結(jié)合支持向量機(jī)預(yù)測(cè)指數(shù)基金走勢(shì)。崔婷和黃斐然[5則利用ALBERT提取媒體新聞情感特征,并應(yīng)用GRU進(jìn)行股價(jià)預(yù)測(cè)。盡管BERT模型在自然語(yǔ)言處理領(lǐng)域表現(xiàn)優(yōu)異,但其主要應(yīng)用場(chǎng)景仍集中在英語(yǔ)語(yǔ)境,針對(duì)中文社交媒體及金融領(lǐng)域的研究相對(duì)有限。
隨著我國(guó)“雙碳”戰(zhàn)略的推進(jìn)和綠色金融的快速發(fā)展,可再生能源企業(yè)在綠色金融體系中的地位日益凸顯,然而,現(xiàn)有股票市場(chǎng)研究多聚焦于大型公司和主流指數(shù),對(duì)可再生能源股票關(guān)注不足。因此,本文以可再生能源股票為研究對(duì)象,應(yīng)用自然語(yǔ)言處理技術(shù)BERT模型構(gòu)建投資者情緒指數(shù),并利用LSTM深度學(xué)習(xí)模型對(duì)股票收益率進(jìn)行預(yù)測(cè),為可再生能源股票投資者決策提供參考,助力綠色金融市場(chǎng)輿情監(jiān)管體系的完善,維護(hù)市場(chǎng)穩(wěn)定。
1 研究設(shè)計(jì)
1.1數(shù)據(jù)獲取及預(yù)處理
本文選擇以可再生能源(如太陽(yáng)能、風(fēng)能和水能等)開發(fā)利用為主營(yíng)業(yè)務(wù)的上市企業(yè)股票作為研究對(duì)象,剔除上市時(shí)間較短、規(guī)模較小、討論度較低的公司,以確保有足夠的金融和社交媒體等數(shù)據(jù)。最終選擇國(guó)內(nèi)A股四家可再生能源上市企業(yè),分別是隆基綠能(股票代碼:601012),長(zhǎng)江電力(股票代碼:600900),華能水電(股票代碼:600025),龍?jiān)措娏Γü善贝a:001289)。通過Python雅虎財(cái)經(jīng)接口獲取每家公司的股票交易數(shù)據(jù),數(shù)據(jù)包含股票代碼、交易日期、收盤價(jià)、開盤價(jià)、最高價(jià)、最低價(jià)、成交量、收益率。
選擇在國(guó)內(nèi)社交媒體領(lǐng)域影響較大的新浪微博作為投資者情緒文本數(shù)據(jù)來源平臺(tái),使用與可再生能源股票數(shù)據(jù)相同的時(shí)間框架,通過爬蟲技術(shù)對(duì)含有上述可再生能源公司股票名稱的微博內(nèi)容進(jìn)行抓取,獲得原始微博文本數(shù)據(jù)集并進(jìn)行數(shù)據(jù)清洗,剔除轉(zhuǎn)發(fā)及評(píng)論內(nèi)容、定位信息及客戶端信息等無(wú)關(guān)數(shù)據(jù),最終形成了包含博主姓名、發(fā)布日期、微博內(nèi)容及點(diǎn)贊量四個(gè)關(guān)鍵要素的微博投資者情緒文本數(shù)據(jù)集。
1.2投資者情緒指數(shù)的構(gòu)建
本文通過對(duì)新浪微博內(nèi)容進(jìn)行文本情感分類(積極、消極、中性)構(gòu)造投資者情緒指標(biāo)(SentimentIndex,SI)。主要分為三個(gè)步驟: ① 數(shù)據(jù)獲取與預(yù)處理,利用爬蟲技術(shù)對(duì)新浪微博相關(guān)文本進(jìn)行抓取并進(jìn)行數(shù)據(jù)清洗,清除無(wú)效和重復(fù)的微博文本數(shù)據(jù); ② 自然語(yǔ)言處理,應(yīng)用微調(diào)后的中文金融BERT模型對(duì)微博文本進(jìn)行情感分類; ③ 投資者情緒指數(shù)構(gòu)建,基于情感分類結(jié)果,計(jì)算構(gòu)建投資者情緒指數(shù) sIc。
參考Antweiler等[提出的“看漲指數(shù)”,本文構(gòu)造投資者情緒SI指數(shù)如下:

其中,SI反映積極情緒的微博數(shù)量在總微博數(shù)據(jù)集中的比例;∑Pos、∑Neg和?Neu分別代表每日投資者情緒積極、消極、中性三種分類的微博數(shù)量。
1.3LSTM預(yù)測(cè)模型的構(gòu)建
本文采用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型進(jìn)行股票收益率的預(yù)測(cè)。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種改進(jìn),它在RNN的基礎(chǔ)上引入門控自循環(huán)機(jī)制,確保序列信息能長(zhǎng)期傳遞。因此,LSTM能更好地提取學(xué)習(xí)時(shí)間序列的長(zhǎng)期依賴性特征,被廣泛應(yīng)用于時(shí)間序列預(yù)測(cè)問題中。
首先,我們對(duì)模型的輸人數(shù)據(jù)進(jìn)行歸一化及分組處理。模型的輸人為股票基本數(shù)據(jù)、技術(shù)指標(biāo)數(shù)據(jù)和投資者情緒指數(shù)SI;輸出為股票收益率 Rit ,代表第i只股票第 t 天的收益率。首先將數(shù)據(jù)轉(zhuǎn)換成數(shù)組形式,并進(jìn)行歸一化處理。由于實(shí)際股票市場(chǎng)中,投資者情緒可能具有持續(xù)性的影響,考慮投資者情緒的滯后效應(yīng),將數(shù)據(jù)分組處理,時(shí)間窗口步長(zhǎng)分別設(shè)為3、5和10,即以前3日、前5日和前10日的股票交易數(shù)據(jù)及投資者情緒預(yù)測(cè)下一日股票收益率。
接下來,構(gòu)建LSTM網(wǎng)絡(luò)并進(jìn)行訓(xùn)練和測(cè)試。將處理好的數(shù)據(jù)按照 7:3 的比例劃分為訓(xùn)練集和測(cè)試集。模型由兩個(gè)LSTM層和兩個(gè)全連接層構(gòu)成,其中每層LSTM包含128個(gè)神經(jīng)元,模型優(yōu)化器使用Adam自適應(yīng)優(yōu)化算法,損失函數(shù)使用均方誤差(MSE),并使用Dropout緩解由于數(shù)據(jù)訓(xùn)練樣本過少而參數(shù)過多所導(dǎo)致的過擬合問題。訓(xùn)練過程中,批量大小(Batchsize)為64,訓(xùn)練周期(Epoch)為50。
2 實(shí)證結(jié)果分析
本文以可再生能源股票為研究對(duì)象,首先應(yīng)用自然語(yǔ)言處理技術(shù)BERT模型對(duì)新浪微博內(nèi)容進(jìn)行情感分類,構(gòu)建可再生能源股票投資者情緒指數(shù),利用LSTM構(gòu)建深度學(xué)習(xí)模型,對(duì)可再生能源股票收益率進(jìn)行預(yù)測(cè),并比較加入情緒數(shù)據(jù)之后股票預(yù)測(cè)準(zhǔn)確率是否有所提高。
本文選取隆基綠能公司2023年1月至2023年12月的每日微博博文作為實(shí)證數(shù)據(jù),經(jīng)過清洗后得到26672條微博文本數(shù)據(jù)以及234條股票交易價(jià)格數(shù)據(jù)。圖1展示了股票收盤價(jià)和收益率的變化趨勢(shì)。
由于我們的目標(biāo)是評(píng)估將來自社交媒體的投資者情緒納入預(yù)測(cè)模型是否會(huì)顯著提高預(yù)測(cè)模型的準(zhǔn)確性,因此,首先在不考慮投資者情緒的情況下只使用股票交易數(shù)據(jù)構(gòu)建模型,隨后將構(gòu)建的投資者情緒指數(shù)SI加入模型中,通過比較加入前后模型的性能指標(biāo)來評(píng)估加入情緒變量后是否提高了預(yù)測(cè)精度。本文使用均方誤差(MSE)、均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)作為模型性能的評(píng)估指標(biāo)。三個(gè)指標(biāo)均為模型預(yù)測(cè)誤差,數(shù)值越低則意味著預(yù)測(cè)精度越高,模型的性能表現(xiàn)越好。
圖1隆基綠能股票收盤價(jià)與收益率折線圖

表1展示了LSTM模型加入投資者情緒指數(shù)前后的評(píng)估指標(biāo)結(jié)果(MSE、RMSE和MAE)。結(jié)果表明,在三種不同大小的時(shí)間窗口情況下,模型加入情緒變量后所有預(yù)測(cè)誤差均有所減小,且模型在窗口大小為5時(shí)表現(xiàn)最好。實(shí)驗(yàn)結(jié)果說明本文基于BERT自然語(yǔ)言處理技術(shù)構(gòu)建的新浪微博投資者情緒指數(shù)成功提高了LSTM預(yù)測(cè)模型的性能,考慮投資者情緒能夠更好地預(yù)測(cè)可再生能源股票的收益率。
3 結(jié)束語(yǔ)
隨著人們對(duì)可再生能源的興趣不斷提升,市場(chǎng)對(duì)可再生能源公司的投資不斷增加。本文以可再生能源股票為研究對(duì)象,利用BERT模型對(duì)新浪微博內(nèi)容進(jìn)行情感分類并構(gòu)建投資者情緒指數(shù)(SI),結(jié)合LSTM模型預(yù)測(cè)可再生能源股票收益率。實(shí)證結(jié)果表明,引入投資者情緒變量有效降低了預(yù)測(cè)誤差,驗(yàn)證了本文構(gòu)建的新浪微博投資者情緒指數(shù)對(duì)LSTM預(yù)測(cè)模型性能的提升作用。相較于傳統(tǒng)方法,本文利用BERT模型刻畫投資者情緒,強(qiáng)調(diào)了社交媒體中投資者情緒所蘊(yùn)含的信息和能量。本文豐富了以可再生能源股票為代表的綠色金融領(lǐng)域投資者情緒的研究?jī)?nèi)容,研究結(jié)果不僅為投資者提供了決策參考,促進(jìn)可再生能源領(lǐng)域的投資,還為政策制定者加強(qiáng)綠色金融市場(chǎng)輿情監(jiān)管,維護(hù)市場(chǎng)穩(wěn)定提供了理論依據(jù),具有一定的理論與實(shí)踐意義。
主要參考文獻(xiàn)
[1]樊鵬英,楊音,張正平,等.個(gè)股投資者情緒與股票收益率 的關(guān)系:基于股評(píng)信息視角的研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2021,51(16):305-320.
[2]LIU T,HAMORI S.Does investor sentiment affect clean energystock?EvidencefromTVP-VAR-based connectedness approach[J].Energies,2021,14(12):3442.
[3]HERRERAGP,CONSTANTINOM,SUJ,etal.Renewable energy stocks forecast using Twitter investor sentiment and deep learning[J].EnergyEconomics,2022,114:106285.
[4]LIUJX,LEUJS,HOLSTS.Stock price movement prediction based on Stocktwits investor sentiment using FinBERT and ensemble SVM[J].PeerJ Computer Science,2O23,9:1403.
[5]崔婷,黃斐然.基于情感分析大模型的股票預(yù)測(cè):結(jié)合GRU 和ALBERT的預(yù)測(cè)模型[J].數(shù)據(jù)與計(jì)算機(jī),2024(2):113- 123.
[6]ANTWEILERW,F(xiàn)RANKMZ.Is all that talk just noise?The informationcontentofinternet stockmessageboards[J].The JournalofFinance,2004,59(3):1259-1294.
[7]楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指 數(shù)預(yù)測(cè)研究[J].統(tǒng)計(jì)研究,2019,36(3):65-77.
表1模型預(yù)測(cè)性能評(píng)估指標(biāo)
