999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本情感分析和LightGBM-LSTM模型的黃金期貨價格預測研究

2025-11-15 00:00:00孫景云魏琛
南京信息工程大學學報 2025年5期

中圖分類號TP18;F832.5文獻標志碼 A

0 引言

隨著金融市場的不斷發展和全球經濟不確定性的增加,黃金期貨作為金融市場一種重要的衍生品,其獨特的價值屬性和在全球經濟中的重要地位使其價格走勢的預測備受矚目,精準地預測黃金期貨價格對于國家經濟的發展和金融資產的安全具有重要的意義.在大數據背景下,如何將大量結構化特征和非結構化文本信息融人預測模型來提升預測性能,已成為當前研究的熱點.在以往的研究中,學者們通過納入不同技術指標來預測黃金期貨價格,但該類方法未能綜合考慮黃金期貨價格的影響因素,例如投資者情緒對于期貨價格的影響.此外,在融合多源數據后,會造成預測模型輸入變量增加,大量冗余的變量導致模型泛化能力降低.因此,基于多源數據構建準確率高、泛化能力強的黃金期貨價格預測模型具有現實意義.

黃金期貨價格序列具有非線性、非平穩性和高噪聲等特點,因此傳統的計量模型(如自回歸移動平均模型(ARIMA)[1]、廣義自回歸條件異方差模型(GARCH)[2]、向量自回歸模型(VAR)[3]等)預測效果不佳.隨著人工智能技術的不斷發展,對于黃金期貨價格等時間序列預測的模型主要基于機器學習和深度學習模型,例如支持向量回歸(SVR)[4]、多層感知器(MLP)[5]、反向傳播神經網絡(BP)[6和極限學習機(ELM)[7]等.但上述模型在捕捉時間序列數據中的高度復雜性與長短期依賴關系等方面存在一定的不足.長短期記憶神經網絡(LongShort-TermMemory,LSTM)憑借其記憶、遺忘機制,能有效解決上述問題,被廣泛應用于時間序列預測.例如:Yurtsever[8]研究發現LSTM模型的計算復雜度低,并能有效提升黃金價格的預測效果;楊青等基于深層LSTM模型對全球30只股票指數進行預測;郭佳麗等[10]以時間序列流量為例,利用LSTM模型對其進行預測,具有較高的預測精度.但上述研究中,通常將預測對象的滯后期作為輸入變量,預測精度提升有限.因此,有學者在研究中嘗試納入技術指標、宏觀經濟指標等影響因素,并使用不同方法進行特征提取,進一步優化預測模型,提升預測效果.例如:尹力博等[1]研究了技術指標對我國大宗商品期貨價格的預測能力;Madziwa等[12]以黃金需求和國庫券利率作為黃金價格預測的輸入變量,研究發現黃金需求和國庫券利率均能提升黃金價格預測效果;韓金磊等[13]基于LSTM模型提出一種結合方差膨脹因子的組合模型,可以有效篩選特征,實現對股票價格的預測;范彩云等[14]從技術行情指標、行業影響因素及宏觀經濟指標3個維度選取39個變量,以機器學習方法融合素材,利用動態模型平均方法得到預測模型,可以提高黃金期貨價格的預測精度.

在金融市場價格預測中,除了將技術指標和宏觀經濟信息作為預測因子,投資者情緒已被證實是能夠提升模型精度的有效預測因子.投資者情緒主要分為以搜索指數為代表的投資者情緒的代理變量,和從新聞標題、股吧評論等非結構化文本數據中提取出的情感指數.例如:Dimpfl等[15基于谷歌搜索指數構建了關于股票和期貨市場的投資者情緒指標,并驗證了其有效性;梁超等[基于廣義自回歸條件異方差混頻數據抽樣(GARCH-MIDAS)模型,發現百度搜索指數和谷歌搜索指數均能顯著提升波動率的預測精度;Chen等[17]構建了一個綜合的投資者關注度指數,發現投資者關注度對市場收益的樣本內和樣本外預測精度有顯著提升.上述研究表明,加入搜索指數可以有效提升預測效果,但結構化數據容易受到序列隨機性的干擾.近年來,在融合投資者情緒進行預測研究時,不少學者發現網絡媒體所包含的大量非結構化信息對預測具有重要價值.例如:段江嬌等[18]研究發現,股票當日收益率與當日論壇情緒顯著正相關;尹海員等[爬取股吧實時評論,構建了投資者高頻情緒指標,發現中國股票市場的日內投資者情緒能正向預測股票市場;盧銳等[20]基于股吧評論數據研究發現,股吧中的投資者互動交流會擴大公司傳聞對股票價格的沖擊影響.

基于股吧評論文本構建投資者情緒指標,可以從不同角度驗證其對股票市場預測的有效性.但股吧評論數據噪聲大,數據處理難度高,而新聞標題包含較少噪聲和無關信息,能夠減少復雜的文本數據預處理工作,進一步提高預測精度.范小云等[21]對不同來源的文本信息含量進行分析,實證研究表明,新聞文本情緒能夠顯著正向預測股票收益率;張夢吉等[22]在股票預測中發現融入新聞標題信息后,模型的預測準確率進一步提升;Li等[23]引入技術指標和相關的新聞標題,使用詞典法構建情感指標,結果表明,同時使用技術指標和情感指標的模型優于單一模型;Herrera等[24]從Twitter中提取投資者情緒,證明了投資者情緒能提高可再生能源股票收益率和波動率的預測效果; Xu 等[25]基于社交媒體、傳統報紙和網絡新聞構建了3種情緒指數,發現社交媒體情緒指數和網絡新聞情緒指數對預測的提升能力最佳;張大斌等[26通過分析玉米期貨交易數據和相對應的新聞標題,發現融合新聞標題信息后模型預測準確性顯著提升.最近, Wu 等[27]利用百度云、阿里云、騰訊云平臺對原油相關文本數據分別進行情感計算,并基于投票機制得到最終情感分析結果,實證結果表明,加入情緒指數能夠更有效提升預測效果,驗證了使用智能云平臺分析金融文本數據的有效性和可行性.

綜上所述,已有文獻從不同研究角度表明,技術指標、宏觀交易指標、投資者情緒等在金融市場預測中發揮著重要作用.融合多源數據預測期貨價格也是當前研究熱點.但現有研究仍存在一些局限,譬如:特征選擇方法的參數較多,模型訓練復雜、解釋性差;選擇預測指標時,未充分考慮相關影響因素等.基于此,本文提出一種結合LightGBM(LightGradientBoostingMachine)特征選擇方法和LSTM模型的黃金期貨預測模型,通過融合多源數據信息進行預測,提升黃金期貨收盤價預測的準確性.首先,將獲取的宏觀經濟指標、技術指標、新聞標題數據、百度搜索指數進行預處理.其次,對宏觀經濟指標和技術指標分別利用LightGBM模型進行特征重要性排序,提取關鍵特征.最后,將篩選后的特征與構建的加權情感指數、百度綜合搜索指數共同作為預測因子納入LSTM模型進行預測.

本文創新點如下:

1)選擇與黃金期貨相關的新聞標題作為文本數據的來源.為避免主觀判斷產生的干擾,使用基于詞典的情感分析方法和利用百度、阿里巴巴、騰訊、華為等公司的智能云平臺中的情感分析接口進行情感特征提取,并對5種方法所獲得的情感標簽進行加權處理,構建情緒指數

2)使用LightGBM算法對技術指標、宏觀經濟指標進行特征選擇,提取重要特征.LightGBM是一種基于決策樹的梯度提升算法,具有訓練速度快、內存占用低、適用于高維數據等優點.同時,LightGBM算法的特征重要性評估機制能有效地衡量預測指標對模型預測能力的貢獻程度.

3)融合交易指標、技術指標、宏觀經濟指標、情感指數和百度搜索指數,構建多源數據融合的LSTM模型對黃金期貨價格進行預測.

1模型介紹

1.1 LSTM模型

LSTM模型能夠學習長期依賴關系,是遞歸神經網絡的一種變體,被廣泛應用于處理時間序列問題.

LSTM模型包括細胞狀態、遺忘門、輸入門以及輸出門.遺忘門決定了細胞狀態需要遺忘多少信息,根據當前輸入 xt 和前一時刻的隱藏狀態 ht-1 ,遺忘門生成一個介于0和1之間的值矩陣,表示每個信息要保留或遺忘的程度;輸入門控制新信息如何添加到細胞狀態中,包含兩個部分,一個是輸入門層,決定哪些值將會更新,另一個是創建新的候選值的tanh層;輸出門決定了細胞狀態的哪一部分將輸出以及如何影響隱藏狀態 ht .模型內部結構如圖1所示.

圖1LSTM結構 Fig.1LSTM structure

LSTM單元格的公式如下:

記 d 和 h 分別代表輸入變量個數及隱藏層節點數.矩陣 和 U∈Rh×h 分別表示輸入連接和遞歸連接的權重,這些權重包括常數項,各權重的下標字母標記了輸入門 i 輸出門 、忘記門 f 和存儲細胞 表示時間或步數; σ 為激活函數; ? 表示元素對元素乘積.

1.2 LightGBM算法

1.2.1 LightGBM算法原理

LightGBM算法[28]是微軟公司開發的一種對梯度提升機(GradientBoostingMachine,GBM)進一步改進的算法,具有優化內存使用和提高計算效率的特點,廣泛應用于分類和回歸任務.

LightGBM通過有序地增加決策樹來提升模型整體的性能.每一棵新樹的構建都是為了糾正前一棵樹的錯誤,這一過程具體公式如下:

Fm(x)=Fm-1(x)+γmhm(x).

其中: Fm(x) 是經過第 ?m 次迭代后的模型; hm(x) 是第 m 棵樹; γm 是該樹的學習率.

梯度提升是LightGBM算法實現過程中的核心,它依賴于損失函數的負梯度來定位新樹 h?m(x) 的優化方向.即每一步都會嘗試找到一個新的樹模型 h?m 來擬合前 m-1 棵樹預測結果的殘差.公式如下:

其中: L 表示損失函數; n 是訓練樣本的數量; yi 和 xi 分別是樣本的標簽和特征.

1.2.2 LightGBM算法優化策略

為了提高效率和處理大規模數據集,LightGBM算法引入基于梯度的單邊采樣方法.該方法保留那些具有較大梯度的樣本,即認為在模型學習中更為重要的樣本,為了維持數據的代表性和減少計算量,它會隨機地丟棄一部分梯度較小的樣本,但會對剩余的小梯度樣本賦予更高的權重.同時,LightGBM算法引入互斥特征捆綁技術將互斥的特征捆綁在一起,來減少實際需要處理的特征數量,降低了計算和存儲的負擔.此外,LightGBM算法使用直方圖優化技術構建決策樹.它將連續的特征值離散化成有限的區間,然后使用這些區間的統計數據來估算最佳分割點.這種方法顯著降低了內存的使用,提高了計算速度.

LightGBM算法采用帶深度限制的葉節點生長策略從所有葉節點中選擇增益最大的一個葉節點進行分裂,并通過計算特征的重要性來進行特征選擇.特征重要性衡量方式是特征在決策樹構建過程中對分裂增益的貢獻.當決策樹進行節點分裂時,每個特征參與計算分裂增益,分裂增益貢獻越大的特征,重要性越高.

其中: G 表示分裂增益; Gleft 和 Gright 分別為左節點和右節點的梯度和; Hleft 和 Hright 分別為左節點和右節點的二階梯度和.

1.3 Diebold-Mariano(DM)檢驗

DM檢驗是一種常用的統計方法,用于檢驗兩個預測模型的預測效果是否存在顯著差異.原假設 H0 為兩個模型的預測效果沒有顯著差異,備擇假設 H1 表示兩個模型的預測效果存在顯著差異.

假設基準模型A和提出模型B在時間跨度為 n 的時間序列上做預測,模型A和模型B的預測誤差分別為 ai 和 bi ,差值為 di=ai-bi

對 d 求均值和標準差:

則DM檢驗統計量為

當 ∣SDM∣gt;Zα 時( α 為顯著性水平),則拒絕H0 ,認為提出模型的預測效果比基準模型好;如果∣SDM∣?Zα ,則保留 H0 ,認為提出模型與基準模型預測效果一致.

1. 4 評價指標

本文選取平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)、平均絕對誤差(MAE)對模型的預測性能進行評價.具體為

其中: n 為樣本數量; yi 為測試集真實值; 為測試集的預測值.

1.5 研究框架

本文的研究框架如圖2所示.

該框架主要由數據獲取模塊、情感指數構建模塊、技術指標和宏觀經濟指標特征選擇模塊、百度綜合搜索指數構建模塊和LSTM預測模塊組成.其中:數據獲取模塊介紹了本文所有數據的來源;情感指數構建模塊利用5種文本情感分析方法對新聞文本進行情感傾向分析,并通過加權法構建情感指數;技術指標和宏觀經濟指標特征選擇模塊對本文獲取的技術指標、宏觀經濟指標分別使用LightGBM進行特征選擇,選取重要特征作為預測時的輸入;百度綜合搜索指數構建模塊對多個關鍵詞的百度搜索指數進行綜合.最后,將上述多源數據作為預測因子納入LSTM模型,獲得黃金期貨收盤價的預測值,并從統計學角度進行DM檢驗,驗證本文所構建的指標和提出模型的有效性.

2 數據處理

2.1 歷史交易數據

本文選取上海期貨交易所的黃金期貨主力連續合約的日收盤價作為研究對象,數據變化趨勢如圖3所示.

黃金期貨主力連續合約的歷史交易數據來源于Wind數據庫(https://www.wind.com.cn),包括收盤價、開盤價、最高價、最低價、交易量、成交額,時間跨度為2020年1月1日—2023年12月31日,共970個交易日,歷史交易數據的描述性統計如表1所示.

圖2總體研究框架

Fig.2Overall research framework

圖3收盤價變化趨勢 Fig.3Change trend of closing prices

2.2 新聞文本數據

2.2.1 新聞文本數據來源

與黃金期貨相關的新聞標題來源于慧科新聞數據庫(https://www.wisers.com.cn).本文在該數據庫獲取了時間跨度為2020年1月1日到2023年12月31日的所有黃金期貨相關新聞標題,共22924條數據,部分新聞標題數據如表2所示.

2.2.2 新聞文本數據預處理

對新聞文本數據的具體分析流程如圖4所示.

當對爬取到的新聞標題進行數據預處理時,首先刪除與研究目的無關的標題,以確保后續分析的準確性和有效性.為了進一步處理文本數據,采用Python中的jieba分詞器進行分詞,以方便后續的文本情感分析.本文采用多種停用詞表去除停用詞,包括中文停用詞表、哈爾濱工業大學停用詞表、百度停用詞表以及四川大學機器智能實驗室停用詞庫,將它們整合形成最終的停用詞表.通過去除停用詞,可以有效剔除新聞標題中的數字、字母、標點符號以及無意義詞,從而提取出關鍵信息,提高數據質量,增強數據的可解釋性.

表2部分新聞標題Table2Some news headlines

圖4文本分析流程Fig.4Text analysis flow chart

2.2.3新聞文本數據情感分析

在金融文本情感分析領域中,缺少大規模標注數據集,針對金融文本情感分析的模型較少.為避免主觀判斷產生的干擾,本文使用基于詞典的情感分析法、基于智能云(百度云、騰訊云、阿里云和華為云)的情感分析法分別對新聞標題進行情感傾向得分計算,進而為每條新聞文本標注positive(積極)或negative(消極)標簽.

1)基于詞典的情感分析

為提高情感分析的準確度,克服采用單個詞典的局限性,本文引入清華大學李軍中文褒貶義詞典、知網Hownet情感詞典、臺灣大學NTUSD情感詞典,經過去重后構建基礎詞典.除此之外,針對金融領域文本獨特的語言特征,在基礎詞典中引入姜富偉等[29]構建的中文金融情感詞典和姚加權等[30]構建的金融領域中文情緒詞典,形成針對本文研究的最終詞典.

2)基于智能云平臺的情感分析

表1歷史交易數據描述性統計

Table1 Descriptive statistics of historical transaction data

本文使用百度(https://cloud.baidu.com)、騰訊(https://cloud.tencent.com)、阿里巴巴(https://www.aliyun.com)和華為(https://activity.huawe-icloud.com)公司提供的人工智能服務,增加情感分析的準確性和可靠性.這些云平臺情感分析功能使用復雜的神經網絡,它們通過大量數據集進行訓練,使用云平臺進行情感分析可以享受其強大的技術支持、靈活的部署、更快的效率,并獲得準確度更高的情感分析結果.表3展示了百度云對新聞標題的情感分析原始響應結果.

Table3 Original response results of Baidu cloud sentiment analysis

阿里云、騰訊云、華為云分析結果與百度云結構相同.本文將情感分析原始響應結果中的消極概率和積極概率提取出來進行計算,若某條新聞文本的積極概率大于消極概率,歸類為positive(積極),記為1,反之則歸類為negative(消極),記為-1.通過提取和計算這兩個概率,可以更準確地判斷文本的情感傾向,從而為后續的數據分析提供更可靠的依據.

3)匯總情感分析結果

為消除不同方法對情感分析結果的差異性,提升對金融文本情感分析的準確度,本文對每條新聞的最終標簽進行加權處理.詞典法權重記為0.2,4種云平臺權重基于交易日期間云平臺名稱對應詞條的百度搜索指數日均值比例計算得到,表4展現了5種方法的相應權重.

表3百度云情感分析原始響應結果

表4情感分析結果權重Table4Sentimentanalysisresultweights

基于加權法,對每條新聞文本生成一個介于-1到1的值,將大于0的值記為positive,歸類為積極評價,記為1;相反,記為negative,歸類為消極評價,記為-1.

2.2.4構造情感指數

根據情感分析結果匯總的每日積極和消極評論數量計算每日情緒指數 St

其中: ntpos 表示一天內積極評論數量; ntneg 表示一天內消極評論數量. Sι 值大于0,表示投資者情緒高漲,對黃金期貨市場看漲;反之, 值小于等于0,則表示投資者對黃金期貨市場看跌.

歸一化后的收盤價與情感指數趨勢如圖5所示.情感指數的波動會對市場產生重要影響,進而引起收盤價出現上漲或者下跌的趨勢.這一現象表明,本文所構建的情感指數具備市場信息,將情感指數納入預測模型中,有望提升模型的預測精度.

2.3技術指標數據

2.3.1技術指標數據來源

技術指標通過對歷史交易指標進行數學計算和變換而構建,是金融市場分析中常用的工具,用于預測價格的走勢和趨勢變化.通過結合不同的技術指標,投資者可以了解當前趨勢的方向和強度,預測未來價格的走勢,識別潛在的交易機會,建立相應的交易策略,從而更好地控制交易風險并提高盈利概率.

基于技術指標使用頻率和不同計算周期,使用Python中TA-Lib庫(TechnicalAnalysisLibrary)綜合性地構建了14類技術指標.其中,各移動平均線計算周期分別為5、10、14和30d,其他技術指標計算周期為默認值,技術指標類別如表5所示.

2.3.2技術指標數據特征選擇

為了避免維數災難,提高模型泛化能力,本文使用LightGBM算法從14類技術指標中提取最具信息量的特征子集.在特征選擇過程中,本文選擇了根據Gain重要性排名最高的6個特征,分別為10日三次指數移動平均線TEMA10、14日雙指數移動平均線DEMA14、拋物線指標SAR、30日移動平均線MA30、5日指數平均線EMA5、量價指標AD.其重要性特征排序如圖6所示.

Fig.5Closing prices and sentiment index trends

表5技術指標類別

Table5Technical indicatorcategories

TEMA10、DEMA14、MA30、EMA5指標屬于移動平均線相關指標,它們通過對不同時間段內的價格數據進行計算,平滑價格波動,顯示價格走勢,幫助投資者辨別市場的短期和長期趨勢,更好地把握市場的波動和變化.AD為量價分析指標,代表市場的累積派發量,它結合價格和成交量數據,衡量了市場的資金流向和壓力,反映市場的供需關系和趨勢強度.SAR為趨勢分析指標,用于確認價格趨勢的轉折點,從而預測價格走勢的改變方向.

通過選擇這6個具有代表性的技術指標,在控制維度的同時,可以充分捕捉市場的關鍵信息、價格走勢和數據特征,提高后續預測的準確性和可靠性.

2.4宏觀經濟指標數據

2.4.1宏觀經濟指標數據來源黃金作為一種避險資產,黃金期貨價格受宏觀經濟環境的影響較大,比如黃金現貨的供給、相關期貨價格和金融市場相關指數等.基于已有文獻的研究經驗,選取18種宏觀經濟指標:代表黃金供給關系的黃金現貨價格、COMEX白銀庫存、COMEX黃金庫存;相關期貨價格如白銀、鋼、鉛、銅、鋁、鋅、鎳、原油主力連續合約收盤價;金融市場相關指數如匯率、道瓊斯工業指數、標準普爾500指數、納斯達克指數、上證50指數主力連續合約收盤價、上證指數收盤價、滬深300主力連續合約收盤價.數據來源于CSMAR數據庫(https://data.csmar.com)與Wind數據庫(https://www.wind.com.cn),時間范圍與歷史交易數據一致.

圖5收盤價與情感指數趨勢

圖6篩選后的技術指標重要性排序 Fig.6Importancerankingoffiltered technical indicators

由于國內外股票市場交易日不同,在獲取部分宏觀經濟指標數據時,出現一些缺失值,本文采用線性插值的方式計算缺失值.線性插值是一種常用的填充時間序列數據缺失值的方法,通過線性插值,可以在鄰近的已知數值數據點之間,利用線性關系來估算缺失值,以便更完整地進行預測建模.

2.4.2宏觀經濟指標數據特征選擇

本文使用LightGBM算法,從宏觀經濟指標中篩選出對黃金期貨收盤價最具有影響力的5個指標進行后續建模分析,分別為黃金現貨價格、COMEX白銀庫存、白銀主力連續合約收盤價、匯率、標普500指數,重要性排序如圖7所示.

黃金期貨價格受到黃金現貨價格的直接影響,如果現貨市場的供求關系發生變化,將會導致期貨價格的波動.COMEX白銀庫存出現大幅變動,會影響市場對白銀供應量的預期,從而對黃金期貨價格產生影響.白銀主力連續合約收盤價代表了白銀期貨市場的價格走勢,白銀期貨價格的變化會引起黃金期貨收盤價的變化.在匯率發生變化時,投資者會調整對黃金的需求,從而影響黃金期貨價格.標普500指數是衡量美國股票市場整體表現的指標之一,標普500指數上漲,意味著投資者持有風險資產的信心增強.在這種情況下,投資者可能會減少對避險資產如黃金的需求,導致黃金期貨價格下跌.

本文篩選出的上述5個宏觀指標,充分代表與黃金期貨相關的國內外宏觀市場情況,可以有效提升預測精度.

2.5 百度搜索指數數據

2.5.1百度搜索指數數據來源

百度搜索指數是指用戶在百度搜索引擎上對特定關鍵詞的搜索量,被視為衡量公眾對特定關鍵詞關注程度的指標.黃金期貨相關的首度搜索指數動態反映了投資者對于黃金期貨的關注變動,這在一定程度上反映了黃金期貨市場的投資者情緒.根據百度指數網站提供的與黃金期貨價格相關的需求圖譜確定關鍵詞,本文選取“黃金期貨價格”、“黃金價格”、“白銀價格”“白銀期貨”“銅期貨”“金價”、“國際金價”、“黃金走勢”“comex黃金”、“comex白銀”共10個網絡搜索關鍵詞.數據來源于百度指數官網(https:/in-dex.baidu.com),時間范圍與歷史交易數據一致.

2.5.2構建百度綜合搜索指數

為簡化模型,提高計算效率,提高預測模型的準確度,本文將獲取到的百度搜索指數數據按天相加,取對數平滑構建百度綜合搜索指數:

其中: Xit 代表在第 χt 天第 i 個百度搜索指數的搜索量.

圖7篩選后的宏觀經濟指標重要性排序

Fig.7Importance rankingof filtered macroeconomic indicators

3 實證預測

3.1 參數設置

為了消除不同指標量綱差異對預測效果的影響,提高模型的預測能力,本文采用最大最小值標準化方法對所有數據進行預處理,標準化后,數據取值在0到1之間.

其中: X 為原始數據; Xnor 為標準化后的數據; Xmax 和Xmin 分別為每個輸入數據序列中的最大值和最小值.

將數據按照8:2劃分為訓練集和測試集,輸入指標滯后1期,使用LSTM模型對黃金期貨收盤價進行預測.根據以往文獻經驗,采用試錯法對LSTM模型超參數的常見取值進行篩選,取batch_size的初始值為16、32、64、128,epochs為20、50、100進行交叉實驗,得到最優參數,timesteps分別取5、10、20.具體參數如表6所示.

表6參數設置Table6Parametersettings

3.2 訓練結果對比

3.2.1 不同模型訓練結果對比

引人支持向量回歸(SupportVectorRegression,SVR)模型、隨機森林(RandomForest,RF)模型、門控循環單元(GatedRecurrentUnit,GRU)模型、時間卷積網絡(TemporalConvolutionalNetwork,TCN)模型等為對比預測模型,驗證LSTM模型的預測效果,預測因子均為基礎交易數據,模型訓練結果如表7所示.

表7不同模型預測結果對比

Table7 Comparison of prediction results across different model:

由表7可知,在不同模型預測結果的對比中,LSTM模型在均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)等指標上,誤差值最小,預測能力和預測精度方面優于其他對比模型,充分表明本文構建的LSTM模型具有良好的預測效果,能夠有效地處理時間序列數據中的長期依賴問題,為預測結果提供更為可靠和準確的支持.因此,本文選擇LSTM模型進行后續預測分析.

3.2.2不同時間窗口模型訓練結果對比

根據表6中的參數設置,選用僅使用基礎交易指標數據作為預測因子的模型為基準模型,記為模型1;基礎交易指標加技術指標作為預測因子的模型記為模型2;基礎交易指標加宏觀經濟指標作為預測因子的模型記為模型3;基礎交易指標加情感指數作為預測因子的模型記為模型4;基礎交易指標加百度綜合搜索指數作為預測因子的模型記為模型5;使用所有指標作為預測因子的模型記為模型6.

為減小偶然性,增加模型可解釋性,本文經過5次訓練取平均值,得到最終各模型預測值,不同時間窗口下模型評價指標結果如表8所示.

表8不同時間窗口下模型評價指標結果對比

Table8 Comparisonofmodel evaluationindex resultsunderdifferenttimewindows

根據表8中的模型評價指標結果,可以進一步分析模型的預測性能.與基準模型相比較,分別引入技術指標、宏觀經濟指標、情感指數、百度綜合搜索指數后改進模型的RMSE、MAE、MAPE均呈下降趨勢.時間窗口為5d時,引入技術指標的模型2預測效果最好,其次是納人宏觀經濟指標后的模型3,這表明技術指標和市場方面的宏觀經濟因素對于黃金期貨收盤價的影響比較顯著.時間窗口為10d時,引入宏觀經濟指標的預測模型,預測效果最好,其次為情感指數,進一步驗證市場方面的宏觀經濟因素能夠提升模型預測性能.時間窗口為20d時,引入情感指數的模型性能顯著提升,這表明較長的時間跨度使得投資者情緒的積累和發酵對價格的影響更加明顯.

從整體來看,技術指標、百度綜合搜索指數對于黃金期貨收盤價的作用主要集中在短期,投資者情緒作用于長期,宏觀經濟指標作用于任意時間時期.這是因為技術指標反映了市場短期內的交易活動和價格趨勢,它們對價格的影響較為迅速和直接.百度綜合搜索指數反映了市場參與者對黃金期貨的關注度和搜索熱度,它對價格的影響也主要集中在短期.投資者情緒反映了市場參與者對未來經濟前景和市場走勢的預期,它對價格的影響較為緩慢和持久.在全球經濟形勢日益復雜多變的背景下,黃金作為交易貨幣和避險資產的屬性相互交織,使其受到宏觀經濟指標的影響較大.因此,在不同時間窗口下,納入宏觀經濟指標,模型預測效果均顯著提升.

在不同時間窗口下,將這些指標全部納入預測模型時,全指標模型的RMSE、MAE、MAPE在所有模型中是最小的,這表明納入全指標后模型的預測效果最優.這些指標的引入使得模型能夠更好地捕捉市場的復雜性和波動性,從而提高了黃金期貨收盤價預測模型的準確性和穩健性,

3.3 統計檢驗

為進一步驗證本文所構建指標的有效性,時間窗口為5d時,使用DM檢驗從統計學角度比較引入不同指標的模型和基準模型的優劣.在進行DM檢驗時,選擇使用均方誤差(MSE)作為損失函數,原假設是兩個模型的預測能力相同,備擇假設則是引入不同指標的模型預測能力優于模型1.通過對兩個模型的預測值和真實值進行統計分析,判斷模型之間的預測能力差異是否顯著,從而評估提出方法的有效性.DM檢驗結果如表9所示.

由表9可知,所有模型的DM檢驗結果均拒絕原假設,引入本文構建的指標后,模型在預測能力上顯著優于模型1.

表9DM檢驗結果1Table 9 DM test results 1

注:*, ** , *** 分別代表 10% ? 5% 和 1% 顯著性水平.

對本文提出的融合多源數據的模型6與引人單個指標的模型做DM檢驗,原假設為兩個模型預測能力一致,備擇假設為模型6預測能力優于其他模型,檢驗結果如表10所示.

表10DM檢驗結果2Table 10 DM test results 2

注:*, ** , *** 分別代表 10% ? 5% 和 1% 顯著性水平.

由表10可知,所有模型的DM檢驗結果均拒絕原假設,驗證了本文提出方法的有效性和優越性,確保了模型在處理黃金期貨收盤價預測時具備更高的精確度和可靠性.

4結論

本文融合多源數據并基于LightGBM-LSTM模型,對黃金期貨收盤價進行預測研究.通過構建技術指標、宏觀經濟指標、情感指數和百度綜合搜索指數作為預測指標輸入模型,并采用特征選擇方法對技術指標和宏觀經濟指標進行了優化.此外,本文對黃金期貨相關新聞文本使用5種方法計算情感傾向,并通過加權法構建了情感指數,對多個關鍵詞的百度搜索指數進行綜合構建百度綜合搜索指數.

通過對黃金期貨收盤價的實證分析,得出以下結論:

1)多源數據融合的方法能夠有效提升黃金期貨收盤價預測的準確性.將技術指標、宏觀經濟指標、情感指數和百度綜合搜索指數作為預測指標輸入模型,有助于捕捉不同類型的信息對價格變動的影響,提高了預測模型的綜合性能

2)情感指數作為反映市場情緒的重要因子,進一步增強了模型的預測能力,提高了預測因子的多源化.通過5種方法計算情感傾向,并通過加權法構建情感指數,能夠降低單一方法對文本情感的判斷誤差,更好地反映投資者對于黃金期貨收盤價趨勢變化的看法并捕捉市場情緒對價格變動的影響.

3)特征選擇對提高預測模型的效果至關重要.通過應用LightGBM進行特征選擇,能夠篩選出最相關的技術指標和宏觀經濟指標,從而降低冗余信息的干擾,提高模型的準確性和穩定性,

4)LightGBM模型與LSTM模型的結合,充分利用了前者的高效特征選擇能力和后者的時間序列處理能力,使得模型在應對復雜的市場變化時依然保持較高的準確性和穩定性.

未來值得探索和改進的方向:1)可以考慮引入更多類型的數據,如全球宏觀經濟事件、地緣政治風險等,以進一步提高模型的全面性和準確性;2)對于新聞文本的處理方式有待改進,可以考慮結合大模型等新興技術對新聞文本提取更多特征,進行深層次的研究;3)進一步優化LSTM網絡結構或嘗試更復雜的深度學習模型,以提升模型的預測性能;4)擴展研究范圍至其他金融市場,如股票市場、外匯市場等,驗證模型在不同市場中的適用性和表現,探索跨市場預測的可能性.

參考文獻References

[1]許立平,羅明志.基于ARIMA模型的黃金價格短期分 析預測[J].財經科學,2011(1):26-34 XULiping,LUO Mingzhi. Short-term analysis and predictionofgold pricebasedonARIMAmodel[J].Financeamp; Economics,2011(1) :26-34

[2] 周茂華,劉駿民,許平祥.基于GARCH族模型的黃金 市場的風險度量與預測研究[J].國際金融研究,2011 (5) :87-96 ZHOU Maohua,LIU Junmin,XU Pingxiang. Risk measurementand prediction of world gold markets based on GARCHfamily models[J].Studies of International Finance,2011(5) :87-96

[3] 魏宇,黃登仕,王建瓊,等.我國黃金現貨市場的動態 VaR預測模型研究[J].管理評論,2010,22(8):30-38 WEIYu,HUANGDengshi,WANGJianqiong,etal.Dy namic VaR predictingmodels for Chinese spot gold market[J].ManagementReview,2010,22(8) :30-38

[4] 李瑩,高巖,范麗亞,等.基于支持向量回歸機的黃金 價格短期預測[J].數學的實踐與認識,2011,41 (24):1-6 LI Ying,GAO Yan,FAN Liya,et al. Short-term prediction of gold price based on SVR[J].Mathematics in Practice and Theory,2011,41(24) :1-6

[5]Alameer Z,Elaziz M A,Ewees A A,et al. Forecasting gold price fluctuations using improved multilayer perceptron neural network and whale optimization algorithm [J].Resources Policy,2019,61:250-260

[6] 張均東,劉澄,孫彬.基于人工神經網絡算法的黃金價 格預測問題研究[J].經濟問題,2010(1):110-114 ZHANG Jundong,LIU Cheng,SUN Bin. The study on the application of ANFIS in stock index prediction[J].On Economic Problems,2010(1):110-114

[7]Weng FT,Chen Y H,Wang Z,et al. Gold price forecasting research based on an improved online extreme learning machine algorithm[J].Journal of Ambient Intelligence and Humanized Computing,2020,11(10): 4101-4111

[8]Yurtsever M. Gold price forecasting using LSTM,BiLSTMand GRU[J].European Journal of Science and Technology,2021,31:341-347

[9] 楊青,王晨蔚.基于深度學習LSTM神經網絡的全球 股票指數預測研究[J].統計研究,2019,36(3):65-77 YANG Qing,WANG Chenwei. A study on forecast of global stock indices based on deep LSTM neural network [J].StatisticalResearch,2019,36(3):65-77

[10] 郭佳麗,邢雙云,欒昊,等.基于改進的LSTM算法的 時間序列流量預測[J].南京信息工程大學學報(自 然科學版),2021,13(5):571-575 GUO Jialii,XING Shuangyun,LUAN Hao,et al.Prediction of time series traffic based on improved LSTM algorithm[J]. Joumal of Nanjing University of Information Scienceamp; Technology(Natural Science Edition),2021, 13(5) :571-575

[11]尹力博,楊清元,韓立巖.技術指標能夠預測商品期貨 價格嗎?來自中國的證據[J].管理科學學報,2018, 21(6) :99-109 YIN Libo, YANG Qingyuan, HAN Liyan. Can technical indicators forecast commodity prices?Evidence from China[J].Journal of Management Sciences in China,2018, 21(6) :99-109

[12]MadziwaL,Pillalamarry M,Chatterjee S.Gold price forecasting using multivariate stochastic model[J].Resources Policy,2022,76:102544

[13]韓金磊,熊萍萍,孫繼紅.基于LSTM和灰色模型的股 價時間序列預測研究[J].南京信息工程大學學報 (自然科學版),2023,15(6):631-642 HAN Jinlei, XIONG Pingping,SUN Jihong. Stock price time series prediction based on LSTM and grey model [J].Journal of Nanjing University of Information Science amp; Technology(Natural Science Edition),2023,15(6): 631-642

[14]范彩云,童君逸,程俊彥,等.基于ML-DMA的黃金期 貨價格預測研究[J].數理統計與管理,2024,43(3): 541-558 FAN Caiyun,TONG Junyi, CHENG Junyan,et al. Gold futures price forecasting based on ML-DMA[J]. Journal of Applied Statistics and Management,2024,43(3) :541- 558

[15]Dimpfl T,Kleiman V.Investor pessimism and the German stock market:exploring Google search queries[J].GermanEconomic Review,2019,20(1):1-28

[16]梁超,魏宇,馬鋒,等.投資者關注對中國黃金價格波 動率的影響研究[J].系統工程理論與實踐,2022,42 (2):320-332 LIANG Chao,WEI Yu,MA Feng,etal.Astudyon the impact of investor attention on Chinese gold volatility [J].Systems Engineering-Theoryamp;Practice,2022,42 (2) :320-332

[17]ChenJ,Tang G H,Yao JQ,et al. Investor atention and stock returns[J].Journal of Financial and Quantitative Analysis,2022,57(2) :455-484

[18] 段江嬌,劉紅忠,曾劍平.中國股票網絡論壇的信息含 量分析[J].金融研究,2017(10):178-192 DUAN Jiangjiao,LIU Hongzhong,ZENG Jianping.Analysis on the information content of China’s internet stock message boards[J]. Journal of Financial Research,2017 (10) :178-192

[19]尹海員,吳興穎.投資者高頻情緒對股票日內收益率 的預測作用[J].中國工業經濟,2019(8):80-98 YINHaiyuan,WU Xingying.Predictive effect of high-frequency investor sentiment on the intraday stocks return [J].China Industrial Economics,2019(8) :80-98

[20] 盧銳,張亞楠,蔡貴龍.社交媒體、公司傳聞與股價沖 擊:來自東方財富股吧論壇的經驗證據[J].會計研 究,2023(4):59-73 LURui,ZHANG Yanan,CAI Guilong. Social media,rumors and stock price fluctuations:evidence from Guba stockforum[J].AccountingResearch,2023(4) :59-73

[21]范小云,王業東,王道平,等.不同來源金融文本信息 含量的異質性分析:基于混合式文本情緒測度方法 [J].管理世界,2022,38(10):78-101 FAN Xiaoyun,WANG Yedong,WANG Daoping,et al. Heterogeneity analysis of information content for financial textfrom different sources:a hybrid text sentimentmeasurement method[J].Journal of Management World, 2022,38(10):78-101

[22]張夢吉,杜婉鈺,鄭楠.引入新聞短文本的個股走勢預 測模型[J].數據分析與知識發現,2019,3(5):11-18 ZHANG Mengji,DU Wanyu,ZHENG Nan. Predicting stock trendsbased onnews events[J].Data Analysis and Knowledge Discovery,2019,3(5) :11-18

[23]Li X D,Wu P J,Wang W P. Incorporating stock prices and news sentiments for stock market prediction:a case of Hong Kong[J]. Information Processing amp; Management,2020,57(5):102212

[24] HerreraGP,ConstantinoM,SuJJ,etal.Renewableenergy stocks forecast using Twitter investor sentiment and deep learning[J].Energy Economics,2022,114:106285

[25]Xu Y A,Wang JQ,Chen Z L,et al. Sentiment indices and stock returns:evidence from China[J].International Journal ofFinance amp;Economics,2023,28(1): 1063-1080

[26] 張大斌,曾芷媚,凌立文,等.基于多特征融合深度神 經網絡的玉米期貨價格預測[J/OL].中國管理科學, 1-11[2024-11-01]. htps: //doi.org/10.16381/j. cnki. issn1003-207x.2022.1040 ZHANG Dabin,ZENG Zhimei,LING Liwen,et al.Prediction of corn futures price based on multi-feature deep neural network model[J/OL].Chinese Journal ofManagement Science,1-11[2024-11-01].htps://doi.org/ 10.16381/j.cnki. issn1003-207x.2022.1040

[27]Wu W,Xu M Q,Su R Q,et al. Modeling crude oil volatility using economic sentiment analysis and opinion mining of investors via deep learning and machine learning models[J].Energy,2024,289:130017

[28] KeGL,MengQ,FinleyT,et al.LightGBM[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.December 4-9,2017, LongBeach,CA,USA.ACM,2017:3149-3157

[29] 姜富偉,孟令超,唐國豪.媒體文本情緒與股票回報預 測[J].經濟學(季刊),2021,21(4):1323-1344 JIANG Fuwei,MENG Lingchao,TANG Guohao. Media textual sentiment and Chinese stock return predictability [J].China Economic Quarterly,2021,21(4):1323-1344

[30] 姚加權,馮緒,王贊鈞,等.語調、情緒及市場影響:基 于金融情緒詞典[J].管理科學學報,2021,24(5): 26-46 YAO Jiaquan,FENG Xu,WANG Zanjun,et al. Tone, sentiment and market impacts : the construction of Chinese sentiment dictionary in finance[J]. Journal of Management Sciences in China,2021,24(5) :26-46

Gold futures price forecasting based on text sentiment analysis and LightGBM-LSTM model

SUN Jingyun 1,2 WEI Chen1 1School ofStatisticsandData Science,Lanzhou UniversityofFinanceand Economics,Lanzhou 73oo2o,China 2Center for Quantitative Analysis of Gansu Economic Development, Lanzhou University of Financeand Economics,Lanzhou 73oo2O,China

AbstractInfinancial markets,gold futures prices are influenced bya varietyoffactors,and accurate prediction of themholds significant importance.To addressthis isse,anew model for predicting gold futures prices is proposed that integratesmultiple datasources through a LightGBM(Light Gradient Bosting Machine)feature selection method with an LSTM (Long Short-Term Memory)model.First,the paper preprocesses the acquired macroeconomic and technical indicators,then annotates the sentiment tendencies of unstructured newsheadlines using various methods to construct a weighted sentiment index.Additionally,itaggregatesBaidu search indices of multiple keywords into a composite Baidu search index.Second,the LightGBM method is used to rank feature importance for both macroeconomicand technical indicators to extract key features.Finaly,theselected features,along with the weighted sentiment index and the composite Baidu search index,serve as input variables for the LSTM forecasting model.Empirical results show thatthe LightGBM-LSTM model with multi-source data exhibits excellent prediction performance with the smallest prediction errors.Compared with the benchmark model,it achieves more accurate forecastsof the closing prices of gold futures.

Key wordsgold futures;multi-source data fusion; news headlines;feature selection;long short-term memory (LSTM)

主站蜘蛛池模板: 亚洲国产一区在线观看| 国产视频入口| 色婷婷狠狠干| 蜜桃视频一区二区三区| 国产污视频在线观看| 久久久久国产精品熟女影院| 亚洲第一天堂无码专区| 中文国产成人精品久久一| 国产成人精品18| 欧美精品黑人粗大| 亚洲婷婷丁香| 在线精品视频成人网| 国产午夜不卡| 国产免费福利网站| 国产成人一区| 欧美天天干| 五月婷婷综合网| 激情综合图区| 亚洲AV成人一区国产精品| 国产精品自在自线免费观看| 在线免费无码视频| 强乱中文字幕在线播放不卡| 人妻无码中文字幕第一区| 国产在线观看精品| 好吊色妇女免费视频免费| 国产不卡国语在线| 国产精品男人的天堂| 粗大猛烈进出高潮视频无码| 日韩精品一区二区三区中文无码| 亚洲香蕉久久| 国产麻豆91网在线看| 国产精品99一区不卡| 日韩视频免费| 久久鸭综合久久国产| 亚洲狼网站狼狼鲁亚洲下载| 亚洲一区毛片| 免费视频在线2021入口| 亚洲一级毛片在线播放| 四虎在线观看视频高清无码| 亚洲第一网站男人都懂| 午夜福利视频一区| 国产精品主播| 亚洲一区二区黄色| 久久不卡国产精品无码| 漂亮人妻被中出中文字幕久久| 午夜影院a级片| 在线免费不卡视频| 国产SUV精品一区二区| 视频一区亚洲| 乱色熟女综合一区二区| 国产成人亚洲精品无码电影| 欧美中文字幕在线视频| 好吊色国产欧美日韩免费观看| 国产手机在线观看| 亚洲天堂区| 国产剧情伊人| 第一区免费在线观看| 欧美翘臀一区二区三区| 久久精品人人做人人爽电影蜜月| 亚洲中文字幕久久精品无码一区| 91精品专区国产盗摄| 日本一区二区不卡视频| 88国产经典欧美一区二区三区| 精品国产欧美精品v| 精品91在线| 日韩国产综合精选| 日本午夜网站| 在线免费看黄的网站| 福利视频久久| 国产99欧美精品久久精品久久| 毛片一区二区在线看| 99re这里只有国产中文精品国产精品| 人妻免费无码不卡视频| 欧美日韩国产在线人| 在线观看国产黄色| 91www在线观看| 久久精品国产一区二区小说| 漂亮人妻被中出中文字幕久久| 亚洲午夜片| 99国产精品一区二区| 在线亚洲精品自拍| 国产99视频免费精品是看6|