999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的大宗商品價格預(yù)測

2021-05-26 01:17:33田秋紅廖文琪歐陽漢
企業(yè)科技與發(fā)展 2021年4期

田秋紅 廖文琪 歐陽漢

【摘 要】大宗商品已成為財富管理與資產(chǎn)管理的重要內(nèi)容,通過搜集數(shù)據(jù)發(fā)現(xiàn)大宗商品價格走勢規(guī)律,對輔助投資者選擇合適的大宗商品進(jìn)行投資等具有重要的意義。文章通過待預(yù)測的6種有色金屬和5種輔助有色金屬數(shù)據(jù)(包含6種日交易數(shù)據(jù)),7種市場指標(biāo)(包含7種日交易數(shù)據(jù))。解決的問題是在考慮有色金屬具有時序性的情況下,通過了解背景知識和對數(shù)據(jù)的探索,創(chuàng)建了7類新的特征,并根據(jù)每一個待預(yù)測金屬的不同待預(yù)測時間點(diǎn)的標(biāo)簽,篩選出對該金屬有著較大影響的特征。在有效數(shù)據(jù)的篩選上,分別選取2003—2017年(缺失鈀、鉑、銀3種金屬數(shù)據(jù))和2013—2017年(包含所有紐約金屬交易所的金屬數(shù)據(jù))建立XGBoost模型進(jìn)行對比發(fā)現(xiàn),2013—2017年模型的預(yù)測結(jié)果好于2003—2017年模型的預(yù)測結(jié)果;在模型選取上,根據(jù)篩選不同金屬的特征,建立CatBoost、SVM、XGBoost 3個模型進(jìn)行對比,結(jié)果顯示XGBoost的預(yù)測結(jié)果明顯好于另外兩個模型。因此,最終選取2013—2017年的數(shù)據(jù)和XGBoost作為訓(xùn)練數(shù)據(jù)和最終的模型,然后對每一種待預(yù)測金屬建立模型(共18個),分別預(yù)測各種金屬在2018年1 d、20 d、60 d的漲跌情況。

【關(guān)鍵詞】大宗商品;XGBoost;特征工程

【中圖分類號】F713.32;F274【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2021)04-0150-03

1 研究意義及現(xiàn)狀

大宗商品電子交易市場作為一種新興的交易方式,對促進(jìn)流通現(xiàn)代化、實(shí)現(xiàn)流通創(chuàng)新具有重要意義。目前,中國經(jīng)濟(jì)的迅速發(fā)展,特別是城市化、市場化進(jìn)程不斷加快,貿(mào)易企業(yè)數(shù)量持續(xù)增長,形成對大宗商品市場的巨大需求。如果采用最直接也是最簡明的大宗商品投資方式,直接購買大宗商品進(jìn)行投資,可能會產(chǎn)生很大的運(yùn)輸成本和儲存成本,投資者很少采用這樣的方式。因此,通過搜集數(shù)據(jù)發(fā)現(xiàn)大宗商品價格走勢規(guī)律,輔助選擇合適的大宗商品進(jìn)行投資等有著重要的意義 [1]。

華仁海等人(2004)利用協(xié)整檢驗(yàn)和Granger因果檢驗(yàn)方法對國內(nèi)外期貨市場商品進(jìn)行實(shí)證檢驗(yàn),得到不同期貨交易之間可能存在長期均衡關(guān)系或協(xié)整關(guān)系 [1]。曹旭等人(2017)基于機(jī)器學(xué)習(xí)中的支持向量機(jī)模型,選取大宗商品中金融屬性最強(qiáng)的黃金,對黃金價格進(jìn)行預(yù)測,并初步嘗試構(gòu)建一個擇時策略。最后預(yù)測黃金價格的SVM模型,初步構(gòu)建了一個擇時交易策略,并給出在回測樣本中的回測結(jié)果 [2]。陳宇韶(2018)提出將皮爾森特征篩選與XGBoost算法結(jié)合的預(yù)測方法預(yù)測股票收盤價。以A股市場600677股票為例,采用皮爾森相關(guān)系數(shù)分析法提取重要特征,并生成高相關(guān)特征的數(shù)據(jù)集,再基于數(shù)據(jù)挖掘算法中表現(xiàn)極為優(yōu)異的XGBoost框架,結(jié)合特征工程處理,取得良好的訓(xùn)練預(yù)測效果 [3]。

2 數(shù)據(jù)分析及數(shù)據(jù)清洗

2.1 數(shù)據(jù)分析

biendata競賽提供了倫敦金屬交易所(LME)數(shù)據(jù)集、紐約商品交易所(COMEX)數(shù)據(jù)集、一些市場指標(biāo)(Indices)數(shù)據(jù)集、待預(yù)測金屬的標(biāo)簽(Label)4類數(shù)據(jù)集,每一類數(shù)據(jù)集又分為訓(xùn)練集數(shù)據(jù)集和驗(yàn)證集數(shù)據(jù)集。

本文所使用的數(shù)據(jù)時間線如圖1所示。

本文所使用的數(shù)據(jù)時間線為訓(xùn)練集:2003-01-02至2017-12-29,總共有3 790個數(shù)據(jù);驗(yàn)證集:2018-01-02至2018-01-02,總共有253個數(shù)據(jù)。

2.2 數(shù)據(jù)探索和數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)探索

(1)基礎(chǔ)數(shù)據(jù)查看。以鋁(Aluminium)1d為例進(jìn)行基礎(chǔ)數(shù)據(jù)查看,發(fā)現(xiàn)共有3種類型的數(shù)據(jù),分別是int64、object和float64,其中Unnamed:0為無意義的數(shù)據(jù);Unnamed:0.1為交易日期,Open.Price、High.Price、High.Price、low.Price為鋁金屬的日交易數(shù)據(jù);交易量(Vloume)數(shù)據(jù)則存在缺失情況,缺失243條數(shù)據(jù)。

(2)標(biāo)簽分布。在查看完所有的數(shù)據(jù)后發(fā)現(xiàn),除了標(biāo)簽之外,所有的數(shù)據(jù)均為連續(xù)性變量,因此查看一下標(biāo)簽的分布情況,6種有色金屬的漲跌情況分布較為均衡。

2.2.2 數(shù)據(jù)預(yù)處理

(1)缺失值填補(bǔ)。由于數(shù)據(jù)是基于時間序列進(jìn)行變化的,如果對缺失值進(jìn)行均值填補(bǔ)或者中位數(shù)填補(bǔ)時,有可能會用到來自未來的數(shù)據(jù),為了避免使用到未來數(shù)據(jù)而導(dǎo)致模型過擬合,選擇后值填補(bǔ),即使用前一天的非空值對當(dāng)天的數(shù)據(jù)進(jìn)行填補(bǔ) [4]。

(2)時間線篩選。對數(shù)據(jù)探索之后發(fā)現(xiàn),除了紐約商品交易所中的鈀、鉑、銀3種金屬的基礎(chǔ)數(shù)據(jù)丟失嚴(yán)重,要到2013-11-11,日交易數(shù)據(jù)才較完整;其余的數(shù)據(jù)在這個時間點(diǎn)后,也都基本完整。因此,為了在選擇更多金屬數(shù)據(jù)而舍棄2003—2013年的數(shù)據(jù)還是選擇更長的時間線而舍棄鈀、鉑、銀3種金屬之間做一個簡易的模型對比,一個是不包含鈀、鉑、銀3種金屬的2003—2017年模型,一個是包含著3種金屬的2013—2017年模型,都采取XGBoost模型,AUC結(jié)果見表1。

通過對比發(fā)現(xiàn),2013—2017年的模型比2003—2017年的模型效果要好很多,說明對預(yù)測金屬來說,在保證一定數(shù)據(jù)量時,更多的相關(guān)金屬種類數(shù)據(jù)的重要性是大于過于長的時間、但缺少相關(guān)金屬種類數(shù)據(jù)的,因此對有效數(shù)據(jù)的篩選時間線是2013-11-11至2017-12-31的有關(guān)數(shù)據(jù)。

3 特征工程

3.1 特征構(gòu)造

在了解股票漲跌、大宗商品相關(guān)的背景知識和查看相關(guān)文獻(xiàn)之后,基于有色金屬的有關(guān)基礎(chǔ)數(shù)據(jù)創(chuàng)建7類特征[5]:range、hl、oc、MA、std_dev、rsi、Williams%R①。其中,創(chuàng)建移動平均線時,分短期、中期、長期指標(biāo),短期指標(biāo)包含3 d、5 d、10 d,中期指標(biāo)包含30 d、75 d,長期指標(biāo)包含255 d;創(chuàng)建相對強(qiáng)弱指數(shù)時,選擇的是6 d、12 d、24 d的數(shù)據(jù);創(chuàng)建威廉指數(shù)時,選擇的是12 d、24 d的數(shù)據(jù)。

3.2 特征選取

常見的特征選擇方法有過濾法、嵌入法、包裝法 [6]。在這里選擇基于XGBoost的特征重要性排名,在71個特征中選取了前30個特征作為模型的特征。

在分別對1 d、20 d、60 d的6種金屬進(jìn)行特征篩選后,將出現(xiàn)在篩選后的6種金屬特征中的特征進(jìn)行統(tǒng)計。其中,1 d的共同特征共有10個,20 d的共同特征共有6個,60 d的共同特征共有8個。具體來看,對1d的金屬漲跌預(yù)測來說,紐約金屬交易所中的銅和鈀金屬影響比較大,在6種金屬預(yù)測中都出現(xiàn)了這兩種金屬的當(dāng)日開盤收盤價格差、交易量和最高最低價格差,以及待預(yù)測金屬自身屬性中的交易量和漲跌幅。對20 d的金屬漲跌預(yù)測來說,中期移動平均線中的季線和長期的移動平均線更為重要,6種金屬的特征選擇中都出現(xiàn)了中期移動平均線中的季線和所有的長期移動平均線,然后就是市場指標(biāo)中的波動率指數(shù)和歐洲斯托克50指數(shù)。對60 d的金屬漲跌預(yù)測來說,紐約金屬交易所中鈀、鉑、銀3種金屬的個人持倉量出現(xiàn)比較多,然后是長期移動平均線和市場指標(biāo)的滬深300指數(shù)、美元指數(shù)的影響比較大 [7]。

4 模型選擇與評估

本文專注于銅、鋁、鉛、鎳、鋅及錫6種有色金屬。通過構(gòu)建模型,分別預(yù)測1 d、20 d、60 d 3個時間段的有色金屬價格走勢方向(漲/跌)。選擇CatBoost、XGBoost、SVM 3種模型對數(shù)據(jù)進(jìn)行擬合,根據(jù)AUC進(jìn)行模型篩選,根據(jù)模型結(jié)果顯示可得,XGBoost的預(yù)測效果均比CatBoost和SVM預(yù)測效果好,因此決定采用XGBoost進(jìn)行預(yù)測。為了比較特征篩選后與特征篩選前的模型效果對比,設(shè)定了包含所有特征的模型1和只含有篩選特征的模型2,選取2013-11-11后的800條數(shù)據(jù)作為訓(xùn)練集,后面的246條數(shù)據(jù)作為測試集,將數(shù)據(jù)代入XGBoost模型進(jìn)行訓(xùn)練。

結(jié)果發(fā)現(xiàn),只含有篩選特征的模型2的性能整體都要好于包含所有特征的模型1。因此,選擇特征篩選后的模型2作為最終模型。最終選擇了特征篩選之后的數(shù)據(jù)集和XGBoost模型對最后的驗(yàn)證集進(jìn)行預(yù)測,最終準(zhǔn)確率為65.11%。

5 結(jié)論與啟示

在考慮有色金屬具有時序性的情況下,針對有色金屬的收盤價格創(chuàng)建新的、更有代表性的特征,并針對不同的金屬和不同的預(yù)測目標(biāo)進(jìn)行不同的特征選擇。同時,需要選擇一個適宜的模型,可以通過多種方式進(jìn)行嘗試,根據(jù)模型效果選擇合適的模型,并對模型進(jìn)行優(yōu)化。針對每一種待預(yù)測金屬的不同預(yù)測時間點(diǎn),分別建立了一個模型(共18個模型)進(jìn)行預(yù)測。由于各個不同的模型對數(shù)據(jù)的擬合程度不同,所以最終選取了在各個金屬的預(yù)測中表現(xiàn)都比較好的XGBoost模型。

文中存在一些不足之處,在特征創(chuàng)建時,只對待預(yù)測金屬的交易數(shù)據(jù)進(jìn)行了處理,如果對市場指標(biāo)、紐約金屬交易所的數(shù)據(jù)也進(jìn)行滑動窗口的處理,效果可能會更好;對相對強(qiáng)弱指數(shù)、威廉指數(shù)的時間線選取如果像移動平均線一樣長,可能體現(xiàn)的價值也會更全面。創(chuàng)造移動平均線,選取的是簡單移動平均算法,這種處理方式的滯后性比較強(qiáng),如果采取滯后性更弱的算法,例如分型自適應(yīng)移動平均或赫爾移動平均,可能會有不一樣的結(jié)果。市場內(nèi),本文只考慮了有關(guān)金屬的交易數(shù)據(jù)和市場指標(biāo),沒有考慮金融機(jī)構(gòu)發(fā)布的有關(guān)研報和新聞;市場外,沒有考慮整體的國際形勢和政治、政策因素對有色金屬帶來的影響 [8]。

注 釋

①range:漲跌幅,表示當(dāng)日的收盤價與前一日收盤價價格差異的比值;hl:表示當(dāng)日最高價和最低價的差;oc:表示當(dāng)日開盤價格和收盤價格的差;MA:表示收盤價的移動平均線,反映價格變動的趨勢;std_dev:表示收盤價格過去一段時間的平均方差線;rsi:相對強(qiáng)弱指數(shù),通過過去一段時間收盤價平均漲數(shù)和平均跌數(shù)來分析市場;Williams%R:威廉指數(shù),利用擺動點(diǎn)度量市場的超買超賣現(xiàn)象。

參 考 文 獻(xiàn)

[1]華仁海,陳百助.國內(nèi)、國際期貨市場期貨價格之間的關(guān)聯(lián)研究[J].經(jīng)濟(jì)學(xué)(季刊),2004(2):727-742.

[2]曹旭.基于SVM的黃金價格預(yù)測模型及其參數(shù)優(yōu)化[D].濟(jì)南:山東大學(xué),2017.

[3]陳宇韶,唐振軍,羅揚(yáng),等.皮爾森優(yōu)化結(jié)合Xgboost算法的股價預(yù)測研究[J].信息技術(shù),2018(9):92-97.

[4]唐亞平.基于移動電信數(shù)據(jù)個人征信模型研究[D].北京:北京郵電大學(xué),2017.

[5]鐘一鳴.大宗商品價格波動的影響因素探析——以基本金屬銅為例[J].中國管理信息化,2012(16):48-49.

[6]張靖.面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D].合肥:合肥工業(yè)大學(xué),2014.

[7]蔣劍輝,朱穎菲.上海有色金屬價格指數(shù)(SMMI)與倫敦金屬期貨交易所指數(shù)(LMEX)的相關(guān)性研究[J].浙江統(tǒng)計,2008(9):6-8.

[8]孫靜嫻.有色金屬行業(yè)環(huán)境信息披露及其影響因素分析[D].南京:南京大學(xué),2012.

主站蜘蛛池模板: 国产十八禁在线观看免费| 毛片免费观看视频| 久久女人网| 91尤物国产尤物福利在线| WWW丫丫国产成人精品| 国产福利拍拍拍| 福利视频一区| 国产精品丝袜在线| 99久久精彩视频| 亚洲黄网视频| 国产成人精品日本亚洲77美色| 亚洲人精品亚洲人成在线| 久久伊人久久亚洲综合| 无码一区18禁| 婷婷激情五月网| 亚洲高清日韩heyzo| 成年女人a毛片免费视频| 国产成人一区二区| 亚洲an第二区国产精品| 日韩欧美中文字幕在线精品| 日韩精品高清自在线| 精久久久久无码区中文字幕| 亚洲人成网站日本片| 再看日本中文字幕在线观看| 亚洲成a人片77777在线播放| 小说区 亚洲 自拍 另类| 在线观看国产网址你懂的| 片在线无码观看| 久久性妇女精品免费| 日韩一区二区三免费高清| 国产成人在线无码免费视频| 真实国产乱子伦视频| 2021国产在线视频| 精品久久高清| 久久精品丝袜高跟鞋| 人妻出轨无码中文一区二区| 久久国产毛片| 日本免费福利视频| 亚洲欧洲国产成人综合不卡| 最新国语自产精品视频在| 欧美不卡视频一区发布| 91蜜芽尤物福利在线观看| 亚洲最猛黑人xxxx黑人猛交| 一级香蕉人体视频| 国产精品区视频中文字幕| 亚洲热线99精品视频| 国产亚洲视频免费播放| 欧美福利在线播放| 四虎影视无码永久免费观看| 好吊色妇女免费视频免费| 波多野结衣无码视频在线观看| 国产成人精品综合| 欧洲免费精品视频在线| 少妇精品网站| 亚洲精品动漫| 狠狠操夜夜爽| 亚洲中文字幕在线精品一区| 欧美精品v欧洲精品| 国产成人精品优优av| 欧美视频在线观看第一页| 欧美成人精品在线| 黄色一及毛片| 国产簧片免费在线播放| 亚洲欧美日韩精品专区| 99er精品视频| 国产xx在线观看| 超清无码一区二区三区| 精品国产成人av免费| 一本大道视频精品人妻| 日韩欧美国产精品| 免费在线观看av| 日韩一区二区三免费高清| 无码aⅴ精品一区二区三区| 毛片视频网| 国产男人天堂| 欧美在线免费| 91在线视频福利| 中文字幕资源站| a级毛片网| www.99在线观看| 久久96热在精品国产高清| 毛片久久网站小视频|