999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP和深度森林的金融輿情抓取與分析

2020-08-17 19:19:33王子敏周杰梁佳雯何加豪
電子商務(wù) 2020年8期

王子敏 周杰 梁佳雯 何加豪

摘要:采用自然語言處理技術(shù)對爬取的文本數(shù)據(jù)進行分詞、去停用詞處理,利用TextRank、TF-IDF算法提取關(guān)鍵字,構(gòu)建適用于單篇文章的詞重要性指數(shù)模型,從中提取重要變量建立適用于滬深300指數(shù)的投資者情緒預(yù)測模型,借助深度森林算法預(yù)測交易信號構(gòu)建交易策略。結(jié)果表明,在樣本期基于自然語言處理與深度森林算法對股票交易信號的預(yù)測準確率達72.23%,且收益也超過傳統(tǒng)策略收益,具備重要的投資指導(dǎo)意義。

關(guān)鍵詞:自然語言處理;深度森林;投資者情緒指標;量化交易策略

★基金項目:江蘇省大學生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃國家級立項——“基于NPL的A股市場輿情監(jiān)控及其量化投資策略研究”(項目編號:SZDG2019039)成果之一。

引言

自然語言處理技術(shù)作為人工智能領(lǐng)域的重要分支,始終被放在科研領(lǐng)域的最前沿。如今,隨著新型算法的誕生以及新思想、新技術(shù)的提出,人類在自然語言處理領(lǐng)域已經(jīng)實現(xiàn)了重大突破。尤其在英文方面,科研人員已經(jīng)建立了一套相當完備的研究方法。英語文本由于其書寫格式的獨特性,對自然語言處理解決了分詞處理上的困難。正因此,自然語言處理也被國外投資公司、交易人員大量的運用到量化交易中,并取得了不錯的效果。本文緊跟金融前沿領(lǐng)域的研究熱點,通過對中文文本的深度挖掘,并結(jié)合機器學習技術(shù),探索自然語言處理技術(shù)在國內(nèi)股票市場的實用性與可行性。

1、文獻綜述

對于投資者情緒的度量主要受限于數(shù)據(jù)的獲取以及情緒指標的載體上,眾多研究人員多用經(jīng)濟指標作為投資者情緒的代理指標。例如,彭益(2012)[1]采用概率統(tǒng)計的方法對指數(shù)漲跌的概率進行預(yù)測,Backer & Wurgler(2001)[2]選取了封閉式基金的折價率作為度量投資者情緒的指標,而鹿坪和冷軍(2017)[3]則選取了消費者信心指數(shù)作為度量投資者情緒的指標。

在直接挖取投資者情緒指數(shù)方面,Danbolt(2015)[4]利用從Twitter上獲取的海量投資者評論信息,從中直接提取情緒指標。石善沖等(2018)[5]提出了針對用戶素質(zhì)較高的微信平臺的投資者情緒構(gòu)建方法,但由于微信平臺屬于社交平臺,在金融領(lǐng)域的專業(yè)度不夠高,因此所獲取的數(shù)據(jù)針對性有所減弱。孟雪井等(2016)[6]則通過篩選詞匯出現(xiàn)的頻率高低作為研究投資者情緒的特征,這也在一定程度上忽略了詞匯的頻繁出現(xiàn)會導(dǎo)致其代表性的泛化,最終會影響到模型精確度。

基于前人的研究基礎(chǔ)和存在的問題,在數(shù)據(jù)來源方面,精選了“同花順”平臺的分析師評論,并結(jié)合詞語的逆文檔頻率對重要詞匯進行二次篩選,以期獲得更具代表性的特征,最后使用機器學習算法,構(gòu)建情緒指標。

2、數(shù)據(jù)獲取

本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究評論,并在此數(shù)據(jù)的基礎(chǔ)上通過TextRank、TF-IDF算法選取重要詞匯共計124個建立金融語料庫,并以這些詞匯作為后續(xù)特征工程的輸入變量。此外,本研究還爬取了百度指數(shù),共計10萬條左右。針對滬深300指數(shù)數(shù)據(jù),本研究從wind中獲取了2016年6月14日至2019年6月14日共計731個交易日的日內(nèi)交易數(shù)據(jù)。

3、情緒指標建立

3.1 算法原理介紹

(1)TextRank算法

(2)TF-IDF算法過濾關(guān)鍵詞

利用TF-IDF算法,將TextRank算法得到的793個詞匯在進行一次重要性排序,提取出重要性更高的詞匯,其中關(guān)鍵詞過濾算法如下:

(3)投資者情緒指標建立

① 特征選擇:

在進行數(shù)據(jù)預(yù)處理是,通常需要對已有特征做進一步的篩選以獲得更加適合機器學習算法的特征。經(jīng)過篩選后發(fā)現(xiàn),隨著詞匯的推移,詞匯的方差越來越小,最終趨向于0,因而這些詞匯的發(fā)散性不強,對于目標的預(yù)測不具有很好的解釋性,為了避免因特征選擇過多而造成的過度擬合,我們選取“半導(dǎo)體”前22個詞匯作為特征。

② 文本特征量化處理:

本文通過特征是否發(fā)散的標準已經(jīng)篩選出了更為合適的22個詞匯,并以此作為特征。之后,我們利用百度指數(shù)作為詞匯量化的標準。此處我們選用百度指數(shù)的環(huán)比增長率作為百度指數(shù)的衡量指標

③ 建立指標模型:

將2016年6月14日至2018年6月14日的數(shù)據(jù)作為訓(xùn)練集,將2018年6月14日至2019年6月14日的數(shù)據(jù)作為測試集。訓(xùn)練集數(shù)據(jù)主要用于對機器學習模型參數(shù)的尋優(yōu)工作,而本文使用的深度森林算法則是通過建立深度隨機樹模型,采取多次迭代尋優(yōu)的方式尋找出特征最適合的權(quán)重。測試集數(shù)據(jù)主要用于對模型的檢驗,通過對預(yù)測精確度、召回率等指標的比較,判定模型是否具有使用價值。

4、模型對比

4.1 模型多角度對比

(1)模型策略與自然增長率的比較

觀察圖2,當執(zhí)行買入并持有策略時,最終的收益率11.35%;而當執(zhí)行模型發(fā)出的信號進行交易時,最終受益是29.84%。

(2)模型策略與移動雙均線比較

觀察圖2,移動雙均線獲得了17.01%的收益率且最大回撤為-12.39%。移動雙均線的回報率和最大回撤的表現(xiàn)比自然收益率的表現(xiàn)更加優(yōu)越,這可能取決于移動雙均線模型對于上漲和下跌的趨勢把握的較好。但相較于本文建立的模型來說,移動雙均線的表現(xiàn)在多指標上都要劣與本文建立的投資者情感指標模型,因而,本文建立的模型相較于傳統(tǒng)技術(shù)指標具有較好表現(xiàn)。

結(jié)論

本文通過將建立的基于投資者情緒交易策略與買入并持有一年策略、傳統(tǒng)技術(shù)指標策略進行對比后發(fā)現(xiàn),基于投資者情緒的交易策略最終獲得了29.84%的收益,明顯高于買入并持有策略的11.35%和雙均線策略的17.01%。與此同時,在深度森林算法的基礎(chǔ)上對股市未來走勢加以預(yù)測,精確度為72.23%。相比前人,精確度更高,更具有使用價值。

參考文獻

[1] 彭益. 基于數(shù)據(jù)挖掘的股票指數(shù)漲跌概率推斷[J]. 統(tǒng)計與決策, 2012(16): 159-161.

[2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267

[3] 鹿坪,冷軍. 投資者情緒與盈利管理——基于應(yīng)計盈余管理與真實盈余管理的實證研究[J]. 管理科學學報,2017(2): 88-96

[4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.

[5] 石善沖, 朱穎楠, 趙志剛. 基于微信文本挖掘的投資者情緒與股票市場表現(xiàn)[J]. 系統(tǒng)工程理論與實踐, 2018, 38(6): 1404-1412.

[6] 孟雪井,楊亞飛,趙新泉.財經(jīng)新聞與股市投資策略研究——基于財經(jīng)網(wǎng)站的文本挖掘[J].投資研究,2016, 35(8): 29-37.

[7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.

[8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.

[9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.

[10] 命士汶,朱學鋒,耿立波.自然語言處理技術(shù)與語言深度計算[J].中國社會科學,2015(3): 127-135.

[11] 黃潤鵬, 左文明, 畢凌燕. 基于微博情緒信息的股票市場預(yù)測[J].管理工程學報, 2015, 29(1): 47-52.

作者簡介:

王子敏,博士,南京郵電大學副教授,碩士生導(dǎo)師,研究方向為信息產(chǎn)業(yè)經(jīng)濟與管理;

周杰,梁佳雯,何加豪,南京郵電大學。

主站蜘蛛池模板: 欧美精品成人一区二区视频一| 国产精品一区在线观看你懂的| 国产精品成人AⅤ在线一二三四 | 亚洲中久无码永久在线观看软件| 这里只有精品在线播放| 综合网天天| 久久精品一品道久久精品| 九色最新网址| 91国内视频在线观看| 国产精品成人免费视频99| 国产伦片中文免费观看| 国产成人免费高清AⅤ| 国产Av无码精品色午夜| 无码专区第一页| 中文无码日韩精品| 久久鸭综合久久国产| 国产美女一级毛片| 中文字幕亚洲电影| 国产97公开成人免费视频| 欧美va亚洲va香蕉在线| 丁香五月亚洲综合在线| 久久婷婷六月| 欧美精品成人一区二区视频一| 国产成人一区| 国产成人久久综合777777麻豆| 久久久久中文字幕精品视频| 欧美色图久久| a级毛片网| 精品国产福利在线| 国产精品一区二区国产主播| 无码精油按摩潮喷在线播放| 直接黄91麻豆网站| 国产男女免费完整版视频| 青草视频免费在线观看| 亚洲成人网在线观看| 久久精品中文无码资源站| 久久久噜噜噜久久中文字幕色伊伊 | 婷婷六月激情综合一区| 亚洲国产高清精品线久久| 在线不卡免费视频| 亚洲精品视频网| 国产va视频| 99精品在线视频观看| a国产精品| 日韩在线2020专区| 东京热av无码电影一区二区| 在线观看国产黄色| 亚洲视频免费播放| 国产成人做受免费视频| 伊人久久久大香线蕉综合直播| 欧美日韩精品一区二区视频| 国产成人凹凸视频在线| 久久动漫精品| 综合人妻久久一区二区精品 | 色综合国产| 天堂网亚洲系列亚洲系列| 国产精品无码AⅤ在线观看播放| 国产日本一线在线观看免费| 欧洲精品视频在线观看| 日韩一二三区视频精品| 午夜视频在线观看免费网站| 亚洲人成影视在线观看| 丁香六月激情综合| 亚欧成人无码AV在线播放| 伊人91视频| 久久午夜夜伦鲁鲁片不卡| 天天综合色网| 午夜福利在线观看入口| 白浆免费视频国产精品视频 | 99re热精品视频国产免费| yy6080理论大片一级久久| 久久频这里精品99香蕉久网址| 国产99在线| 国产亚洲精品无码专| 亚洲精品午夜天堂网页| 91视频精品| 91精品国产麻豆国产自产在线| 亚洲综合欧美在线一区在线播放| 国产激情第一页| 成人免费网站在线观看| 国产成人你懂的在线观看| 人人澡人人爽欧美一区|