999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的金融領(lǐng)域知識(shí)發(fā)現(xiàn)研究綜述

2021-03-01 12:23:46秦江源王宸徐辰星周震霆
科學(xué)與財(cái)富 2021年27期
關(guān)鍵詞:數(shù)據(jù)挖掘

秦江源 王宸 徐辰星 周震霆

摘 要:在大數(shù)據(jù)時(shí)代的洪流奔涌之下,金融行業(yè)的文本信息量也正飛速增長(zhǎng),使得人們對(duì)金融數(shù)據(jù)的分析與應(yīng)用方式產(chǎn)生了深刻變革,海量、多源、異構(gòu)的金融數(shù)據(jù)正對(duì)金融從業(yè)者帶來前所未有的困難和挑戰(zhàn)。從金融數(shù)據(jù)之中挖掘出對(duì)金融決策支持有價(jià)值的知識(shí),加快金融企業(yè)面向文書自動(dòng)化的產(chǎn)業(yè)升級(jí),已成為如今金融業(yè)的研究熱點(diǎn)之一,對(duì)金融決策支持過程具有相當(dāng)?shù)囊饬x。

關(guān)鍵詞:金融文本,數(shù)據(jù)挖掘,知識(shí)發(fā)現(xiàn)

1.引言

近幾年隨著金融市場(chǎng)的開放, 外資金融機(jī)構(gòu)的進(jìn)入, 多種金融創(chuàng)新將不斷涌現(xiàn), 競(jìng)爭(zhēng)也隨之不斷加劇。李金迎(2009)指出,各行各業(yè)的數(shù)據(jù)庫中積累的數(shù)據(jù)中蘊(yùn)含著相當(dāng)?shù)慕鹑陬I(lǐng)域知識(shí),而傳統(tǒng)數(shù)據(jù)挖掘方法,遠(yuǎn)沒有挖掘出數(shù)據(jù)的潛在價(jià)值;何德旭(2011)探討了金融安全網(wǎng)絡(luò)機(jī)制,聯(lián)系了信息框架和金融安全網(wǎng);張永杰(2011)在資產(chǎn)定價(jià)方面開展了研究, 發(fā)現(xiàn)網(wǎng)絡(luò)開源信息中包含對(duì)股票異常日收益率有顯著解釋力的內(nèi)容;朱建平(2011)指出,目前需要采用高頻數(shù)據(jù),在較窄觀測(cè)區(qū)間內(nèi)產(chǎn)生足夠的數(shù)據(jù)量, 同時(shí)對(duì)市場(chǎng)微結(jié)構(gòu)模型做出一定的驗(yàn)證;中國銀聯(lián)股份有限公司(2013)指出,數(shù)據(jù)時(shí)代, 數(shù)據(jù)已經(jīng)成為企業(yè)創(chuàng)新的核心驅(qū)動(dòng)力和競(jìng)爭(zhēng)力。大數(shù)據(jù)已經(jīng)影響企業(yè)決策方式從“業(yè)務(wù)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型;孔翔宇(2016)依據(jù)財(cái)經(jīng)新聞主題與股票市場(chǎng)的相關(guān)性, 提出了基于新聞主題分布的模型,以此進(jìn)行中國股市漲跌的預(yù)測(cè);鮑捷(2016)提出知識(shí)圖譜是形成投資研究業(yè)務(wù)自動(dòng)化表達(dá)邏輯的基礎(chǔ),在整個(gè)智能金融的技術(shù)鏈條中處于核心地位;汪建基(2017)分析了傳統(tǒng)人工智能方法在處理大規(guī)模碎片化知識(shí)時(shí)存在的問題,討論了碎片化知識(shí)處理組織與學(xué)習(xí)的基本結(jié)構(gòu),指出了行業(yè)知識(shí)圖譜在人工智能知識(shí)發(fā)現(xiàn)中的重要性;2017年7月20日,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,首次提出了智能金融的概念,鼓勵(lì)將智能金融應(yīng)用于智能客服、智能監(jiān)控等等,實(shí)現(xiàn)制造與服務(wù)、金融的智能化融合。

根據(jù)國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,截至2018年末,全國共有金融業(yè)企業(yè)法人單位13.7萬個(gè),從業(yè)人員1818.0萬人;同時(shí),2015年末,經(jīng)濟(jì)學(xué)普通本科在校生與畢業(yè)生數(shù)約116萬人,管理學(xué)普通本科在校生與畢業(yè)生數(shù)約360萬人,共有合計(jì)約上五百萬人的高校市場(chǎng);同時(shí),市場(chǎng)規(guī)模正以每年約10%的速度快速增長(zhǎng),市場(chǎng)潛力可見一斑。鑒于此,本文試圖對(duì)現(xiàn)有文獻(xiàn)進(jìn)行梳理與拓展,分析互聯(lián)網(wǎng)金融對(duì)金融結(jié)構(gòu)的影響,并整理常用的數(shù)據(jù)挖掘方法,探討它們影響金融結(jié)構(gòu)的作用機(jī)制,在此基礎(chǔ)上提出相應(yīng)建議。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。在實(shí)際應(yīng)用領(lǐng)域中,數(shù)據(jù)挖掘任務(wù)常可被劃分為分類、聚類、預(yù)測(cè)、關(guān)聯(lián)分析等等統(tǒng)計(jì)方法。

2.1決策樹

決策樹(decision tree)是數(shù)據(jù)挖掘中的一種常見算法,呈樹形結(jié)構(gòu),能夠利用信息增益尋找數(shù)據(jù)庫中包含最大信息量的內(nèi)容建立節(jié)點(diǎn),其中每個(gè)內(nèi)部節(jié)點(diǎn)都表示其在一個(gè)屬性上的判斷,每個(gè)分支代表了節(jié)點(diǎn)判斷結(jié)果的輸出,在每個(gè)分枝出的節(jié)點(diǎn)中,重復(fù)判斷、分支的過程,最終建立出決策樹,其中每個(gè)葉節(jié)點(diǎn)均代表了一種分類結(jié)果。決策樹是一種常見的有監(jiān)督分類方法,通過對(duì)已有樣本的學(xué)習(xí),決策樹能對(duì)新進(jìn)入的數(shù)據(jù)做出正確的分類。決策樹的優(yōu)勢(shì)在于其可解釋性,能夠在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)集做出可行性強(qiáng)且效果良好的結(jié)果,且不需要繁瑣的數(shù)據(jù)預(yù)處理。盡管如此,面對(duì)樣本數(shù)量的不平衡問題時(shí),決策樹便會(huì)顯得無能為力,往往會(huì)偏向于具有更多數(shù)值的特征。

2.2關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機(jī)器學(xué)習(xí)方法,用于從數(shù)據(jù)集中尋找事件之間的隱含關(guān)系,能反映出事件與其他事件之間的關(guān)聯(lián)性,是數(shù)據(jù)挖掘研究的主要模式之一。關(guān)聯(lián)規(guī)則分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在關(guān)聯(lián)規(guī)則挖掘的研究當(dāng)中,目前影響最廣、使用最頻繁的是Apriori算法, Apriori 算法是一種致力于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,通過運(yùn)用逐層搜索,在所有的頻繁集中找出強(qiáng)關(guān)聯(lián)規(guī)則。

2.3神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò) (neural network)是近年來火熱的算法之一,它通過模仿生物神經(jīng)網(wǎng)絡(luò),由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算,從而構(gòu)建出復(fù)雜的計(jì)算模型,具有強(qiáng)大的聯(lián)想、記憶、推理功能。其中,誤差反向傳播算法由Romelhart在1986年提出,它將輸出誤差通過隱藏層向輸入層層層傳遞,并傳遞到每層單元使其都獲得誤差信號(hào),同時(shí)修正各單元的權(quán)重,如此反復(fù)直到權(quán)值不斷調(diào)整至最優(yōu),由此得到了一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)模型,即BP神經(jīng)網(wǎng)絡(luò)模型。BP神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)簡(jiǎn)單,狀態(tài)穩(wěn)定等特點(diǎn),在眾多神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛,在分類、最優(yōu)預(yù)測(cè)等任務(wù)中均有著良好表現(xiàn)。

3.文本挖掘研究

3.1情感分析

在金融領(lǐng)域中,往往需要對(duì)股票論壇中的評(píng)論信息,各金融網(wǎng)站的新聞等進(jìn)行情感傾向分析,以此研究投資者情緒,把握輿情發(fā)展趨勢(shì),為此需要對(duì)評(píng)論進(jìn)行數(shù)據(jù)挖掘與特征提取。文本情感分析,就是對(duì)具有情感色彩的詞、句乃至文檔進(jìn)行分析歸納的過程。首先,需要基于金融語料庫來進(jìn)行情感詞典的構(gòu)造,人工標(biāo)注好情感傾向詞匯作為語料庫,然后運(yùn)用樸素貝葉斯網(wǎng)絡(luò),支持向量機(jī)等分類器進(jìn)行分類訓(xùn)練,得到訓(xùn)練完成的分類器后,便可以對(duì)新輸入的評(píng)論數(shù)據(jù)進(jìn)行預(yù)測(cè),得到其情感傾向。

3.2自動(dòng)摘要

為從海量的金融研報(bào)、股市要聞,公司公告中提取簡(jiǎn)明扼要的觀點(diǎn),減少金融工作者的閱讀負(fù)擔(dān),自動(dòng)摘要技術(shù)應(yīng)運(yùn)而生。然而,市場(chǎng)對(duì)于金融信息的需求正在日益提高,如何保證自身摘要的可靠性成為了研究者面對(duì)的主要問題。在文本摘要自動(dòng)生成技術(shù)中,以長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short term memory,LSTM)最為見長(zhǎng)。LSTM依靠其長(zhǎng)期記憶能力進(jìn)行語義關(guān)聯(lián),能夠處理任意長(zhǎng)的文本序列,有效解決了傳統(tǒng)模型面對(duì)數(shù)據(jù)不定長(zhǎng)度的困難。LSTM模型的特點(diǎn)是系統(tǒng)的輸出會(huì)一直保留在網(wǎng)絡(luò)中,和模型下一時(shí)刻的輸入共同決定下一時(shí)刻的輸出,因此可以刻畫出復(fù)雜的歷史依賴關(guān)系。

3.3命名實(shí)體識(shí)別

面對(duì)著海量的互聯(lián)網(wǎng)金融信息,投資者和決策者常??嘤谌绾胃咝У墨@取需要的知識(shí)。針對(duì)這一問題,金融命名實(shí)體識(shí)別的實(shí)現(xiàn)將有效提高金融信息的獲取效率,為金融工作者提供有力的信息支撐。

命名實(shí)體識(shí)別(NER)是自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù),其主要目標(biāo)是識(shí)別出文本中具有特定意義的實(shí)體,一般包括兩種劃分:實(shí)體、時(shí)間、數(shù)字三大類,人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期、貨幣量、百分?jǐn)?shù)七小類。為實(shí)現(xiàn)命名實(shí)體識(shí)別,首先需要進(jìn)行詞實(shí)體標(biāo)注,常見的標(biāo)注方法有BIO,BIOES,Markup等等。BIO標(biāo)注法中,B表示實(shí)體詞的開頭,I表示實(shí)體詞的中間,O表示不是實(shí)體詞的部分,以此來區(qū)分識(shí)別實(shí)體詞。BIOES則是在BIO的基礎(chǔ)上,增加了E(表示實(shí)體詞的結(jié)尾)和S(表示能單獨(dú)組成一個(gè)實(shí)體),是目前最通用的實(shí)體標(biāo)注方法。目前在命名實(shí)體識(shí)別任務(wù)中,主要算法包括有基于規(guī)則的詞性標(biāo)注方法和基于統(tǒng)計(jì)模型的詞性標(biāo)注方法兩類,均在命名實(shí)體識(shí)別任務(wù)中取得了良好表現(xiàn)。

4.總結(jié)與展望

隨著互聯(lián)網(wǎng)金融的日益發(fā)展,金融從業(yè)者與數(shù)據(jù)挖掘工作者規(guī)模會(huì)日漸龐大,發(fā)現(xiàn)金融知識(shí)的潛在價(jià)值也是勢(shì)在必行。本文基于前人基礎(chǔ),總結(jié)了主要的數(shù)據(jù)挖掘、文本挖掘方法,旨在梳理出前人研究脈絡(luò),分析未來金融領(lǐng)域所要面對(duì)的挑戰(zhàn)。大數(shù)據(jù)時(shí)代下,金融知識(shí)發(fā)現(xiàn)將成為數(shù)據(jù)挖掘中的一個(gè)重要應(yīng)用,會(huì)日益發(fā)揮出其價(jià)值。

參考文獻(xiàn):

[1].唐曉波,譚明亮,胡瀟然,石文萱,周巧.面向金融決策支持的知識(shí)獲取研究綜述[J].信息資源管理學(xué)報(bào),2020,10(03):27-35.

[2].馬琳,董智鶴,夏嵩,賈孺.數(shù)據(jù)挖掘技術(shù)綜述淺析[J].數(shù)字技術(shù)與應(yīng)用,2019,37(10):230-231.

[3].陳安,陳寧,范超.金融信用風(fēng)險(xiǎn)評(píng)價(jià)中的數(shù)據(jù)挖掘技術(shù)綜述[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(05):55-59.

[4].丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(04):691-706.

[5].李金迎,詹原瑞.金融行業(yè)的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代管理科學(xué),2009(08):14-16.

[6].何德旭,饒?jiān)魄?,王智?金融安全網(wǎng):基于信息空間理論的分析[J].經(jīng)濟(jì)理論與經(jīng)濟(jì)管理,2011(02):69-78.

[7].張永杰,張維,金曦,熊熊.互聯(lián)網(wǎng)知道的更多么?——網(wǎng)絡(luò)開源信息對(duì)資產(chǎn)定價(jià)的影響[J].系統(tǒng)工程理論與實(shí)踐,2011,31(04):577-586.

[8].朱建平,魏瑾,謝邦昌.金融高頻數(shù)據(jù)挖掘研究評(píng)述與展望[J].經(jīng)濟(jì)學(xué)動(dòng)態(tài),2011(06):59-62.

[9].柴洪峰.金融大數(shù)據(jù)及銀行卡產(chǎn)業(yè)大數(shù)據(jù)實(shí)踐[J].上海金融,2013(10):27-29+116.

[10].孔翔宇,畢秀春,張曙光.財(cái)經(jīng)新聞與股市預(yù)測(cè)——基于數(shù)據(jù)挖掘技術(shù)的實(shí)證分析[J].數(shù)理統(tǒng)計(jì)與管理,2016,35(02):215-224.

[11].鮑捷.知識(shí)圖譜如何助力實(shí)現(xiàn)智能金融[J].金卡工程,2016(07):45-49.

[12].汪建基,馬永強(qiáng),陳仕濤,劉子熠,鄭南寧.碎片化知識(shí)處理與網(wǎng)絡(luò)化人工智能[J].中國科學(xué):信息科學(xué),2017,47(02):171-192.

[13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.

本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(202111047034X)基金支持. 秦江源,女,法學(xué)專業(yè)本科在讀;

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 久久免费成人| 午夜不卡福利| 日韩激情成人| 精品久久人人爽人人玩人人妻| 一级毛片不卡片免费观看| 免费人成在线观看视频色| 亚洲日韩日本中文在线| 国产日本一区二区三区| 国产高清免费午夜在线视频| 无码一区18禁| 国产免费怡红院视频| 国产白浆在线| 欧美另类精品一区二区三区| 成人日韩视频| 亚洲福利视频一区二区| 精品国产香蕉伊思人在线| 国产亚洲精品自在久久不卡| 在线欧美日韩国产| 国产视频一区二区在线观看| 国产白浆视频| 真实国产乱子伦视频| 在线精品欧美日韩| yy6080理论大片一级久久| 一级爆乳无码av| 青青操国产| 国产福利拍拍拍| 一级毛片网| 国产成人凹凸视频在线| 婷婷五月在线| 国产资源免费观看| 91无码网站| 久久亚洲中文字幕精品一区| 国产精品久久久久久搜索| 国产极品粉嫩小泬免费看| 国产精品一区二区无码免费看片| 欧美午夜一区| 亚洲最新在线| 亚洲三级视频在线观看| 亚洲一级毛片| 日本人又色又爽的视频| 嫩草国产在线| 免费观看成人久久网免费观看| 亚洲国产中文综合专区在| 日本福利视频网站| 国产亚洲视频在线观看| 国产精品无码一区二区桃花视频| 国产h视频免费观看| 美女扒开下面流白浆在线试听| 久久久久人妻一区精品色奶水 | 久久久久国产精品熟女影院| 全午夜免费一级毛片| 婷婷开心中文字幕| 久久综合九色综合97婷婷| 九色91在线视频| 成人小视频在线观看免费| 欧美劲爆第一页| 国产成熟女人性满足视频| 国产91久久久久久| 亚洲黄网在线| 亚洲最猛黑人xxxx黑人猛交| 激情爆乳一区二区| 亚洲精品黄| 精品少妇三级亚洲| 国产凹凸一区在线观看视频| 久久综合色视频| 狠狠色婷婷丁香综合久久韩国| 欧美亚洲一区二区三区在线| 国产精品一区不卡| 久久这里只精品热免费99| 在线中文字幕日韩| 玖玖精品视频在线观看| 老司国产精品视频91| 中文字幕 欧美日韩| 99成人在线观看| 国产成人一区在线播放| 2018日日摸夜夜添狠狠躁| 成人中文字幕在线| 亚洲国产综合第一精品小说| 毛片在线播放网址| 亚洲精品无码专区在线观看| 亚洲狼网站狼狼鲁亚洲下载| 成人精品在线观看|