999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

證券研報的文本挖掘與分析

2023-12-07 12:11:20吳軒藝
電腦知識與技術 2023年30期
關鍵詞:語義文本分析

吳軒藝

(貴州財經大學,貴州 貴陽 550025)

0 引言

我國的資本市場具有“融資投資、市場定價、資源配置、產權管理”等多種樞紐功能,能夠有效推動實體經濟、促進企業創新。黨的二十大報告中也論述:在實現中國式現代化的道路上,需要大力發展多層次資本市場,而資本市場的健康發展也能夠滿足投資者對實體經濟多樣化的金融需求”。

在資本市場中,周期性的波動除了經濟自身的周期性規律外,還有政治、外交、科技、產業結構、情緒等諸多外因的影響,而股票市場作為其中之一,是與普通投資者聯系最為密切,參與度最高的資本市場。大量的股民常常帶著投機心理參與投資,而并不具備專業投資知識,隨著證券研報的出現,讓普通投資者在一定程度快速了解行業概況上發揮了巨大的作用。證券研報即證券研究報告,指的是證券公司為提供投資咨詢服務而發布的具有一定市場情緒偏好的報告。在信息大爆炸的時代,研報又細分為行研研報,個股研報,策略報告,新股研報,券商晨報,每日資訊等,根據中國結算官網發布的報告,我國股民數量已破兩億人次,除了專業機構或公司能夠進行深入實地調查、獲得一手的投資資料外,絕大多數的投資者都是依靠各券商分析師發行的研報來作為投資的依據[1]。

但是投資者僅靠一兩篇研報并不能做出正確的投資行為,應博采眾長,通過大量研報比較與分析,而由于其精力有限無法集體閱讀,必定就會產生“拍腦袋”決策投資行為;而實際投資活動中研報帶有滯后性,并且大多數普通投資者都追求短期投機,依研報投資決策的股民在風雨突變的股市里其收益率也會大打折扣。從另一角度看,研報之所以依舊重要,主要因為研報是分析師花費大量的時間和精力查閱大量行業信息,深入市場多渠道采集樣本,通過大量深度思考而得到的研究結果,有其內在的嚴密邏輯、獨特看法以及對行業本質及規律性認識的研究[2]。雖然對于普通投資者在大多數投資活動上具有時間差、低回報率的特點,但是對于創業者、在校畢業生以及經濟愛好者等人群來講,研報是快速了解行業、判斷其發展前景、預測其經濟走勢的利器。通過獲取海量研報的重點、熱點等相關信息快速知曉行業框架或行業前景,讓研報信息充分發揮其最大價值。

伴隨著大數據的深入發展,除了大量對于結構化數據的研究外,眾多文本性數據的分析技術也漸漸成熟。利用機器算法將語言文本進行挖掘、分類、抽取、識別、預測等又讓學者們發現了文本的其他重大信息。但是近年來文本數據挖掘分析多應用在電商評論、社交媒體留言等方面,很少有學者將其文本挖掘與分析技術應用于金融行業研報[3]。主要原因是其金融領域產生更多的是結構化數據,如金融交易數據、歷年國內生產總值、可支配收入支出等,因此大都從定量的角度去構建量化交易策略、建設金融計量模型,探討經濟數據關系等,而研報作為金融市場上為數不多的具有完整邏輯體系的非結構化數據,其傳遞的信息量也具有巨大的參考價值,不只體現在投資領域,更多也體現在判斷行業規律以及預測行業發展前景上。并且隨著人工智能與互聯網的發展,人們獲取信息其背后都離不開機器對內容的理解。文章將文本數據挖掘與分析應用于金融領域的海量行業研報上,通過對非結構化數據進行分析[3],快速從大量研報中找到行業關注重點與方向,滿足人們挖掘信息的相關需求。

1 研究工具

閱讀分析單個或者少量的研報可以通過傳統的人工方法完成,但在如今爆炸似的研報信息面前,無法再單純地依靠人工整理實現。而伴隨著大數據應運而生的機器學習卻能很好地解決該問題。Python是一種面向對象的解釋型計算機程序設計語言,其語法簡潔清晰,承載的包和庫種類多樣,在文本挖掘領域有著廣泛的應用。一般對于結構性數據人們采用pandas、nump、matplotlib庫進行分析與統計,而對于中文文本分析并應用廣泛的是jieba,collections,wordcloud,NetworkX等庫。

1) jieba是強大的Python分詞庫,主要用于中文分詞、關鍵詞提取、詞性標注、詞位置查詢等。在中文里面,詞是最小的能夠獨立運動的且具有意義的語言成分;與西方語言不同的是,詞與詞之間沒有空格之類的標志,因而jieba庫的分詞原理主要利用中文詞庫來確定漢字之間的關聯概率,也結合相鄰的字同時出現的次數越多,越有可能構成詞語的規律來進行統計,找出基于詞頻的最大切分組合,同時在jieba中還可以自定義詞典,通過用戶添加任意詞組進行更加貼合情況的分詞。jieba 分詞主要有三種模式[4]:精確模式、全模式、搜索引擎模式。

2) collections 庫中的 Counter 計數器通常用于詞頻統計,可避免使用 for 循環來手動統計詞頻。Counter 主要對文本數據中重要詞匯進行迭代并將出現次數進行統計,最終返回一個字典,通過觀察詞出現頻次多少的變化,來確定熱點及其變化趨勢。

3) wordcloud是自然語言處理中常用的方法,可以比較直觀而又突出其重點,關鍵詞在詞云圖中凸顯的大小和區域,讓人在視覺上給予更多的關注。主要代碼如下:

表1 wordcloud代碼

4) NetworkX 是Python 編程語言中用于語義網絡分析的庫,其靈活的數據結構和算法,可以輕松創建各種類型網絡圖來對語義關系進行分析,可視化展示也使其成為數據分析領域中不可或缺的工具之一。其基本原理是將文本數據轉化為語義網絡,從中提取出關鍵詞和關系,建立節點和邊的圖模型。

2 文本挖掘

2.1 數據爬取

利用爬蟲技術收集東方財富網上汽車整車行業近兩年的研報內容,由于東方財富網的行業研報數據是儲存在同一個url 地址的表格中,爬蟲程序利用while 循環實現自動表格翻頁爬取[5],將數據保存下來,部分代碼如下:

def yanbao():

count = 1

while count <= 25:

for i in range(1,2):

def get_data():

...

count = count+1

if count>=26:

Break

同時研報文本信息在‘報告名稱’所記載的網頁中,程序通過讀取表格中每一個‘報告名稱’中URL地址獲取其內容,部分代碼如下:

driver=webdriver.Chrome()

data=pd.read_excel(r"D:/Users/python write/Python-cut/1.xlsx")

contents=[]

def get_contents():

for url in data[′報告名稱′]:

driver.get(url)

最后合并兩者內容并以excl形式保存到本地,如表2所示:

表2 爬取文本信息

共獲取到2021年9月27日到2023年1月11日的1 171條行業研報文本數據,為了數據完整性,同時爬取了其日期、評級、評級變動、機構名稱等信息。粗略地瀏覽一遍報告內容,存在很多廢詞、標點等無用信息,需要進一步處理。

2.2 詞頻與詞云

導入中文分詞jieba 庫,運用jieba.lcut()語句進行精確分詞,即把文本精確切開后,若經過組合還能還原成之前文本同時不存在冗余詞,同時由于時代的發展會產生大量新詞,再加上金融領域會有一些特有專有名詞,于是構建自定義詞典再進行分詞;然后為了不影響文本分析的進行,利用停用詞stopwords,將文本中沒有任何含義的詞篩選出來;最后從collections庫導入 Counter 用于詞頻統計,將之前處理好的文本中的詞進行累計計數,之后利用sort函數進行排序,將排序靠前的詞,即研報中提及次數最多的詞和詞頻數提取出來,部分數據見圖1:

圖1 詞頻統計

詞云也叫文字云,將文本中的關鍵詞進行渲染以圖片形式呈現,更加直觀地了解文本主題。導入wordcloud 庫,圖片蒙版選擇一張本地自有圖片,最終將研報文本詞庫以詞云圖的形式呈現,見圖2。

2.3 語義網絡分析

基于語義網絡分析法,對汽車整車行業研報進行網絡分析和關系挖掘,語義網絡中的節點為主題,而邊則表示節點之間的關聯關系。以此了解研報中對整車行業做出的主題分析,重點領域介紹等,也可為研究整車行業的發展趨勢和政策制定提供參考。文章通過 networkx 等庫,構造詞頻矩陣和 TF-IDF 矩陣,并計算相關系數,最終得到了詞共現分析網絡的可視化,可以更好地觀察和分析網絡結構和特征,如圖3所示。

圖3 語義分析網絡圖

3 結果分析

文章發現在獲取的汽車整車行業研報文本數據中,除了本身關于汽車一詞提及多達8 314 次外,“同比”和“環比”一詞分別提及6 258 次和4 817 次,詞云圖也呈現出“銷量”“需求”等詞。說明研究報告大多數主要從各汽車企業銷售情況入手,比較其年月的銷量,分析市場需求。

同時詞頻中“增長”提及3 636 次,“新能源汽車”提及了2 426 次,“新能源車”提及1 197 次,“新能源”提及1 853 次,“政策”提及1 293 次,很明顯汽車行業主要發展前景集中在新能源車上,這也與我國綠色發展政策密不可分,國家一直堅持綠色發展之路,共創美好未來,并且從2020 年9 月就明確提出了2030 年“碳達峰”與2060年“碳中和”的目標,新能源已經被稱為第三次能源革命,新能源產業在未來會將是一片新藍海[6],其中不乏大量的就業、創業機會。

研報中“智能”提及了2 091 次,詞云圖也直觀地看出“科技”“電動”等詞在文本中是重點。新能源車除了在綠色環保上下功夫更朝著智能化方向推進,不斷進行迭代與創新,推動著汽車產業鏈的變革。同時“零部件”一詞提及了2 218 次,在汽車產業上下游中零部件相關的產業鏈也是當下關注的熱點。

“比亞迪”和“特斯拉”分別談及1 926 次、1 763次,結合其描述可以看出,兩家公司在新能源車行業銷量遙遙領先,作為行業標桿,對其研發投入和發展規劃都值得關注和研究。

從詞頻圖上還可以看到,“風險”“不及”“建議”等詞也多次出現,因為研報僅僅是提供一種投資建議,依然存在很多不確定性。畢竟每一個行業都會有周期性或者突發事件,如詞云中“疫情”一詞也出現其中,在詞頻中被談及到了1 573次,說明突發事件也會對汽車行業的發展造成相應的影響。因而在預測行業前景或者做投資決策時,也需要考慮到相關的問題,防患于未然。

在語義分析網絡圖中,研報整體從新能源汽車、銷量、智能化、用車等主題來進行研報的擴展分析,在新能源汽車主題下,主要從企業角度,如著名的特斯拉、中國的吉利、長安、長城等車企來討論,其中有關注到該行業自主研發芯片、電動化的發展;其次對于汽車行業的現狀也有談及,如產業鏈、零售、消費、政策等主題;同時也有一部分談及了疫情對汽車行業銷量的影響;并且從增長、有望、提升主題詞看,研報整體對汽車整車行業的智能化、能源化是抱有積極態度的。

4 總結

文章通過Python技術對研報文本的挖掘與分析,從詞頻、詞云、語義網絡角度出發對汽車整車行業作了大致的梳理,明確了該行業發展方向、研究熱點以及龍頭企業等相關信息,提高了閱讀海量研報的效率和準確度,為有研報閱讀需求的人們提供了更加高效的方案。

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 精品视频第一页| 天天婬欲婬香婬色婬视频播放| 97超级碰碰碰碰精品| 成人在线亚洲| 三级欧美在线| 国产正在播放| 亚洲欧美不卡| 亚洲欧美成人| 国产导航在线| 喷潮白浆直流在线播放| 国产噜噜在线视频观看| 国产精品七七在线播放| 精品国产欧美精品v| 国产麻豆91网在线看| 亚洲天堂高清| 久久国产精品波多野结衣| 国产97区一区二区三区无码| 亚洲天堂视频在线免费观看| 天堂亚洲网| 亚洲欧美激情小说另类| 热伊人99re久久精品最新地| 久久黄色影院| 婷婷色在线视频| 久久精品欧美一区二区| 1级黄色毛片| 老司国产精品视频| 2020最新国产精品视频| 一区二区影院| 国产精欧美一区二区三区| 四虎免费视频网站| 伊人AV天堂| 成人毛片免费在线观看| 国产午夜精品鲁丝片| 国产精品九九视频| 欧美亚洲国产日韩电影在线| 久久青草免费91线频观看不卡| 波多野结衣一区二区三区AV| 亚洲欧洲日本在线| 国产成人AV综合久久| 精品无码专区亚洲| 国产粉嫩粉嫩的18在线播放91| 免费一极毛片| 亚洲人在线| 久久精品国产精品青草app| 91精品啪在线观看国产60岁| 亚洲精品久综合蜜| 黄色免费在线网址| 波多野结衣一区二区三区88| 欧美日韩国产高清一区二区三区| 露脸真实国语乱在线观看| av午夜福利一片免费看| 国产精品99久久久久久董美香| 精久久久久无码区中文字幕| 精品无码国产一区二区三区AV| 久草青青在线视频| 国产成人精品视频一区二区电影 | 中文字幕在线永久在线视频2020| 日韩a在线观看免费观看| 亚洲精品制服丝袜二区| 国产乱肥老妇精品视频| 欧美福利在线观看| 欧美国产在线精品17p| 老色鬼欧美精品| 刘亦菲一区二区在线观看| 99视频国产精品| 亚洲综合极品香蕉久久网| 91在线视频福利| 91免费国产高清观看| 日韩欧美国产另类| 亚洲欧美日韩成人高清在线一区| 青青青国产在线播放| 亚洲中文制服丝袜欧美精品| 国产精品人人做人人爽人人添| 色综合天天视频在线观看| 婷婷伊人久久| 亚洲欧洲日韩久久狠狠爱| 中国黄色一级视频| 久久精品亚洲热综合一区二区| 亚洲国产一区在线观看| 亚洲成人网在线观看| 国产不卡国语在线| 国产成人无码AV在线播放动漫|