999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

債券領域專用詞向量研究

2022-12-29 00:00:00華嬌嬌杜通唐華云
債券 2022年12期

摘要:自然語言處理技術推動著智能債市的發展,其關鍵在于利用計算機充分挖掘債市數據中蘊含的特征和規律。這些特征的本質是對債市文本的數字化編碼,可作為債市文本分類、債市輿情分析、債券智能問答等多種應用的計算機輸入“語言”,是實現智能債市的基礎。為了實現對債市文本特征的預提取,本文利用CBOW模型對大量債市文本進行訓練,獲得了首套債市領域專用的數字“詞典”,填補了債券領域專用詞向量的空白。該詞向量利用文本的上下文信息,已經具備了一定的語義表達能力,不僅可以區分一字多義,還可以針對特定概念群進行類推。

關鍵詞:詞向量 自然語言處理 債券

債券市場是金融市場的重要組成部分。債券的全生命周期中會產生海量的文本數據,其中蘊含著債券市場大量的知識和規律。然而,這也導致了債券市場大數據的知識體系較為龐雜,且數據中一些冗余、錯誤和有用信息混雜交錯,需要進行整合、清洗和挖掘來獲取有用的信息。僅依賴人工處理難度較大,也是對社會資源的極大浪費。依靠債券領域得天獨厚的數據優勢,自然語言處理(NLP)技術具備模型端到端的設計和對特征工程弱依賴的特點,已成為賦能債券領域各應用的強大助力,帶動著金融業逐步邁入智能金融新紀元。

目前,NLP技術正廣泛應用于智能客服、定制化推薦、自動文摘、輿情分析、文檔分類等債市服務中。然而,這些應用的實現往往取決于債市文本數據和特征質量。在運用NLP技術對特征進行自動化提取的過程中,債市文本作為非結構化的字符數據,無法直接被計算機識別,需要轉化為具有語義信息的數值形式。具體地,需要將由多個詞構成的文本空間轉化為高維向量空間,即利用向量表示詞,向量之間的距離刻畫詞與詞之間的相近程度,最終形成“文本-詞”的債市數字詞典(詞向量)。

本文為填補債市專用詞向量的空白,利用詞向量訓練技術,以債市特定文本作為訓練語料庫,訓練出一套富含債市領域先驗知識的數字詞典。該詞向量區別于傳統關鍵詞、規則匹配,已經具備一定的語義表達能力。

詞向量編碼方式選擇

詞向量本質是以詞為單位,用多個數值對文本進行編碼,編碼方式主要包括獨熱(one-hot)、共現矩陣和分布式編碼等,具體描述如表1所示。

目前較為流行的詞向量編碼方式為分布式編碼,該種編碼的優點在于:第一,通過度量向量之間的相似程度,詞之間具備了“距離”的概念,這對很多NLP的下游任務(文檔分類、命名實體識別、情感分析、問答系統等)極有意義。第二,該詞向量的每一維都有特定的含義,同等維度的詞向量,該詞向量能包含更多的語義信息。因此,該詞向量可以節省更多的存儲空間,并提高計算效率。區別于離散編碼,分布式編碼在擴增新詞匯時無須增大向量維度,所構成的語義矩陣不再稀疏,不會出現維度災難。因此,本文所研究的詞向量基于分布式編碼。

詞向量訓練

本研究的詳細流程見圖1,主要分為債市文本數據選擇、訓練語料庫構建及訓練模型和對應的參數設置。

(一)債市文本數據選擇

本研究所使用的數據來源為:截至2022年2月23日中國債券信息網(https://www.chinabond.com.cn/)的公開文本,主要涉及該網站的8個子欄目:債券市場、政府債券、金融債、信用債、月度紀事、宏觀經濟、國際動態和熱點問題。該網站披露的數據均經過領域內專家篩選,質量可靠且覆蓋面較廣,共計13702篇文章,131224個自然段落,具體統計信息如表2所示。

(二)訓練語料庫構建

本文預訓練語料庫的構建分為兩步:第一步,清除文章中所有非漢字成分,主要包括標點符號、字母等。第二步,利用“結巴”(jieba)工具對文本進行分詞得到債市文本序列。其中,分詞需要配備有停用詞表(可忽略的不影響語義的詞)和用戶詞表(領域內的默認專用詞)。例如,文本“10月正式發行綠色債券”,清除非漢字字符后得到“月正式發行綠色債券”,去除停用詞“月”“正式”,保留用戶詞“綠色債券”,經分詞所得的債市文本序列為:“發行”“綠色債券”(見圖1)。原文本中每個段落所得的債市文本序列集合構成了詞向量訓練的語料庫,圖2與圖3分別展示了語料庫中最頻繁出現的前20和200個詞。

(三)訓練模型及其參數設置

本文使用的詞向量訓練模型為連續詞袋模型(Continuous Bag Of Words,CBOW),該方法利用目標詞的上下文詞表示該詞(見圖4)。具體地,訓練語料庫記為D,詞表集合記作W=(w1,w2,…,wN),N為詞數目。詞袋中任意一個詞wi的輸入和輸出向量分別記作和。模型的目標函數(最大化對數似然函數)可定義為:

其中,wc=wt-W,…,wt-1,wt+1,…,wt+W代表目標詞wt 的上下文詞,W為上下文窗口的大小。hwi代表目標詞上下文詞向量的均值或和向量。由于每次梯度迭代更新時,需涉及所有詞向量,復雜度較高。為了加速模型計算,本文采用了負采樣算法進行優化,即將每個目標詞的上下文詞作為正樣本,對每個正樣本采樣多個負樣本,每次梯度更新僅涉及所有的正負樣本詞。本文對每個正樣本所采樣的負樣本為10,具體實現可參考文獻。此外,本文過濾了詞典中出現次數小于5的詞,設置詞向量的維度為200,上下文窗口為5,訓練的輪次為100,初始學習率為0.025。

訓練結果分析

(一)語義表達能力

本文通過詞向量之間的皮爾斯相關系數來刻畫詞之間的相似程度,以衡量本文詞向量的語義表達能力。表3以“綠債”“中債”為例,展示了與之最相關的詞。其中,與“綠債”語義最相近的詞語包括“綠色債券”“綠色”“債券”“綠標委”等與“綠債”有重疊字的詞,還包括“貼標”“藍色(債券)”“熊貓(債券)”等字面上不相關的詞。對于“中債”,雖然漢語中含有“中”“債”的詞很多,但是與之最相近的前3個詞僅包括“中證”“中央國債登記結算有限責任公司”“中央結算公司”。由于訓練過程中并未加入任何人工規則,這些結果表明該詞向量已經可以自動捕捉到債市語料所蘊含的特征和規律,并將該特征存于數值向量中。不同于關鍵詞匹配的語義識別,該詞向量已經在文本的語義層面具備一定的理解能力。

(二)區分一字多義的能力

中文存在著大量的多義字,比如“風”可以指具象的自然界的空氣流動現象(風速)、消息(聞風而動)、歌謠(國風),或抽象的社會長期形成的禮節(風氣)、外在表現的態度和舉止(風度)等。為闡述本研究詞向量區分一字多義的能力,筆者分別展示了帶有“風”和“能”的前50個詞,并進行個案分析。具體地,首先對這些詞對應的向量進行主成分分析(PCA),然后對結果的前2個主成分進行可視化。圖5中“風”主要分成3類:自然界的風、風險和作風相關的語義。圖6中“能”被分為:能力、能源和虛詞能相關的語義。該結果揭示了該詞向量保留了詞之間的語義關系,即相近字義的詞在向量空間上也是臨近的,一定程度上可以區分一字多義。

(三)類推能力

本文選取了4對不同的債券類型和對應的發行主體,并對這8個詞向量進行PCA降維,選擇前2個主成分進行可視化。

如圖7所示,結果發現發行主體和債券類型被分為兩類(虛線圈),位于圖的兩側。此外,箭頭的指向表明,債券發行主體和對應債券類型在圖中的位置關系與其概念關系保持一致。尤其是地方政府和中央政府之間的距離比其他發行主體近,對應的兩種債券類型也比其他債券類型近。由于訓練過程中并未加入債券和對應的發行主體之間的概念關系或相關先驗知識,該結果表明本研究的詞向量能夠自動組織概念,并學習概念之間的抽象關系進行類推。

結論

本研究利用CBOW模型對中國債券信息網中的13000多篇債市文本進行訓練,并獲得了首套債市領域專用的數字“詞典”,填補了債券領域專用詞向量的空白。該“詞典”共有76042個債市專用詞,每個詞由200維向量組成,其內容涵蓋了債券市場的各個子領域。不同于關鍵詞匹配,該詞向量能夠區分一字多義,且可以針對特定概念群進行類推,已經具備了一定的語義表達能力。

當然,本研究中出現了一些錯誤的結果:一是分詞導致的錯誤,比如“創債”“年國”等;二是一些無意義的詞沒有過濾,比如“首只”“十七”等;三是一些噪聲詞干擾詞向量的訓練,比如與“中債”最相近的詞“精選”“高等級”“成分”等。為了解決這些問題,后續將嘗試更多成熟的分詞工具,并根據債市數據特點設計更多的用戶專用詞表和停用詞表。此外,后續會補充更多的債券信息來源,以擴充詞向量的訓練語料庫,訓練出一個語義表達能力更強的債券領域專用詞向量。

參考文獻

[1]陳德光,馬金林,馬自萍,等. 自然語言處理預訓練技術綜述[J]. 計算機科學與探索,2021,15(8).

[2] Mikolov T, Sutskever I, Chen K et. al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013(26).

主站蜘蛛池模板: 亚洲欧美日韩综合二区三区| 欧美精品在线看| 丁香六月综合网| 国产精品女人呻吟在线观看| 99在线视频网站| 狼友av永久网站免费观看| 国产三级国产精品国产普男人| 青青青草国产| 无码内射中文字幕岛国片| 国产成人福利在线视老湿机| 国产一区二区三区免费观看| 国产欧美日韩视频怡春院| 亚洲日韩Av中文字幕无码| 免费在线一区| 精品無碼一區在線觀看 | 大陆国产精品视频| 97在线免费视频| 欧洲日本亚洲中文字幕| 亚洲欧美激情小说另类| 亚洲无限乱码一二三四区| 永久免费AⅤ无码网站在线观看| 毛片视频网| 国产成人亚洲无吗淙合青草| 亚洲中文无码h在线观看| 国产精品久线在线观看| 日本三区视频| 久久91精品牛牛| 中文字幕欧美日韩| 欧美在线导航| 国产成+人+综合+亚洲欧美| 亚洲精品成人福利在线电影| 国产精品福利导航| 少妇极品熟妇人妻专区视频| 99精品视频在线观看免费播放| 亚洲国产欧美自拍| 在线国产毛片| 欧美 国产 人人视频| 一区二区午夜| 韩国v欧美v亚洲v日本v| 呦女精品网站| 欧美日韩动态图| 国产91导航| 色首页AV在线| 亚洲伊人电影| 日韩在线永久免费播放| 无码高潮喷水专区久久| 国产成人精品免费av| 亚洲无码电影| 国产欧美日韩视频怡春院| 天天躁狠狠躁| 无码专区第一页| 免费无码网站| 日韩视频免费| 亚洲福利视频一区二区| 热伊人99re久久精品最新地| 国产97视频在线| 欧美亚洲一区二区三区导航| 免费高清毛片| 99伊人精品| 亚洲黄色激情网站| 二级特黄绝大片免费视频大片| 全午夜免费一级毛片| 欧美在线精品一区二区三区| 午夜性爽视频男人的天堂| 中文字幕资源站| 国产精品美女网站| 色香蕉影院| 啦啦啦网站在线观看a毛片| 国产一级毛片高清完整视频版| 国产精品亚洲专区一区| 亚洲无码A视频在线| 国产午夜精品鲁丝片| 99在线视频免费| 毛片免费视频| 91尤物国产尤物福利在线| 国产丝袜第一页| 成人蜜桃网| 丰满的少妇人妻无码区| 亚洲黄色片免费看| 四虎影院国产| 国产欧美精品一区二区| 免费可以看的无遮挡av无码|