










摘要:自然語言處理技術推動著智能債市的發展,其關鍵在于利用計算機充分挖掘債市數據中蘊含的特征和規律。這些特征的本質是對債市文本的數字化編碼,可作為債市文本分類、債市輿情分析、債券智能問答等多種應用的計算機輸入“語言”,是實現智能債市的基礎。為了實現對債市文本特征的預提取,本文利用CBOW模型對大量債市文本進行訓練,獲得了首套債市領域專用的數字“詞典”,填補了債券領域專用詞向量的空白。該詞向量利用文本的上下文信息,已經具備了一定的語義表達能力,不僅可以區分一字多義,還可以針對特定概念群進行類推。
關鍵詞:詞向量 自然語言處理 債券
債券市場是金融市場的重要組成部分。債券的全生命周期中會產生海量的文本數據,其中蘊含著債券市場大量的知識和規律。然而,這也導致了債券市場大數據的知識體系較為龐雜,且數據中一些冗余、錯誤和有用信息混雜交錯,需要進行整合、清洗和挖掘來獲取有用的信息。僅依賴人工處理難度較大,也是對社會資源的極大浪費。依靠債券領域得天獨厚的數據優勢,自然語言處理(NLP)技術具備模型端到端的設計和對特征工程弱依賴的特點,已成為賦能債券領域各應用的強大助力,帶動著金融業逐步邁入智能金融新紀元。
目前,NLP技術正廣泛應用于智能客服、定制化推薦、自動文摘、輿情分析、文檔分類等債市服務中。然而,這些應用的實現往往取決于債市文本數據和特征質量。在運用NLP技術對特征進行自動化提取的過程中,債市文本作為非結構化的字符數據,無法直接被計算機識別,需要轉化為具有語義信息的數值形式。具體地,需要將由多個詞構成的文本空間轉化為高維向量空間,即利用向量表示詞,向量之間的距離刻畫詞與詞之間的相近程度,最終形成“文本-詞”的債市數字詞典(詞向量)。
本文為填補債市專用詞向量的空白,利用詞向量訓練技術,以債市特定文本作為訓練語料庫,訓練出一套富含債市領域先驗知識的數字詞典。該詞向量區別于傳統關鍵詞、規則匹配,已經具備一定的語義表達能力。
詞向量編碼方式選擇
詞向量本質是以詞為單位,用多個數值對文本進行編碼,編碼方式主要包括獨熱(one-hot)、共現矩陣和分布式編碼等,具體描述如表1所示。
目前較為流行的詞向量編碼方式為分布式編碼,該種編碼的優點在于:第一,通過度量向量之間的相似程度,詞之間具備了“距離”的概念,這對很多NLP的下游任務(文檔分類、命名實體識別、情感分析、問答系統等)極有意義。第二,該詞向量的每一維都有特定的含義,同等維度的詞向量,該詞向量能包含更多的語義信息。因此,該詞向量可以節省更多的存儲空間,并提高計算效率。區別于離散編碼,分布式編碼在擴增新詞匯時無須增大向量維度,所構成的語義矩陣不再稀疏,不會出現維度災難。因此,本文所研究的詞向量基于分布式編碼。
詞向量訓練
本研究的詳細流程見圖1,主要分為債市文本數據選擇、訓練語料庫構建及訓練模型和對應的參數設置。
(一)債市文本數據選擇
本研究所使用的數據來源為:截至2022年2月23日中國債券信息網(https://www.chinabond.com.cn/)的公開文本,主要涉及該網站的8個子欄目:債券市場、政府債券、金融債、信用債、月度紀事、宏觀經濟、國際動態和熱點問題。該網站披露的數據均經過領域內專家篩選,質量可靠且覆蓋面較廣,共計13702篇文章,131224個自然段落,具體統計信息如表2所示。
(二)訓練語料庫構建
本文預訓練語料庫的構建分為兩步:第一步,清除文章中所有非漢字成分,主要包括標點符號、字母等。第二步,利用“結巴”(jieba)工具對文本進行分詞得到債市文本序列。其中,分詞需要配備有停用詞表(可忽略的不影響語義的詞)和用戶詞表(領域內的默認專用詞)。例如,文本“10月正式發行綠色債券”,清除非漢字字符后得到“月正式發行綠色債券”,去除停用詞“月”“正式”,保留用戶詞“綠色債券”,經分詞所得的債市文本序列為:“發行”“綠色債券”(見圖1)。原文本中每個段落所得的債市文本序列集合構成了詞向量訓練的語料庫,圖2與圖3分別展示了語料庫中最頻繁出現的前20和200個詞。
(三)訓練模型及其參數設置
本文使用的詞向量訓練模型為連續詞袋模型(Continuous Bag Of Words,CBOW),該方法利用目標詞的上下文詞表示該詞(見圖4)。具體地,訓練語料庫記為D,詞表集合記作W=(w1,w2,…,wN),N為詞數目。詞袋中任意一個詞wi的輸入和輸出向量分別記作和。模型的目標函數(最大化對數似然函數)可定義為:
其中,wc=wt-W,…,wt-1,wt+1,…,wt+W代表目標詞wt 的上下文詞,W為上下文窗口的大小。hwi代表目標詞上下文詞向量的均值或和向量。由于每次梯度迭代更新時,需涉及所有詞向量,復雜度較高。為了加速模型計算,本文采用了負采樣算法進行優化,即將每個目標詞的上下文詞作為正樣本,對每個正樣本采樣多個負樣本,每次梯度更新僅涉及所有的正負樣本詞。本文對每個正樣本所采樣的負樣本為10,具體實現可參考文獻。此外,本文過濾了詞典中出現次數小于5的詞,設置詞向量的維度為200,上下文窗口為5,訓練的輪次為100,初始學習率為0.025。
訓練結果分析
(一)語義表達能力
本文通過詞向量之間的皮爾斯相關系數來刻畫詞之間的相似程度,以衡量本文詞向量的語義表達能力。表3以“綠債”“中債”為例,展示了與之最相關的詞。其中,與“綠債”語義最相近的詞語包括“綠色債券”“綠色”“債券”“綠標委”等與“綠債”有重疊字的詞,還包括“貼標”“藍色(債券)”“熊貓(債券)”等字面上不相關的詞。對于“中債”,雖然漢語中含有“中”“債”的詞很多,但是與之最相近的前3個詞僅包括“中證”“中央國債登記結算有限責任公司”“中央結算公司”。由于訓練過程中并未加入任何人工規則,這些結果表明該詞向量已經可以自動捕捉到債市語料所蘊含的特征和規律,并將該特征存于數值向量中。不同于關鍵詞匹配的語義識別,該詞向量已經在文本的語義層面具備一定的理解能力。
(二)區分一字多義的能力
中文存在著大量的多義字,比如“風”可以指具象的自然界的空氣流動現象(風速)、消息(聞風而動)、歌謠(國風),或抽象的社會長期形成的禮節(風氣)、外在表現的態度和舉止(風度)等。為闡述本研究詞向量區分一字多義的能力,筆者分別展示了帶有“風”和“能”的前50個詞,并進行個案分析。具體地,首先對這些詞對應的向量進行主成分分析(PCA),然后對結果的前2個主成分進行可視化。圖5中“風”主要分成3類:自然界的風、風險和作風相關的語義。圖6中“能”被分為:能力、能源和虛詞能相關的語義。該結果揭示了該詞向量保留了詞之間的語義關系,即相近字義的詞在向量空間上也是臨近的,一定程度上可以區分一字多義。
(三)類推能力
本文選取了4對不同的債券類型和對應的發行主體,并對這8個詞向量進行PCA降維,選擇前2個主成分進行可視化。
如圖7所示,結果發現發行主體和債券類型被分為兩類(虛線圈),位于圖的兩側。此外,箭頭的指向表明,債券發行主體和對應債券類型在圖中的位置關系與其概念關系保持一致。尤其是地方政府和中央政府之間的距離比其他發行主體近,對應的兩種債券類型也比其他債券類型近。由于訓練過程中并未加入債券和對應的發行主體之間的概念關系或相關先驗知識,該結果表明本研究的詞向量能夠自動組織概念,并學習概念之間的抽象關系進行類推。
結論
本研究利用CBOW模型對中國債券信息網中的13000多篇債市文本進行訓練,并獲得了首套債市領域專用的數字“詞典”,填補了債券領域專用詞向量的空白。該“詞典”共有76042個債市專用詞,每個詞由200維向量組成,其內容涵蓋了債券市場的各個子領域。不同于關鍵詞匹配,該詞向量能夠區分一字多義,且可以針對特定概念群進行類推,已經具備了一定的語義表達能力。
當然,本研究中出現了一些錯誤的結果:一是分詞導致的錯誤,比如“創債”“年國”等;二是一些無意義的詞沒有過濾,比如“首只”“十七”等;三是一些噪聲詞干擾詞向量的訓練,比如與“中債”最相近的詞“精選”“高等級”“成分”等。為了解決這些問題,后續將嘗試更多成熟的分詞工具,并根據債市數據特點設計更多的用戶專用詞表和停用詞表。此外,后續會補充更多的債券信息來源,以擴充詞向量的訓練語料庫,訓練出一個語義表達能力更強的債券領域專用詞向量。
參考文獻
[1]陳德光,馬金林,馬自萍,等. 自然語言處理預訓練技術綜述[J]. 計算機科學與探索,2021,15(8).
[2] Mikolov T, Sutskever I, Chen K et. al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013(26).