陳日成




在大數據時代,知識圖譜將互聯網上碎片化的知識通過網絡化的形式整合,為我們提供了一種新型的數據獲取方式,便于人們進行數據的檢索與分析,從中獲取更有價值的信息。在知識圖譜技術發展的同時,信息抽取技術也在逐漸發展,人們不再局限于在結構化的數據中抽取數據,對于半結構及非結構化的數據,人們也開始在其中挖掘知識。事件數據則屬于半結構化及非結構化數據中的一種,事件數據中包含著多方主體,蘊含著眾多信息。同時,事件也不只是作為個體而單獨存在的,事件與事件之間還存在著眾多的聯系,如因果、順承、遞進等,這些關系都展示了事件數據的“動態性”。本文以金融領域的事件作為研究點,從開放的半結構化及非結構化數據中抽取知識,構建知識圖譜,并進行其在語義及結構上的演化分析。
一、金融風險相關內容
近些年金融風險事件頻發,由單一個體發現風險而引發的群體風險事件眾多,學術界也越來越關注金融風險預警這一熱點,根據不同的研究視角,金融風險預警研究可以分為系統總體風險預警和系統內部風險預警,而對于檢測金融風險水平通常用的是經驗指標分析法及綜合指數法。對金融體系內部分金融機構的風險監測常用的方法是基于市場數據的模型法,如條件風險價值法(Co-VaR)、Hapley值、Srisk、Copula函數方法等。上述方法可以實時跟蹤和監控金融機構的系統性風險,具有良好的時效性。缺陷在于往往以單一市場的金融機構為研究對象,當涉及多個金融機構相互影響和聯系的情況時,這些方法則失去了優勢。
二、知識圖譜基礎
按照維基百科的定義,知識圖譜的最早應用是作為提高搜索引擎效率的知識庫,表達實體之間的語義信息網絡關系是它的本質,采用的是三元組的形式來揭示實體自身以及實體之間的關系。
三元組信息是知識圖譜的基礎,眾多三元組構成了一張知識大網,三元組包含實體、關系、屬性、屬性值等信息。在金融知識圖譜中,例如企業實體,則會有,法人、代碼、董事等屬性,通過其屬性又關聯到另一個企業實體,以此構建成知識圖譜大網,同時為了避免信息冗余,每一個實體在知識庫中都有一個唯一的標識ID,如“8a0f3fa0-019c-4c91-86dd-3c20c946d09d”是一個法人的唯一標識ID。金融知識圖譜屬于領域知識圖。
三、金融事件的演化分析
(一)金融風險事件數據收集概況
經過爬蟲和數據清理,目前共獲得包含擔保交易、股權凍結、股權質押、關聯交易、立案調查、訴訟仲裁、違規事件約105600條事件數據,包含公司、股東、法定代表人、金融機構約152000個實體,包含企業名稱、ID、股票代碼、交易類型、時間信息、金額、股份等約263000條屬性。
(二)數據處理
對于上述爬取的數據,利用python正則表達式工具,將實驗所需要的實體、時間、關系等數據提取出來。并于MySQL關系型數據庫接口進行對接,將數據存入數據庫。為了便于詞表的構建,利用python工具統計實體、時間的詞頻,金融事件網絡形成的基礎是一個事件涉及多個實體,實體與其他實體又存在關系,那么,各實體之間就形成了關聯關系。本文的金融關聯指的是:擔保交易、股權凍結、股權質押、關聯交易、立案調查、訴訟仲裁、違規事件。為了得出他們之間的具體關系,將2008年-2019年的事件數據劃分為2008年-2011年、2012年-2015年和2016年-2019年份三個時間段,對各個時間段的共現詞頻進行統計,為了避免數據量過于龐大,影響實驗的速度,僅僅選取各個時間段內事件數量大于等于10的實體進行可視化展示,從而降低個別不典型數據對實驗結果的影響。根據具體的實驗結果分析,事件數量小于10的實體不具有代表性,并且數量眾多,對實驗結果的影響并不顯著。對于上述三個時間段分別設定三個CSV文件,文件第一行為表頭列名(source、target、weight),其中,前兩列為關聯節點名稱,最后一列為權重(即雙方關聯頻次)。不同時間段實體與實體共現統計結果詳見表4.9(數據只部分展示)。
(三)時間序列金融事件網絡特征分析
將三個時間段2008年-2011年、2012年-2015年和2016年-2019年的數據用Gephi工具進行社會網絡分析,得到如下表所示的分析數據,具體情況詳見后續的網絡密度、點度中心度、中心中間性、網絡具體分析。
1.網絡密度
通過上述金融事件網絡特征分析結果可知,金融事件網絡密度從第一階段2008.01-2011.12的0.017變為第二階段2012.01-2015.12的0.018,最終變化為到第三階段2016.01-2019.12的0.015,無論是從單個階段看還是從整體來看,整個金融事件網絡密度遠遠小于1,這一數據表明實體與實體之間的事件關聯不是很密切,事件之間的關聯性不是非常明顯。下面對其原因進行具體分析:首先,在金融事件網絡中各實體處于不同的行業、地區,如果要進行關聯,則需要跨行業、跨區域,如此進行事件關聯會消耗巨大的時間成本和經濟成本;其次,金融領域具有封閉性特征,各實體更愿意與同行業、地區的實體進行關聯,其目的也是為了避免潛在的風險。
最終,通過對比上述金融事件網絡特征不同時間段的網絡密度可以發現,網絡密度的波動僅有0.001至0.002,總體的趨勢呈現平穩的態勢,表明在互聯網時代的浪潮下,倒逼各實體進行金融交流,各個金融實體也難以避免與其他實體發生關聯關系。
2.點度中心度
通過上述金融事件網絡特征分析結果可知,萬科企業股份有限公司、湖北宜化化工股份有限公司、飛亞達(集團)股份有限公司、中國大唐集團公司、武漢東湖高新集團股份有限公司等實體名列點度中心度的前列,深圳長城開發科技股份有限公司、蘇州長城開發科技有限公司、金融街控股股份有限公司等實體處于點度中心度排名的末端,由此可見整個金融事件網絡中,點度中心度的差異較大。下面對其原因進行具體分析:首先,實驗結果表明上述實體在金融事件中所處的地位不同,具體表現為在點度中心度前列的實體處于金融事件的核心并且知名度較大,資源優勢強,從而與其他實體發生較多的關聯關系,產生較大的凝聚效應;其次,對于處于點度中心度末端的實體,在網絡中所處地位也較低,他們一方面自身體量相對較小、所掌控的資源不夠充足,或者是缺乏一定的核心競爭力,因此較難與其他實體形成關聯關系。
最終,通過上述金融事件網絡特征分析對比三個時間段的點度中心度可以發現,整個網絡的點度中心度呈上升趨勢,從0.215、0.264上升至0.282,同時各實體之間的點度中心度的數值差異在逐漸縮小,這一現象反映了在金融事件關聯的過程中,實體在不斷地與其他實體建立更密集、更廣泛的關聯,使得實體自己在金融事件網絡中的地位進一步加強。
3.中心中間性
通過上述金融事件網絡特征分析結果可知,中海集裝箱運輸股份有限公司、中國大唐集團公司、武漢東湖高新集團股份有限公司等實體處于中心中間性的前列,深圳能源集團股份有限公司、中興通訊股份有限公司、深圳市民德電子科技股份有限公司等實體處于中心中間性的末端,并且中心中間性的值差異較大,其最大差值超過0.1。由此可見,在整個金融事件網絡中,處于核心地位的實體與處于“偏僻”地位的實體差異較大,作為核心地位的實體位于多個實體連接路徑的中間節點上。下面對其原因進行具體分析:首先,是因為這些實體的所在行業大多為服務型,與其他實體的關聯關系更為緊密。另一方面,這些實體在行業內市場份額較大,掌握著該行業的優勢資源,具有核心競爭力,從而能夠在金融合作過程更便于與其他實體形成關聯關系。
最終,通過金融事件網絡特征分析結果對比不同時間段的中心中間性數據可以發現,整個網絡的中心中間性在逐漸增加,從最開始的0.312到0.424最后到0.527,最大跨度接近0.2,這一現象反映了各實體在金融關聯的過程中,在不斷尋求與其他實體進行關聯從而擴大自身的“結點”作用,與其他實體關聯數量多,也屬于實體自身的一種資源,從而便于建立更多、更廣泛的關聯,使實體自身在金融合作中“橋梁”的作用進一步加強,從而使得自己在金融事件網絡中的地位進一步提高。
4.網絡距離
從上述金融事件網絡特征分析結果可知,三個不同時間段2008年-2011年、2012年-2015年和2016年-2019年的金融合作網絡的平均距離分別是3.172、4.021和5.252,由此可以得知,在整個金融事件網絡中,任意一個實體平均需要通過3個或者4個實體才能與另一個實體取得關聯。下面對其原因進行具體分析:我國地域遼闊,省份眾多,各實體在我國分布范圍較廣,所以,雖然平均網絡距離較大,但是結合實際情況而言,這一平均距離的結果是可以為大多數實體所接受的。
最終,在三個時間段所得出的網絡距離值的基礎上,得到響應時間段的凝聚力指數分別為0.0643、0.0532和0.0589,從該數據可以發現,我國金融事件網絡實體之間總體聯系并不緊密,有著各自為政的趨勢,因此建議,我國各金融實體緊密程度有待提升,凝聚力需要加強,從三個階段的凝聚力指數總體態勢分析,在第一階段2008年-2011年,自經濟危機爆發以來,各實體開始注意到金融事件對其自身風險的影響,導致凝聚力較強;隨著時間的推移2012年-2015年,各實體在逐漸增加,數量上提升迅速,量變導致質變,從而導致凝聚力開始下降;近些年來2016年-2019年,隨著金融行業的穩定與成熟,國家政策的逐漸完善,各實體也逐步意識到金融合作的重要性,開始大規模尋求金融合作,從而促使凝聚力又穩步回升。
結 語
我國對于知識圖譜的研究最開始是通過人工構建的方式進行的,因此存在許多的弊端,如規模小、覆蓋少、應用狹窄等,這種人工規則構建的知識圖譜難以擴展為大規模的知識圖譜,例如中科院計算所設計的知網(HowNet)就屬于這種范疇。國內工業界和學術界也對知識圖譜展開了一系列的研究。在我國工業界,眾多互聯網公司也加入到知識圖譜的研究中來,例如百度知識圖譜、阿里巴巴電商知識圖譜,美團大腦、搜狗知立方等。在金融領域,同樣有海智大數據、天眼查等比較成熟的金融知識圖譜。目前,無論是國內還是國外,對行業和領域知識圖譜(也稱作垂直領域的知識圖譜)的研究還較少,投入到實際應用中的也還待開發。領域知識圖譜在許多行業都有應用價值,例如行業智能知識服務、問答系統、行業語義搜索、大數據關聯分析等方面都有廣泛的研究與應用價值。
(作者單位:湖北商貿學院)