999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的產業鏈知識圖譜構建

2022-04-07 11:17:10毛瑞彬李愛文周倚文潘斌強
情報學報 2022年3期
關鍵詞:文本模型

毛瑞彬,朱 菁,李愛文,周倚文,潘斌強,岳 琳

(1.武漢大學信息資源研究中心,武漢 430072;2.深圳證券信息有限公司,深圳 518022;3.天津大學管理與經濟學部,天津 300110)

1 引 言

產業鏈作為一個產業經濟學的概念,指各個產業部門之間以產品或服務為紐帶,基于一定的技術經濟關聯,形成的具有價值增值功能的鏈網式關聯關系形態[1]。隨著全球化的發展,產業鏈對國民經濟的影響無處不在。國家產業結構持續優化升級,廣東省積極推動區域產業升級轉型[2],中部[3]和西部[4]省份承接東部轉移產業。在投資領域,股票市場基于產業鏈建立投資組合[5],傳媒類上市企業通過投資尋求全產業鏈經營[6]。金融產業中的P2P網貸[7]、商業銀行[8]的風險影響著國家金融穩定。因此,產業鏈研究在投融資、金融監管和區域產業規劃等領域有重要意義。

目前,產業鏈研究報告主要由券商、研究所和咨詢機構的行業研究人員人工編寫,其主要形式是文本,不利于進行自動檢索、分析和計算。從形態特征來看,產業鏈是典型的網絡結構,因此使用知識圖譜對產業鏈信息進行組織和存儲,是較為可行的解決方案。從相關研究來看,①大多面向單一產業的知識圖譜構建或面向產業競爭情報服務的框架和模型,沒有把產業鏈和知識圖譜有機地結合起來;②行業關系和數據都蘊含在研究報告、上市公司公告和互聯網新聞等海量的文本中,傳統的構建和融合方法無法有效解決行業名稱融合中未登錄詞的挑戰問題;③缺乏統一的產業鏈本體庫。以上對于產業鏈知識圖譜的構建提出了較大挑戰。

本文面向產業鏈在現代經濟活動中的應用,針對金融領域文本特點,提出基于領域語言模型的知識抽取方法,進行產業鏈知識圖譜構建,其主要創新點有:①首次提出了產業鏈本體庫,為產業鏈知識圖譜的構建提供了良好的基礎;②基于領域語言模型的實體和關系聯合抽取,有效地解決復雜金融文本的知識抽取難題;③結合無監督共現詞語發現算法和領域語言模型,較好地實現了知識融合。

2 研究現狀

2.1 產業鏈分析方法

目前國內外研究者一般通過分析專利[9]、專利組合[10]、論文等構建技術鏈[11]和創新鏈[12]分析企業合作競爭情況,構建產業競爭情報分析框架[13],分析上下游行業企業的競爭能力。這些方法的數據源是專利和論文,獲取較為方便,格式統一,分析起來較為便捷。但也存在缺點:一是受專利和論文領域限制,覆蓋的主體類別較少;二是由于專利和論文中并不存在上下游關系,難以實現自動化構建。

在分析模型上,邁克爾·波特[14]提出了影響產業吸引力以及現有企業競爭戰略決策的五力模型。基于SCP(structure-conduct-performance)范式構建產業競爭分析模型[15]提出了市場結構、市場行為和市場績效三個層面的刻畫方法。雙鉆石模型[16]在波特鉆石模型原有六大要素的基礎上增加了“區域文化”和“外來投資”兩大要素。這些模型和方法需要采集市場產量、銷量、價格、利潤等數據,主要針對特定的行業或企業,如果推廣到構建包含所有國民經濟行業的全產業鏈,實施難度和成本都比較高。

2.2 知識圖譜構建方法

知識圖譜是通過網絡表示數據,網絡中的節點和邊代表著實體和關系。目前,英文維基百科知識圖譜主要有Freebase[17]、DBpedia[18]、YAGO[19],中文維基百科知識圖譜有Zhishi.me[20]、CN-DBpedia[21]、PKUBase等。谷歌、微軟、百度等廠商建立了面向搜索引擎的知識圖譜。國內企查查、天眼查、啟信寶、BBD數聯銘品等科技企業以工商數據為基礎構建商業領域知識圖譜,包括供應商、客戶、訴訟等信息,提供企業關聯關系查詢和計算等功能,這些商業領域知識圖譜關注企業之間的關系,產業鏈則是從宏觀到微觀,關注產業的規模和發展以及企業之間的競爭與協同。目前,專門針對產業鏈的知識圖譜系統性構建方面的研究還較少,現有研究大多針對單一產業,如氣象農業[22]、商業[23]、教育[24]等。

因為領域知識圖譜需要定義特定的數據結構,首先要進行本體構建[25],一般可以采用自上向下和自下向上兩種方式[26]。本體構建需要考慮知識圖譜的存儲模型,存儲一般有RDFs(resource description framework schema)和屬性圖兩種模式,RDFs模式使用三元組形式,一般應用于本體復雜而實例較少的情況,如醫藥行業[27];而屬性圖較RDFs更加靈活,結點和關系支持多屬性描述,能夠有效節約結點數量,一般應用于實例數據量較多的情況,如金融領域[28]。

金融領域中文本數據占比較大,需要從文本中進行知識獲取和知識融合[29]。知識獲取主要指實體和關系抽取,國內外研究較多,如Bekoulis等[30]提出的多頭選擇模型、Chi等[31]提出的基于句子模型和多層注意力的方法,以及Zhou等[32]提出的強化學習的方法,這些都是基于雙向長短時記憶網絡(bidirectional long short-term memory,Bi-LSTM)的,無法根據任務進行動態優化。知識融合主要是對同義詞的指向進行識別,其方法主要有聚類[33]、分類[34]和相似度[35]等,也可以根據已有的知識圖譜進行嵌入學習和預測[36],這些方法大多針對維基百科類文本的處理,難以適應實體和關系復雜的金融領域。另外,傳統的算法模型的通用性較差,其構建難度和成本也居高難下。

3 構建流程與方法

3.1 系統框架

產業鏈知識圖譜的系統框架分為四層,如圖1所示。第一層是數據源層,主要是產業鏈知識圖譜的數據源頭,包括研究報告、互聯網新聞、上市公司披露文本等。這些文本數據包含大量行業實體、關系和元素數據。由于文本來源于不同的機構,如上市公司、研究機構和新聞媒體,因此它們對產業、行業和公司的理解和表達方式也不盡相同,對知識圖譜的構建是個較大的挑戰。

圖1 產業鏈知識圖譜的系統框架

第二層是本體層,這一層是產業鏈知識圖譜的骨骼框架,是圖譜的元數據。知識圖譜一般包括本體和實例,產業鏈知識圖譜也一樣。雖然已經有很多學者提出自動構建本體庫,但國民經濟行業涉及范圍廣闊,使用專家模式具有更好的目標性,這也是本文采用的方式。本文在《國民經濟行業分類》(GB/T 4754-2017)①http://www.stats.gov.cn/tjsj/tjbz/、《全國投入產出表》②http://www.stats.gov.cn/ztjc/tjzdgg/trccxh/zlxz/trccb/、GICS(Global Industry Classification Standard,全球行業分類系統)③https://www.msci.com/gics的基礎上構建本體庫。

第三層是構建層,在本體庫的基礎上,通過自然語言處理技術,從新聞報道、研究報告和上市公司公告文本中識別行業、上下游、典型公司和要素等實體數據,將識別的實體進行實時融合關聯存儲到圖數據庫中,這些數據作為本體庫的實例化數據,本體和實例一起形成產業鏈知識圖譜。基于流式計算,能夠將各處理模塊集成起來,實現管道式處理流程,針對每天新增的金融文本數據,進行自動化的處理和增量的持續構建。

第四層是服務層。通過產業鏈知識圖譜,可以發現企業所在行業的發展趨勢和行業規模,發現企業的風險和價值,面向證券監管、投融資和產業規劃等實際應用場景提供服務。

3.2 構建流程

采用自上而下的方式,從海量的文本數據中構建產業鏈知識圖譜,分為本體構建、自動構建和人工審核三個階段,如圖2所示。①http://www.stats.gov.cn/tjsj/tjbz/本體構建:產業鏈本體本質上是國民經濟行業及行業屬性的集合,需要專家進行總結和抽象,除了經濟領域的專有知識外,還包括一些常識性知識,通過學習的方法構建,難度較大,成本較高,因此本文選擇人工進行本體構建。②http://www.stats.gov.cn/ztjc/tjzdgg/trccxh/zlxz/trccb/自動構建:新聞報道、研究報告和上市公司公告文本大多以PDF和HTML形式存在,需要先統一轉換為下游方便處理的文本格式。對文本進行預處理,把文本段落按照產業鏈要素類別進行分類,根據不同類別,進行實體和關系識別,最后進行知識融合。③https://www.msci.com/gics人工審核:通過自然語言處理技術識別的行業、上下游、同義詞和要素等存在一定錯誤率,直接服務于投融資和監管仍存在一定差距,經過專家審核,不僅能夠提升系統可用性,還可以通過改進語料庫提升模型準確率。

圖2 產業鏈知識圖譜構建流程

3.3 本體構建

產業鏈本體主要考慮產業鏈上中下游細分行業及要素。以GICS為基礎,將GICS四級分類體系擴展至五級,細化行業分類顆粒度。在分類體系擴展時主要遵循兩個原則:①是否有上市公司以該細分行業作為主營業務;②該新增細分行業的市場規模是否足夠大,是否具有投資價值。當細分行業滿足任一條件時,即可新增細分行業。產業鏈要素是指以行業研究視角確定的、對產業鏈投資具有重要參考價值的數據,主要包括特定細分行業的行業定義、競爭格局、歷史與趨勢、行業規模等。行業數據的來源包括上市公司的招股說明書及定期報告、第三方機構公開發布的研究報告、重點行業網站發布的新聞輿情等。行業數據的選取注重時效性與權威性。典型公司是指特定細分行業內的龍頭企業、海內外上市公司以及新三板掛牌企業;并且根據已有數據基礎,將非上市典型公司根據公司規模、發展情況分為高新技術企業、路演企業和園區分層企業等;對數據較為完善的上市典型公司,則提供包括公司估值分析、企業經營狀況分析等在內的結構化數據,幫助用戶了解市場整體競爭態勢。這部分數據屬于結構化數據,獲取和整合的方法與文本存在一定差異,本文構建的方法聚焦文本信息,因此下文不再贅述。產業鏈知識圖譜本體庫框架如圖3所示。

圖3 本體框架

在本體框架中,核心類主要有產業、行業和企業(典型公司)。企業集合組成行業,行業集合組成產業。產業和產業之間存在上下游關系,如資源產業是制造產業的上游。一個產業由多個協同分工的行業組成,如制造行業,有生產零件的行業,也有集成組裝的行業,這些行業也組成了上下游關系。行業包括經營分析、估值分析、政策、事件、典型公司和發展情況等屬性,這些屬性共同刻畫了行業的規模和發展趨勢等特征。其中企業包含了該行業所有企業,企業的屬性包括工商、新聞、專利、文書,企業之間也存在上下游、訴訟、競爭、合作等關系。

4 面向產業鏈知識圖譜構建的自然語言處理

產業鏈知識圖譜的數據源主要包括行業研究報告、上市公司公告和互聯網新聞等金融領域文本,金融領域含有大量的實體和專有名詞,為提高模型算法的通用性,實現語義遷移能力,本文提出基于領域語言模型的知識分類、抽取和融合算法。

4.1 領域語言模型

傳統語言模型是單向的,這使得在模型的預訓練中可以使用的架構類型很有限,制約了預訓練表示的能力。BERT(bidirectional encoder representation from transformers)模型[37]采用Transformer編碼器作為模型的主體結構,完全基于多頭注意力機制(Multi-Head Attention)實現語言建模。Self-Attention的Q(query)、K(key)和V(value)三個矩陣均來自同一輸入,先計算Q與K之間的乘積,再除以尺度標度dk;其中dk為一個query和key向量的維度,利用Softmax操作將其結果歸一化為概率分布,再乘以矩陣V就得到權重求和的表示。Multi-Head將一個詞的向量切分成h個維度分別計算自注意力(Self-Attention)進行拼接,各維度的注意力計算參數并不共享。這樣每一維空間都可以學到不同的特征,利用這些特征來調整每個詞的重要程度就可以獲得每個詞新的表征。

谷歌的中文BERT Base語言模型是基于中文維基百科語料進行訓練的,金融領域文本語言表現出了與維基百科不一樣的特點,如大量使用短句、短句零指代或指代歧義等現象較為嚴重。此外證券領域的要素描述一般由時間、主體和具體值組成,與維基百科也存在一定區別。為了有效地對金融領域語言特征進行建模,有必要訓練金融領域語言模型。

本文在中文維基百科語料的基礎上增加了金融領域語料,包含公告、研究報告以及領域新聞,訓練了證券領域語言模型,將語言模型封裝成服務,為下游的分類、實體和關系的識別以及融合等多種任務提供支持,在給定的證券領域語料上,較使用谷歌BERT Base,本文方法的性能有一定提升。表1是在證券領域文本上分別使用BERT Base和本文的預訓練領域語言模型在分類和實體識別任務上的性能對比。

表1 使用BERT Base和領域語言模型在分類與實體識別任務上的性能對比

4.2 文本分類

行業研究報告等文本大多具有篇章結構,每個篇章包含多個章節和段落,描述多個主題,如果不加區分地進行知識抽取,會對抽取模型形成較大挑戰。因此,在進行知識抽取前,應該進行要素文本分類,然后根據不同類別進行抽取,提升抽取性能。

傳統文本分類的特征工程工作量較大,利用BERT預訓練語言模型微調做分類任務,能夠減少特征工程的復雜性。將分類文本分割成字列表或詞列表,在列表首尾加上對應的符號[CLS]和[SEP],獲得字列表在詞匯表對應的ID,進而可以獲取對應的字向量表示;同理,可獲得字對應的句子向量表示和位置向量表示。將字向量表示、句子向量表示、位置向量表示對應元素相加作為輸入,經過BERT深層神經網絡后,再使用Softmax或Sigmoid進行分類,最終輸出向量的維度為分類數,向量中的每個元素代表每個下標對應類別的概率值,選概率值最大的下標對應的類別作為最終的分類結果。

4.3 知識抽取

產業鏈相關文本中除了大量行業名稱實體和企業名稱實體,還包含了事件、行業規模和上下游等復雜的實體關系集合,這些實體關系不是簡單的上下連接,而是需要根據上下文進行復雜的邏輯判斷,一個實體可能會跟多個其他實體產生聯系。例如,“我國商用清潔市場從2009年以來經歷了爆發式增長,從2009年的166.2億元猛增長到2010年的600億元,從2010年的600億元增長到2012年的近885.6元”,該句中蘊含著<‘我國’,‘商用清潔’,‘2009’,‘166.2億元’><‘我國’,‘商用清潔’,‘2010’,‘600億元’>以及<‘我國’,‘商用清潔’,‘2012’,‘885.6億元’>三個四元組,其中“我國”以及“商用清潔”與4個時間實體都有關系,每個時間實體又與金額實體一一對應。

針對行業規模抽取場景,我們優先選擇了聯合模型去處理,借鑒Multi-Head Selection方法,考慮到金融業務領域詞語的專業性以及預訓練語言模型的優勢,本文設計了基于BERT和領域知識的多頭選擇算法,進行領域實體關系聯合抽取,如圖4所示。模型包括以下結構:Pre-training層、Fine-tuning層、NER層和Relation層。下文將對輸入到輸出所涉及的結構進行一一解析。

圖4 基于BERT的Multi-Head Selection實體關系聯合抽取模型

Pre-training層和Fine-tuning層:使用上述領域語言模型,獲取輸入文本的token向量表示,把token的向量表示輸入BERT模型進行調優。

NER層:對微調層token輸出計算NER每個標簽的得分,對預測標簽序列線性鏈CRF得分進行優化,使得預測的標簽序列正確概率最大,

Relation層:初始化實體標簽向量矩陣,獲取每個token預測標簽所對應的向量,把輸入tokeni的上下文表示以及實體標簽向量拼接后組成的zi,與其他詞tokeni的zi單獨計算所有關系類別k的得分,確定它的最可能的頭實體以及關系。實體標簽向量在模型訓練過程中進行學習和更新。

針對實體和關系,每個詞語的模型輸出有兩部分:實體標簽和關系元組集合。以上文中的句子為例,實體標簽采用BIO形式,“商用清潔”屬于行業,其標簽為“商用/B-industry清潔/I-industry”,頭實體以及關系的元組集合采用關系標簽+關系位置的形式,例如,“商用清潔”的市場規模數據分別對應“166.2億元”“600億”和“885.6億”,其關系標注為{['rela','rela','rela','rela'],[22,29,35,42]}。為了消除實體冗余關系,在多個實體中最后一個詞才能作為另一個實體的頭部,比如,上述關系中,并不是所有實體連在一起,我們只連接“清潔”和“元”。如果不存在關系,那么標簽為N。標注情況如圖5所示。

圖5 實體關系聯合標注

4.4 知識融合

在金融文本中,由于缺乏統一標準,以及人們對于產業認識的差異,同一產業、行業和產品存在較多不同的說法,對知識圖譜的構建造成了一定的困難。如何識別同一產業、行業和產品的同義表達并融合,是屬于知識圖譜中的知識融合任務。本文把行業識別和融合轉換為行業同義詞的識別和計算。

為了解決未登錄詞問題,我們提出了結合字節對編碼(byte pair encoding,BPE)[38]和領域語言模型的方法進行同義詞識別,以下簡稱為BPE-BERT模型。BPE是一種簡單的數據壓縮技術,它迭代地將序列中最頻繁的字符對合并為字符序列或者合并為詞,其訓練過程不需要監督。這種方法能夠很好地解決字典和分詞的局限性問題,還能夠融入語境知識。BPE-BERT混合識別模型由BPE和BERT語言模型兩部分構成。通過BPE對文本進行分詞后,將詞匯輸入預訓練好的BERT語言模型,得到其表示向量,最終使用斯皮爾曼秩相關系數(Spearman's rank correlation coefficient)[39]計算詞匯之間的相似度。

5 實驗與結果

5.1 實驗過程

5.1.1 文本預處理

本文選擇2018年和2019年的研究報告共83549篇,應用基于篇章的金融文本分析方法進行處理,抽取目錄、段落和表格,過濾段落中一些不需要的信息,如目錄、頁眉等,并使用SimHash去重,最終獲得2840666個段落。

金融文本中,行業名稱大多是名詞,在上下文語境中,一般作為主語、并列主語或賓語成分,其前后存在一些助詞。為提升準確率,需要把這些停用詞用空格替換,如“和”“的”等,并將所有數字置0處理,這樣做可以減少不同數字對語義產生的影響。語料預處理后共2.2 G。

5.1.2 要素文本分類

按照產業鏈本體中對產業鏈要素的制定,產業鏈要素主要包括:定義(1)、描述(2)、政策(3)、事件(4)、行業規模(5)、歷史與趨勢(6)、競爭格局(7);通過人工進行分類語料標注,每個類別10000條;有些文本不屬于上述7類,所以我們增加了10000條負樣本,并設置為第0類。隨機按照8∶1∶1將這份數據劃分為訓練集、開發集和測試集。利用以上語料進行微調和訓練,在驗證集上的評估結果如表2所示。

表2 要素文本分類模型性能

5.1.3 典型公司識別

本文把行業典型公司識別轉化為公司簡介與行業的多分類任務進行解決。先將上市公司和三板掛牌企業通過主營業務和行業分類進行映射,共1.5萬余條語料;再基于這些種子語料,通過文本相似度計算對種子語料進行擴展,共獲得10萬條語料。

基于第4.2節文本分類算法對行業多分類問題進行建模,考慮到行業數量較多,以及10萬條語料的分布不均衡,針對沒有語料或語料較少的行業,除了增加新的語料外,還通過子句的隨機組合生成新的句子進行增強。另外,使用下采樣和修正類別權重對模型進行優化,通過訓練和測試,把多分類中置信度高于75%的類別作為最終公司所屬行業,置信度參數可以在迭代和優化中進行修正,以最大限度提高分類準確率。隨機按照8∶1∶1將這份數據劃分為訓練集、開發集和測試集。在測試集上的評估結果如表3所示。

表3 典型公司識別分類模型性能

5.1.4 行業上下游識別

行業上下游一般包含在金融文本對于行業的解釋性語句里。上下游識別主要是從金融文本中識別行業名稱并判斷行業名稱之間的上下游關系,例如,“醫藥CMO的上游行業為精細化工行業,其提供的基礎化學原料經過分類加工后可形成專用醫藥原料”中明確指出,精細化工是醫藥CMO行業的上游,而“芯片是生產手機的原材料”則通過說明芯片是手機的原材料,來說明芯片行業是手機行業的原材料。根據文本特點,本文把上下游關系分為四類,分別是上游、下游、包含和unknown;其中,包含關系屬于同一行業的細分領域,unknown則指兩個行業沒有上下游或包含關系。本文使用第4.3節中的實體和關系聯合抽取模型完成行業上下游識別任務,并與性能較好的方法進行對比。通過制定規則和人工校正,總共積累了近2萬條語料,對語料進行均衡,對比情況如表4所示。

表4 行業上下游模型性能對比

從表4來看,聯合抽取模型性能較其他模型更好,F1值達到了0.812。表5給出了在聯合抽取模型下,行業上下游實體和關系識別的精準率、召回率和F1值。由表5可見,行業名稱識別的召回率為74.2%,觀察來看,行業上下游在文本中的重復率較高,相同行業的上下游描述語句多次出現在不同的研究報告中。因此,本文模型可以犧牲召回率進而提升精準率,保證大部分上下游文本中的實體能夠被準確識別。

表5 行業上下游實體及關系識別模型性能

5.1.5 行業要素結構化

行業要素結構化的典型應用是行業規模的識別,行業規模的描述包含了較多信息,主要包括細分產品的占比、龍頭公司的占比以及行業規模的歷史和未來研判,是分析判斷一個行業成熟度和潛力的關鍵數據。如何自動化地從行業研究報告中提取出細分行業所對應的市場規模信息,關鍵在于從非結構化文本中挖掘行業實體及其對應的規模。本文使用第4.3節中的實體和關系聯合抽取模型對行業要素進行結構化,性能超過其他方法的聯合抽取模型。實驗效果如表6所示。

表6 行業要素結構化模型性能對比

表7給出了在聯合抽取模型下,行業規模實體和關系識別的精準率、召回率和F1值。與行業上下游識別不一樣,上下游中實體類別單一,都是行業名稱,而行業規模實體較多,主要包括金額、數量、行業、地點、時間等7種實體,而關系較上下游少,只有二分類。從性能上來看,行業規模中的行業名稱識別的整體性能較上下游中的行業名稱識別更高,其主要原因在于,行業規模語句中包含的行業名稱實體較少,密度較低,有較多的上下文語義特征可以區分;而行業上下游的實體密度過高,且句子較短,語義特征較少。

表7 行業規模實體及關系識別模型性能

我們對71528條行業規模文本進行了行業要素結構化處理,共獲得了33118條完整的行業規模機構化數據。表8展示的是從文本中抽取的糖尿病診療產業中的GLP-1受體激動劑利拉魯肽的行業規模。產業鏈本體中的融資事件要素和行業規模較為類似,也可以通過這種方法進行抽取,不再贅述。

表8 利拉魯肽行業規模抽取示例

5.1.6 行業同義詞融合

在本文業務場景中,有些行業關鍵詞是兩個詞的組合,使用中文分詞對其進行分詞,容易導致切分粒度過小,如“地球同步軌道衛星”是一個完整的行業名稱,很容易分成“地球/同步/軌道/衛星”,從而降低了整個系統的可用性。在解決實體名稱融合前,首先要能夠有效地識別行業關鍵詞,使用BPE方法能夠有效解決這個問題。基于BERT語言模型,對分詞結果和領域關鍵詞進行相似度比較,能夠較好地識別同義詞,詳情如表9所示。“賴脯胰島素”是重組人胰島素類似物,系統準確地識別了“賴谷胰島素”“預混賴脯胰島素”“德谷胰島素”“門冬胰島素”等重組人胰島素類似物。

表9 同義詞識別樣例

5.2 案例分析

在本體庫的基礎上,通過文本分類、知識抽取和融合,產業鏈知識圖譜的構建已經完成,產業鏈上中下游、行業文本分類、要素結構化、行業同義詞融合以及典型公司等各個產業鏈要素均實現了較高程度的自動化。目前,產業鏈研究系統已完成重點行業產業鏈78個,覆蓋各級細分行業超過7600個。

5.2.1 產業鏈查詢

產業鏈知識圖譜基于圖數據庫,能夠解決報告式產業鏈無法關聯和檢索的問題。系統提供產業鏈關鍵字、行業關鍵字、企業關鍵字等多種檢索方式對產業、行業和企業進行檢索,用戶可以選擇產業鏈知識圖譜系統進行查看,還可以對圖譜中某個具體的行業進行下鉆分析,瀏覽該行業的要素數據,包括典型公司、行業規模、競爭格局、發展歷史與趨勢、行業壁壘等要素數據;進一步地,可以查看該行業上市公司情況,分析該行業的成熟度。圖6展示了糖尿病診療產業的概況。根據系統展示,糖尿病診療產業鏈上游行業包括原料藥、制藥裝備和醫藥研發制造外包等,中游為西藥降糖藥、胰島素、新靶點藥物、血糖監測系統等,下游為醫療服務,包括藥品推廣、流通和銷售。

圖6 糖尿病診療產業鏈圖譜部分示例

5.2.2 投融資

產業鏈知識圖譜把產業鏈要素、行業規模和典型公司等都集成在圖譜里,方便用戶分析計算,應用在投資領域,可以輔助篩選賽道和投資標的,解決傳統研究報告不能關聯分析的問題。從圖7的利拉魯肽行業規模數據可以看到,利拉魯肽在全球的銷售額以14.9%的年復合增長率上升,受制于國內生產技術能力,整個GLP-1受體激動劑在我國2017年的銷售規模僅為0.5億美元左右,預計未來全球銷售規模將超過100億美元,這意味著其應用潛力巨大。我們查看GLP-1受體激動劑或利拉魯肽行業的典型公司,能夠發現有一家生物科技公司在多肽類藥物生產上積累了較多的核心專利,具備一定的藥物研究和生產能力,是潛在的投資標的。可以將該公司與同行業中的典型公司進行對比,如知識產權、司法文書、輿情數據、股東和高管;進一步地,如果掌握了該公司的財務數據,還可以將該公司置于上市公司群體中,分析該公司與上市公司在經營和估值方面的排位情況。

圖7 產業鏈知識圖譜中以利拉魯肽為例的行業要素可視化展示

5.2.3 證券監管

證券監管領域的應用中,上市發行審核是重要場景。基于產業鏈知識圖譜細分行業和典型公司,可以從擬上市公司的關聯關系、行業規模、業務前景、競爭趨勢和可比公司等多個角度與招股說明書的內容進行對比分析,挖掘擬上市公司風險。如表10所示,某擬上市公司招股說明書中披露的毛利率為45%,與其披露的同行業可比公司平均毛利率39%相比稍高,但與產業鏈知識圖譜中典型公司的平均毛利率31%相比,高出了50%,需要說明其合理性;且有一個重要的可比公司“碧水源”沒有出現在招股說明書中,因此,可比公司的完整性不足。上述通過產業鏈知識圖譜發現的問題在后續公開的問詢函中得到了印證。這樣,通過產業鏈知識圖譜中產業要素數據的對比,能夠驗證招股書中相關的內容,輔助審核人員進行問詢。類似地,針對上市公司持續監管,可以從上市公司的關聯關系、主營業務等多個角度與上市公司年報和并購重組公告進行對比分析;通過產業鏈和區域優勢的分析,能夠為區域經濟整合和發展提供情報數據。

表10 基于細分行業和典型公司輔助上市發行審核示例

6 總 結

本文從產業鏈在現代經濟活動中的應用角度出發,對產業鏈知識圖譜的構建方法進行了研究,創新性提出了產業鏈知識本體,基于領域語言模型,實現知識分類、抽取、融合等知識圖譜構建模型和流程,能夠有效解決金融領域復雜文本的處理,成功地構建了產業鏈知識圖譜。針對投融資、證券監管和產業規劃等重要應用場景,結合場景需求和知識圖譜功能進行應用示例分析,證明本文提出的構建方法和系統有較好的可用性和有效性。

關于產業鏈知識圖譜,目前仍存在一些有待深入研究的問題:①從整個構建流程來看,本體構建的專家工作量較大,遇到新的產業和新的行業,仍然需要人工干預,如何讓機器學習人工本體構建的模式并遷移到其他產業和行業的本體構建上是下一步值得研究的工作;②雖然領域語言模型能夠有效區分細分行業的差異,但仍然需要人工進行修正,如何識別細分行業中字、詞、句子、段落等多層次的差異,應該是解決這個問題的關鍵;③如何將企業圖譜融入進來,甚至包括二級市場的實體、關系和事件,將是個更具有挑戰性的課題。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美精品另类| 热九九精品| 午夜三级在线| 亚洲国产中文精品va在线播放| 夜精品a一区二区三区| 亚洲综合色婷婷中文字幕| 色噜噜狠狠色综合网图区| 最新国产麻豆aⅴ精品无| 色哟哟国产精品| 亚洲va视频| 国产av色站网站| 国产亚洲欧美日本一二三本道| 青草视频在线观看国产| 欧洲日本亚洲中文字幕| 美女潮喷出白浆在线观看视频| 国产亚洲精品在天天在线麻豆| 无码免费的亚洲视频| 自拍欧美亚洲| 72种姿势欧美久久久久大黄蕉| 亚洲欧美日韩另类在线一| 亚洲国内精品自在自线官| 欧美日韩亚洲国产主播第一区| 色综合久久综合网| 日韩欧美视频第一区在线观看| 四虎精品黑人视频| 四虎影视库国产精品一区| 国产乱人乱偷精品视频a人人澡| 亚洲中文字幕23页在线| 久久成人免费| 国产永久无码观看在线| 99激情网| 欧美成人看片一区二区三区 | 亚洲天堂777| 久久综合结合久久狠狠狠97色| 夜夜操国产| 亚洲国产精品日韩av专区| 国产成人无码AV在线播放动漫| 亚洲性色永久网址| 国产精品久久自在自2021| 一本一道波多野结衣一区二区 | 免费av一区二区三区在线| 国产麻豆福利av在线播放| 中文字幕第4页| 色网站在线视频| 亚洲va欧美ⅴa国产va影院| 成人午夜免费观看| 69国产精品视频免费| 欧美视频在线播放观看免费福利资源| 成人国产一区二区三区| 天天干天天色综合网| 国产视频大全| 四虎精品黑人视频| 国产乱子伦视频在线播放| 999精品免费视频| 亚洲人成影院在线观看| 国产精品第一区在线观看| 成人小视频在线观看免费| 欧美激情福利| 波多野结衣视频一区二区| 91亚洲影院| 在线无码私拍| 国产女人综合久久精品视| 久久精品人妻中文系列| 51国产偷自视频区视频手机观看| lhav亚洲精品| 国产亚洲欧美在线中文bt天堂| 免费可以看的无遮挡av无码| 日韩AV无码免费一二三区| 久久99久久无码毛片一区二区| 99偷拍视频精品一区二区| 中文字幕亚洲无线码一区女同| 国产精品浪潮Av| 日韩人妻无码制服丝袜视频| 内射人妻无套中出无码| 午夜精品国产自在| 久久国产精品电影| 国产你懂得| 国产91全国探花系列在线播放| 精品福利视频网| 国产成人综合网| 在线不卡免费视频| 国产香蕉在线视频|