999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源異構數據情境中企業知識圖譜模型構建研究

2020-11-18 14:37:48李學良李勁華
福建質量管理 2020年20期
關鍵詞:方法企業

李 雪 李學良 李勁華

(青島大學數據科學與軟件工程學院 山東 青島 266071)

20世紀以來,大數據和互聯網技術持續發展,各金融機構以及各大互聯網平臺產生了大量的與金融相關的數據,這些數據中蘊含了大量的實體信息以及實體之間的關系信息,為構建知識圖譜奠定了基礎。經過處理和分析的金融大數據,不僅可以實現企業的精準營銷,風控,還可以幫助企業預測風險。因此,如何深入挖掘并利用金融大數據成為當前人們關注的熱點。網絡上的數據具有數量大,結構多樣,以及動態更新等特點,為了使萬維網成為人和機器都可理解的網絡資源,就需要一個具有開放互聯和強大語義理解和的知識庫工具,知識圖譜應運而生。

2012年,谷歌公司率先提出知識圖譜的概念,并成功將其應用于搜索領域,增強用戶的搜索質量和體驗。其實Berners-Lee于2006年就提出了相似的語義鏈接的概念,建議優化本體模型來形式化表達數據中的隱含意義。通用型知識圖譜的數據來源廣,而且語義表示上的泛化性會影響預測的準確度,因此不適用于專業領域的知識推理,尤其是要求高的金融領域,所以構建領域知識圖譜對于金融方面是很有必要的。另外雖然現在市面上有大量的知識圖譜,但是金融領域的知識圖譜還比較匱乏,而且一般只關注于知識圖譜的某一方面,具有一定局限性。

綜上,本文以金融數據為數據源,從數據獲取,本體構建,知識抽取、融合及推理等問題入手,提出企業知識圖譜構建的理論模型,詳細描述了圖譜的構建流程,推動金融領域的數據挖掘與應用。

一、知識圖譜概述

(一)知識圖譜定義

知識圖譜旨在用圖的形式表示現實世界中實體及實體之間的關系,實體或概念以節點表示,屬性或者關系以邊表示。目前知識圖譜的知識表示采取的是三元組表示法,三元組表示法形式為“實體a,實體關系,實體b”、“實體,實體屬性,屬性值”,通過關系聯結實體,形成網狀的知識庫。知識圖譜的應用價值在于通過知識推理實現概念檢索,改變了信息檢索的方式,更貼近客戶需求,且結果可以以圖形化的方式向用戶展示,更加高效,大大提高了檢索的速度。表1給出了當前主流的知識圖譜及相關應用。

表1 知識圖譜及其相關產品

(二)知識圖譜架構

知識圖譜的架構包括兩部分,分別是本身邏輯架構和知識圖譜構建所使用的體系架構。在邏輯架構上看,知識圖譜又包括兩部分,分別是模式層和數據層。眾多事實所在的層是數據層,它們以三元組的形式存儲在圖數據庫中。知識圖譜的管理層是構建在事實數據層之上的模式層,它制定了數據層應該遵守的制度和規則。而知識圖譜的模式層通常采用本體庫來管理,能很好的規范管理實體、關系及屬性。通過本體庫形成的知識庫層次性強,知識規范冗余小。知識圖譜架構如圖1所示。

圖1 知識圖譜架構

二、企業知識圖譜數據源

(一)企業數據分類

企業知識圖譜旨對金融領域的數據所涉及到的事實進行統一的提取和表示。常見的金融數據有規范的政府提供的數據,也有不規范的百度百科詞條。根據數據的表現形式,結構化數據包括政府相關部門提供的MySQL數據庫,半結構化數據和非結構化數據包括百度百科的詞條等。由于政府提供的數據已經是規范化的,所以我們的數據獲取主要是針對不規范的網頁數據的處理。

(二)數據獲取

本文基于WebMagic爬蟲框架,通過編寫正則表達式對網頁中的數據進行抽取。WebMagic框架主要由Downloader、PageProcesser、Schedule和Pipeline四部分組成。爬蟲系統的工作流程:第一步先對政府相關部門提供的數據進行解析,提取出企業的名稱,然后通過百度百科統一的API接口配置出初始URL。第二步是下載器通過初始URL下載,生成Page信息。第三步是頁面解析器對Page進行解析并獲取新的URL。第四步是調度器負責管理URL并進行去重操作。第五步是管道器對結果進行保存。數據抽取之后,將抽取到的與實體相關的詞條轉化為結構化的知識進行存儲。爬蟲框架圖如圖2所示。

圖2 爬蟲框架圖

三、企業本體構建

(一)本體的概念

本體一詞是由哲學領域引入,定義是“對世界上客觀世界的系統描述”。而在計算機科學領域,本體是某個領域知識的通用概念模型,是概念建模的規范,是客觀世界的抽象描述。目前被高度認同的本體定義1998年德國學者Studer提出的,對本體非常形象化的概念,即“本體是共享概念模型的形式化說明”,此定義給人們理解本體,研究本體提供了很大幫助。在知識圖譜中,本體處于模式層,提供了上層的數據模式,是知識圖譜至關重要組成部分。

(二)本體的構建方法

本體構建同樣也被稱為本體學習,它是為了表達領域內概念之間關系的明確定義。不同領域的本體構建的構建方法大相徑庭。骨架法,TOVE法,七步法是當前認可度較高的本體構建方法。

(1)骨架法是由USHPLD和KING在構建實體過程中總結出來的方法。骨架法分為知識分類以及本體編碼表示這兩個階段。骨架本體構建法可以分為四個步驟,首先確定本體的目標以及范圍,再進行本體構建,本體構建之后然后對本體進行評測,最后一步是文檔化。其的具體流程如圖3所示。

圖3 骨架法

(2)TOVE企業建模法源于構建企業實體過程中的總結,所以TOVE企業建模法專門用于企業的本體構建。其流程如圖4所示。

圖4 TOVE法

(3)七步法是斯坦福大學開發出來的專門用于本體構建的一種方法。顧名思義七步法分為七個步驟,它的七個步驟分別是:確定本體范圍,再確定目標;再研究現有的本體能否重復利用;羅列出重要的術語;定義類之間的層次關系;定義類的屬性以及定義類屬性之間的關系;定義屬性的約束;最后創建實例。七步法流程如圖5所示。經上述方法構建的本體模型如圖6所示。

圖5 七步法

圖6 企業本體RDF圖

四、企業風控知識圖譜模型構建

目前知識圖譜主要分為自底向上和自頂向下兩種構建方式。其中自底向上是先對數據進行歸納概括,先形成下層的概念,然后逐漸向上抽象,形成上層的概念。一般公共領域知識圖譜會用到這種構建方式,特點在于具有海量數據,這樣做出來的知識圖譜覆蓋面廣。自頂向下方式則剛好相反,它首先定義的是知識圖譜的本體。構建本體的過程中,自頂向下采取的是先從上層概念開始,再逐步向下不斷進行細節化,形成良好的層次化數據結構,在定義好本體之后,再把實體的概念添加進去。這種方式一般適合于構建領域知識圖譜。本文采用自頂向下的方式構建企業知識圖譜。

(一)知識抽取

1.實體抽取。實體抽取同樣屬于是命名實體識別。它的作用就是將文本中的實體提取出來。通常情況下,同一概念或同一事物的實體會有不同的表達,因此需要實體抽取技術來對這些不同的表達進行一種統一表示。

早期的命名實體識別方法是由語言學家來人工制定規則和詞典,然后再通過對文本進行處理匹配來實現實體抽取的方法,是基于規則和詞典的方法。例如Rau[1]等學者提出的結合人工編寫的規則與啟發式想法,該想法構建了自動抽取公司名稱的實體抽取系統。但是這種基于規則的方法,它的缺陷也很明顯,不僅需要消耗大量的人力,而且也難以適應數據的變化。隨著深度學習的發展,實體識別的研究重心轉向深度神經網絡(Deep Neural Network,DNN)。

2.實體關系抽取。文本經過上述的實體識別,得到一些實體,但是這些實體是離散的,價值不大,為了得到有價值的語義資料,還需要進一步進行實體關系的抽取,這樣才能將離散的實體整合起來起來,得到整合的語義結構。對實體關系抽取的研究可以更好地解決實體離散問題,提高準確性。

實體關系抽取方法根據實體關系是否被標注出來,以此分為了有監督、半監督、弱監督和無監督的實體關系抽取方法。有監督的實體關系抽取方法需要人為指定詞典和規則,這就要求制定者必須對該領域的各項知識了如指掌,并按時更新。這種方法的缺陷在于工作量巨大,且不能適用于其他領域。在這種背景下,另外三種關系抽取方法應運而生,用以改善有監督知識抽取的缺陷。其中Brin[2]首次使用了基于Bootstrapping 的半監督方法來抽取命名實體之間的關系,這種方法對減少工作量有幫助,但會導致特征提取誤差的傳播,影響準確性。近年來隨著深度學習應用到關系抽取中來,極大地改善了誤差積累問題。

(二)知識融合

通過知識抽取,實現了從結構化、半結構化數據中獲取實體、關系的目的,但是由于知識來源不同,導致了知識的質量參差不齊,數據之間也缺乏層次性和邏輯性,知識的數量和質量有待提高,有必要通過知識融合對其進行清理整合。知識融合主要分為三個內容:實體消歧,實體對齊和知識合并。

實體消歧是解決同名實體歧義問題的技術。在實際語言環境中,經常存在著同名異義的實體,例如“李寧”既可以指著名的體操運動員,還可以指某個運動品牌,通過實體消歧就可以加以區分。Han與Zhao[3]使用維基百科(Wikipedia)作為背景知識,借此可以更準確地衡量實體間的相似性,進而提升實體消歧的效果。實體對齊是解決同義異名問題的技術。在實際語言環境中,一個是事物對應不止一個稱呼,例如“上海”和“滬”對應的是同一個實體,在知識圖譜中也同樣存在同義異名的問題。Cheng[4]等提出了一個包括候選實體生成器、選擇器和清理器的全自動的實體對齊框架,利用使用者的查詢信息及查詢后的點擊記錄,計算出實體間的相似度,完成實體對齊。知識合并是在知識圖譜層面上進行知識融合,利用現有的知識庫來擴大知識圖譜的規模,豐富其中的知識。然而各知識庫中的知識具有多樣性和異構性,也會有重復和錯誤,需要知識合并來解決這些問題。Trisedya[5]等利用屬性元組生成屬性特征嵌入向量,計算實體的相似性。

(三)知識推理

知識推理是通過計算機推理發現知識庫中已有實體之間的新關聯,進而實現知識庫的拓展。例如Lee[6]等人借助Teminology Box和Assertion Box將基于描述邏輯的推理歸結為ABox的一致性問題,最終簡化并實現關系推理。

五、結束語

目前知識圖譜已經成為學術界的研究熱點,具有重要的理論研究價值和現實的實際應用價值。本文從企業的實際需求出發,提出融合多種數據源的知識圖譜模型,詳細闡述了知識圖譜的構建過程,首先是本體構建,然后通過命名實體識別,關系抽取等技術,從不同來源不同結構的數據中抽取出實體及關聯,最后采用圖數據庫進行存儲,構建企業知識圖譜。本文的研究對企業知識圖譜的構建具有一定的參考價值,但仍有改進的空間。下一步的研究,將從知識圖譜的更新入手,引入時間維度,構建動態知識圖譜,更有效的挖掘企業信息。

猜你喜歡
方法企業
企業
當代水產(2022年8期)2022-09-20 06:44:30
企業
當代水產(2022年6期)2022-06-29 01:11:44
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 91成人在线免费视频| a级毛片免费看| 久久香蕉国产线看观看亚洲片| 91精品国产麻豆国产自产在线| 农村乱人伦一区二区| 强乱中文字幕在线播放不卡| 成人福利免费在线观看| 欧美yw精品日本国产精品| 一级一级一片免费| 一本一道波多野结衣av黑人在线| 直接黄91麻豆网站| 国产黄色片在线看| 久久精品国产亚洲AV忘忧草18| 91精品国产一区自在线拍| 欧美日韩理论| 欧美日韩亚洲综合在线观看| 国产乱码精品一区二区三区中文 | 国产区免费| 国产精品亚洲欧美日韩久久| 亚洲欧洲AV一区二区三区| 国产真实二区一区在线亚洲| 色成人综合| 国产福利在线观看精品| 97青青青国产在线播放| 欧美精品H在线播放| 国产白浆视频| 波多野结衣在线一区二区| 亚洲国产成人综合精品2020| 国产亚洲精| 国产欧美日韩在线在线不卡视频| 亚洲色精品国产一区二区三区| 99无码中文字幕视频| 国产美女久久久久不卡| 国产手机在线ΑⅤ片无码观看| 新SSS无码手机在线观看| 熟妇丰满人妻| 99激情网| 日本AⅤ精品一区二区三区日| 国产第一福利影院| 久久综合亚洲鲁鲁九月天| 中国丰满人妻无码束缚啪啪| 一区二区午夜| 国产粉嫩粉嫩的18在线播放91| 呦女精品网站| 97在线免费| 色综合天天操| 国产精品视频猛进猛出| 国产精品妖精视频| 亚洲一级毛片免费观看| 亚洲精品无码成人片在线观看| 国产精品偷伦视频免费观看国产 | 国产成人综合在线观看| 毛片免费在线视频| 四虎成人精品| 亚洲免费播放| 欧美一道本| 1级黄色毛片| 青青草国产一区二区三区| 国产91小视频在线观看| 中文字幕在线不卡视频| 亚洲精品福利视频| 日本免费一级视频| 亚洲综合第一区| 99精品国产电影| 国产在线自揄拍揄视频网站| 波多野结衣视频网站| 呦女精品网站| 欧美日韩一区二区三区四区在线观看 | 日韩资源站| 久久99精品久久久大学生| 狠狠亚洲五月天| 国产欧美日韩视频怡春院| 污视频日本| 在线观看91精品国产剧情免费| 亚洲无码熟妇人妻AV在线| 国产区在线观看视频| 久久99国产乱子伦精品免| 色呦呦手机在线精品| 国产美女在线观看| 91麻豆国产精品91久久久| 久久人人爽人人爽人人片aV东京热| 97狠狠操|