999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于企業知識圖譜的多源數據融合分析

2020-07-09 21:26:25楊椋柯楓劉新明信希濤
現代信息科技 2020年23期

楊椋 柯楓 劉新明 信希濤

摘 ?要:面向企業知識圖譜的構建與分析,通過獲取企業信息、企業高管信息、企業新聞資訊信息等,自動構建企業—高管—資訊知識圖譜。在構建過程中,對實體的正確引用是推導、分析、構建知識庫的基礎和保障。構建過程中出現的部分實體重名的問題,對應于實體指稱項的歧義性,會造成圖譜中部分節點重合、鏈接錯誤,進而對整體知識庫的構建產生負影響。為此,提出一種基于隨機游走的方法解決知識圖譜中的實體消歧問題,取得很好的消歧效果。

關鍵詞:知識圖譜;實體消歧;隨機游走;文本向量

中圖分類號:TP391 ? ? 文獻標識碼:A 文章編號:2096-4706(2020)23-0100-03

Multi-source Data Fusion Analysis Based on Enterprise Knowledge Map

YANG Liang,KE Feng,LIU Xinming,XIN Xitao

(Institute of Network Technology,ICT(YANTAI),Yantai ?264003,China)

Abstract:For the construction and analysis of enterprise knowledge map,the enterprise-enterprise executives-information knowledge map is automatically constructed through acquiring enterprise information,enterprise executive information and enterprises news information. In the construction process,the correct reference to the entity is the basis and guarantee of derivation,analysis and construction of knowledge base. The problem of duplicate name of some entities appeared in the construction process,which corresponds to the ambiguity of entity references,will cause some nodes overlap and link errors in the map,and thus has negative effects on the construction of the whole knowledge base. To this end,a method based on random walk is proposed to solve the problem of entity disambiguation in knowledge map,and get better disambiguation effect.

Keywords:knowledge map;entity disambiguation;random walk;text vector

0 ?引 ?言

互聯網時代,人類在與自然和社會的交互過程中會產生龐雜的數據。然而,互聯網中大量的信息在計算機中的存儲和傳播形式是計算機不擅長的非結構化形式。圖能夠有效表示數據和數據之間結構的表達形式,數據的結構化與已有的結構化數據相互關聯,就構成了知識圖譜。本單位以產業信息作為支撐,構建產業知識圖譜,形成一個網絡關系圖,直觀立體展現企業關聯,衡量企業內部各要素之間關系的密切度,進一步應用于產業地圖與技術撮合。產業知識圖譜的構建首先需要實現多源數據融合。

知識獲取是從文本數據中通過信息抽取實現的,是構建知識圖譜的核心技術。對非結構化數據的抽取又包括實體識別、實體消歧、關系抽取和事件抽取,如圖1所示。其中,實體消歧對于知識圖譜構建和應用有著非常重要的作用,也是建立語言表達和知識圖譜聯系的關鍵環節。

實體消歧可以通過向量空間模型的方法將實體表示成特征向量,獲取不同實體之間的相似性。但如何準確獲取實體的特征向量,各種不同方式均有其優缺點且沒有最優解決方法,此外,針對本項目中的企業及高管數據能夠提取的特征向量更少。

1 ?歧義網絡構建

在企查查、東方財富網、新聞庫等平臺獲取企業、高管、資訊等信息,根據資訊中提取的企業名稱建立企業與新聞中其他實體間的聯系,如果新聞中的企業沒有重名的高管,則根據企業高管信息建立企業與高管實體的聯系,完成初步消歧。

2 ?問題的定義

實體的集合H={h1,…,hk},其中hk表示的實體可以是能夠觀察到的顯示實體,也可以是不能被觀察到的潛在實體。名稱是對實體的引用,實體和名稱之間通過源進行連接。源的集合S={s1,s2,…,sk},其中每個源sk都包含一個名稱的集合Ni。在S當中所包含的所有名稱的集合為E={e1,e2,…,en}=N1∪N2∪…∪Nm。一個名稱在整體中可能指向多個實體,但該名稱在一個源中的實例只能指向一個實體。如果有k個不同的實體擁有同一個名稱,則表示該名稱是k歧義的,如圖2所示。

3 ?解決方法

3.1 ?相對熵隨機游走相似性度量模型

獲取不同實體之間的相似性可參考基于隨機游走的節點相似性度量方法。即在通過構建的企業高管社會歧義網絡對每個名稱進行消歧時,單獨對該名稱構建一個社會網絡,通過隨機游走模型計算名稱間的相似性。

隨機游走過程中,節點的度越大被訪問的概率越高,針對隨機游走過程中存在的這個問題,使用基于相對熵的隨機游走相似性度量模型[2]RE-model,利用隨機游走策略中節點的局部特征進行相似性度量,可以降低對度較大節點的依賴性,這樣節點與節點間的結構相似性可以更好地量化。首先通過局部隨機游走算法計算得出轉移概率矩陣,然后將矩陣進行轉置并進行歸一化,構造出在t步后每一個節點vi到達任一節點的概率分布pt(vi):

pt(vi)=[pt(vi,v1),pt(vi,v2),…,pt(vi,vn)] ?(1)

其中,n為網絡中節點數,pt(vi,vj)=,v為網絡中節點的集合,pvi,vj(t)為節點vi經過t步隨機游走到達vj的概率按照網絡度中心性的降序排序選擇r個節點,計算經過k步游走后每一個節點到達這r個中心節點的轉移概率分布。根據轉移概率矩陣M,計算在t時刻節點vi隨機游走到中心節點集合D={v1′,v2′,…,vr′}中任一節點的轉移概率,形成r維向量,通過歸一化得到r維轉移概率分布:

pt(vi)=[pt(vi,v1′),pt(vi,v2′),…,pt(vi,vr′)]

其中,pt(vi,vj′)=,根據隨機游走策略得到的節點的轉移概率計算相對熵,使用相對熵量化節點間的結構差異。定義pt(vi)對pt(vj)的相對熵為:

DKL(pt(vi)∥pt(vj))= (2)

規定當x=0或y=0時,。由于相對熵是非對稱度量,定義網絡的差異矩陣W=(wij)n×n為:

wij=DKL(pt(vi)∥pt(vj))+DKL(pt(vj)∥pt(vi)) (3)

最后,將差異矩陣轉為相似性矩陣SRE-model=(sij)n×n,矩陣項定義為:

(4)

其中,wmax為差異矩陣W中的最大值。并給出算法框架:

輸入:網絡G=(V,E),隨機游走部署t,按度中心性所獲得的概率分布維度r。其中V={v1,v2,…,vn}

輸出:網絡的相似性矩陣SRE-model

步驟1,使用隨機游走算法,計算在t時刻節點的轉移概率矩陣W;

步驟2,按照節點度中心性選擇r個中心節點,根據式(1)計算每個節點的r維概率分布;

步驟3,對1≤i,j≤n,根據相對熵(式(2)和式(3))計算每對節點的wij以構造圖G的差異矩陣W,并找到W中的最大值;

步驟4,對1≤i,j≤n,根據式(4)計算每對節點的Sij以構造圖G的相似矩陣。

3.2 ?聚類分析

3.2.1 ?凝聚式層次聚類

由于高管姓名會分為多少個無法預測,因此使用層次聚類來完成高管姓名的消歧。將每個高管姓名看作一個小聚簇,然后不斷地對簇進行合并,直到所有聚簇都合并成一個或者所有分組的相似性小于預定義的閾值為止。

3.2.2 ?聚類終止條件控制

可以通過設置最后的分組個數或者所有分組的相似性最小閾值來控制聚類過程的終止,但如何設置這兩個值,需要根據數據類型及數據規模等多個數據屬性進行設置,這需要豐富的經驗。針對這一問題,設定了多個遞減的簇內相似度值,來控制聚類的終止。并獲取層次聚類結果的F評價值、詳細聚類結果記錄簇內對象的相似度平均值等。隨著層數的增加,平均相似度值逐層衰減。衰減策略包括最大值、最小值和平均值衰減,以及它們之間的融合衰減方法。

通過對比各類衰減方式獲取的聚類結果評價,得出結論使用三種衰減方式相融合的衰減方式RAll能得到最優的聚類結果。在此基礎上,選取了4個候選的衰減度閾值,分別在這4個閾值的基礎上得出聚類的評測結果,最終得出在衰減度閾值設為0.5時能夠得到最優的結果。

4 ?實驗與分析

4.1 ?實驗設置

使用資訊數據來源于權威網站,如和訊網、東方財富網、新聞庫等,選取相關資訊數據共5萬條,取其中300家企業約4萬條資訊集作為實驗訓練數據,100家企業約1萬條資訊用作評價使用。對資訊數據進行實體抽取,構建知識網絡平均度32,抽取實驗數據如表3所示。

4.2 ?評價標準

評價指標有:精準率(Precision)、召回率(Recall)和F1-Score,F1-Score計算公式為:

F1-Score= ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)

其中,P是精準率,R是召回率。

4.3 ?實驗過程

使用訓練集數據,通過設定最大游走步數t獲取不同的相似性結果。第一輪設定t∈(5,10,20,30,40,50,60,70),將結果與實際標準數據庫進行比較,當t=30時,結果更準確。第二輪設定t∈(25,26,27,28,29,30,31,32,33,34,35),通過比較驗證,當t=30時效果最佳,與真實數據對比精準率較高,F1-Score最高。

接下來,使用相對熵隨機游走模型進行實驗,其精準率、召回率隨相似性閾值變化的實驗結果如圖3所示。通過不斷變化相似性閾值觀察變化情況,結合試驗數據和圖表變化趨勢,相對熵隨機游走方式在相似度閾值為0.82時,F1-Score最高,達到82.5%。

4.4 ?實驗結果與分析

將隨機游走步數設為30,相對熵隨機游走相似度閾值設為0.82后,對測試集數據進行處理,跟標準數據進行比對結果如表4所示。

5 ?結 ?論

本文通過相對熵隨機游走模型獲取真實數據的相似性,根據凝聚式層次聚類算法對其進行分組。通過與標準庫進行比對分析,發現通過相對熵隨機游走獲取相似性,再通過凝聚式層次聚類進行分組消歧,能夠得到較理想的效果。

抽取資訊中的實體時,語料庫會直接影響實體抽取的質量,進而會影響歧義網絡的構建以及后續數據的消歧。所以,后期將深入研究如何提高實體的抽取質量,并將現有算法遷移至大數據處理平臺,提高準確度。

參考文獻:

[1] 姜麗麗.實體搜索與實體解析方法研究 [D].蘭州:蘭州大學,2012.

[2] 鄭文萍,劉韶倩,穆俊芳.一種基于相對熵的隨機游走相似性度量模型 [J].南京大學學報(自然科學),2019,55(6):984-999.

[3] ZHU X Y,YANG X M,YING C Z,et al. A New Classification Algorithm Recommendation Method Based on Link Prediction [J].Knowledge-Based Systems,2018,159:171-185.

[4] HASHMI A,ZAIDI F,SALLABERRY A,et al. Are All Social Networks Structurally Similar? [C]//2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.Istanbul:IEEE,2012:310-314.

[5] HE Z,LIU S,MU L,et al. Learning Entity Representation for Entity Disambiguation [C]//NLP-NABD 2015:Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Guangzhou:Springer Nature,2013:267-278.

作者簡介:楊椋(1989—),男,漢族,山東煙臺人,信息系統項目管理師高級職稱,本科,研究方向:大數據自然語言領域。

主站蜘蛛池模板: av天堂最新版在线| 国产永久无码观看在线| 国产精品久久久免费视频| 亚洲大学生视频在线播放| 成年A级毛片| 中文字幕有乳无码| 青青国产在线| 久久夜夜视频| 韩国v欧美v亚洲v日本v| 日韩在线视频网| 欧美性精品| 97视频免费在线观看| 欧美日韩一区二区在线播放 | 2021最新国产精品网站| 欧美翘臀一区二区三区| 老司国产精品视频91| 91人妻日韩人妻无码专区精品| 亚洲欧洲日产国产无码AV| 国产麻豆另类AV| 国产精品99一区不卡| 成人在线第一页| 色综合中文| 99成人在线观看| аⅴ资源中文在线天堂| 青青草原国产一区二区| 免费激情网址| 欧美a在线视频| 亚欧美国产综合| 人妻一区二区三区无码精品一区| 亚洲综合二区| 国产欧美中文字幕| 欧美色香蕉| 在线观看欧美国产| vvvv98国产成人综合青青| 精品视频一区在线观看| 欧美日韩精品一区二区在线线| 美女视频黄频a免费高清不卡| 九色91在线视频| 99热这里只有精品国产99| 亚洲最大福利视频网| 青青操视频免费观看| 久久综合结合久久狠狠狠97色| 4虎影视国产在线观看精品| 麻豆精品在线视频| 日韩人妻精品一区| 在线欧美一区| 亚洲精品第一在线观看视频| 欧美日韩国产一级| 51国产偷自视频区视频手机观看| 一区二区理伦视频| 狠狠做深爱婷婷综合一区| 亚洲久悠悠色悠在线播放| 91精品国产一区自在线拍| 老司机午夜精品视频你懂的| 国产精品一区不卡| 久久这里只精品热免费99| 一个色综合久久| 亚洲精品综合一二三区在线| 亚洲欧美不卡中文字幕| 免费av一区二区三区在线| 国产99久久亚洲综合精品西瓜tv| 亚洲精品日产精品乱码不卡| 免费一级毛片| 在线播放国产一区| 亚洲大尺度在线| 亚洲男人的天堂久久精品| 色婷婷在线播放| 人妻无码中文字幕一区二区三区| 五月天福利视频| 免费a在线观看播放| 永久在线精品免费视频观看| 日韩精品无码免费一区二区三区 | 国产免费精彩视频| 丝袜高跟美脚国产1区| 99热最新网址| 国产综合无码一区二区色蜜蜜| 在线中文字幕网| 一级毛片免费不卡在线| 国产日韩欧美精品区性色| 日韩精品亚洲一区中文字幕| 成人另类稀缺在线观看| 中日韩欧亚无码视频|