999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EA-LDA 算法的領(lǐng)域知識(shí)圖譜潛在關(guān)系擴(kuò)展

2021-10-15 10:08:04白婷婷張淯舒錢茛南何旭莉席永軻
計(jì)算機(jī)工程 2021年10期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則

劉 昕,白婷婷,張淯舒,錢茛南,何旭莉,席永軻

(1.中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580;2.中國電子科技集團(tuán)公司信息科學(xué)研究院,北京 100086)

0 概述

隨著人工智能[1]和大數(shù)據(jù)技術(shù)[2]的發(fā)展,知識(shí)圖譜[3-4]的構(gòu)建成為當(dāng)今的研究熱點(diǎn)之一。知識(shí)圖譜可以高效地組織結(jié)構(gòu)化的知識(shí),通過對(duì)知識(shí)圖譜的檢索[5],不但能夠快速準(zhǔn)確地查詢出人們所需要的相關(guān)信息,而且在深度問答[6]、社交網(wǎng)絡(luò)[7]、行業(yè)應(yīng)用[8-9]等領(lǐng)域發(fā)揮著越來越重要的作用。對(duì)于當(dāng)前各級(jí)政府的各個(gè)部門,部門之間存在著隸屬、合作、職能交叉等多種關(guān)系,對(duì)部門之間的關(guān)系進(jìn)行梳理,構(gòu)建知識(shí)圖譜能夠更好地發(fā)揮各個(gè)部門的職能,加強(qiáng)部門之間的合作與聯(lián)系,提高各部門的辦事效率。

隨著各領(lǐng)域中數(shù)據(jù)量的不斷增加和行業(yè)態(tài)勢的演變,領(lǐng)域知識(shí)圖譜[10]需要不斷地豐富與擴(kuò)展,傳統(tǒng)知識(shí)圖譜的構(gòu)建過程[11]是通過專家和知識(shí)工程師完成的,實(shí)體之間隱藏的關(guān)系沒有得到體現(xiàn),存在領(lǐng)域知識(shí)的不完整性和片面性。針對(duì)當(dāng)前構(gòu)建知識(shí)圖譜存在的問題,采用數(shù)據(jù)挖掘的方法分析與實(shí)體相關(guān)的數(shù)據(jù),進(jìn)一步挖掘出2 個(gè)實(shí)體之間隱藏的深層次關(guān)系,對(duì)豐富知識(shí)圖譜尤為重要。因此,本文基于市長信箱訴求數(shù)據(jù),采用實(shí)體關(guān)聯(lián)與主題分析的方法挖掘在市長信箱數(shù)據(jù)隱藏的部門之間存在的關(guān)系,并將新發(fā)現(xiàn)的關(guān)系融合到原有知識(shí)圖譜中,實(shí)現(xiàn)知識(shí)圖譜的潛在關(guān)系擴(kuò)展。

1 相關(guān)工作

在知識(shí)圖譜初步構(gòu)建后,仍然存在大量的隱含知識(shí)未得到體現(xiàn),這些潛在的知識(shí)對(duì)知識(shí)圖譜中的關(guān)系抽?。?2]和語義檢索[13]等其他研究有很大的幫助。特別是大規(guī)模的知識(shí)圖譜中需要大量的實(shí)體之間的關(guān)系作為支撐,但圖譜中實(shí)體之間關(guān)系往往不夠全面。因此,國內(nèi)外涌現(xiàn)出一系列方法實(shí)現(xiàn)知識(shí)圖譜中實(shí)體間關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。知識(shí)圖譜中潛在關(guān)系發(fā)現(xiàn)是對(duì)實(shí)體關(guān)系之間的鏈接預(yù)測[14],是知識(shí)圖譜學(xué)習(xí)和推理[15]的重要任務(wù)之一,通過挖掘?qū)嶓w間關(guān)系進(jìn)一步擴(kuò)充知識(shí)圖譜,能夠不斷完善和豐富知識(shí)圖譜的內(nèi)容。

目前關(guān)于知識(shí)圖譜實(shí)體間關(guān)系挖掘與擴(kuò)充知識(shí)圖譜的方法主要分為基于表示學(xué)習(xí)[16]的方法和基于關(guān)系路徑[17-18]的方法?;诒硎緦W(xué)習(xí)的知識(shí)圖譜擴(kuò)充方法基本思想是:將實(shí)體和關(guān)系嵌入連續(xù)低維的向量空間,用向量表示實(shí)體,通過實(shí)體間的向量計(jì)算得到關(guān)系,從而完成知識(shí)圖譜的擴(kuò)充任務(wù)。文獻(xiàn)[19]提出TransE 模型實(shí)現(xiàn)知識(shí)圖譜的擴(kuò)充,該模型將每個(gè)三元組實(shí)例中的關(guān)系看作從實(shí)體到實(shí)體的翻譯,將數(shù)據(jù)放入訓(xùn)練好的模型中得到實(shí)體之間的關(guān)系。文獻(xiàn)[20]提出一種共享變量的神經(jīng)網(wǎng)絡(luò)模型(LCPE),該模型通過分析Unstructured 模型,推導(dǎo)出在向量空間中2 個(gè)有關(guān)系的實(shí)體嵌入距離更近,并將ProjE 模型和實(shí)體之間的相似度信息進(jìn)行融合,從而判斷具體關(guān)系類型。

由于知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜多變,圖譜中存在大量的關(guān)系路徑,因此涌現(xiàn)出一些基于知識(shí)圖譜中關(guān)系路徑發(fā)現(xiàn)關(guān)系的方法。基于關(guān)系路徑的方法的基本思想是:抽取關(guān)系路徑,構(gòu)建關(guān)系路徑特征向量,計(jì)算實(shí)體之間關(guān)系存在的概率?;陉P(guān)系路徑的知識(shí)圖譜擴(kuò)充方法代表模型是PRA(Path Ranking Algorithm),該模型的基本思想是:2 個(gè)相連實(shí)體之間大量的關(guān)系路徑作為2 個(gè)實(shí)體之間關(guān)系所具有的特征,構(gòu)造關(guān)系分類器,將關(guān)系路徑作為輸入,實(shí)際存在的關(guān)系作為輸出訓(xùn)練關(guān)系分類器。文獻(xiàn)[21]利用設(shè)置物理規(guī)則和邏輯規(guī)則進(jìn)行知識(shí)圖譜的路徑推理和擴(kuò)充知識(shí)圖譜任務(wù)。文獻(xiàn)[22]通過組合已有模型進(jìn)行有關(guān)路徑推理,并應(yīng)用于知識(shí)庫的自動(dòng)問答及擴(kuò)充知識(shí)圖譜學(xué)習(xí)任務(wù)。文獻(xiàn)[23]提出一種子圖特征提取方法實(shí)現(xiàn)關(guān)系挖掘,對(duì)給定知識(shí)圖譜上的結(jié)點(diǎn)集合進(jìn)行路徑搜索抽取得到子圖,在子圖上抽取特征,作為這些結(jié)點(diǎn)集合的特征向量,通過結(jié)點(diǎn)集合的特征向量訓(xùn)練關(guān)系分類器。

還有一些學(xué)者采用其他方法擴(kuò)充和豐富知識(shí)圖譜。文獻(xiàn)[24]提出一種借助用戶生成數(shù)據(jù)中實(shí)體間關(guān)聯(lián)關(guān)系來擴(kuò)充知識(shí)圖譜的方法,該方法使用互信息計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,采用一種關(guān)聯(lián)影響疊加方法來定量計(jì)算關(guān)聯(lián)圖中互不相鄰實(shí)體間的潛在關(guān)聯(lián)關(guān)系。文獻(xiàn)[25]提出從不完備知識(shí)庫中挖掘關(guān)聯(lián)規(guī)則的方法(AMIE),AMIE 依次學(xué)習(xí)預(yù)測每種關(guān)系的規(guī)則,通過3 種操作擴(kuò)展規(guī)則體部分,保留支持度大于閾值的候選規(guī)則,通過挖掘得到的規(guī)則實(shí)現(xiàn)關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。文獻(xiàn)[26]提出一種基于Jena 的臺(tái)風(fēng)災(zāi)害領(lǐng)域本體模型推理機(jī)制,挖掘被隱藏的臺(tái)風(fēng)災(zāi)害影響因素或?yàn)?zāi)害鏈信息。

基于表示學(xué)習(xí)的方法可以通過向量計(jì)算發(fā)現(xiàn)實(shí)體間關(guān)系,但計(jì)算代價(jià)大,在實(shí)際知識(shí)圖譜中可解釋性差。基于關(guān)系路徑的知識(shí)圖譜擴(kuò)充方法[24]可以通過路徑特征挖掘?qū)嶓w之間的關(guān)系,但是這類方法難以處理關(guān)系路徑信息較少的稀疏知識(shí)圖譜,且在實(shí)際應(yīng)用的知識(shí)圖譜中,關(guān)系路徑數(shù)量龐大,提取路徑信息非常耗時(shí)。因此,本文針對(duì)特定領(lǐng)域中的實(shí)體,采用實(shí)體關(guān)聯(lián)與主題分析方法分析實(shí)體相關(guān)數(shù)據(jù),進(jìn)一步挖掘出實(shí)體間隱藏的關(guān)系,避免大量的無效計(jì)算,使挖掘得到的關(guān)系是有用且有效的。

2 知識(shí)圖譜潛在關(guān)系發(fā)現(xiàn)與擴(kuò)展

本文提出一種基于實(shí)體關(guān)聯(lián)分析與主題分析(Entity-Association and LDA,EA-LDA)的方法挖掘?qū)嶓w之間隱藏的關(guān)系,進(jìn)而擴(kuò)展和豐富知識(shí)圖譜。針對(duì)與實(shí)體相關(guān)的大量數(shù)據(jù),采用關(guān)聯(lián)規(guī)則算法挖掘?qū)嶓w與實(shí)體之間存在的關(guān)聯(lián)關(guān)系,并分析與實(shí)體相關(guān)數(shù)據(jù)的主題關(guān)鍵詞之間的聯(lián)系得到實(shí)體之間的關(guān)系,將新發(fā)現(xiàn)的關(guān)系融合到知識(shí)圖譜中。

2.1 數(shù)據(jù)預(yù)處理

在進(jìn)行實(shí)體之間的關(guān)系發(fā)現(xiàn)前,需對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以提高后期數(shù)據(jù)分析和挖掘的效率,減少后期算法工作的計(jì)算量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)分詞和去停用詞。數(shù)據(jù)清洗主要是檢查數(shù)據(jù)一致性,處理無效數(shù)據(jù)和重復(fù)數(shù)據(jù);數(shù)據(jù)分詞是將連續(xù)的句子分成單個(gè)詞語,之后將詞語作為文本數(shù)據(jù)的基本單位;基于停用詞表對(duì)分詞結(jié)果進(jìn)行匹配,去除停用詞表中的詞匯,如“的”“了”等,只保留文本具有實(shí)際意義的詞集。

2.2 基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的實(shí)體關(guān)系獲取

2.2.1 實(shí)體頻繁項(xiàng)集獲取

獲取實(shí)體頻繁項(xiàng)集方法如下:

1)對(duì)各實(shí)體相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,獲得相應(yīng)的關(guān)鍵詞集,計(jì)算各個(gè)實(shí)體相關(guān)數(shù)據(jù)中每個(gè)關(guān)鍵詞的支持度Si。支持度計(jì)算公式如式(1)所示:

其中:Si表示第i個(gè)關(guān)鍵詞的支持度;P(i)表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的概率;Ni表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的次數(shù);Nall表示數(shù)據(jù)集中與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)記錄的個(gè)數(shù)。

2)根據(jù)設(shè)置的支持度閾值α,判斷每個(gè)關(guān)鍵詞的支持度是否大于等于閾值α,將大于等于閾值α的關(guān)鍵詞保留得到1 項(xiàng)頻繁關(guān)鍵詞集L1。

3)不斷迭代使用上一次得到的(k-1)項(xiàng)頻繁關(guān)鍵詞集,計(jì)算頻繁關(guān)鍵詞集中關(guān)鍵詞的支持度,保留滿足支持度閾值α的關(guān)鍵詞集,產(chǎn)生新的候選k項(xiàng)頻繁關(guān)鍵詞集Lk,直到?jīng)]有新的頻繁項(xiàng)集產(chǎn)生,算法結(jié)束。

2.2.2 實(shí)體關(guān)聯(lián)規(guī)則生成

實(shí)體關(guān)聯(lián)規(guī)則生成方法如下:

1)獲取k項(xiàng)頻繁關(guān)鍵詞集Lk的關(guān)聯(lián)規(guī)則Ls?Lk-s,其中:Ls表示由s個(gè)關(guān)鍵詞組成的關(guān)鍵詞集;Lk-s表示去掉Lk中s個(gè)關(guān)鍵詞剩余的關(guān)鍵詞組成的關(guān)鍵詞集。

2)計(jì)算每個(gè)候選關(guān)聯(lián)規(guī)則的置信度。置信度的計(jì)算公式如式(2)所示:

其中:C(Ls?Lk-s)表示關(guān)聯(lián)規(guī)則Ls?Lk-s的置信度;N(Lk)表示在與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)集中Lk出現(xiàn)的次數(shù);N(Ls)表示Ls出現(xiàn)的次數(shù)。

3)根據(jù)設(shè)置的置信度閾值β,判斷每個(gè)候選關(guān)聯(lián)規(guī)則的置信度是否大于等于閾值β,將大于等于閾值的關(guān)聯(lián)規(guī)則保留得到關(guān)聯(lián)規(guī)則集。

2.2.3 實(shí)體關(guān)聯(lián)關(guān)系獲取

基于得到的關(guān)聯(lián)規(guī)則集,保留實(shí)體之間相同的關(guān)聯(lián)規(guī)則集,選取相同關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞得到2 個(gè)實(shí)體之間的關(guān)系。

2.2.4 實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼描述

實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼如下:

2.3 基于LDA 主題發(fā)現(xiàn)的實(shí)體關(guān)系獲取

2.3.1 LDA 主題抽取

將與每個(gè)實(shí)體相關(guān)的數(shù)據(jù)分別合并形成一篇實(shí)體主題文檔,對(duì)各個(gè)文檔數(shù)據(jù)做分詞等預(yù)處理,對(duì)預(yù)處理后的數(shù)據(jù)做LDA 主題抽取,抽取過程如下:

1)設(shè)置主題數(shù)K,設(shè)置合適的超參數(shù)向量α、β,α控制實(shí)體主題文檔的主題稀疏性,β控制主題中詞的稀疏性,α設(shè)置為50/k,k為設(shè)置的主題個(gè)數(shù),β設(shè)置為0.01。

2)對(duì)應(yīng)每個(gè)實(shí)體主題文檔中的每一個(gè)詞,隨機(jī)賦予一個(gè)主題編號(hào)k。

3)重新掃描語料庫,對(duì)于每一個(gè)詞,利用Gibbs采樣公式P(topic/doc)P(word/topic)更新其主題編號(hào),并更新語料庫中該詞的編號(hào)。

4)重復(fù)第3)步的基于坐標(biāo)軸輪換的Gibbs 采樣,直到Gibbs 采樣收斂。

5)統(tǒng)計(jì)語料庫中的每個(gè)實(shí)體主題文檔中各個(gè)詞所屬主題,得到實(shí)體主題分布θd,統(tǒng)計(jì)語料庫中各個(gè)主題詞的分布,得到LDA 的主題與詞的分布βk。

2.3.2 主題關(guān)系獲取

根據(jù)得到的實(shí)體主題文檔的主題概率分布,篩選出含有共同主題詞的主題文檔,根據(jù)式(3)計(jì)算主題文檔的主題概率分布之間的差異程度:

其中:D是主題分布的差異性;n是2 個(gè)主題分布中相同主題詞的個(gè)數(shù);Px、Qx是不同主題分布中同一主題詞的概率,2 個(gè)主題分布的差異程度越小,則該主題分布所相關(guān)的實(shí)體主題文檔之間的關(guān)聯(lián)程度就越高。

2.3.3 LDA 主題發(fā)現(xiàn)的偽代碼描述

LDA 主題發(fā)現(xiàn)的偽代碼如下:

2.4 EA-LDA 算法

EA-LDA 算法描述如下:

1)對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)分詞、去停用詞等操作得到預(yù)處理后的數(shù)據(jù)集。

2)掃描數(shù)據(jù)集,得到滿足支持度閾值α的k項(xiàng)頻繁關(guān)鍵詞集,基于k項(xiàng)頻繁關(guān)鍵詞集組合得到候選關(guān)聯(lián)規(guī)則集,將所有滿足置信度閾值β的關(guān)聯(lián)規(guī)則加入關(guān)聯(lián)規(guī)則集。

3)保留關(guān)聯(lián)規(guī)則集中兩兩實(shí)體之間存在的共同關(guān)聯(lián)規(guī)則集,將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞保留作為兩實(shí)體之間的關(guān)系。

4)基于整理得到的部門實(shí)體主題文檔,采用Gibbs 采樣公式迭代更新每一個(gè)詞的主題編號(hào),統(tǒng)計(jì)各個(gè)詞所屬主題和各個(gè)主題詞的概率分布,得到部門實(shí)體主題文檔的主題分布βk。

5)統(tǒng)計(jì)存在共同主題的主題分布,計(jì)算主題分布之間的差異程度,將差異程度小于0.1 的兩主題分布中的共同主題詞作為2 個(gè)實(shí)體之間的關(guān)系。

6)對(duì)于新發(fā)現(xiàn)的實(shí)體間關(guān)系,在存儲(chǔ)知識(shí)圖譜的數(shù)據(jù)庫中查找與該關(guān)系相關(guān)的實(shí)體,并將新關(guān)系加入數(shù)據(jù)庫中,更新原有知識(shí)圖譜,得到關(guān)系擴(kuò)展后的知識(shí)圖譜。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用市長信箱訴求數(shù)據(jù),每條訴求數(shù)據(jù)包括訴求工單編號(hào)、問題描述、單位標(biāo)示和辦理單位,涉及不同的政府部門,共有230 824 條數(shù)據(jù)。實(shí)驗(yàn)針對(duì)市長信箱訴求數(shù)據(jù)挖掘部門之間的關(guān)聯(lián)關(guān)系,構(gòu)建部門知識(shí)圖譜。

3.2 數(shù)據(jù)預(yù)處理

由于關(guān)聯(lián)分析是對(duì)關(guān)鍵詞集進(jìn)行處理,而每條訴求數(shù)據(jù)中的問題描述是一個(gè)句子或多個(gè)句子。在進(jìn)行部門關(guān)系發(fā)現(xiàn)之前,需對(duì)獲取的原始訴求數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,把連續(xù)的漢字序列劃分成一系列單獨(dú)的詞語即分詞,之后將詞語作為文本數(shù)據(jù)的基本單位,采用開源的結(jié)巴(Jieba)分詞算法,對(duì)文本集的全部語句進(jìn)行分詞得到需要的數(shù)據(jù)。分詞處理后的詞語中還包含一些虛詞和禁用詞,如“的”“了”等,需要對(duì)這些無實(shí)際意義的詞語進(jìn)行篩選工作,即去除停用詞。去除停用詞使用一個(gè)停用詞表,掃描并識(shí)別出停用詞后刪除。

3.3 實(shí)體間關(guān)聯(lián)分析

3.3.1 實(shí)體間關(guān)聯(lián)關(guān)系發(fā)現(xiàn)

將預(yù)處理后得到的關(guān)鍵詞集作為實(shí)驗(yàn)的文本數(shù)據(jù)集,為每個(gè)部門實(shí)體構(gòu)建一個(gè)數(shù)據(jù)集,對(duì)任意2 個(gè)部門之間的關(guān)鍵詞集做關(guān)聯(lián)分析。在本文實(shí)驗(yàn)中,部門實(shí)體作為關(guān)聯(lián)分析的主要對(duì)象,設(shè)置支持度為0.05,置信度為0.1,通過實(shí)體間關(guān)聯(lián)規(guī)則挖掘,得到2 個(gè)部門的關(guān)聯(lián)規(guī)則集,將關(guān)聯(lián)規(guī)則中的關(guān)鍵詞作為節(jié)點(diǎn),具有關(guān)聯(lián)規(guī)則的節(jié)點(diǎn)之間連接,得到關(guān)聯(lián)關(guān)系圖。

根據(jù)得到的部門實(shí)體之間的關(guān)聯(lián)規(guī)則結(jié)果,將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞集作為實(shí)體間關(guān)系。具體分析結(jié)果如下:市交警支隊(duì)、市城鄉(xiāng)交通運(yùn)輸局之間通過“車輛”“車牌號(hào)”“道路”“行駛”等關(guān)鍵詞存在關(guān)聯(lián),因此這2個(gè)部門通過“交通”“車輛”問題關(guān)聯(lián),如圖1所示。

圖1 市交警支隊(duì)和市城鄉(xiāng)交通運(yùn)輸局關(guān)聯(lián)關(guān)系Fig.1 Association relationships of municipal traffic police detachment and municipal urban rural transportation bureau

市公安局和市城市管理局之間通過“噪音”“擾民”“制止”“休息”等關(guān)鍵詞存在關(guān)聯(lián),這2 個(gè)部門所處理的問題中的都存在施工、擾民問題,市城市管理局主要管理城市環(huán)境衛(wèi)生設(shè)施建設(shè)方面,市公安局的職能之一是維護(hù)社會(huì)治安秩序,故2 個(gè)部門在處理施工擾民問題上存在關(guān)聯(lián),如圖2 所示。

圖2 市公安局和市城市管理局關(guān)聯(lián)關(guān)系Fig.2 Association relationships of municipal public security bureau and municipal urban authority

市住房、城鄉(xiāng)建設(shè)局、濟(jì)南市稅務(wù)局之間通過“開發(fā)商”“購房”等關(guān)鍵詞存在關(guān)聯(lián),市民在購房時(shí)會(huì)跟這2 個(gè)部門產(chǎn)生關(guān)系,兩部門存在業(yè)務(wù)流程前后關(guān)系,即市住房和城鄉(xiāng)建設(shè)局處理在購房時(shí)的購買、簽約等問題,濟(jì)南市稅務(wù)局處理購房時(shí)的稅務(wù)問題,如圖3 所示。

圖3 市住房和城鄉(xiāng)建設(shè)局和市稅務(wù)局關(guān)聯(lián)關(guān)系Fig.3 Association relationships of municipal housing and construction bureau and municipal taxation bureau

市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心之間通過“社?!薄袄U納”“知識(shí)庫”等關(guān)鍵詞聯(lián)系起來,2 個(gè)部門都與“社保”問題存在關(guān)聯(lián),如圖4 所示。

圖4 市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心關(guān)聯(lián)關(guān)系Fig.4 Association relationships of municipal healthcare security administration and municipal social insurance enterprise center

市城鄉(xiāng)水務(wù)局和市供電公司之間通過“業(yè)主”“繳納”“盡快恢復(fù)”等關(guān)鍵詞聯(lián)系起來,這2 個(gè)部門都與業(yè)主的費(fèi)用繳納、日常生活存在關(guān)系,故2 個(gè)部門存在關(guān)聯(lián),如圖5 所示。

圖5 市城鄉(xiāng)水務(wù)局和市供電公司關(guān)聯(lián)關(guān)系Fig.5 Association relationships of municipal water supplies bureau and municipal power supply company

3.3.2 基于部門實(shí)體數(shù)據(jù)的主題關(guān)系發(fā)現(xiàn)

基于預(yù)處理后的數(shù)據(jù)集,根據(jù)為各個(gè)實(shí)體構(gòu)建的相關(guān)數(shù)據(jù)集,對(duì)每個(gè)實(shí)體相關(guān)數(shù)據(jù)做LDA 主題分析,設(shè)置每個(gè)部門實(shí)體的主題個(gè)數(shù)為10,得到每個(gè)部門的主題概率分布。篩選出存在共同主題關(guān)鍵詞的主題概率分布,計(jì)算兩兩主題概率分布之間的差異程度,差異度越趨向于0,則2 個(gè)實(shí)體之間的關(guān)聯(lián)度越大,計(jì)算結(jié)果如表1 所示。差異度小于0.1 的實(shí)體主題分布中的共同主題詞即為部門實(shí)體之間的關(guān)系。

表1 部門主題分布差異度Table 1 Difference degrees of department theme distribution

實(shí)體數(shù)據(jù)主題間關(guān)聯(lián)關(guān)系分析結(jié)果如下:

歷城區(qū)政府與市公安局主題分布差異度D=0.080 0,實(shí)體關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“戶籍”“居民”“辦理”等主題,兩部門之間通過居民戶籍辦理存在關(guān)聯(lián),如圖6 所示。

圖6 歷城區(qū)政府和市公安局主題分布Fig.6 Theme distribution of Licheng district government and municipal public security bureau

濟(jì)陽區(qū)政府和商河縣政府主題分布差異度D=0.001 9,實(shí)體關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“土地”“灌溉”“村民”等主題,2 個(gè)部門都存在土地灌溉問題,如圖7 所示。

圖7 商河縣政府和濟(jì)陽區(qū)政府主題分布Fig.7 Theme distribution of Shanghe county government and Jiyang district government

市城管局和歷下區(qū)政府主題分布差異度D=0.140 0,實(shí)體間關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“施工”“影響”“小區(qū)”等主題,2 個(gè)部門通過施工問題相關(guān)聯(lián),如圖8 所示。南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布差異度D=0.02,實(shí)體間關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“垃圾”“清理”等主題,2 個(gè)部門都存在垃圾清理問題,如圖9 所示。

圖8 市城管局和歷下區(qū)政府主題分布Fig.8 Theme distribution of municipal urban management bureau and Lixia district government

圖9 南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布Fig.9 Theme distribution of southern mountain management committee and Tianqiao district government

3.4 部門知識(shí)圖譜關(guān)系擴(kuò)展

基于部門實(shí)體關(guān)聯(lián)分析和主題分析得到的結(jié)果,將新發(fā)現(xiàn)的部門之間的關(guān)系以三元組的形式添加到原有知識(shí)圖譜數(shù)據(jù)庫中,并采用D3.js 作圖實(shí)現(xiàn)部門知識(shí)圖譜的可視化,知識(shí)圖譜將每個(gè)部門作為節(jié)點(diǎn),2 個(gè)部門之間的關(guān)系作為邊構(gòu)建而成,如圖中市城市管理局和市公安局之間通過“噪音”“擾民”問題聯(lián)系起來,槐蔭區(qū)政府和歷下區(qū)政府通過“上學(xué)”“戶籍”問題聯(lián)系起來等,初步構(gòu)建的知識(shí)圖譜和關(guān)系擴(kuò)展后的部門知識(shí)圖譜分別如圖10 和圖11 所示。

圖10 初始構(gòu)建的部門知識(shí)圖譜Fig.10 Departmental knowledge graph of initially constructed

圖11 基于EA-LDA 方法關(guān)系擴(kuò)展后的部門知識(shí)圖譜Fig.11 Departmental knowledge graph based on EA-LDA method relationship expansion

3.5 實(shí)驗(yàn)比較

與文獻(xiàn)[26]基于jena 的規(guī)則推理方法比較、針對(duì)部門數(shù)據(jù)集、實(shí)體間關(guān)系部分對(duì)比結(jié)果如表2 所示。基于jena 的規(guī)則推理結(jié)果如圖12 所示,擴(kuò)充后的知識(shí)圖譜如圖13 所示。從表2 對(duì)比結(jié)果和圖12 可以看出,基于jena 的規(guī)則推理方法得到的實(shí)體關(guān)系多為文本中各類實(shí)體間的關(guān)系,如交警、處罰、行人等,對(duì)于部門知識(shí)圖譜包括大量的冗余信息,沒有獲得隱藏的部門實(shí)體間的關(guān)系。本文方法挖掘了較多深層次的部門實(shí)體間關(guān)系,如商河縣政府與濟(jì)陽縣政府具有共同的土地灌溉問題等。由此可知,本文提出的EA-LDA 方法可以更有針對(duì)性地挖掘出隱藏在部門實(shí)體之間的關(guān)系,有助于發(fā)現(xiàn)部門實(shí)體間共同存在的問題,可以有效地應(yīng)用于領(lǐng)域?qū)嶓w間關(guān)系發(fā)現(xiàn),優(yōu)于基于jena 的規(guī)則推理方法。

表2 部分關(guān)系對(duì)比結(jié)果Table 2 Comparison results of partial relation

圖12 基于jena 的規(guī)則推理結(jié)果Fig.12 Rule inference results based on jena

圖13 基于jena 規(guī)則推理后的部門知識(shí)圖譜Fig.13 Department knowledge graph based on jena rule inference

4 結(jié)束語

本文提出一種基于實(shí)體關(guān)聯(lián)規(guī)則與主題分析的方法來擴(kuò)展領(lǐng)域?qū)嶓w間的關(guān)系。針對(duì)具體領(lǐng)域相關(guān)數(shù)據(jù),采用關(guān)聯(lián)規(guī)則挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系,根據(jù)LDA 主題分析方法分析實(shí)體相關(guān)數(shù)據(jù)集主題之間的關(guān)系,進(jìn)而得到領(lǐng)域?qū)嶓w之間隱藏的關(guān)系,將新發(fā)現(xiàn)的關(guān)系融合進(jìn)原有領(lǐng)域知識(shí)圖譜,豐富領(lǐng)域知識(shí)圖譜。實(shí)驗(yàn)結(jié)果表明,與基于jena 規(guī)則推理方案相比,該方法能更準(zhǔn)確更全面地?cái)U(kuò)展實(shí)體之間的關(guān)系。下一步將研究多領(lǐng)域間知識(shí)圖譜的自動(dòng)融合與動(dòng)態(tài)更新,即對(duì)多個(gè)知識(shí)圖譜中的實(shí)體關(guān)系進(jìn)行評(píng)估,發(fā)現(xiàn)圖譜間的聯(lián)系,從而實(shí)現(xiàn)自動(dòng)融合,對(duì)于不斷更新的結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí),將其自動(dòng)更新到知識(shí)圖譜中。

猜你喜歡
關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對(duì)我國的啟示
主站蜘蛛池模板: 国产不卡一级毛片视频| 香蕉蕉亚亚洲aav综合| 巨熟乳波霸若妻中文观看免费| 免费看的一级毛片| 激情综合婷婷丁香五月尤物| 宅男噜噜噜66国产在线观看| 四虎永久免费地址| 国产精品一区二区不卡的视频| 国产成人免费视频精品一区二区 | 熟女日韩精品2区| 亚洲天堂日韩av电影| 国产一区二区丝袜高跟鞋| 99视频在线看| 欧美精品综合视频一区二区| 亚洲日韩精品欧美中文字幕| 伊人色综合久久天天| 嫩草在线视频| 尤物午夜福利视频| 久久精品国产精品青草app| 婷婷激情五月网| 欧美亚洲另类在线观看| 污网站免费在线观看| 久久国产亚洲偷自| 国产va免费精品观看| 波多野结衣一二三| 天天色天天综合网| 国产视频一二三区| 国产你懂得| 色婷婷综合在线| 亚洲大尺度在线| 伊人大杳蕉中文无码| 高清无码手机在线观看| 91探花国产综合在线精品| 国产情侣一区二区三区| 久久中文无码精品| 日韩欧美91| 欧美日韩福利| 欧洲高清无码在线| 中日韩一区二区三区中文免费视频| 成人av手机在线观看| 欧美日韩国产在线人成app| 亚洲成人动漫在线观看| 97色婷婷成人综合在线观看| 亚洲国模精品一区| 欧美在线导航| 久久毛片免费基地| 国产精品成人不卡在线观看| 婷婷伊人五月| 播五月综合| 免费高清a毛片| 国产在线精品99一区不卡| 亚洲精品中文字幕无乱码| 久久国产香蕉| 午夜国产大片免费观看| 91九色国产porny| 久久午夜夜伦鲁鲁片无码免费| 欧美人人干| 欧美中日韩在线| 55夜色66夜色国产精品视频| 在线观看无码a∨| 99精品这里只有精品高清视频| 亚洲av无码人妻| 精品伊人久久大香线蕉网站| 国产精品亚洲欧美日韩久久| 日韩免费成人| 国产97公开成人免费视频| 四虎国产永久在线观看| 伊人中文网| 久久综合干| 国产精品13页| 国产尤物jk自慰制服喷水| 69av免费视频| 亚洲日韩精品伊甸| 亚洲视频免| 久久99国产精品成人欧美| a毛片免费观看| 99人妻碰碰碰久久久久禁片 | 啪啪啪亚洲无码| 婷婷激情五月网| 四虎影视国产精品| 亚洲无线国产观看| 91麻豆国产在线|