張 瑤,李蜀瑜,湯 玥
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)
大數(shù)據(jù)下的多源異構(gòu)知識(shí)融合算法研究
張 瑤,李蜀瑜,湯 玥
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)
在大數(shù)據(jù)環(huán)境下,多源異構(gòu)知識(shí)的融合為研究者從眾多分散、異構(gòu)的數(shù)據(jù)源和知識(shí)源中挖掘出隱含的、有價(jià)值的和尚未被發(fā)現(xiàn)的信息和知識(shí)提供了非常有效的手段和方法。針對(duì)目前知識(shí)融合方法的不足,在對(duì)大數(shù)據(jù)環(huán)境下的異構(gòu)知識(shí)融合方法進(jìn)行深入研究的基礎(chǔ)上,將已有的數(shù)據(jù)融合算法合理地移植到知識(shí)融合中,設(shè)計(jì)并構(gòu)造了大數(shù)據(jù)環(huán)境下的多源異構(gòu)知識(shí)融合算法。為進(jìn)一步提高獲取知識(shí)的質(zhì)量,依據(jù)知識(shí)源粒度的動(dòng)態(tài)選擇,提出了一種改進(jìn)的知識(shí)源分解-合并算法,以獲得合適粒度大小的知識(shí)源集合和盡可能真實(shí)可靠的知識(shí)?;贖adoop和MapReduce框架所構(gòu)建的實(shí)驗(yàn)平臺(tái)對(duì)所提算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,所提出的多源異構(gòu)知識(shí)融合算法有效可行,并能夠有效顯著地提高多源異構(gòu)知識(shí)融合算法的性能。
大數(shù)據(jù);多源異構(gòu)知識(shí);知識(shí)融合;融合算法
在如今的大數(shù)據(jù)時(shí)代,數(shù)據(jù)的種類越來越多,數(shù)據(jù)的規(guī)模日益增大。在數(shù)據(jù)這片汪洋大海中,人們往往不知所措,從多而雜的數(shù)據(jù)中抽取出有較高利用價(jià)值的知識(shí)的需求也變得更加迫切。這不僅是企業(yè)界也是學(xué)術(shù)界重點(diǎn)關(guān)注的話題[1]。在大數(shù)據(jù)環(huán)境下,人類對(duì)知識(shí)服務(wù)的探究,已經(jīng)不僅僅局限于傳統(tǒng)的信息和文獻(xiàn)服務(wù),而是將研究的目光更多投放在用戶的行為、數(shù)量龐大的碎片化信息、用戶之間的關(guān)系以及由此而生成的海量的具有實(shí)時(shí)性的數(shù)據(jù)、機(jī)器數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等方面[2]。知識(shí)服務(wù)的意義和內(nèi)容,將在大數(shù)據(jù)的推進(jìn)下不斷發(fā)生變化,它將更多地面向知識(shí)的不斷創(chuàng)新和人類對(duì)知識(shí)的各方面需求,逐漸轉(zhuǎn)變?yōu)橹R(shí)預(yù)測(cè)型的服務(wù),將大數(shù)據(jù)轉(zhuǎn)變?yōu)檎嬲拇笾腔邸?/p>
知識(shí)融合是基于信息融合發(fā)展而成的一個(gè)新概念。多源異構(gòu)知識(shí)是由知識(shí)自身不斷豐富、發(fā)展、創(chuàng)新、演化而成。多源異構(gòu)知識(shí)融合自身的價(jià)值就在于從眾多分散、異構(gòu)的數(shù)據(jù)源、知識(shí)源中挖掘出隱含的、有價(jià)值的、尚未被發(fā)現(xiàn)的信息和知識(shí)(如規(guī)則、方法、模型、約束、經(jīng)驗(yàn)等)。知識(shí)融合實(shí)現(xiàn)的關(guān)鍵在于融合方法,直接影響融合后知識(shí)的內(nèi)涵、層次以及置信度。
在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的結(jié)構(gòu)差異大、數(shù)據(jù)來源廣、價(jià)值密度較低、更新實(shí)時(shí)等特點(diǎn),給知識(shí)服務(wù)帶來了巨大挑戰(zhàn),而多源異構(gòu)知識(shí)的融合為研究者在大數(shù)據(jù)環(huán)境下進(jìn)行知識(shí)獲取、知識(shí)組織和利用提供了非常有效的手段和方法。目前的知識(shí)融合方法從理論到實(shí)踐還有很多不足,為此,就大數(shù)據(jù)環(huán)境下的異構(gòu)知識(shí)融合方法展開進(jìn)一步的深入研究,借鑒數(shù)據(jù)融合方法,提出了多源異構(gòu)知識(shí)融合算法,并基于知識(shí)源的粒度給出了一種改進(jìn)方法,同時(shí)還進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
目前關(guān)于知識(shí)融合還沒有一個(gè)統(tǒng)一的定義,知識(shí)融合的發(fā)展是建立在信息融合的基礎(chǔ)之上的,在最早的時(shí)候,人類關(guān)于知識(shí)融合的研究大多是將它當(dāng)作知識(shí)工程的一個(gè)分支,并且和其他有關(guān)的內(nèi)容結(jié)合起來。知識(shí)融合的研究?jī)?nèi)容與信息融合的研究?jī)?nèi)容有重合部分,所以,在研究知識(shí)融合時(shí)可以參考信息融合的相關(guān)研究結(jié)果[3]。
知識(shí)融合算法是知識(shí)融合的核心部分。目前,研究人員已經(jīng)提出了有關(guān)知識(shí)融合的算法,除知識(shí)融合的評(píng)價(jià)算法外,其他的分別為基于D-S理論[4]、模糊集理論[5]、主題圖[6]和語義規(guī)則[7]的知識(shí)融合算法。
基于D-S證據(jù)理論的知識(shí)融合算法[8]是由韓立巖提出的,該方法首先進(jìn)行數(shù)學(xué)建模,然后實(shí)現(xiàn)融合算法,最后對(duì)融合結(jié)果進(jìn)行分析預(yù)測(cè)。但是這種方法會(huì)受到單一故障假設(shè)的條件限制。姚路等針對(duì)這一不足,提出一種將DSmT與系統(tǒng)建模相結(jié)合的知識(shí)融合算法[9]。周芳等利用模糊集理論解決知識(shí)融合問題,基于Petri網(wǎng)提出了知識(shí)融合的一般模型,并詳細(xì)介紹了融合模型中的每個(gè)步驟,將知識(shí)融合算法應(yīng)用到實(shí)際的企業(yè)相關(guān)問題中[10]。魯慧民等在全信息理論[11]的基礎(chǔ)上,通過聯(lián)合擴(kuò)展主題圖自身的優(yōu)點(diǎn),提出了基于擴(kuò)展主題圖相似性算法(ETMSC)[12]。該算法是針對(duì)多源知識(shí)融合的,與此同時(shí),提出了層次之間相互對(duì)應(yīng)、閾值選取以及實(shí)驗(yàn)確定這三個(gè)基本原則。該算法在進(jìn)行相似性計(jì)算時(shí),綜合考慮了語用、語義、語法、知識(shí)的含義和知識(shí)所處的語義環(huán)境。
這些知識(shí)融合算法面向的應(yīng)用知識(shí)都是有針對(duì)性的,其中,基于D-S理論的更加側(cè)重關(guān)于專家知識(shí)的融合,基于語義的則重點(diǎn)是研究非專家的知識(shí)融合,基于主題圖的主要研究的是專家知識(shí)和非專家知識(shí)的融合。目前已有的知識(shí)融合算法雖然考慮到知識(shí)來源的多樣性,但是具體對(duì)每個(gè)知識(shí)的結(jié)構(gòu)分析得不夠清楚,而且還有一點(diǎn)不足是沒有考慮到源知識(shí)本身的可靠性和真實(shí)性。從考慮知識(shí)的真實(shí)概率的角度出發(fā),結(jié)合大數(shù)據(jù)環(huán)境,提出了一種多源異構(gòu)知識(shí)融合算法。
由于知識(shí)融合是從不同知識(shí)源,如Freebase、YAGO等公開的知識(shí)庫以及互聯(lián)網(wǎng)網(wǎng)頁,抽取知識(shí)獲得知識(shí)三元組,求得知識(shí)三元組的真實(shí)概率,以做出最佳決策,提供更好的知識(shí)服務(wù)。而數(shù)據(jù)融合是解決從不同來源的值,并尋找數(shù)據(jù)真值的問題。因此,基于知識(shí)融合本身的特點(diǎn),借鑒已有的數(shù)據(jù)融合算法,將其合理地移植到知識(shí)融合中,構(gòu)造大數(shù)據(jù)環(huán)境下的多源異構(gòu)知識(shí)融合算法。
2.1多源異構(gòu)知識(shí)融合面對(duì)的挑戰(zhàn)
數(shù)據(jù)融合是對(duì)從不同來源的數(shù)據(jù)、信息,加以聯(lián)合、相關(guān)、組織,尋找數(shù)據(jù)真值。與數(shù)據(jù)融合相比,對(duì)知識(shí)融合提出了三大挑戰(zhàn)。
(1)數(shù)據(jù)融合的輸入為一個(gè)二維數(shù)據(jù)矩陣,如圖1(a)所示;而知識(shí)融合的輸入是一個(gè)三維矩陣,如圖1(b)所示。新增的一維表示提取器,所以矩陣中的每個(gè)單元格表示用相應(yīng)的抽取器從對(duì)應(yīng)的Web源中提取的相應(yīng)數(shù)據(jù)項(xiàng)的值。錯(cuò)誤在這個(gè)過程的每個(gè)階段都有可能發(fā)生,不僅來自于Web源,也可能來自于提取過程中三元組的識(shí)別、實(shí)體連接和屬性連接。

圖1 數(shù)據(jù)融合和知識(shí)融合的輸入
(2)希望預(yù)測(cè)概率可以正確地反映三元組真實(shí)的可能性。一個(gè)基本要求就是單調(diào):具有較高預(yù)測(cè)概率的三元組應(yīng)該比一個(gè)具有較低預(yù)測(cè)概率的三元組的真實(shí)概率要大些。
(3)知識(shí)的規(guī)模通常是巨大的。當(dāng)前在數(shù)據(jù)融合實(shí)驗(yàn)中使用的最大數(shù)據(jù)集包含170 K數(shù)據(jù)源,400 K的數(shù)據(jù)項(xiàng)。知識(shí)融合往往需要處理的數(shù)據(jù)的數(shù)量級(jí)在各方面都會(huì)更大。
2.2融合方法選取標(biāo)準(zhǔn)
現(xiàn)有的數(shù)據(jù)融合方法可以用來解決知識(shí)融合的問題。采用了三個(gè)標(biāo)準(zhǔn),從現(xiàn)有的方法中選擇合適的數(shù)據(jù)融合方法。
(1)由于知識(shí)融合的目標(biāo)是計(jì)算每個(gè)三元組的真實(shí)概率,選擇的數(shù)據(jù)融合方法,可以很容易地求出一個(gè)有意義概率。
(2)由于知識(shí)融合的數(shù)據(jù)規(guī)模比傳統(tǒng)的數(shù)據(jù)融合的數(shù)據(jù)規(guī)模要大三個(gè)數(shù)量級(jí),選擇能按比例放大的基于MapReduce[13]框架的方法。
(3)重點(diǎn)放在那些最近研究表明更有效的方法。例如,文獻(xiàn)[14]表明基于貝葉斯方法更優(yōu)于基于Web鏈路等方法。
2.3多源異構(gòu)知識(shí)融合方法
按照上述三個(gè)標(biāo)準(zhǔn),選擇了三種數(shù)據(jù)融合方法:VOTE,ACCU和POP ACCU。下面對(duì)這三種方法進(jìn)行簡(jiǎn)單的介紹,然后再描述如何使用這三種方法來解決知識(shí)融合問題。
VOTE:對(duì)于每個(gè)數(shù)據(jù)項(xiàng),VOTE統(tǒng)計(jì)每個(gè)值的數(shù)據(jù)來源的個(gè)數(shù),并且信任來自最多數(shù)據(jù)源的值。VOTE作為實(shí)驗(yàn)的基準(zhǔn)。
ACCU:采用的是貝葉斯分析方法。算法偽代碼如圖2所示。對(duì)于每一個(gè)提供一組值VS的數(shù)據(jù)源S,S的準(zhǔn)確度是VS中所有值的平均概率。對(duì)于每個(gè)數(shù)據(jù)項(xiàng)D和由D提供的值的集合VD,一個(gè)值的概率是使用貝葉斯分析觀測(cè)其先驗(yàn)概率計(jì)算所得。ACCU假定:對(duì)于每個(gè)數(shù)據(jù)項(xiàng)D只有一個(gè)真值;有N個(gè)均勻分布的假值;數(shù)據(jù)源之間是相互獨(dú)立的。

圖2 ACCU算法
POP ACCU:POP ACCU通過去除錯(cuò)誤的值使均勻分布的假設(shè)擴(kuò)展了ACCU;它從真實(shí)數(shù)據(jù)中計(jì)算得出分布并將其插入到貝葉斯分析中。文獻(xiàn)[15]已經(jīng)證明POP ACCU是單調(diào)的,也就是說在假設(shè)數(shù)據(jù)源和數(shù)據(jù)項(xiàng)都是獨(dú)立的條件下,增加一個(gè)數(shù)據(jù)源不會(huì)降低數(shù)據(jù)融合的質(zhì)量。
2.4多源異構(gòu)知識(shí)融合體系
采用以上三種數(shù)據(jù)融合方法解決知識(shí)融合問題。
首先,數(shù)據(jù)融合方法的輸入是二維數(shù)據(jù)矩陣,每個(gè)數(shù)據(jù)源提供相應(yīng)數(shù)據(jù)項(xiàng)的值,而知識(shí)融合方法的輸入是三維矩陣,包含每個(gè)數(shù)據(jù)源通過相應(yīng)的抽取器抽取得到的對(duì)應(yīng)數(shù)據(jù)項(xiàng)的值。為了減小知識(shí)融合輸入的維度,考慮將每對(duì)(抽取器,URL)作為數(shù)據(jù)源。有大量的數(shù)據(jù)源表明一個(gè)知識(shí)三元組不是由Web源提供的,就是由許多不同的抽取器抽取獲得的。
其次,數(shù)據(jù)融合方法的輸出是由每個(gè)提供的值的二元決策構(gòu)成的,而知識(shí)融合方法的輸出是每個(gè)知識(shí)三元組的真實(shí)概率。對(duì)于ACCU和POP ACCU,通過貝葉斯分析計(jì)算獲得每個(gè)知識(shí)三元組的真實(shí)概率。對(duì)于VOTE,采取的計(jì)算概率的方法如下:如果一個(gè)數(shù)據(jù)項(xiàng)D=(s,p)總共有n個(gè)出處,一個(gè)知識(shí)三元組T=(s,p,o)有m個(gè)出處,則知識(shí)三元組的真實(shí)概率為p(T)=m/n。
最后,使用基于MapReduce的框架來擴(kuò)展上述三種方法。知識(shí)融合的體系結(jié)構(gòu)如圖3所示。一共有三個(gè)階段;每個(gè)階段是一個(gè)MapReduce的過程,因此以并行的方式進(jìn)行。
第一階段:Map步驟是根據(jù)相關(guān)的數(shù)據(jù)項(xiàng)將輸入所提取的知識(shí)三元組進(jìn)行劃分;Reduce步驟是運(yùn)用貝葉斯分析方法推導(dǎo)并計(jì)算出由相同數(shù)據(jù)項(xiàng)提供的每個(gè)知識(shí)三元組的真實(shí)概率。
第二階段:Map步驟將已經(jīng)由出處獲得的概率的知識(shí)三元組進(jìn)行劃分;Reduce步驟是依據(jù)出處所包含的知識(shí)三元組來計(jì)算它的準(zhǔn)確度。重復(fù)前兩個(gè)階段直至收斂。
第三階段:Map步驟是劃分所提取的知識(shí)三元組;Reduce步驟是將由不同出處得到的相同的知識(shí)三元組進(jìn)行去重,第三階段輸出最終結(jié)果。

圖3 MapReduce實(shí)現(xiàn)ACCU和POP ACCU
針對(duì)ACCU和POP ACCU的融合方法,從知識(shí)源的質(zhì)量角度出發(fā),提出一種改進(jìn)算法。該算法可以動(dòng)態(tài)選擇知識(shí)源的粒度大小,得到合適粒度大小的知識(shí)源集合,作為以上融合算法的輸入?yún)?shù),以提高知識(shí)三元組真實(shí)概率的準(zhǔn)確度和有效性。
理想情況下,希望用最好的粒度大小知識(shí)源。例如,由于一個(gè)網(wǎng)頁可能與其他的網(wǎng)頁有不同的精確度,所以很自然地將每個(gè)網(wǎng)頁看作是一個(gè)獨(dú)立的源。甚至可以定義一個(gè)源作為在特定網(wǎng)頁上的特定謂語,這樣可以估算一個(gè)關(guān)于特定種類的謂詞的網(wǎng)頁可信度。然而,當(dāng)定義來源過于精準(zhǔn)的話,可能有太少可靠的數(shù)據(jù)來估算它們的準(zhǔn)確度;相反,可能存在一些數(shù)據(jù)源,它們有太多的數(shù)據(jù)都在最后的粒度上,這樣可能會(huì)導(dǎo)致計(jì)算瓶頸。
為了解決這個(gè)問題,需要?jiǎng)討B(tài)選擇知識(shí)源的粒度。對(duì)于粒度過小的知識(shí)源,可以在層次結(jié)構(gòu)上回退到比較粗糙的級(jí)別,使得可以借用相關(guān)頁面之間的統(tǒng)計(jì)強(qiáng)度。對(duì)于粒度過大的知識(shí)源,可以選擇將其拆分成多個(gè)知識(shí)源,然后獨(dú)立地評(píng)估它們的準(zhǔn)確度。當(dāng)做歸并時(shí),目標(biāo)是在不降低效率的條件下提高評(píng)估的統(tǒng)計(jì)質(zhì)量。當(dāng)做分解時(shí),目標(biāo)是在沒有顯著改變?cè)u(píng)估結(jié)果的前提下有效提高數(shù)據(jù)偏斜。
為了使效果更精準(zhǔn),把知識(shí)源定義為一個(gè)特征向量:<網(wǎng)站,謂詞,網(wǎng)頁>,并按照最一般到最特殊的情況進(jìn)行排序。然后在一個(gè)層次結(jié)構(gòu)上安排這些知識(shí)源。例如,
分解:當(dāng)分解一個(gè)較大的知識(shí)源時(shí),希望可以將其隨機(jī)分解為大小相似的子知識(shí)源。具體就是,令一個(gè)大小固定的知識(shí)源M,是期望的最大尺寸,將三元組均勻分布到大小小于最大尺寸的桶,每個(gè)桶代表的是一個(gè)子知識(shí)源。將M設(shè)置為一個(gè)比較大的值,這樣那些不需要分解的知識(shí)源就不會(huì)分解,同時(shí)不會(huì)導(dǎo)致計(jì)算瓶頸。
合并:當(dāng)合并小的知識(shí)源時(shí),希望只合并那些有共同特征的知識(shí)源,例如這些知識(shí)源共有相同的謂詞,或者來自于相同的網(wǎng)站。因此,在結(jié)構(gòu)層次上只合并那些有相同的根源或?qū)儆谕粋€(gè)分支的子源,將其設(shè)置為一個(gè)很小的值,這樣能降低合并的范圍,不需要合并的知識(shí)源就不會(huì)合并,同時(shí)還保持足夠的統(tǒng)計(jì)強(qiáng)度。
例如,考慮以下三個(gè)知識(shí)源:
有兩種情況需要考慮:一是當(dāng)合并了小的知識(shí)源,但是得到的父親源可能并沒有期望的大小,它可能還是太小,這時(shí),需要反復(fù)迭代合并父親源,以達(dá)到期望的大?。欢钱?dāng)合并的結(jié)果過于龐大,大大超出了期望的大小,這時(shí)就要將這些合并的源再做分解。用來動(dòng)態(tài)選擇知識(shí)源的粒度大小的知識(shí)源分解-合并算法(SplitAndMerge)的偽代碼如下:
輸入:S為具有最好粒度的知識(shí)源;m/M為期望的最小/最大知識(shí)源的大小。
輸出:S'為一個(gè)具有期望大小的知識(shí)源的集合。
Begin
1:S'←?;//將最終知識(shí)源初始化為空集
2:ForS∈Sdo;//遍歷知識(shí)源集合中的每個(gè)知識(shí)源
3:S←S{S};
4:If |S|>Mthen //知識(shí)源大小大于期望的最大值
5:S'←S'∪SPLIT(S);//進(jìn)行知識(shí)源分解操作
6:else if |S| 7:Spar←GETPARENT(S);//進(jìn)行知識(shí)源合并操作 8:ifSpar=⊥ then;//已經(jīng)達(dá)到了層次結(jié)構(gòu)的頂部 9:S'←S'∪{S}; 10:else 11:S←S∪{Spar};//繼續(xù)迭代合并 12:else 13:S'←S'∪{S}; 14:ReturnS';//輸出最后得到新的知識(shí)源集 利用文獻(xiàn)[16]中的知識(shí)抽取方法獲取實(shí)驗(yàn)數(shù)據(jù),抽取結(jié)果如表1所示。 表1 知識(shí)抽取結(jié)果及抽取質(zhì)量 所涉及的知識(shí)一部分是來源于已有的一些高品質(zhì)的知識(shí)庫,如Freebase、YAGO等,另一部分是來自于互聯(lián)網(wǎng)上的最新知識(shí)。使用Hadoop構(gòu)建知識(shí)融合的實(shí)驗(yàn)平臺(tái)。另外,為了更好地評(píng)估所提出的多源異構(gòu)知識(shí)融合方法中不同算法的性能,利用大型Matlab對(duì)幾組數(shù)據(jù)進(jìn)行處理,比較模塊化度并繪制相應(yīng)的結(jié)果。 首先,給出評(píng)價(jià)實(shí)驗(yàn)結(jié)果的一個(gè)指標(biāo):校準(zhǔn)曲線。校準(zhǔn)曲線繪制的是預(yù)測(cè)概率與真實(shí)概率之間的變化。為了計(jì)算真實(shí)概率,把知識(shí)三元組分成l+1桶:第i(0≤i≤l-1)桶包含預(yù)測(cè)概率在[i/l,(i+1)/l)知識(shí)三元組,第l+1桶包含概率為1的知識(shí)三元組。實(shí)驗(yàn)中設(shè)l=20,然后計(jì)算每個(gè)桶的真實(shí)概率。理想的情況是預(yù)測(cè)概率應(yīng)該與真實(shí)概率相同,這樣的理想曲線是由(0,0)到(1,1)。 利用多源異構(gòu)知識(shí)融合方法得到知識(shí)三元組真實(shí)概率的結(jié)果和預(yù)測(cè)結(jié)果,繪制了校準(zhǔn)曲線,如圖4所示。結(jié)果顯示應(yīng)用POP ACCU的多源異構(gòu)知識(shí)融合算法的結(jié)果最貼近理想曲線,效果最好。 圖4 不同融合方法的校準(zhǔn)曲線 再將抽取獲得的結(jié)果按照改進(jìn)方法求得知識(shí)三元組的真實(shí)概率,并繪制校準(zhǔn)曲線,如圖5所示。結(jié)果顯示,改進(jìn)算法確實(shí)可以在一定程度上提高多源異構(gòu)知識(shí)融合算法的性能。 圖5 改進(jìn)后的校準(zhǔn)曲線 多源知識(shí)融合是對(duì)知識(shí)進(jìn)行融合、處理,進(jìn)而提高知識(shí)的內(nèi)涵、品質(zhì)、置信度。針對(duì)目前知識(shí)融合方法的不足,結(jié)合大數(shù)據(jù)背景,借鑒數(shù)據(jù)融合算法,提出了一種多源異構(gòu)知識(shí)融合算法,以求出知識(shí)三元組的真實(shí)概率,并依據(jù)知識(shí)源的粒度提出了相應(yīng)的改進(jìn)算法。應(yīng)用Hadoop構(gòu)建實(shí)驗(yàn)平臺(tái),并基于MapReduce框架,實(shí)現(xiàn)了多源異構(gòu)知識(shí)融合算法,并對(duì)改進(jìn)方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法可以有效提高多源異構(gòu)知識(shí)融合算法的性能。 [1] 蘇新寧.面向知識(shí)服務(wù)的知識(shí)組織理論與方法[M].北京:科學(xué)出版社,2014. [2] 唐曉波,魏 巍.知識(shí)融合:大數(shù)據(jù)時(shí)代知識(shí)服務(wù)的增長(zhǎng)點(diǎn)[J].圖書館學(xué)研究,2015(5):9-14. [3] 緱 錦.知識(shí)融合中若干關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2005. [4] Valin P,Djiknavorian P,Bosse E.A pragmatic approach for the use of Dempster-Shafer theory in fusing realistic sensor data[J].Journal of Advances in Information Fusion,2010,5(1):32-40. [5] Werro N.Fuzzy set theory[M]//Fuzzy classification of online customers.[s.l.]:Springer International Publishing,2015:7-26. [6] Lu J,Ma J,Zhang G,et al.Theme-based comprehensive evaluation in new product development using fuzzy hierarchical criteria group decision-making method[J].IEEE Transactions on Industrial Electronics,2011,58(6):2236-2246. [7] Okoye K, Tawil A R H, Naeem U,et al.A semantic rule-based approach towards process mining for personalised adaptive learning[C]//High performance computing & communications,IEEE international symposium on cyberspace safety & security,IEEE international conference on embedded software & systems.[s.l.]:IEEE,2014:929-936. [8] 韓立巖,周 芳.基于D-S證據(jù)理論的知識(shí)融合及其應(yīng)用[J].北京航空航天大學(xué)學(xué)報(bào),2006,32(1):65-68. [9] 姚 路,康劍山,曾 斌.結(jié)合DSmT理論和系統(tǒng)建模的知識(shí)融合算法[J].火力與指揮控制,2014,39(12):88-91. [10] 周 芳,劉玉戰(zhàn),韓立巖.基于模糊集理論的知識(shí)融合方法研究[J].北京理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013,15(3):67-73. [11] 何華燦.人工智能基礎(chǔ)理論研究的重大進(jìn)展-評(píng)鐘義信的專著《高等人工智能原理》[J].智能系統(tǒng)學(xué)報(bào),2015(1):163-166. [12] 魯慧民,馮博琴,李 旭.面向多源知識(shí)融合的擴(kuò)展主題圖相似性算法[J].西安交通大學(xué)學(xué)報(bào),2010,44(2):20-24. [13] Odia T,Misra S,Adewumi A.Evaluation of Hadoop/MapReduce framework migration tools[C]//Asia-Pacific world congress on computer science and engineering.[s.l.]:IEEE,2015:1-8. [14] Li X,Dong X L,Lyons K,et al.Truth finding on the deep web:is the problem solved?[J].Proceedings of the VLDB Endowment,2012,6(2):97-108. [15] Dong X L,Berti-Equille L,Srivastava D.Truth discovery and copying detection in a dynamic world[J].Proceedings of the VLDB Endowment,2009,2(1):562-573. [16] Reuss P,Althoff K D,Henkel W,et al.Semi-automatic knowledge extraction from semi-structured and unstructured data within the OMAHA project[C]//International conference on case-based reasoning.[s.l.]:Springer International Publishing,2015:336-350. Research on Heterogeneous Knowledge Fusion Algorithm underBig Data Environment ZHANG Yao,LI Shu-yu,TANG Yue (College of Computer Science,Shaanxi Normal University,Xi’an 710119,China) In environment of big data,the integration of multi-source heterogeneous knowledge fusion has provided one of the most effective means and methods for researchers to discover the implicit,valuable and undetected knowledge from a lot of knowledge sources that are dispersed and heterogeneous.Aimed at the shortcomings of the current knowledge fusion methods,based on investigations on them under the big data environment,the existing data fusion methods have been employed,which are transplanted to the knowledge fusion reasonably.A kind of algorithm for multi-source heterogeneous knowledge fusion is proposed.In order to further improve the quality of the acquiring knowledge,an improved algorithm based on the dynamic selection of knowledge source granularity is proposed to obtain the appropriate size of the collection of knowledge sources and the true and reliable knowledge as possible.Its experimental verification is conducted based on the experimental platform constructed by Hadoop and MapReduce framework.Experimental results show that it is effective and feasible and effectively improves the performance of multi-source heterogeneous knowledge fusion algorithms. big data;multi-source heterogeneous knowledge;knowledge fusion;fusion algorithm 2016-10-17 :2017-01-20 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間 時(shí)間:2017-07-11 國家自然科學(xué)基金資助項(xiàng)目(41271387) 張 瑤(1992-),女,碩士研究生,研究方向?yàn)橐苿?dòng)云計(jì)算、大數(shù)據(jù)安全等;李蜀瑜,碩士生導(dǎo)師,副教授,博士,研究方向?yàn)橐苿?dòng)云計(jì)算、大數(shù)據(jù)安全等。 http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1455.060.html TP302 :A :1673-629X(2017)09-0012-05 10.3969/j.issn.1673-629X.2017.09.0034 實(shí)驗(yàn)結(jié)果與分析



5 結(jié)束語