張 瑤,李蜀瑜,湯 玥
(陜西師范大學 計算機科學學院,陜西 西安 710119)
大數據下的多源異構知識融合算法研究
張 瑤,李蜀瑜,湯 玥
(陜西師范大學 計算機科學學院,陜西 西安 710119)
在大數據環境下,多源異構知識的融合為研究者從眾多分散、異構的數據源和知識源中挖掘出隱含的、有價值的和尚未被發現的信息和知識提供了非常有效的手段和方法。針對目前知識融合方法的不足,在對大數據環境下的異構知識融合方法進行深入研究的基礎上,將已有的數據融合算法合理地移植到知識融合中,設計并構造了大數據環境下的多源異構知識融合算法。為進一步提高獲取知識的質量,依據知識源粒度的動態選擇,提出了一種改進的知識源分解-合并算法,以獲得合適粒度大小的知識源集合和盡可能真實可靠的知識。基于Hadoop和MapReduce框架所構建的實驗平臺對所提算法進行了實驗驗證。實驗結果表明,所提出的多源異構知識融合算法有效可行,并能夠有效顯著地提高多源異構知識融合算法的性能。
大數據;多源異構知識;知識融合;融合算法
在如今的大數據時代,數據的種類越來越多,數據的規模日益增大。在數據這片汪洋大海中,人們往往不知所措,從多而雜的數據中抽取出有較高利用價值的知識的需求也變得更加迫切。這不僅是企業界也是學術界重點關注的話題[1]。在大數據環境下,人類對知識服務的探究,已經不僅僅局限于傳統的信息和文獻服務,而是將研究的目光更多投放在用戶的行為、數量龐大的碎片化信息、用戶之間的關系以及由此而生成的海量的具有實時性的數據、機器數據和非結構化數據等方面[2]。……