基于標記屬性圖的Wikidata人物關系可視化數據分析

2021-07-22 13:13:14劉鵬鵬趙占芳

新一代信息技術 2021年12期

劉鵬鵬，趙占芳,2，王楠

（1. 河北地質大學信息工程學院河北石家莊 050031；2. 河北省智能傳感物聯網技術工程研究中心河北石家莊 050031）

0 引言

通過人物關系分析挖掘實體之間的聯系，在數據挖掘領域具有重要的研究意義。在信息資源的生成、利用和傳播過程中，人際關系網絡發揮著重要的主導作用。通過對人物關系的分析，可以揭示信息資源流動和傳播的途徑，發現人物及信息資源的聚類，這對信息資源的數據挖掘應用具有重要的價值。

當前，通過對人物關系的分析來挖掘實體間的關聯關系已經引起了國內外一些學者的關注。國內，劉錦文對新聞數據中人物關系進行了抽取與分析[1]；周舸、楊岸楨等人對微博人物關系進行了分析研究[2-3]；許婷通過話單對人物關系進行了挖掘研究[4]。國外，L. Galárraga 等[5]對 DBpedia的人物名稱、地點名稱、機構名稱等數據進行了語義關系的挖掘；A. Spitz等[6]根據人物名稱、地點名稱、機構名稱和時間數據構建出適合跨文檔事實信息抽取的LOAD模型。

應用知識圖譜構建人物關系網絡，進行人物關系分析，是當前流行的技術手段。知識圖譜以資源描述框架（簡稱：RDF模型）為基本模型，它是一種流行的圖數據模型。但是RDF模型[7]具有一定的局限性：（1）RDF模型在數據表示方面缺乏必要的靈活性，尤其在多元關系的表示上難以擴展和應用；（2）RDF模型使用空白結點描述多元關系，而空白結點的使用對數據的檢索和遍歷帶來很大的障礙，極大地影響了信息檢索的性能。

標記屬性圖模型也是當前流行的圖數據模型，它是 Neo4j圖數據庫的基本數據模型[8]。在數據表示方面，標記屬性圖模型允許結點和邊具有多個屬性，可以靈活表達多元關系，因此比RDF模型具有更強的表現力[9-10]。并且 Neo4j平臺提供了高性能的圖形算法庫和圖形分析控件，可以有效的揭示圖數據中隱藏的關系和結構，以圖形可視化的方式展示數據分析的知識發現。

基于此，本文提出了基于標記屬性圖模型的人物關系的可視化分析框架，通過對人物實體條目抽取、數據標準化預處理、標記屬性圖模型構建、圖數據生成，利于 Neo4j Browser平臺和Cypher語言實現了人物關系的可視化分析展示。本文所提出的數據分析的可視化框架對領域實體的關系分析，提供了一種通用的研究框架，為知識發現的深入挖掘提供了基礎服務。

1 研究框架和方法

1.1 研究框架

本文的研究框架如圖1所示，包含數據采集、數據處理和可視化數據分析三個模塊。在數據采集模塊，從知識庫中抽取領域實體條目，用于構建人物的實體集；在數據處理模塊，對抽取的實體屬性值進行標準化預處理，同時依據抽取的實體及屬性字段構建標記屬性圖模型，生成標記屬性圖數據；在可視化數據分析模塊，首先將圖數據導入數據分析平臺，然后利用Cypher語言的遍歷及路徑算法、中心性算法、及其它分組統計算法，對圖數據進行可視化的數據分析。

圖1 研究框架Fig.1 Research framework

1.2 研究方法

1.2.1 數據源

Wikidata是百科類的超大規模知識庫之一。它可用于基于本體的語義檢索、知識可視化、知識庫建設等多種研究[11-14]。對于Wikidata的復用和研究在國外學術界非常廣泛，而Wikidata在國內的應用研究很少[15-16]。Wikidata提供了非常豐富的人物實體信息，本文選擇Wikidata作為數據分析的數據源。

1.2.2 數據標準化預處理

通過維基數據查詢方式批量下載的CSV數據中，實體ID的屬性值格式是URI格式，其指向了維基百科的一個具體頁面；日期屬性值的格式是日期時間格式。在數據分析之前，需要將數據格式進行標準化處理。

1.2.3 標記屬性圖模型構建

標記屬性圖是當前流行的圖數據模型，具有和RDF模型非常相似的結構，由結點、邊和屬性組成[17-18]。在標記屬性圖模型中，實體或資源被表示為頂點，它們之間的關系被表示為邊。構建標記屬性圖模型，要確定領域內的實體集及其類型、確定實體的屬性集、構建實體之間的關聯關系，明確其方向性、確定關系的屬性集。

1.2.4 基于Neo4j Browser平臺的Cypher語言可視化分析

Cypher語言提供了完善的圖形算法，包括遍歷和尋路算法、中心性算法和分類統計算法等。利用這些圖形算法，可以深入探索圖結構中隱含的關聯關系，發現信息的分組聚類。動態圖形顯示庫d3.js以可視化的形式展示數據分析的效果，使得數據分析的結論更加直觀、可讀、便于理解。

2 實證研究——以諾貝爾化學獎得主為研究對象

2.1 數據來源與處理

2.1.1 數據采集

Wikidata包含自1901年起的諾貝爾獎得主的詳細信息，本文選取了諾貝爾化學獎得主為研究對象，通過維基數據查詢（WDQ）的方式批量下載獲取數據。獲取的數據集包含迄今為止獲得諾貝爾化學獎的共177位人物實體的條目信息。

2.1.2 數據標準化

數據集中的實體 ID通常使用 URI來表示，例如，“http://www.wikidata.org/entity/Q7186”表示“瑪麗居里”的實體ID。為了使數據描述更清晰、簡潔并具有良好的可讀性，使用前綴“wd:”代替所有的“http://www.wikidata.org/entity/”描述。則“瑪麗·居里”的實體ID描述為“wd:Q7186”。其次，所有日期型的數據標準化為“YYYY/MM/DD”的格式。因 Cypher語言不支持日期格式，日期型數據以字符串形式存儲并表示。

2.2 圖模型構建

考慮人物關系分析的基本目標，選擇諾貝爾獎獲得者、導師、學生、就讀學校、供職單位、國籍和研究方向為標記屬性圖模型中的實體集。實體之間的關系包括：指導、就讀、供職、研究方向和所屬國籍。

圖2展示了“瑪麗居里”的結點信息，圖3展示了“瑪麗居里”部分實體關系信息。

圖2 “瑪麗·居里”的結點信息Fig.2 Node information of “Marie Curie”

圖3 “瑪麗居里”人物實體的部分關系Fig.3 Part of the relationship of the character entity of “Marie Curie”

2.3 實驗過程

2.3.1 圖數據導入

將圖數據文件導入Neo4j Browser平臺包含3個步驟。第一步，導入各類實體集數據文件，生成結點信息。第二步，為每一類實體信息創建索引。索引的創建將有助于數據的查詢遍歷和統計分析。第三步，建立所有實體之間的關聯關系。

2.3.2 可視化數據分析

Neo4j平臺下Cypher語言提供了基于圖遍歷和路徑算法的高效查詢語句，可以實現關系探索、分組聚類、匯總統計等多種可視化的圖分析操作，本節通過對諾貝爾化學獎得主的數據分析，給出了典型的可視化分析案例。

（1）最短路徑分析。圖4顯示了兩個獲獎者之間存在3條最短路徑。

圖4 所有最短路徑分析Fig.4 All shortest path analysis

（2）圖遍歷。圖5展示了諾貝爾化學獎得主的所有師生關系圖。圖中藍色結點表示諾貝爾獎得主，紅色結點表示導師，紫色結點是他們所指導的博士生。

圖5 師生關系探索Fig.5 Exploration of teacher-student relationship

（3）分組聚類。由圖6可知，有5所高校培養了人數眾多的諾貝爾化學獎得主，在化學研究領域的人才培養方面處于世界一流水平。

圖6 高校與諾貝爾化學獎得主的關系探索Fig.6 Exploring the relationship between universities and Nobel Prize winners in chemistry

（4）分類匯總。通過分類統計進行數據分析

圖 7統計了培養諾貝爾化學獎人數最多的 5所高校的情況，其中哈佛大學共計培養了20名。圖8統計了英國的獲獎者其研究方向主要集中在哪3個方向上，分別是哪些獲獎者。

圖7 統計培養諾貝爾化學獎最多的5所高校Fig.7 Statistics the five universities that produce the most Nobel Prize in Chemistry

3 結果分析與討論

3.1 基于圖遍歷的數據分析

本文探索了諾貝爾獎得主之間任意兩個人物實體之間的關聯關系。圖4展示了兩名諾貝爾獎得主之間的三條最短路徑。

其次，通過指定關聯關系的圖遍歷，可以發現實體關系中隱藏的分組聚類。圖5展示了以“師生關系”遍歷的結果，揭示了獲獎者之間的師徒研究團隊。可以挖掘到的事實如：歷史上，曾有5個師徒研究團隊在化學領域做出了卓越的貢獻。其中以“Adolf von Baeyer”為中心的師徒團隊，自 1905—1950年間共有 9人獲獎；以“Ernest Rutherford”為核心的師徒團隊盡管只有 3人獲獎，但其多達17名弟子的研究團隊在化學研究領域依然做出很大貢獻。由師生關系所揭示的師徒研究團隊的發現，對學術流派演變和發展的研究具有重要的意義。

3.2 度中心性計算的數據分析

度中心性算法是最簡單的中心性算法，它是度量某個結點在網絡中的聯結數，聯結數越多，則此結點在網絡中就越處于關鍵地位。使用度中心性算法可以實現分組聚類分析。圖6以可視化的形式展示了度中心性算法的計算結果。

圖 6不僅展示了獲獎者在就讀學校上的分組情況，還進一步揭示了分組之間的關聯關系。例如，哈佛大學和劍橋大學的兩個分組中，具有唯一一個共同的結點“Roger Y. Tsien”，即“Roger Y.Tsien”曾在這兩所學校就讀過；哥倫比亞大學和哈佛大學的兩個分組之間具有 5個相關聯的結點，其中有4人曾就讀過這兩所大學，另一個展示了一個師生關系的聯系。這從一個側面說明這兩所大學在化學研究領域具有更多的交集和合作。

3.3 基于分類匯總統計的數據分析

Cypher語言還提供了強大的數據分類匯總功能。圖 7統計了培養諾貝爾化學獎得主較多的 5所著名的大學。圖8統計了獲得者主要集中的研究方向，及每一個方向上的獲獎者。

圖8 統計英國諾貝爾化學獎主要的研究方向Fig.8 statistics of the main research directions of British Nobel Prize in Chemistry

借助于Cypher統計函數，還可以發現如下事實。諾貝爾化學獎得主中，擁有美國國籍的人數最多是76人，其次是德國和英國。需要注意的是，有關德國的實體包括：德國、納粹德國、德意志帝國和西德。其中 4個女性、173個男性獲獎，獲獎的年齡最小35歲，平均58歲，最大85歲，已經去世的獲獎者平均年齡是78歲。

4 結語

本文以Wikidata知識庫中1901-2017年間的177名諾貝爾化學獎得主為研究對象，利用標記屬性圖模型表示實體數據集，利用Neo4j Browser平臺進行了人物關系的可視化分析。數據分析的結果揭示了在化學研究領域最知名的學術研究師生團隊、具有一流教學水平的高校、以及諾貝爾化學獎得主所聚集的科研機構和研究方向等重要信息。實證實驗說明，這種以屬性圖為基本模型的數據表示方式，在探索最短路徑、關鍵結點、共同鄰居和分組聚類等數據分析方面具有顯著的優勢。并且在Neo4j Browser平臺下，將標記屬性圖模型與編程工具相結合，更容易實施各種中心性算法和社區檢測算法。因此，本文下一步研究的目標是，在標記屬性圖模型上選擇適當的開發工具，實施中心性算法和社區檢測算法，進行更為深入細致的數據分析與挖掘研究工作。