牛文鈺 許若柯 李揚陽 繆學聰 高晨 田英愛

摘? 要:歷史上某位詩人所處的位置可能隨著時間因素,因其經歷而發生變化,因此從詩人對應的經歷數據中,抽取任務、地點、時間和事件等屬性類,將其軌跡動態映射到地圖上。
關鍵詞:詩詞;知識圖譜;數據挖掘;足跡圖
第一章 概述
1.1研究背景:
詩詞作為中華民族文化的瑰寶,在歷史長河中閃爍著熠熠光輝。然而,現代對中華詩詞精通的人卻特別少,學習中華古典文化需要付出相當大的精力,這在時間方面不利于我們學習與傳承中華文化歷史。
1.2 項目意義:
本課題希望通過對中華詩詞的分析,按照時間、地點等脈絡以及人物關系,結合歷史背景,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力。
1.3 項目方案:
課題主要工作包括:中華詩詞的文本數據采集、標注技術研究、作者和詩詞內容關聯分析等主要工作,同時基于此研究,將其應用于生成詩人的行走足跡圖。
本項目從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。之后,將采集到的信息進行處理,并通過neo4j以圖數據庫的形式存儲數據,之后借由圖數據庫達到生成詩詞相關信息——詩人的行走足跡圖的目的。
第二章 數據技術相關介紹
2.1數據收集
從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。
在本次項目中使用的是基于python語言的CrawlSpider爬蟲框架,通過分析網頁的頁面編排模式,獲取所需詩歌的內容。
屬性確定:本次項目所需的數據包括詩歌的標題、詩人、朝代、內容、注釋、賞析。
2.2數據清洗
初步獲取到的數據大致存在以下問題:
2.2.1對應屬性值為空
某些詩歌可能存在詩人不明,朝代空缺,沒有注釋與賞析的情況。
處理方案:將原本網頁中缺失的數據自動補齊,向其中填寫“無”。
2.2.2雜項數據
從html上獲取的文本信息,可能含有大量無意義的換行符,以及混在正常數據中的UI界面文本。
處理方案:分析雜項數據的內容,對其進行替換。
2.2.3指代消解問題
數據中包含一些指代相同的詞語,如“唐朝”和“唐代”,兩個詞本身意義相同,為了消除指代消解問題,這里統一將“代”改為“朝”。
2.2.4作者不詳,年代不詳的詩歌處理
數據中具有作者為佚名、年代不詳的詩歌,將其單獨清洗成一個json文件。
2.3數據挖掘(分詞+建立三元組)
首先,我們對對每首詩中的賞析部分進行分詞,文本后的符號代表該詞的詞性。
之后我們建立不同的三元組——詩與詩人、詩與地點、詩與詩、詩與詩人、詩與年代,以及對文本內容補充抽取關系,從而便于知識圖譜的建立。
2.4數據可視化(建立知識圖譜)
將所有三元關系集合起來存放到一個表中,建立知識圖譜可視化。
2.5環境搭建
在虛擬機/本機上裝好Windows系統,在Windows上安裝必要的python環境,配置好Neo4j。
第三章 分析方法總結及結果展示
3.1 詩歌數據處理
為了實現詩人行走足跡圖的生成,對爬蟲方式收集的數據進行清洗,將清洗后的數據按每個詩人名作的相關數據從原本的詩詞數據庫中提取出來,并且按照其創作時間排序。
3.2基于詩歌數據知識圖譜生成詩人行走足跡圖
得到數據之后,利用python的畫圖工具,如pyecharts來實現足跡圖的生成。
將表格中的數據格式化后,按照時間創建時間軸對象后,按照每條數據的元組數據生成足跡圖。
圖例中圖標信息:
白色點:詩人去過的地方
紅色點:當前時間點詩人所在地
箭頭:詩人從某地移動到目的地
附地圖生成代碼數據讀取和足跡圖生成部分:
poet_name = "杜甫"
dataset = pd.read_csv('dataset_'+ poet_name +'.csv')
data=np.array(dataset).tolist(? )
timeline.render('active_map_'+ poet_name + '.html')
依照該部分代碼,將表格數據文件以dataset_詩人名.csv的格式讀取時,可以實現生成每個詩人的行走足跡圖。
第四章 總結概括
4.1項目總結
系統的分析方法可以有效地挖掘出詩詞數據背后所蘊含的價值,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力,為社會提供更多的價值。
4.2結束語
本文論述了知識圖譜技術在詩詞數據的部分前景,歷史上某位詩人所處的位置可能隨著時間因素,因其不同的經歷而發生變化,因此從詩人對應的經歷數據中,抽取地點、時間等屬性類,將其軌跡動態映射到地圖上。在分析數據的同時挖掘出隱藏在數據背后的價值,以便大家更好地學習詩詞。
參考文獻
[1]? 王紅 張青青 蔡偉偉 姜洋.基于Neo4j的領域本體存儲方法研究[J].計算機應用研究.2017,34(08):2404-2407.
[2]? 周莉娜 洪亮 高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作.2019,63(02):24-33.
[3]? 劉嶠 李楊 段宏 劉瑤 秦志光.知識圖譜構建技術綜述[J].計算機研究與發展.2016,53(03):582-600.
基金項目:由北京信息科技大學2020年大學生創新創業訓練計劃項目資助(5102010805)。
This work is supported by 2020?College Student Innovation and Entrepreneurship Training Program of BISTU(5102010805)