999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的詩人行走足跡圖

2020-12-23 07:16:49牛文鈺許若柯李揚陽繆學聰高晨田英愛
科學導報·學術 2020年48期
關鍵詞:數據挖掘

牛文鈺 許若柯 李揚陽 繆學聰 高晨 田英愛

摘? 要:歷史上某位詩人所處的位置可能隨著時間因素,因其經歷而發生變化,因此從詩人對應的經歷數據中,抽取任務、地點、時間和事件等屬性類,將其軌跡動態映射到地圖上。

關鍵詞:詩詞;知識圖譜;數據挖掘;足跡圖

第一章 概述

1.1研究背景:

詩詞作為中華民族文化的瑰寶,在歷史長河中閃爍著熠熠光輝。然而,現代對中華詩詞精通的人卻特別少,學習中華古典文化需要付出相當大的精力,這在時間方面不利于我們學習與傳承中華文化歷史。

1.2 項目意義:

本課題希望通過對中華詩詞的分析,按照時間、地點等脈絡以及人物關系,結合歷史背景,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力。

1.3 項目方案:

課題主要工作包括:中華詩詞的文本數據采集、標注技術研究、作者和詩詞內容關聯分析等主要工作,同時基于此研究,將其應用于生成詩人的行走足跡圖。

本項目從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。之后,將采集到的信息進行處理,并通過neo4j以圖數據庫的形式存儲數據,之后借由圖數據庫達到生成詩詞相關信息——詩人的行走足跡圖的目的。

第二章 數據技術相關介紹

2.1數據收集

從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。

在本次項目中使用的是基于python語言的CrawlSpider爬蟲框架,通過分析網頁的頁面編排模式,獲取所需詩歌的內容。

屬性確定:本次項目所需的數據包括詩歌的標題、詩人、朝代、內容、注釋、賞析。

2.2數據清洗

初步獲取到的數據大致存在以下問題:

2.2.1對應屬性值為空

某些詩歌可能存在詩人不明,朝代空缺,沒有注釋與賞析的情況。

處理方案:將原本網頁中缺失的數據自動補齊,向其中填寫“無”。

2.2.2雜項數據

從html上獲取的文本信息,可能含有大量無意義的換行符,以及混在正常數據中的UI界面文本。

處理方案:分析雜項數據的內容,對其進行替換。

2.2.3指代消解問題

數據中包含一些指代相同的詞語,如“唐朝”和“唐代”,兩個詞本身意義相同,為了消除指代消解問題,這里統一將“代”改為“朝”。

2.2.4作者不詳,年代不詳的詩歌處理

數據中具有作者為佚名、年代不詳的詩歌,將其單獨清洗成一個json文件。

2.3數據挖掘(分詞+建立三元組)

首先,我們對對每首詩中的賞析部分進行分詞,文本后的符號代表該詞的詞性。

之后我們建立不同的三元組——詩與詩人、詩與地點、詩與詩、詩與詩人、詩與年代,以及對文本內容補充抽取關系,從而便于知識圖譜的建立。

2.4數據可視化(建立知識圖譜)

將所有三元關系集合起來存放到一個表中,建立知識圖譜可視化。

2.5環境搭建

在虛擬機/本機上裝好Windows系統,在Windows上安裝必要的python環境,配置好Neo4j。

第三章 分析方法總結及結果展示

3.1 詩歌數據處理

為了實現詩人行走足跡圖的生成,對爬蟲方式收集的數據進行清洗,將清洗后的數據按每個詩人名作的相關數據從原本的詩詞數據庫中提取出來,并且按照其創作時間排序。

3.2基于詩歌數據知識圖譜生成詩人行走足跡圖

得到數據之后,利用python的畫圖工具,如pyecharts來實現足跡圖的生成。

將表格中的數據格式化后,按照時間創建時間軸對象后,按照每條數據的元組數據生成足跡圖。

圖例中圖標信息:

白色點:詩人去過的地方

紅色點:當前時間點詩人所在地

箭頭:詩人從某地移動到目的地

附地圖生成代碼數據讀取和足跡圖生成部分:

poet_name = "杜甫"

dataset = pd.read_csv('dataset_'+ poet_name +'.csv')

data=np.array(dataset).tolist(? )

timeline.render('active_map_'+ poet_name + '.html')

依照該部分代碼,將表格數據文件以dataset_詩人名.csv的格式讀取時,可以實現生成每個詩人的行走足跡圖。

第四章 總結概括

4.1項目總結

系統的分析方法可以有效地挖掘出詩詞數據背后所蘊含的價值,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力,為社會提供更多的價值。

4.2結束語

本文論述了知識圖譜技術在詩詞數據的部分前景,歷史上某位詩人所處的位置可能隨著時間因素,因其不同的經歷而發生變化,因此從詩人對應的經歷數據中,抽取地點、時間等屬性類,將其軌跡動態映射到地圖上。在分析數據的同時挖掘出隱藏在數據背后的價值,以便大家更好地學習詩詞。

參考文獻

[1]? 王紅 張青青 蔡偉偉 姜洋.基于Neo4j的領域本體存儲方法研究[J].計算機應用研究.2017,34(08):2404-2407.

[2]? 周莉娜 洪亮 高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作.2019,63(02):24-33.

[3]? 劉嶠 李楊 段宏 劉瑤 秦志光.知識圖譜構建技術綜述[J].計算機研究與發展.2016,53(03):582-600.

基金項目:由北京信息科技大學2020年大學生創新創業訓練計劃項目資助(5102010805)。

This work is supported by 2020?College Student Innovation and Entrepreneurship Training Program of BISTU(5102010805)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产综合精品一区二区| 日韩色图区| 噜噜噜综合亚洲| 欧美国产日韩在线| 五月婷婷亚洲综合| 国产精品极品美女自在线网站| 狠狠亚洲婷婷综合色香| 精品少妇人妻一区二区| 日本三区视频| 精品国产女同疯狂摩擦2| 又猛又黄又爽无遮挡的视频网站| 美女视频黄频a免费高清不卡| 精品国产Av电影无码久久久| 欧美国产三级| 亚洲区第一页| 小蝌蚪亚洲精品国产| 好吊日免费视频| 国产高潮视频在线观看| jizz在线免费播放| 国产高潮视频在线观看| 色综合网址| 国产微拍一区| 在线亚洲小视频| 青青草原偷拍视频| 国产在线98福利播放视频免费| 日韩午夜伦| 日韩国产综合精选| 久久网综合| 国产av一码二码三码无码| 国产第四页| 无码人妻热线精品视频| 国产激情国语对白普通话| 久久性妇女精品免费| 日韩成人免费网站| 久久婷婷国产综合尤物精品| 午夜免费小视频| 高清色本在线www| 亚洲无码免费黄色网址| 国产精品观看视频免费完整版| 高h视频在线| 999国内精品视频免费| 青青青国产视频| 五月婷婷综合网| 国产男女免费视频| 中文成人在线视频| 成人精品午夜福利在线播放| 国产精品永久免费嫩草研究院| 亚洲欧洲日韩久久狠狠爱| 三级国产在线观看| 制服丝袜亚洲| 精品丝袜美腿国产一区| 欧美精品在线免费| 天堂成人在线视频| 久草视频精品| 亚洲精选无码久久久| 国产色婷婷视频在线观看| 毛片大全免费观看| jizz国产视频| 国产丝袜无码精品| 日韩视频免费| 日韩精品高清自在线| 亚洲国产精品VA在线看黑人| 麻豆精品视频在线原创| 亚洲成av人无码综合在线观看| 久久精品只有这里有| 天堂成人在线| 亚洲一级毛片在线播放| 免费在线国产一区二区三区精品| 国产成人一区免费观看| 狠狠色成人综合首页| 日韩欧美综合在线制服| 亚洲中文无码h在线观看| 国产乱子伦精品视频| аⅴ资源中文在线天堂| 福利姬国产精品一区在线| 日韩性网站| 日韩精品亚洲人旧成在线| 亚洲男人天堂网址| 真实国产乱子伦视频| 一本大道AV人久久综合| 夜夜爽免费视频| 国产午夜精品鲁丝片|