梁藝馨 翟潔 李東睿 熊瀚銳



摘要:針對當前古詩詞及相關(guān)領(lǐng)域知識數(shù)量龐大且關(guān)聯(lián)性較弱的情況,本文研究了古詩詞知識圖譜可視化的相關(guān)技術(shù)。本平臺的搭建包括可視化圖譜展示、智能問答、古詩分類、詩人行跡等核心模塊。本文給出了相應(yīng)的關(guān)鍵技術(shù)和實現(xiàn)算法,并利用以上技術(shù)搭建了一個高交互性的可視化系統(tǒng)。該系統(tǒng)以圖譜形式對古詩詞及相關(guān)知識進行可視化展示,為學習者提供了一個交互性強、趣味性高的古詩詞學習可視化學習教育平臺,具有較高的教育教學價值,同時可以為相關(guān)領(lǐng)域的學習者提供一個針對性強的古詩詞知識庫。
關(guān)鍵詞:古詩詞;知識圖譜;可視化;文本識別;意象分類
眾所周知,古詩詞是中華文明五千年的傳承,是每個中國人生長的土壤,然而,在全面智能化的今天,國內(nèi)關(guān)于古詩詞的知識圖譜仍不完善,導(dǎo)致古詩詞和傳統(tǒng)文化的知識網(wǎng)絡(luò)還比較零散,缺乏有機結(jié)合。此外,目前還沒有一個完整的、收錄并分類總結(jié)古詩詞意象的知識庫,也不存在可以將古詩詞自動分類的系統(tǒng)。
為了解決上述問題,本文基于可視化與自然語言處理技術(shù),創(chuàng)建了一個基于古詩詞和其他傳統(tǒng)文化交融的學習教育平臺,本平臺具有可視化圖譜展示、智能問答、古詩分類和詩人行跡等四個核心模塊,可以有效地解決學習者在閱讀和欣賞古詩詞時由于相關(guān)知識缺乏,無法進行良好的學習和記憶,以及學習者難以在大量的古詩詞和傳統(tǒng)文化數(shù)據(jù)中高效獲取所需信息的問題。
一、實現(xiàn)可視化圖譜的相關(guān)技術(shù)介紹
(一)古詩詞領(lǐng)域知識庫構(gòu)建
本文以權(quán)威的古詩詞網(wǎng)站和專業(yè)古典文學書籍為基礎(chǔ),創(chuàng)建了對象-古詩詞類別庫,基于事件間的因果邏輯的自然文本處理技術(shù),并結(jié)合事理知識圖譜的構(gòu)建創(chuàng)建了古詩詞-事件知識庫,將上述兩個知識庫融合為描述對象-古詩詞-事理庫。
(二)歷史沿革事理圖譜子圖構(gòu)建
將事理知識圖譜和智能化技術(shù)運用于古詩詞、中國歷史等領(lǐng)域,不僅有益于對中華優(yōu)秀傳統(tǒng)文化進行推廣和學習,還起到了知識融合的效果。通過事件關(guān)系抽取技術(shù)[1],我們獲得古詩詞中事件間的邏輯關(guān)系,并實現(xiàn)了事理古詩詞知識庫的搭建,同時構(gòu)建了面向古詩詞學習等熱點的因果事理圖譜。通過這種方法構(gòu)建的古詩詞學習平臺,相比傳統(tǒng)的古詩詞學習方法,節(jié)省了整合資源的時間,提高學習者獲取關(guān)鍵信息的速度,滿足人們對學習和閱讀古詩詞的需求,具有重要意義。
1.描述對象-古詩詞-歷史事件庫的構(gòu)建
本文采用自頂向下的方法進行描述對象-古詩詞-歷史事件庫的構(gòu)建,因此,首先需要創(chuàng)建模式圖,包括:
①總體模式圖
總體模式圖包括:古詩詞中事物實體、人物實體、景物實體、古詩詞實體、歷史事件實體及實體間的關(guān)系。
②歷史事件事理圖譜的模式圖
為了直觀展示古詩詞-古建筑內(nèi)部的聯(lián)系以及二者之間的關(guān)系,首先要建立古詩詞-古建筑層次結(jié)構(gòu)圖。
在古詩詞領(lǐng)域中,存在很多上下位關(guān)系。本項目采用作者、時期(即朝代)等因素作為古詩詞相關(guān)知識的下層知識。作者、時期又各自包含其他子概念,從而形成上下位關(guān)系的層次結(jié)構(gòu)。
此外,為了更清晰地描述圖譜的結(jié)構(gòu),本文根據(jù)一部分歷史事件知識實體創(chuàng)建了歷史事件事理圖譜的模式圖。該模式圖使用整體和先后關(guān)系、并列關(guān)系以及因果關(guān)系的圖示來描述事理圖譜的結(jié)構(gòu)概念。
圖1展示了歷史事件事理圖譜一部分的整體結(jié)構(gòu),從圖中每個圓圈節(jié)點代表歷史事件,節(jié)點之間的有向連線代表關(guān)系。
2.歷史事件事理圖譜子圖的構(gòu)建算法
事件事理圖譜全圖構(gòu)建的基本思路為:匹配全圖,截取子圖。
事件事理圖譜子圖構(gòu)建的算法:①提取起止事件節(jié)點;②使用起止節(jié)點和全圖中的所有節(jié)點進行匹配;③在全圖中取起止節(jié)點之間的所有節(jié)點以及起止節(jié)點;④取這些節(jié)點之間的全部有向邊。
從一首古詩詞的賞析文本中提取到對應(yīng)的起始事件節(jié)點和終止事件節(jié)點,將其存入事件子圖數(shù)據(jù)表中,當需要構(gòu)建一個相應(yīng)子圖時,將這兩個起止事件節(jié)點與圖譜全圖中的事件節(jié)點進行對比匹配,匹配成功后選取起止事件節(jié)點及兩者之間的所有事件節(jié)點作為子圖。
二、智能問答部分的技術(shù)實現(xiàn)
(一)智能問答的實現(xiàn)流程
該模塊提供模糊查詢的功能。學習者在搜索欄輸入問題后點擊“確認”按鈕,后臺會提取學習者問題中的關(guān)鍵詞,并與存儲的問題庫進行相似性計算。系統(tǒng)將根據(jù)相似度從高到低的順序顯示相關(guān)的答案,讓用戶選擇最關(guān)心的問題,并給出相應(yīng)的答案,從而使學習者獲取相關(guān)的知識內(nèi)容及回答,輸出結(jié)果如圖2所示。
此外,如果學習者輸入的搜索內(nèi)容為空,則不進行頁面跳轉(zhuǎn),保持原頁面不變。如果搜索內(nèi)容不為空且在后臺數(shù)據(jù)庫中有相關(guān)的數(shù)據(jù)存儲,則顯示相應(yīng)的結(jié)果。如果沒有相關(guān)的數(shù)據(jù)存儲,則不進行頁面跳轉(zhuǎn),仍然顯示原頁面。學習者可以點擊“重置”按鈕清空輸入欄中的內(nèi)容,以便進行重新搜索。
(二)古詩詞分類模塊的技術(shù)實現(xiàn)
1. 意象實體識別
漢語作為象形文字,相對于拼音文字如英文而言更為復(fù)雜,并且古詩詞與現(xiàn)代漢語的句型、句式存在差異,其中包括倒裝、駢句、省略等現(xiàn)象,這些現(xiàn)象會對識別產(chǎn)生重大影響,導(dǎo)致沖突。因此本項目選擇使用“基于神經(jīng)網(wǎng)絡(luò)”的命名體識別[2]方法。
盡管如此,由于古詩詞文體的特殊性,針對古詩詞的NER任務(wù)[3]來說往往要更有挑戰(zhàn)性,下面列舉幾點:
中文文本中不存在明顯的界限標志,而且“詞”在中文里本來就是一個很模糊的概念,中文也不具備英文中的字母大小寫等形態(tài)指示。
古詩詞的用字、句型靈活多變,有些詞語在脫離上下文語境的情況下無法判斷是否是命名實體,即使是命名實體,當其處在不同的上下文語境下,可能表示不同的實體類型,此外古詩詞中存在許多特殊句式,增加了實體識別的難度。例如“腰白玉之環(huán)”中存在“腰”名詞動用為“在腰上佩戴”;“將軍角弓不得控,都護鐵衣冷難著。”中存在互文現(xiàn)象。
命名實體存在嵌套現(xiàn)象,例如“氣蒸云夢澤,波撼岳陽城”在“岳陽城”中還嵌套著同樣是地名的“陽城”,而且這種現(xiàn)象在具體地名中尤其嚴重,容易導(dǎo)致分析詩句描寫地點時判別錯誤。
④古詩詞中存在借代和引用的情況,如《滕王閣序》中出現(xiàn)了“勝地不常,盛筵難再;蘭亭已矣,梓澤丘墟。”這里提到了“蘭亭”這一古建筑名稱,但實際上,該文是在描寫滕王閣而非蘭亭。
⑤古詩詞里廣泛存在簡化表達現(xiàn)象,例如,在“煙波江上使人愁”中的“江”實際指的是“長江”,但在“醉不成歡慘將別,別時茫茫江浸月”中的江則指代的是“湓江”,因此,要分析簡化表達所指代的具體地名,必須結(jié)合上下文和寫作背景,不能一概而論。
⑥命名體(本項目研究的古詩詞意象)中普遍存在相同意象卻有不同的名稱,如“月華”“小蟾”“玄兔”等都是用來表示月亮的,而“金陵”“石頭城”“江寧”都是現(xiàn)南京的別稱,如果不進行分類總結(jié),將會極大程度降低意象的代表性和相似性。
為了解決上述問題,本項目選擇使用基于字的BiLSTM-CRF[4]模型
2.實現(xiàn)原理
經(jīng)過分析,本團隊認為古詩詞分類的最主要依據(jù)是古詩詞中包括的意象。例如,包含“樓蘭”“玉門關(guān)”“羌笛”的古詩詞很大概率屬于“邊塞詩”;包含“畫眉”“妝奩”的古詩詞多屬于“閨怨詩”。因此,本團隊選擇“意象”作為古詩詞分類的依據(jù)。具體實現(xiàn)原理如下:
本文篩選出第一層級的意象,如“羌笛”“胡雁”等具有唯一指向性的意象,如表2所示,只要詩詞中存在此意象,就直接將該詩劃分為“邊塞詩”;對于第二層級的意象,如“柳”“杜宇”等具有典型性但不具有唯一指向性的意象,如表3所示,利用相關(guān)性計算,最后求出該詩詞是各種類別詩詞的可能,從而進行分類。而對于第三層級的意象,如“白云”“流水”“青山”“日出”“溫泉”“山茶”等不具有指向性的意象,本項目采取自動剔除的措施,即此類意象不參與詩詞類別的劃分。
3.技術(shù)實現(xiàn)
本項目收錄了古詩詞網(wǎng)記載的古詩詞,從中選取了最具代表性的“唐詩三百首”和“宋詞三百首”,作為樣本,通過人工標注意象的形式,利用基于字的BiLSTM-CRF模型,評測中所采用BIO標注集,劃分結(jié)果如表4所示。
構(gòu)建古詩詞中的同義詞詞庫,如:“月華”“小蟾”“玄兔”等都是用來表示月亮的,而“金陵”“石頭城”“江寧”等都是現(xiàn)南京的別稱,如果不加以分類總結(jié),會極大程度降低意象的代表性和相似性,因此在意象分析的時候,本項目選擇構(gòu)建一個同義詞詞庫,如表5所示,進而提高結(jié)果的正確率。
三、詩人行跡部分的技術(shù)實現(xiàn)
(一)地點實體識別
本文基于智能問答模塊構(gòu)建的意象庫,構(gòu)建了“地點庫”,用以識別詩詞中包含的地點信息,從而服務(wù)于后續(xù)的詩人行跡的地圖繪制。
(二)詩詞地圖的繪制
本項目收錄百度百科上的詩人“人物生平”部分,并按詩人劃分存入文件,后將詩人生平文本在“地點庫”遍歷一遍,輸出地點識別結(jié)果。
后將識別出的全部地點遍歷“省數(shù)據(jù)庫”,將地點精確到“省”。
利用百度地圖提供的基于百度地圖的應(yīng)用程序接口,在地圖上標注出識別到的地點。
導(dǎo)入詩人詩詞庫,按照地點分類,歸類到對應(yīng)的地點坐標下。
四、結(jié)束語
為了解決當下古詩詞知識圖譜不完善的問題,本項目基于可視化和命名實體識別技術(shù)搭建了一個學習教育平臺,該平臺包括可視化圖譜展示、智能問答、古詩分類和詩人行跡等四個核心模塊。為了實現(xiàn)詩人行跡和詩詞分類的功能,本項目提出并實現(xiàn)了意象識別算法,并創(chuàng)新提出了第一層級意象、第二層級意象和第三層級意象的概念。這可以有效解決學者在閱讀和鑒賞古詩詞時由于相關(guān)知識的缺乏而無法很好地學習和記憶,以及文學工作者在大量的古詩詞和傳統(tǒng)文化數(shù)據(jù)中高效獲取所需信息的問題。
作者單位:梁藝馨 翟潔 李東睿 熊瀚銳 華東理工大學
參考文獻
[1] 姜磊,劉琦,趙肄江等.面向知識圖譜的信息抽取技術(shù)綜述[J].計算機系統(tǒng)應(yīng)用,2022,31(07):46-54.
[2] 陳志峰. 基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別方法研究[D].福建工程學院,2022.
[3] 張鳳荔,黃鑫,王瑞錦等.基于BERT多知識圖融合嵌入的中文NER模型[J].電子科技大學學報,2023,52(03):390-397.
[4] 湯潔儀,李大軍,劉波.基于BERT-BiLSTM-CRF模型的地理實體命名實體識別[J].北京測繪,2023,37(02):143-147.
梁藝馨(2002.10-),女,漢族,遼寧東港,本科,學生,研究方向:智能科學與技術(shù);
翟潔(1977-)女,漢族,江蘇南通,華東理工大學,講師,研究方向:大模型、知識圖譜、大數(shù)據(jù)分析、教育改革與發(fā)展;
李東睿(2002.03.14-),男,漢族,黑龍江牡丹江,本科,學生,研究方向:智能科學與技術(shù);
熊瀚銳(2002.6.28),男,漢族,湖南常德,本科,學生,研究方向:軟件工程。