摘 要∶人文計算中的語義組織對人文計算研究具有重要意義。文章采用案例調查與文獻分析的方法,從語義組織技術、基于語義組織的人文計算服務兩個方面對人文計算中的語義組織研究現狀進行梳理、總結并提出相應的建議。未來的人文計算研究可加深語義標注的層次,促進領域數據的關聯與復用,開發出更多的語義知識服務。
關鍵詞∶人文計算;語義組織;數字人文;知識圖譜
中圖法分類號∶TP3-05??? 文獻標識碼∶A
Research on semantic organization in humanities computing
LIU Jianbin
(College of Information Management, Nanjing Agricultural University, Nanjing 21095, China)
Abstract:Semantic organization in humanistic compouting is of great significance to the research of humanistic computing. Using the methods of case investigation and literature analysis, this paper sorts out the research status of semantic organization in humanistic computing from two perspectives:semantic organization technology andhumanistic computing services based on semantic organization, and puts forward corresponding suggestions. Future humanistic computing research can improve semantic annotation,enhance domain data correlation and reuse, and provide more semantic knowledge services
Key words: humanistic computing, semantic organization,digital humanities,knowledge graph
1引言
整合領域知識的常見方法是以語義化的方式來對不同來源與不同結構的數據進行組織,近年來,人文計算的處理對象越來越多樣化,數據的結構越來越復雜,結合本體、語義知識圖譜、機器學習等語義技術對人文計算資源進行有效的語義組織與整合是人文計算研究中的關鍵一步。在此背景下,本文以人文計算領域中的相關研究及項目為基礎,對國內外人文計算領域中的語義組織技術研究現狀進行研究,以期為人文計算的語義組織研究提供借鑒。
2人文計算中的語義組織
語義組織使研究者能夠更快地發現原始數據及資源之間的內在聯系,從而更加準確地發現有關事實,解決研究問題。人文計算研究中的語義組織方法主要分為傳統語義組織技術、現代語義組織技術及其他語義組織技術等三個類別。
2.1傳統語義組織技術
(1)敘詞表
敘詞表以概念為基本原則,認為任何語詞都是概念的象征,通過概念以及概念間的關系構建專業領域的知識。Getty詞表是人文計算領域中比較有代表性的詞表,被廣泛應用于博物館編目和文獻工作,以及藝術、建筑和物質文化方面的數據檢索,是人文計算領域的經典詞表。我國的敦煌壁畫主題詞表是借鑒AAT的分面與層級劃分關系,針對敦煌壁畫的內容構建的敘詞表,用于規范敦煌壁畫數據的標注與挖掘。除此之外,針對人文計算領域構建的敘詞表還有樂器分類詞表、藝術作品描述類目[1]等領域詞表,以及人名規范、地理名稱規范詞表等。使用敘詞表在人文計算中進行語義組織的優點是敘詞表的使用簡單方便,但敘詞表的編制較為困難,不適用于組織有個性化需求的數據。
(2)元數據
元數據用于描述資源的基本信息、存儲位置信息。將元數據模型用于人文計算領域的語義組織的主要步驟有元數據元素信息抽取、元數據元素定義與描述規范設計、基于元數據的信息庫建設以及元數據應用體系構建。都柏林核心元數據用于描述網絡信息資源,包含15個核心元素集,可以分為資源內容描述、知識產權描述和外部特征屬性描述三個部分,適用于對資源的控制和管理進行規范,與其他元數據之間互操作性強。在人文計算的應用中,DC元數據常常與其他模型結合來組織領域數據,如胡以濤[2]在復用DC元數據以及CIDOC-CRM的基礎上建立了描述農業文化遺產的元數據標準,姚天泓等[3]在復用DC元數據、CIDOC-CRM,FOAF的基礎上對張學良史料資源進行語義組織。
2.2現代語義組織技術
(1)本體
本體是對某個領域的概念及其相互之間關系的形式化表達,人文計算領域比較通用的本體模型有CIDOC-CRM,EDM等。CIDOC-CRM是國際文獻工作委員會開發的概念參考模型,用于描述文化遺產領域信息的概念與關系,是一種以事件為中心的本體構建方法。陳艷[4]以DC元數據的映射為例,介紹了基于CIDOCCRM的文化遺產資源的元數據集成方案;Tan[5]在CIDOCCRM的基礎上構建了“喪葬舞蹈”本體。EDM是歐洲數字圖書館Europeana在采用其他數據模型的基礎上,根據自身的數據特點設計的語義描述模型,建立了面向文化遺產領域的元數據知識本體模型[6]在拓展EDM的基礎上構建了女性內容表達本體。此外,還有許多領域本體,如ABC本體、地緣政治本體、音樂本體、舞蹈本體等。由于大部分研究都針對資源特點構建了本體,所以人文計算領域的本體較多,彼此之間的復用性較差。
(2)關聯數據
關聯數據是萬維網發明者TimBerners-Lee在2006年提出的,關聯數據建立在標準的網絡技術(如HTTP,RDF和URI)的基礎上,旨在使計算機也能理解網頁上的信息。目前,大部分傳統語義組織工具都發布了關聯數據形式,如Getty敘詞表、敦煌壁畫主題詞表、DC元數據等,方便用戶使用。上海圖書館將家譜數據、檔案數據以關聯數據的形式發布在網站上;歐洲數字手稿項目[7]以關聯數據技術重構并發布數字人文關聯開放數據集;“威尼斯時光機”項目通過關鍵詞建立起不同類型文檔的鏈接,將信息組織成一個巨大的關聯數據資源庫[8]。
(3)知識圖譜
知識圖譜是谷歌公司在2012年提出的一種組織知識單元的方法,在實際應用中可以分為廣義知識圖譜與語義知識圖譜。陳濤等[9]以CBDB中的數據為基礎,構建了人物關系知識圖譜,并對其中的人物關系進行推理補充;楊海慈等[10]構建了宋代師承關系知識圖譜;周莉娜等[11]構建了唐詩知識圖譜并開發出唐詩智能服務平臺KnowPoetry。相較于其他語義組織方法,知識圖譜的優點是可以實現知識推理可視化。
2.3其他語義組織工具
GIS是一種空間信息的分析與處理的計算機工具,人文計算研究中常將原始數據通過GIS進行空間的可視化,這是人文計算中語義組織的方式之一。Knoerl[12]認為歷史地圖能清晰地讓歷史學家了解一個地區的歷史,最早將GIS技術引入歷史學的研究中。Murrieta[13]使用GIS分析了19世紀英國霍亂發生的位置信息。
3基于語義組織的人文計算應用
在現有研究中,部分人文計算學者在語義組織的基礎上開發出面向用戶的知識服務,拓展了語義組織的作用與意義。目前,基于語義組織的人文計算應用主要有知識可視化、語義檢索、智慧知識服務三個方面。
3.1知識可視化
人文計算語義組織可視化的應用主要有基于知識圖譜、GIS、歷史時間軸等方式的可視化。大不列顛名人庫用可視化技術展示名人之間血緣關系或因處于同一時空而產生的關聯關系等;嚴承希等[14]以CBDB的數據為基礎,繪制了宋代政治網絡關系圖,展現宋代的政治中心演變與政治合作對抗關系;美國猶他家譜學會數據庫利用時空關聯和親屬關系等可視化內容特征來探索家譜資源和人物關系。基于知識圖譜以及VR技術、GIS技術的知識發現平臺,促進了人文計算研究結果的轉化。
3.2語義檢索
人文計算研究者將語義組織后的數據庫、知識庫開放給用戶查詢使用,主要包含兩個方面:一是在用戶的檢索結果內提供語義化的結果,用戶可以在普通檢索界面進行語義檢索或在檢索結果中通過關聯數據發現相關結果;二是人文計算項目平臺為用戶提供專業的SPARQL查詢,如上海圖書館開放數據平臺的家譜知識服務平臺、盛宣懷檔案數據庫為用戶提供SPARQL查詢方式等。普通用戶通過人文計算項目提供的語義檢索平臺可以發現更多知識,便于獲取信息。
3.3智慧服務
智慧服務指人文計算研究者為用戶提供深層次的人文計算服務。當前,人文計算研究者推出的面向普通用戶的深層次人文計算智慧服務較少,處于發展階段。中國家譜知識服務平臺是上海圖書館推出的基于關聯開放數據的數字人文服務,用戶可以在該平臺查閱家譜、進行姓氏尋根溯源,也可以在線修家譜、上傳家譜數據等;清華大學的九歌智能系統具有自動寫詩服務,用戶可以輸入關鍵詞由系統自動生成詩歌;還有學者將有關語義信息應用于博物館館藏品的在線展示中,為用戶提供展覽品的時空演變過程信息。
4總結
本文對人文計算研究中的語義組織技術以及語義的人文計算服務進行了梳理。從當前已有的研究結果來看,大部分傳統的語義組織工具,如敘詞表、元數據等都發布了關聯數據的形式,元數據在人文計算語義組織中的使用經常根據數據特點與其他模型相結合;人文計算領域的本體較多,各本體之間的復用比較困難,缺少通用性較強的本體模型,尤其是在國內的研究中更為突出;人文計算中語義標注的層次較淺,語義知識圖譜的構建較少,知識推理的研究相對較少;人文計算中面向普通用戶的語義服務較少,沒能為用戶提供方便使用的人文計算服務。在今后的研究中,人文計算學者可以加深數據語義標注的層次,建立數據之間的關聯,開發領域語義組織工具與通用數據模型,并開發更多的人文計算服務。
參考文獻:
[1]LubasRL,JacksonAS,SchneiderI.UsingCategoriesfortheDescriptionofWorksofArt(CDWA)andCDWALite:WithinformationfromtheGettyInstitute[J].Metadata
Manual2013:93-133.
[2]胡以濤,惠富平.元數據方法在數字人文視域下的應用探索—以農業文化遺產為例[J].圖書館,2019(1):82-87.
[3]姚天泓,陳艷梅,劉革,等.基于CIDOC-CRM的數字人文史料資源語義化知識組織研究—以張學良史料資源為例[J].圖書館學刊,2019,41(7):35-43.
[4]陳艷,周馨.基于CIDOCCRM的文化遺產資源的元數據集成—以DC元數據的映射為例[J].現代情報,2010,30(5):60-63+84.
[5]TanG,SunG,ZhongZ.KnowledgeRepresentationof“FuneralDance”BasedonCIDOCCRM[C]//20092ndInternationalSymposiumonKnowledgeAcquisitionandModeling(KAM2009),2009:39-42.
[6]KyvernitouI,BikakisA.AnOntologyforGenderedContentRepresentationofCulturalHeritageArtefacts[J].DigitalHumanitiesQuarterly,2017,11(3):58-66.
[7]BaiererK,EckertK,GoldfarbD,etal.DM2E:ALinkedDatasourceofDigitisedManuscriptsfortheDigitalHumanities[J].SemanticWeb,2017,8(5):733-745.
[8]翟姍姍,張純,許鑫.文化遺產數字化長期保存策略研究—以“威尼斯時光機”項目為例[J].圖書情報工作,2019,63(11):140-148.
[9]陳濤,劉煒,單蓉蓉,等.知識圖譜在數字人文中的應用研究[J].中國圖書館學報,2019,45(6):34-49.
[10]楊海慈,王軍.宋代學術師承知識圖譜的構建與可視化[J].數據分析與知識發現,2019,3(6):109-116.
[11]周莉娜,洪亮,高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作,2019,63(2):24-33.
[12]SantosJ.Usingmachinelearningmethodsfordisambiguating
placereferencesintextualdocuments[J].Geojournal,2015,80(3):375-392.
[13]Murrieta-FloresP,BaronA,GregoryI,etal.Automatically
AnalyzingLargeTextsinaGISEnvironment:TheRegistrarGeneral'sReportsandCholerainthe19thCentury[J].TransactionsinGIS,2015,19(2):296-320.
[14]嚴承希,王軍.數字人文視角:基于符號分析法的宋代政治網絡可視化研究[J].中國圖書館學報,2018,44(5):87-103.
作者簡介:
劉建斌(1997—),碩士,研究方向:文本挖掘與數字人文。