左 丹,歐石燕
數字人文(Digital Humanities)是在數字技術支撐下開展人文研究而形成的交叉研究領域,其研究與實踐的重點之一在于使用數字技術對數字化或原生的數字人文信息資源進行采集、描述、組織與分析。人文信息資源具有復雜性和多樣性,如何將其轉化為計算機可讀、可處理、可理解、可利用的優質數字資源,是在數字人文研究中需要解決的重要問題。傳統數字人文研究多建立在實體資源數字化的基礎上,并通過為數字資源添加簡單元數據來完成資源的描述與組織工作,但該方式僅能揭示資源粗粒度的淺層外部特征,無法有效解決數據格式異構、實體名稱歧義、實體間關系描述等問題,不利于資源的深度分析與有效利用。利用本體、關聯數據等語義網技術,能夠實現對人文信息資源的語義描述與組織,從而為語義檢索、語義關聯、信息可視化、知識發現等知識服務提供支持。近年圖書情報、計算機和人文領域的學者們開始嘗試將語義網技術應用到人文信息資源描述與組織工作之中,并涌現了一批成功的研究實踐項目。在此背景下,本文對國內外人文信息資源語義描述、組織、發布、服務工作進行梳理總結,以期為數字人文研究與實踐提供參考。
人文信息資源的語義描述是關聯數據發布與知識服務的基礎,本體是有效的語義描述技術解決方案。在已有研究與實踐中,人文信息資源的語義描述主要聚焦于文化遺產、歷史地理、文學藝術等領域,本節將逐一進行總結評價。
當前文化遺產資源數字化工作得到以博物館為主的文化機構的重視,基于本體的數字文化遺產語義描述逐漸成為關注焦點,出現了大量領域本體模型,較具代表性的有國際文獻工作委員會之概念參考模型(CIDOC CRM)、ABC 本體、藝術品描述類目(CDWA)。這三個模型雖都面向文化遺產領域,但在內容設計與實際應用上各有特點。
CIDOC CRM 模型是一個文化遺產領域的基礎性本體,由國際博物館協會下的文獻工作委員會(ICOM-CIDOC)開發設計,首次發布于1999年并持續更新至今。2006年該模型成為ISO 推薦標準后得到廣泛應用,成為文化遺產資源語義描述的主流選擇。CIDOC CRM 模型最新版包含99 個類和188 個屬性,為文化遺產資源中各類顯性或隱性概念及其關系提供了可映射且可擴展的形式化描述規范[1]。ABC 本體是在美英澳國際合作項目Harmony 中開發設計的一個為實現跨領域資源整合的框架模型,有14 個類和20 個屬性[2]。ABC 本體與CIDOC CRM 模型的目標都是為了促進文化遺產資源的集成、共享與互操作,二者具有重疊性,因此Harmony 項目后期轉而開始研究ABC 本體與CIDOC CRM 模型的合并問題,ABC 本體逐漸停止使用。CDWA 是由藝術信息任務組(ATIF)設計的一個用于描述藝術品、建筑等數字文化遺產資源的元數據規范,包含540 個元素,其中有13 個核心元素,是描述一個資源對象所需的最少元素[3]。嚴格來說,CDWA 并不是真正意義上的本體模型,但提供了詳細的元素定義,經常被用來規范化描述數字文化遺產資源。在上述三個語義描述模型中,CIDOC CRM 模型提供了詳盡的類與屬性定義,具有強大的描述能力,可用來揭示資源對象內部深層次的細節語義信息,但它也被認為過于復雜,較深的類層次和抽象的類定義降低了模型的易用性和可理解性[4]。模型中時間特性的語義信息開始得到關注,通過設置時間相關的類與屬性,揭示資源對象在某一時間點的狀態、某段時刻內的狀態變化等動態語義信息,如CIDOCCRM模型中的“時空集合(Spacetime Volume)”類、ABC 本體中的“時間性(Temporality)”類。此外,模型間的映射問題引起了設計者的重視,如CDWA 與MARC 元數據規范、DC 元數據規范、CIDOC CRM 模型等均建立了映射關系,這反映了學界對于實現資源集成與共享的共同訴求。
近年CIDOC CRM 模型已被許多國際機構與項目團隊認可和使用。在這些項目實踐中,有的采用CIDOC CRM 模型描述文化機構館藏資源的創建者、類型、尺寸等元數據信息,如俄羅斯國家博物館[5]、波蘭數字圖書館聯盟[6];有的將CIDOC CRM 模型用于集成多個不同來源的文化遺產資源數據集,如歐盟項目SCULPTEUR 描述和集成了五個歐洲藝術機構繪畫藏品相關的人物、繪畫技術、風格等信息[7],CLAROS 項目整合了多個關于古希臘、古羅馬古典藝術的數據庫資源[8],芬蘭語義計算研究小組(SeCo)項目WW1LOD 集成并描述了多個一戰相關數據集所提供的戰爭事件、參與人物、時間、地點等信息[9]。此外,一些人文信息資源管理平臺將CIDOC CRM 模型作為資源描述規范推薦其用戶使用,如 ResearchSpace、Arches、WISSKI。也有一些項目在借鑒CIDOC CRM 模型的基礎上開發設計自己的語義描述模型。比如,歐洲數字圖書館項目Europeana 設計的EDM 模型復用CIDOC CRM 模型的部分類與屬性,描述了數字文化資源對象相關的事件、物理實體、人物等情境信息[10];斯洛文尼亞國家級項目Ethnomuse 綜合CIDOC CRM 模型與FRBR 模型,設計了一個靈活可擴展的數據模型,并用其描述了斯洛文尼亞民族歌舞多媒體資源相關的生產事件、表演者等信息[11]。這些案例均反映出CIDOC CRM 模型的可用性與適用性,其或將成為未來一段時間內文化遺產資源語義描述的最佳選擇。
國內尚缺乏應用CIDOC CRM 模型的大型項目實踐,僅有學者展開小范圍的研究探索。孫傳明[12]使用該模型描述民俗舞蹈的舞蹈類型、呈現形式、傳承人等信息。郝挺雷[13]基于該模型描述中國傳統節日相關的民俗活動、行為主體、物品等信息。董坤[14]在對該模型進行擴展的基礎上,描述非遺項目的流傳地域、時間、事件、參與者等信息。這一現狀主要緣于國內重要文化遺產收藏機構博物館在語義網領域的缺位、資源描述與組織未深入到語義內容層面、CIDOC CRM 模型與中文歷史資源的適配等問題的存在。由此,跨領域機構合作、描述規范標準統一、中文語義模型構建、國際主流模型映射等應引起關注。
早期的歷史地理領域研究與實踐多著眼于靜態單一的歷史信息或地理信息的語義描述。近年來,學者們開始關注歷史變更下的地理位置遷移問題,將時間維度的歷史信息與空間維度的地理信息相結合,衍生出了人文歷史地理信息的時空語義描述模型。
1.2.1 單一歷史或地理信息的語義描述
在歷史領域,一些學者針對某一歷史年代或歷史事件設計專門語義描述模型,如肖懷志等[15]的歷史年代本體、董慧等[16]的國共合作事件本體。這些模型提供了歷史紀年法下的時間實體同義異名問題,以及歷史事件中人物、時間、地點等實體對象間關系的描述方案。在地理領域,學者們重點關注地理名稱或位置信息的語義描述,如GeoNames 本體提供了現代地理名稱、行政歸屬、區域位置等地理特征信息的描述方案[17]。單一歷史或地理信息本體模型通常僅面向資源對象某一特定方面(如歷史年代、地理名稱)的語義信息,無法獨立完成歷史地理資源的宏觀語義描述,需要對其進行擴展。這些模型未實現時間與空間信息的關聯融合,人文信息資源中地理名稱變化、地理位置變遷等語義描述問題也沒有得到解決,實體概念歧義現象依舊存在。對于上述問題,一些學者開始嘗試從時間視角動態地描述地理名稱與地理空間的歷史演變,出現了時空維度下的歷史地理信息語義描述模型。
1.2.2 時空維度下的歷史地理信息語義描述
聯合國糧農組織地緣政治本體[18]、芬蘭時空本體(SAPO)[19]、上海圖書館歷史地理數據時空本體[20]等模型都提供了動態歷史地理信息的描述方案。在上述語義描述模型中,地緣政治本體通過設置屬性“是…的繼任(isSuccessorOf)”“是…的前任(isPredecessorOf)”“自…生效 (validSince)”“直到…有效(validUntil)”,實現對聯合國糧農組織成員國地理特征變化的簡單描述,與之類似的還有意大利 Geolat (Geography for Latin Literature)項目中的GO!本體[21]。芬蘭時空本體和上海圖書館歷史地理數據時空本體則針對這一問題設計了更為復雜的描述方案,其共同點在于通過設置時間類與屬性(如時間段、年號紀年)為資源對象增添時間維度信息,通過設置地理類與屬性(如邊界、地名)為資源對象增添空間維度信息,通過設置關聯關系(如時空區域STR、變更事件)將兩個維度的信息相互關聯。但與芬蘭時空本體相比,上海圖書館歷史地理數據時空本體中“事件”類的定義揭示了地理要素與事件、時間要素之間的語義關系,對人文信息資源內容信息的描述更具系統性和可擴展性,“年號紀年”類的設置更符合中國歷史特點,對于中文人文信息資源的語義描述具有更強的適用性。
歷史地理資源語義描述由單一、靜態向多維、動態的轉變反映出當前人文信息資源描述與組織工作趨于語義化、細粒度、內容性的發展態勢,學者們將更加關注人文信息資源內部蘊含的多種元素(如事件、人物、地點)及元素間關系的語義揭示,這有利于人文信息資源效用價值的充分挖掘與利用。但當描述資源某一特定內容信息時,已有的專門本體模型依舊是有效的,可以被借鑒參考或直接復用。
小說、詩歌、漫畫等文學作品和繪畫、音樂、舞蹈等藝術作品也是人文信息資源的重要組成部分。文學作品通常以圖書的形態存在,圖書館領域使用書目元數據方案對其進行語義描述;藝術作品表現形態特殊,學者們多針對特定類別展開建模工作。
1.3.1 文學作品的語義描述
DC、FRBR、BIBFRAME 是當前較成熟的面向書目元數據的元數據方案或模型,文學作品的語義描述多在參考這些模型的基礎上進行,區別在于描述的粒度與深度不同。
以圖書館為主的文化機構使用這些模型描述館藏資源,如美國國會圖書館[22]、上海圖書館[23];Senan Kiryakos[24]、Eetu Makela[25]等則對這些模型的層級進行簡化改進以描述日本漫畫、芬蘭小說等特定資源對象。在描述過程中,研究者們開始關注不同類型的文學作品所特有的信息內容,如日本漫畫的卷期連載關系、小說的類型流派與故事角色、家譜中的家族遷徙變化[26]。這些應用實踐描述了更細粒度的文學作品信息,但仍屬于書目元數據層面,作品內部的內容語義信息未得到揭示。
有學者以更深層次的文學作品內容語義信息作為描述對象,較具代表性的項目有意大利國家級項目數字但丁百科全書(DanteSources)[27]、芬蘭語義計算研究小組人物傳記平臺(BioSampo)[28]。這些項目通常從某一特定研究角度出發對文學作品展開語義描述,如DanteSources 描述了詩人但丁在其作品中的引用信息①,BioSampo 重點關注傳記類文學作品中的人物生平信息,并設計了傳記概念參考模型(BioCRM)[29]描述傳記中涉及的人物、時間、地點、事件間的語義關系。
通常來說,細粒度、深層次的語義描述能夠揭示更豐富的信息內容,因而受到了學者們的推崇,但由此帶來的高難度、大工作量使得這并不適用于所有的資源描述研究與實踐,因此應當根據研究目的選擇適當的描述方式。對于大體量的數據集合,書目信息層面的語義描述更便于資源的集成與共享,對于單一類別的小范圍資源對象,內容層面的語義描述能夠揭示資源內部蘊含的知識信息,更適合深度規律探尋與知識發現。
1.3.2 藝術作品的語義描述
擁有復雜表現形態的藝術作品增加了語義描述的難度。繪畫、雕塑等實體藝術作品多被作為文化遺產資源進行描述,CIDOC CRM 模型等文化遺產領域本體模型在這個過程中被使用,創作者、尺寸材質、主題類別等基本特征語義信息得以被揭示。近年來,實體藝術作品的內容語義信息也開始得到關注,如徐雷等[30]構建的敘事型圖像語義標注模型即提供了壁畫、油畫中所講述的故事情節內容的描述方案。
音樂、戲劇等藝術門類擁有動態的表演形式,領域專有性較強,現有的通用模型無法準確表現其藝術特征,需要制定專門語義描述模型,目前代表性模型有音樂本體(Music Ontology)[31]、演奏音樂本體(Performed Music Ontology)[32]、民俗舞蹈本體[12]、戲劇本體[33]。這些本體模型實質上都源于BIBFRAME 和CIDOCCRM 等已有領域通用模型,但增加了能夠反映其領域特色的類與屬性,如演出事件、傳承人、戲劇行當。此外,音調本體(KeyOntology)、樂器分類詞表(Instrument Taxonomy)、音頻信號特征本體(Features Ontology)等專業詞表或本體也被參考或引用[31]。
藝術作品語義描述的重點是揭示資源對象所獨有的藝術特征信息,因而種類繁雜的藝術領域尚未有通用的語義描述模型出現。但BIBFRAME、CIDOC CRM 等已得到廣泛應用的成熟模型為其提供了框架基礎,可參考擴展或部分復用,CDWA等領域詞表規范檔提供了規范化的元素定義,可進行映射或直接使用,這種語義描述方式有利于增強人文信息資源的集成與共享。
本體提供了資源對象的描述規范,解決了人文信息資源的語義描述問題,將雜亂的原始人文資源轉換為結構化的RDF 數據,實現了從“數據”到“知識”的轉變。而將語義化后的知識信息以關聯數據的形式發布在互聯網上,能夠使其更大程度地被共享與重用。當前的人文領域關聯數據集可分為詞表數據集與實例數據集兩大類。
人名表、地名表等詞表、規范檔為人文信息資源的語義描述提供了統一的詞匯規范。有學者通過或將已有詞表進行RDF 格式轉換,或直接以RDF 格式新建詞表的方式發布詞表關聯數據集,并支持用戶使用瀏覽器瀏覽、通過SPARQL端點查詢和多格式數據集下載。
原始詞表的內容質量以及詞表的本體映射是基于格式轉換的關聯數據發布方式的關注重點,蓋蒂詞匯表項目(Getty Vocabulary Program)是其中較具代表性的項目實踐。早在1970年代后期,美國蓋蒂研究所就開始了人文領域詞表的構建工作,先后發布《藝術 & 建筑敘詞表》(AAT)、《藝術家聯合名錄》(ULAN)、《地理名稱敘詞表》(TGN)、《文化對象名稱規范檔》(CONA)、圖像規范檔(IA)等詞表資源,并保持更新至今。這些詞表提供藝術、建筑、古地理等人文術語詞匯的規范化定義。蓋蒂詞匯表項目下的關聯開放數據小組致力于將這些詞表轉換為關聯數據的形式公開發布,并復用SKOS、DC、FOAF 等11 個已有模型中的類與屬性實現術語詞匯的語義映射[34]。其中,SKOS(Simple Knowledge Organization System)是一個用于描述敘詞表、分類詞表、主題標引系統等結構化控制詞表的語義模型,被廣泛應用于詞表資源的RDF 語義化表示之中。資源的集成與共享問題同樣得到了蓋蒂詞匯表項目的重視,項目成員將所屬詞表與Europeana、Wikidata 等外部資源進行了關聯,并與CIDOC CRM、CDWA等模型或規范進行了映射。
對直接使用語義網技術新建RDF 數據集的發布方式,資源的內容質量以及所能提供的用戶服務是關注的重點,由美國國家人文基金會資助的項目Pleiades 是其中較具代表性的項目實踐。該項目旨在在互聯網上出版古代地名的權威信息,提供3.5 萬余條古希臘、古羅馬、古代近東、拜占庭等古代地區的地名、地理位置信息,并將其映射到現代地圖之上,為人文歷史地理研究提供了珍貴的資料參考[35]。在用戶服務方面,Pleiades 支持從地理名稱、Pleiades ID、URL 地址三個途徑檢索與瀏覽數據集,并使用現代地圖實現了地理位置的可視化展示。
在國內,上海圖書館于其開放數據平臺上發布了人名規范庫、華人姓氏表、中國歷史紀年表、地理名詞表等人文詞表關聯數據集,這些數據集涵蓋了人文信息資源中所涉及的人、地、時、事、物五類要素,為中文人文信息資源語義描述提供了基礎知識庫支持[36]。
有學者或機構集成多個不同來源的人文信息資源發布為關聯數據以供共享和使用,數據集的內容質量以及所提供的用戶服務是應關注的重點。沿用前文的領域劃分,本節從文化遺產、歷史地理、文學藝術三方面出發逐一進行介紹。
在文化遺產領域,以博物館為代表的文化遺產保護機構將其館藏資源發布為關聯數據,其中具代表性的有大英博物館[37]、瑞典博物館[38]、西班牙博物館[39]等,這些資源也被部分集成到Europeana 數字圖書館中。Europeana 是由歐盟各國博物館、美術館、圖書館等文化機構共同參與的大型數字圖書館項目,旨在促進歐洲數字文化遺產資源的傳播與共享。項目設計了EDM(Europeana Data Model)模型,實現 3,500 多所歐洲文化機構館藏資源元數據的集成與關聯,該模型參考OAI-ORE 規范、CIDOC CRM 模型、SKOS 語言等已有數據描述規范,使用“聚合(ore:Aggregation)”類表示文化遺產對象及其數字表示的集合(如圖書、繪畫、電影),使用“非信息資源(sem:NonInformation Resource)”類表示文化遺產對象相關的元數據信息(如創建者、當前位置、主題),用戶可通過Web 服務接口(RESTful API)獲取并使用這些數據集[40]。文化遺產領域的關聯數據集多以門戶網站的形式面向用戶開放,提供基本的瀏覽與檢索功能,使得這些資源得以被研究者或感興趣的普通用戶所使用。
在歷史地理領域,芬蘭語義計算研究小組構建的WarSampo 平臺基于CIDOC CRM 模型集成了芬蘭二戰死亡記錄、部隊日志、戰時地圖以及相關的照片、電影、雜志文章等資源,用戶可瀏覽與檢索芬蘭二戰中人物、軍隊、事件、地點信息,為二戰史研究提供了豐富的參考資料[41]。倫敦國王學院e-Research 中心的項目SPQR 采用Europeana EDM 元數據模型集成了6.8 萬余件古希臘、古羅馬碑文、銘文資源,但僅支持關聯數據集的下載與SPARQL 查詢[42]。此外,在歷史地理領域,基于時間軸、地圖的信息可視化也是用戶服務的研究方向之一。
在文學藝術領域,有相當數量的音視頻類媒體數據被發布為關聯數據,其中較具代表性的項目有英國倫敦大學瑪麗皇后數字音樂中心的DBTune[43]、英國BBC 廣播電臺的BBC Music和BBC Programmes[44]等。這些項目集成來自多個數據集的音樂、電視電臺資源,實現了異構資源的語義集成,共同使用音樂本體(Music Ontology)、FRBR 等已有成熟本體模型進行語義描述,并與GeoNames、DBPedia 等外部關聯數據集相鏈接,起到了語義豐富與語義增強的效果。
在國內,上海圖書館將中國家譜、名人手稿、盛宣懷檔案、中文古籍等館藏資源發布為關聯數據,并開放數據消費接口、開發面向用戶的門戶平臺,提供多角度檢索、時空關系可視化等知識服務。這是國內較早將語義網技術應用到人文研究的代表性實踐,為中文人文信息資源描述與組織做出了示范。
當前人文領域關聯數據集大都提供了數據獲取接口或下載通道,也支持在線瀏覽與SPARQL查詢。但對于普通用戶來說,快速理解RDF 數據和使用SPARQL 查詢并非易事,因此,有研究者在對人文信息資源進行語義描述與組織的基礎上開發了面向用戶的知識服務平臺,提供自然語言檢索、可視化瀏覽等功能,人文信息資源的價值得到充分利用與發揮,這應引起未來數字人文研究與實踐的關注與重視。
關聯數據集的發布促進了人文信息資源的集成與共享,對擁有豐富人文資源的圖書館、博物館等文化機構來說,如何為用戶提供高質量的信息服務與知識服務是資源組織工作的最終目的。本節從用戶服務角度出發,介紹當前在人文信息資源語義描述與語義組織的基礎上所提供的知識服務方式,包括語義檢索、語義關聯、語義可視化、知識發現,并結合國內外代表性項目實踐進行展示。
語義化后的人文信息資源以機器可讀可理解的RDF 三元組形式表示,SPARQL 查詢提供了針對這些數據集的查詢與獲取機制,是實現語義檢索的技術手段。但這種方式要求用戶了解底層RDF 數據結構并熟練掌握SPARQL 語言,易用性較低。對于該問題,一些項目通過基于頁面導航的分面檢索,或基于自然語言提問的關鍵詞檢索支持普通用戶瀏覽或查詢。而當用戶使用自然語言檢索時,語義描述模型又能幫助計算機檢索系統更好地理解檢索詞的語義含義,發現與之相關聯的其他概念實體,從而提升用戶的檢索體驗。
另一方面,本體模型揭示了人文信息資源內部概念實體及其之間的關系,能夠進行更細粒度的人文信息資源內容語義描述,從而實現多維度、深層次的語義檢索,意大利數字但丁百科全書(DanteSources)是較具代表性的項目。該項目在對詩人但丁在其作品中的引用信息進行語義描述的基礎上,支持用戶從但丁作品、被引作品、被引作者、引用類型、引文主題五個維度出發探索但丁作品集中的參考引用情況,所有檢索結果以可視化圖表的形式呈現。圖1為一個被引作者維度的語義檢索實例,檢索結果以柱狀圖的形式展示。經觀察可發現,但丁作品Convivio 中共有274 處引用了亞里士多德的言論或著作,是所有但丁作品中對亞里士多德引用次數最多的一部[45]。

圖1 語義檢索案例:Dante Sources
語義關聯具體體現在內部和外部兩個層面。
從內部層面來說,使用本體模型進行語義描述揭示了人文信息資源內部概念實體間的關聯關系,實現了資源內部的語義關聯,用戶可從某一實體出發瀏覽與之相關的其他實體對象。荷蘭聲音視覺研究所的DIVE 項目是其中較具代表性的應用實踐。該項目通過對荷蘭新聞廣播視頻、新聞稿件中所提及的事件及事件相關的其他實體進行語義描述,可為用戶提供以事件為中心的資源瀏覽——用戶能夠從某一新聞事件出發瀏覽相關的資源對象(指荷蘭新聞廣播視頻)及與該事件相關的人物、地點和其他事件[46]。
從外部層面來說,使用RDF 鏈接連接來自不同數據源的數據,能夠起到語義集成與語義豐富的作用,實現了人文信息資源外部的語義關聯,其中較具代表性的是芬蘭語義計算研究小組的Hipla.fi 項目。該項目通過建立多個分布式SPARQL 查詢的方式集成蓋蒂地理名稱敘詞表(TGN)、1939-1944 芬蘭自治區②、古歷史地圖③等7 個不同來源的芬蘭古代歷史地理信息,并實現古地圖與現代地圖的映射[47]。基于此,當用戶查找某一古地名時,Hipla.fi 支持用戶一次性完成跨數據集的地名檢索,并提供可用的古地圖及現代地圖視圖瀏覽。
可視化技術能夠更直觀、形象地傳達人文信息資源中的語義信息,幫助用戶理解和挖掘其中蘊含的內在規律。當前的人文信息資源語義可視化主要包括基于地圖的空間位置可視化、基于時間軸的時間序列可視化、基于網狀圖的社會關系可視化。
3.3.1 時空語義信息可視化
當使用語義描述模型揭示人文信息資源中的空間信息時,可以實現基于地圖資料的地理位置可視化;當揭示人文信息資源中的時間信息時,可以實現基于時間軸的時間序列可視化。當前的數字人文項目實踐多將時間與空間信息相結合,提供時空視角下的可視化服務,其中較具代表性的是華東師范大學的數字方志集成平臺項目,該平臺提供了中文數字方志資源的時空檢索功能[48]。圖2為“方志所屬朝代是清代”的檢索結果,圖右側為朝代選擇欄,下側為時間軸視角的方志年代分布情況,中間為地圖視角的方志位置分布情況。

圖2 語義可視化案例:數字方志集成平臺
3.3.2 社會關系可視化
當使用語義描述模型揭示人文信息資源中人物的社交關系信息時,能夠以網狀圖的形式展現某一人物的社交網絡或多個人物間的社會關系,網狀圖中的節點代表某一人物,節點間的連線代表人物關系。譬如,芬蘭語義計算研究小組所構建的文化遺產資源平臺CultureSampo 支持人物、機構間近50 種社會關系的可視化展示,包括親屬關系(parent-of)、雇用關系(patron-of)、教學關系(teacher-of)等[49]。圖3為人物“拿破侖一世”的社會網絡關系圖。

圖3 語義可視化案例:CultureSampo
通過設計標準查詢模版引導用戶構建多維度、多條件的檢索策略,并以某種有序方式對檢索結果進行再組織,能夠從不同角度探索發現人文信息資源內的新知識。譬如,芬蘭CultureSampo平臺中的“檢索與組織”功能以“TELL ME ABOUT
當前數字人文研究與實踐開始逐步采用本體、關聯數據技術對人文信息資源進行語義描述和結構化發布,并在此基礎上提供語義檢索、語義關聯、可視化展示、知識發現等深層次的知識服務。本研究調查發現,目前國內外數字人文研究與實踐具有三大特點。
(1) 在語義描述方面,CIDOC CRM 和BIBFRAME等通用模型得到了廣泛應用,也出現了音樂本體(如Music Ontology)、時空歷史地理本體(如上海圖書館歷史地理數據時空本體)等特色本體模型。描述重點逐漸從資源的淺層外部特征轉向語義層面的內容特征,人文信息資源內部人、事、地、時、物等實體對象的語義信息得以被揭示,描述粒度愈加細化。但相較于國外的諸多成功項目與實踐,國內還主要停留在理論研究層面,具體的實踐工作較少,尚未出現一個較為成熟的中文人文信息資源語義描述規范。

圖4 知識發現案例:Culture Sampo
(2)在語義發布方面,關聯數據從技術上解決了語義化人文信息資源的發布、共享與訪問問題,使得分散、異構的人文資源被整合、集成與關聯,并通過與外部資源的鏈接實現語義擴展與增強。詞表關聯數據集為語義描述提供了規范化的術語詞匯定義,實例關聯數據集為人文研究提供了豐富的資料參考,但這一過程尚面臨著復雜人文資源的數據處理以及大規模數據的自動處理兩大問題。人文信息資源具有復雜性,文本、圖片、音視頻等多樣的數據類型需要不同的處理方式,音樂、舞蹈、戲劇等特殊形態的人文資源需要專業的處理技術。而大數據量的人文信息資源使得從零開始手工建立RDF 數據集成為一件十分困難的事情,因此自動或半自動地生成RDF數據成為各實踐項目的主流選擇。但這其中又涉及了中文文本處理、命名實體識別、數據實時更新、可持續化工作等問題。
(3)在語義服務方面,語義網技術使得人文信息資源從信息服務轉向知識服務成為可能。當前的人文關聯數據集主要通過SPARQL 端點或API接口實現資源的查詢與訪問,但對于普通用戶來說,理解RDF 數據和使用SPARQL 查詢并非易事。部分項目實踐開發了面向用戶的門戶平臺,提供基礎的資源瀏覽與檢索功能。在此基礎上,有項目實踐探索了語義檢索、語義關聯、語義可視化、知識發現等更深層次的知識服務方式,可為未來的人文信息資源知識服務提供思路參考。
針對數字人文研究與實踐中存在的問題,結合已有項目的成功經驗,提出如下建議:
(1)面對復雜的人文信息資源,不同的資源類型采取不同的處理方式。從資源的載體形態來看,可使用OCR 光學識別技術實現紙質資源的數字化轉換、使用三維成像技術實現實體物件的虛擬化、使用運動捕捉技術實現動態人文資源的收集與存儲、使用圖像及音視頻處理技術實現多媒體資源的解析。從資源的數據結構來看,對于無結構的原始數據,使用本體模型進行語義描述將其轉換為智慧數據;對于半結構化的待清洗數據,使用實體識別等語義分析及語義標注工具將其轉換為結構化數據;對于結構化的數據,使用詞表等知識組織系統以及鏈接外部資源實現資源的深度語義挖掘與語義增強[50]。
(2)充分利用已有資源和軟件工具。數字人文研究者可利用的資源包括特色人文數據庫,各類成熟本體、詞表、規范檔,以及公開發布的高質量開放關聯數據集,可利用的軟件工具包括可視化工具、RDF 格式轉換工具、命名實體識別工具等。宋代學術語義網絡項目在此方面做出了良好示范。該項目通過抽取開放資源“中國歷代人物傳記資料庫”(CBDB)中提供的宋代人物學術傳承和親屬關系信息,使用本體模型將其轉換為RDF格式數據,接著利用可視化工具Rel Finder 構建宋代人物關系知識圖譜,實現了歷史人物間關系的探索與發現[51]。
(3)加強跨領域人員及機構間的合作。數字人文研究應由來自人文、計算機、圖書情報等多個領域的研究人員合作進行,這更符合數字人文的跨學科特性,也有利于參與者各自發揮所長、提升研究質量。
(4)進行數字人文基礎設施建設。數字人文基礎設施為數字人文研究提供數據、文獻、軟件工具、學術交流與出版等一系列公用設施及相關服務[52]。這一方面有利于人文資源的共建共享;另一方面通過制定平臺統一的規范標準,也有利于異構人文資源的語義互操作。
注釋
①在但丁的作品Convivio 中,“Asthe Philosopher saysat the beginning of the First Philosophy”一句引自亞里士多德的《形而上學》。
②全稱為“Finnish Municipalities 1939-1944”,由芬蘭國家檔案館提供,包括612 個1939-1944年間芬蘭自治地信息。
③全稱為“Historical Senate atlas”,由芬蘭國家檔案館提供,包括404 張芬蘭古代地圖。