胡以濤 惠富平
(1.南京農業大學圖書館 南京 210095;2.南京農業大學中華農業文明研究院 南京 210095)
數字人文(Digital Humanities)源于人文計算(Humanities Computing),是現代信息技術與人文研究交叉融合形成的新型跨學科研究領域,近年來成為交叉學科的研究熱點之一,僅2017年度中國知網以“數字人文”為研究主題的論文數量就高達134篇。
數字人文是近 20 年來在英語國家人文科學領域中出現的一個子領域,其前身人文計算有近 60 年的歷史,目前已經擴展到人文與藝術各個領域[1]。意大利著名人文學者Roberto Busa認為人文計算化最重要的影響并不是加快傳統人文研究的速度,而是為其提供新的研究方法和研究范式[2]。對數字人文研究內容的界定,不同方向的研究者有所差異,如果現階段需要對數字人文做適當界定,筆者比較贊同趙生輝的論述。他認為數字人文是指圍繞人文社會科學領域特定研究對象知識本體的數字化保存和應用所進行的相關信息資源采集、加工、組織、服務、研究、教育等活動的總稱[3],通過數字化手段與方法的彌補,促進人文社會科學領域知識創新和傳播。
關鍵方法技術和工具使用是數字人文研究的重要內容之一,當前在文本挖掘、數據挖掘、可視化、開放關聯等方面,已有較多探討[4-5]。數字人文的很多應用實踐,依賴高質量的基礎數字化數據,Google和Hathitrust等大型圖書數字化開發項目,已將數千萬本不同時期的紙質文獻進行了數字化。這些項目的重要目的之一是利用這些數字化的語料支持人文領域的文本挖掘研究。研究者可以利用谷歌圖書數據庫或Hathitrust的電子資源元數據,開發可以被其他研究者使用的數字工具和協議[4]。這些工作或研究的開展,需要依賴強大的底層元數據支撐,如Hathitrust即采用自行開發的由24個主要元素組成的Hathitrust Metadata元數據文件[6]。數字人文領域應重視基礎人文對象的數字化信息組織,而元數據方法具有規范描述和高質量管理等功能,元數據的質量直接或間接決定了數字人文的研究利用方式。
農業文化遺產(以下簡稱“農遺”)是人類文化遺產不可分割的重要組成部分,是歷史時期與人類農事活動密切相關的物質、非物質以及物質與非物質融合的綜合體系,是生產方式和生活方式相結合的農事活動統一體[7]。農遺資源及其生態系統作為人類歷史和文明進步的重要標志,很早就引起了全球的高度重視。聯合國糧食及農業組織(FAO)于2002年啟動了全球重要農業文化遺產(GIAHS)的保護和適應性管理項目。截至2018年4月底,全球共有19個國家50處農業系統被確認為全球重要農遺地。作為具有悠久歷史的農業文明古國,我國是最早響應并參加全球重要農遺項目的國家之一,目前共有15處被確認為全球重要農遺地[8],中國正在全球農業發展中貢獻諸多智慧和力量。
2012年起,中國開始重視農遺保護工作,農業部(現農業與農村部)先后于2012—2017年間,遴選公布了四批91項中國重要農遺[9],目前該項目已覆蓋大陸地區25個省市自治區,這一工作也使我國成為世界上第一個開展農遺系統發掘與保護的國家。2015年8月,農業部公告第2283號《重要農業文化遺產管理辦法》正式發布,至此,中國重要農遺的發掘、申報、評選、保護、管理已形成完整的管理體系。
日本、印度也在國家層面建立了保障機制,如日本在遺產品牌打造、產業鏈的綜合開發等方面有很多優秀經驗值得借鑒[10]。日本部分全球農遺項目還開發專題網站介紹,如日本的全球農遺“能登里山里海”項目,通過網站提供日語、英語、中文、意大利語四種語言來展示不同季節風情[11]。印度在探索農遺保護過程中的利益共享機制和農民激勵機制,提升各個層面對農遺的認識上也做了大量工作[12]。我國政府則主導建立了中國重要農遺的發掘、遴選、申報、評審、保護、管理等基本規范,目前發布了四批中國重要農業文化遺產實錄,以圖片、文字信息網頁的形式呈現[9]。
從全球主要國家的農遺資源展示與研究來看,農遺資源仍然是分散的,尚沒有統一的數字資源規范和標準。這在一定程度上影響了農遺資源在全球范圍內的傳播,也不利于相關學術研究的開展。為此,本文結合對農遺信息和數字資源的梳理,嘗試在數字人文視域下,通過元數據方法的應用,探索農遺數字資源元數據的構建與實施,為農遺展示與研究提供新的方法路徑。
隨著因特網和數字技術的發展,海量數據不斷產生,人們在處理某一類重要數字資源時,逐漸認識到采用一些資源的“自我描述”方法,可以更好組織管理資源,提高資源被檢索和獲取的可能。這需要建立符合現代技術環境的數據管理機制,這種機制依賴統一的數據標準,對數據資源進行規范描述和管理,這樣的基礎數據被稱作“元數據”[13]。元數據是數字信息資源管理的基礎,元數據的基本組成是元素、修飾詞及其屬性、定義等。要保持人文對象的描述標引質量,我們非常有必要采用元數據方法進行農遺數字資源管理。
如今,元數據被廣泛應用于很多正規資源描述,如博物館、圖書館、政府部門和商業組織。國際上廣泛采用文獻資料描述(如機讀目錄元數據MARC)、網絡資源描述(如都柏林核心元數據DC)等資源描述方法進行對某一領域數字資源的管理。設計于20世紀60年代的機讀目錄MARC,主要用于文獻書目資源描述,是發展歷史悠久,最成熟的元數據格式。世界各個圖書館都可以根據編目條例為圖書文獻資料建立機讀目錄數據,它是一種為描述、儲存、交換、處理及檢索圖書信息資源而精確設計的標準[13]。MARC元數據標準,由于其規范的標準結構和靈活的多點檢索及完整的書目著錄內容,成為了圖書館的行業標準。人們也在探索將其用于其他信息資源的著錄,但隨著互聯網信息的發展,MARC元數據雖然能有針對性地描述相應的網絡信息資源,提高資源的可獲得率,但在數據加工和標引時,其復雜的體系結構需要耗費不少的人力和時間,在其他領域并未得到廣泛認可。都柏林核心元數據,最初是為了對萬維網資源進行描述而設計的,由于其核心元素簡單,易于理解,具備很強的適應性和擴展性,在一個核心集內達成了學科領域的共識,成為世界上使用最廣泛的元數據格式。
中國國家標準GB/T 25100-2010《信息與文獻 都柏林核心數據元素集》于2010年發布[14],對應ISO 15836:2009標準,包括15個都柏林核心元素。
國內很多應用領域都基于DC標準,進行相關領域描述與元數據體系構建。如許馨有關非遺數字資源的元數據規范與應用研究,即采用DC元數據規范,復用了DC12個核心元素,并結合實際情況進行了必要的擴展[15]。國家數字圖書館工程標準規范中,諸如電子連續性資源、音頻、視頻、期刊論文、輿圖等元數據規范與著錄規則,均在DC標準上構建或進行必要的擴展和復用[16]。因此,根據農遺的特點,并考慮元數據交換和使用的方便性,本文選擇采用DC標準進行農遺數字資源元數據構建。
根據元數據的應用領域和應用目標,元數據的設計開發路徑略有不同,張曉林認為元數據的開發應用生命周期一般分為四個階段:①由研究領域確定元數據的內容、句法、語法結構;②確定編碼語言并開展制作;③建立檢索和互操作體系;④完成元數據的長期保存[17]。
上述元數據開發周期及過程是一般性應用路徑,結合具體研究對象的特點,本研究認為實施步驟如圖1所示:①元數據元素信息抽取:根據人文對象特點及數字資源內容,提煉抽取關鍵元素;②元數據元素定義與描述規范設計:選擇或根據通用元數據標準,開展對人文對象元素的定義及描述規范建設;③基于元數據的信息庫建設:根據元數據定義及描述規范,建立信息加工數據庫系統,開展信息資源加工錄入;④元數據應用體系構建:基于元數據體系,實現信息保存發布、建立檢索系統、開發知識圖譜、進行對比研究等。

圖1 元數據應用于數字人文的流程和路徑
目前全球重要農遺及中國重要農遺數字資源非常豐富,主要以文本和圖片為主,各級申報書中列舉了相關內容信息點,部分還包括視頻介紹、網站資源等。
為了提煉出農遺數字資源的核心元素,本文以全球重要農遺文化遺產申報書要求及網站資料為基礎,通過列表對比中國重要農遺資源。FAO在給出的全球重要農遺申請書模板中,包括了G1—G4的有關內容[18]。根據《農業部關于開展中國重要農業文化遺產發掘工作的通知》,中國重要農遺申報書中包括C1—C8的內容。
我們通過具體內涵對比發現,雖然全球重要農遺與中國重要農遺的申報信息點有一些差異,但整體上均包括概要信息和內容描述兩大部分。文章對全球和中國重要農遺的申報信息點進行近似信息點合并,抽取提煉關鍵信息點,并以DC元數據15個核心元素為參照依據,關聯與其語義內容相關的部分,經過仔細考察比對,選擇了DC元數據中8個意義明確的元素,并增補兩個特殊元素,構成M01—M10,共10個核心元素集,結果如表2所示。如M01名稱元素,涵蓋了全球G1.1農業遺產系統的姓名/名稱部分,也對應中國重要農遺的C1.1名稱部分。加*號的M07-08為農遺特色的元素提煉,因沒有合適的DC元素對應,筆者對其進行了必要的擴展。

表1 農遺核心元素提煉信息表
為了構建良好易用的農遺數字資源元數據規范,本文在國際通用DC元數據標準的基礎上,選擇核心元素中與農遺語義描述關聯性強的元素進行復用,停用部分不適宜或關聯性不強的元素,從DC的15 個核心元素中,選擇復用9個核心元素,其中包括已在表2中提出的8個(M01—M06,M09、M10)。對于DC的核心元素:出版者、其他責任者、格式、時間、來源信息、權限6個核心字段不予采用,因農遺數字資源信息描述與上述6個元素的語義關聯性不強。為了體現農遺的專屬特征,辨識資源價值,表征關鍵信息點,增加了遺產級別、遺產標識2個非DC核心元素。農遺元數據共計11個核心元素,其中遺產級別和關聯元素采用集合形式,以保持足夠的資源擴展和容納度。
如表2所示,筆者對采用DC元素和元素限定詞描述的形式進行了定義,并在取值說明中,簡要說明了元素的取值范圍及與農遺信息的對應關系。

表2 農遺數字資源元數據V1.0 元素及元素修飾詞列表
3.3.1 全球重要農遺案例——江蘇興化垛田傳統農業系統
江蘇興化垛田傳統農業系統,地處江蘇興化市。2013年5月,興化垛田傳統農業系統入選第一批中國重要農遺,2014年被聯合國糧農組織列入全球重要農遺。興化地處蘇中里下河腹部,地勢低洼,湖蕩沼澤綿延,歷史上由瀉湖淤積而成,歷來飽受洪澇侵害。當地先民在沼澤高地之處壘土成垛,漸而形成一塊塊垛田,發展出一種獨特的土地利用方式[20]。核心保護區的大面積垛田基本保持了原生態,形成了獨特的文化景觀,在國內十分罕見,具有較高的歷史文化價值、科學研究價值和開發利用價值。
3.3.2 基于RDF/XML的元數據描述
RDF 指資源描述框架(Resource Description Framework),是一個用于描述 Web 資源的框架,提供了針對數據的模型與語法。RDF可被計算機閱讀和理解,是一個W3C推薦的語義網標準。

表3 RDF/XML實例描述

鏈接--><dc:description><rdf:bag><rdf:li>產地概況(內容略)</rdf:li><rdf:li>遺產特征(內容略)</rdf:li><rdf:li>功能價值(內容略)</rdf:li><rdf:li>問題挑戰(內容略)</rdf:li><rdf:li>保護利用(內容略)</rdf:li><rdf:li>監督檢查(內容略)</rdf:li></rdf:bag></dc:description><dc:relation rdf:parseType="Collection"><rdf:Description rdf:about="http://www.china-niahs.net/giahs/xinhua/fj1"/></dc:relation></rdf:Description></rdf:RDF>Heritagerate元素 通過集合形式展示,可以包括多個對應關系<!--http://www.china-niahs.net/giahs/xinhua--><chs:heritagerate><chs:level> 全球重要農遺 </chs:level>><dc:licensor>聯合國糧農組織</chs:licensor><chs:batch>無</chs:batch><dcterms:dateaccepted>2014</dcterms:dateaccepted></chs:heritagerate><!--http://www.china-niahs.net/cn-niahs/xinhua--><chs:heritagerate><chs:level> 中國重要農遺 </chs:level>><chs:licensor>中國農業部</chs:licensor><chs:batch>第一批</chs:batch><dcterms:dateaccepted>2013.5</dcterms:dateaccepted></chs:heritagerate>Relation 元素 通過集合的形式展示,可以包括多個附件內容<!--http://www.china-niahs.net/giahs/xinhua/fj1--><rdf:title>興化垛田空中鳥瞰圖</rdf:title><rdf:url>http://www.chinawebmap.com/d/file/icon/2015-03-22/f396f48968c77b1aae1662ad200f3529.jpg</rdf:url><!-- 取值為引用資源-->
根據上述RDF/XML的定義規范,筆者對江蘇興化垛田傳統農業系統的內容進行了資源描述,其對應的RDF代碼見表3。
該案例以RDF/XML編碼形式,描述了江蘇興化垛田傳統農業系統的數字資源信息,包括該重要農遺的核心表征信息和附屬信息。它通過Heritagerate元素集合形式,分別描述該遺產被認定為國家和全球重要農遺的關鍵信息,同時通過Relation 元素集合形式,關聯更多該遺產的對應數字資源,如不同視角照片、歷史記錄、視頻介紹等其他不能在核心信息描述中出現的信息,從而實現了元數據的全面擴展,既保證核心信息的存儲又具有足夠的容納度和擴展性。我們在此基礎上建立應用數據庫,支持數據以元數據格式錄入或導入,完成元數據保存。
在元數據信息庫建設的基礎上,我們可以基于完善的高質量數據,實現下列應用體系建設:按照展示需求,定期輸出和發布農遺信息;建立包括關鍵信息點的檢索系統,幫助用戶及時發掘或聚類信息;開發應用知識圖譜,如采用地圖技術進行地理信息標注,在地圖上顯示不同地區的農遺系統,便于可視化展示;進行對比研究,根據農遺系統的元數據資料,實現多維度的對比,通過一致性數據,開展學術探索研究,發現農遺的更多潛在價值。
通過元數據方法開展農遺保護與研究探索,具有以下優點:①復用國際標準DC的9個核心元數據字段,有利于實現數據標準與國際通用元數據標準同步,為農遺數字資源的國際化、兼容性奠定基礎。②妥善考慮了農遺數字資源的特殊性,譬如農遺的遺產批次、遺產級別等專指性信息,通過定義元素擴展,滿足了信息表征需要。③通過核心元素“關聯”字段和RDF數據集合的形式,實現對與農遺有關的媒體資源、文獻資料、網站鏈接及相關信息、照片、錄像、文件、科學參考資料的連接。
數字人文研究依賴高質量的基礎數據。本研究以農遺為對象,通過元數據方法建立了可靠的元數據應用體系,為農遺的進一步開發和研究提供了基礎保障。本研究設計了農遺數字資源元數據標準,為農遺資源庫構建、數字資源的規范化管理和信息應用系統開發奠定了基礎。基于元數據的應用平臺,為加快推進資源的聚合與知識服務奠定了基礎,有助于進一步發揮農遺數字資源的價值。
(來稿時間:2018年6月)