徐晨飛 包 平
(1.南京農業大學中華農業文明研究院,江蘇南京 210095;2.南通大學經濟與管理學院,江蘇南通 226019)
自從2007年圖靈獎獲得者吉姆·格雷(James Gray)提出基于數據密集型計算的“科學研究的第四范式”①Tony Hey,Stewart Tansley,Kristin Tolle,The Fourth Paradigm Data—Intensive Scientific Discovery:The Science Press,2009,p.5.以來,相關領域特別是人文學科的研究進展令人興奮。托馬斯·庫恩的“范式轉換”理論認為,新范式的建立伴隨著科學革命的產生,革命的結果是擁有新范式的新的科學共同體取代擁有舊范式的舊的科學共同體②[美]托馬斯·庫恩:《科學革命的結構》(第4版),金吾倫、胡新和譯,北京大學出版社,2012年,第5-6頁。。這十年間,數字人文作為一門正在興起的新學科,其演進過程也印證了庫恩的“范式轉換”理論,歷史學家、地理學家、文學家等人文學科研究者與數據科學家、計算機科學家、信息資源管理專家等正攜手成為新的科學共同體,將大數據化的研究素材、軟件化的輔助研究工具、計算化的研究方法、可視化的研究結果貫穿于人文科學研究過程,取得了諸多令人矚目且顛覆傳統研究思維的成果,也使得人文學科重新煥發了新的生命力。而伴隨著數字人文研究的不斷開展與深入,學界對研究基礎設施的需求也迫在眉睫,目前全球在相關政府、機構的支持與規劃下,各類數字人文研究基礎設施建設正在如火如荼地進行中。習近平總書記在中共中央政治局就實施國家大數據戰略進行第二次集體學習時就強調,要推動實施國家大數據戰略,加快完善數字基礎設施,推進數據資源整合和開放共享,保障數據安全,加快建設數字中國③習近平:《實施國家大數據戰略加快建設數字中國》,http://www.xinhuanet.com/politics/2017-12/09/c_1122084706.htm。。
在歷史學界,喬·古爾迪(Jo Guldi)與大衛·阿米蒂奇(David Armitage)在《歷史學宣言》中就呼吁當代歷史學家要有寬闊的視野和考察大問題的雄心,而大數據時代的到來可在未來幫助史學家成為新時代的數據文獻專家,并向公眾交流其他學科的數據、方法和成果,并以自身的學術強項對此作出分析、比較和對照④[美]喬·古爾迪、[英]大衛·阿米蒂奇:《歷史學宣言》,孫岳譯,上海人民出版社,2017年,第138-139頁。。近半個世紀以來,數字人文研究的興起給史學研究帶來了前所未有的顛覆與爭鳴,如量化史學研究方法之于經濟史、教育史、宗教史等等⑤陳志武:《量化歷史研究的過去與未來》,《清史研究》2016年第4期。。農史研究作為一門相對獨立的學科,只有百年的歷史,其進展和積累對歷史學、政治經濟學及其他社會科學具有基礎性科學的價值⑥王思明:《農史研究:回顧與展望》,《中國農史》2002年第4期。。中華農業文明研究院作為國內農史研究重鎮,是一個集科學研究、人才培養和信息收集與服務于一體的開放型學術機構,其特藏的《中國農業史資料》《方志綜合》《方志物產》《方志分類資料》《二十五史水利史資料》《太湖地區農業史資料》《農業史簡報數據》等資料被學界譽為“海內孤本”。本文基于《方志物產》資料的數字化、知識組織與知識挖掘等前期研究工作,提出方志物產知識庫構建思路與方法,目的是將其建設成為面向農史領域的數字人文研究基礎設施,以期在數字時代推進農史及其它專門史研究打開一個全新的篇章。
農史研究作為一種學科化的努力始于20 世紀初期。在西方,美國、英國、德國、丹麥、荷蘭、法國等均為農業史研究開展得較早的國家。“農業史”在西方分別有agrarianhistory,agriculturalhistory 和ruralhistory等不同說法,筆者以這三個關鍵詞為主題,在Web of Science TM 核心合集中檢索了農業史有關研究文獻被Social Sciences Citation Index(SSCI)(1995-2019)收錄的情況,共檢索出論文4345 篇。將檢索結果導出由網絡分析工具UCINET⑦UCINET官網地址:https://sites.google.com/site/ucinetsoftware/home。生成高頻關鍵詞共現網絡圖譜,如圖1 所示。圖中紅色為高頻關鍵詞,分別為“Rural、Hiv、China、Agriculture、Risk Factors、Migration、Gender、Development、Depression”等,以這些高頻關鍵詞為中心,將與之連接的關鍵詞進行聚類,從文獻計量角度可以分析出,近二十多年來農史研究涉及的方向較為多元,如社會學、醫學、環境科學、人類學、歷史學、農學、政治學、地理科學等等,這與學界對“農業史”的學科定位分歧較多有一定關系。有人認為是歷史學派生而來;也有認為是農學的分支,研究的是歷史時期的農業,即古農學;還有不少研究經濟史和農業經濟史的學者認為它是經濟學和農業經濟學的一個分支;還有人認為它是科學史分化而來。經過百年的發展,越來越多的人認識到農史是一門介于自然科學與社會科學之間的一門交叉學科。它運用自然科學與社會科學相互交叉、農業科學與歷史學相互結合的方法,探討農業產生和發展的動因、動力、影響及規律①王思明:《農史研究:回顧與展望》,《中國農史》2002年第4期。。正是由于農史研究的跨學科屬性,其研究方法也越來越多元化,還包括需面對“數據洪流”的問題,這都對當今的農史工作者提出了更高的要求,然而從另一個角度,也為農史研究帶來新的契機與活力。

圖1 SSCI(1995-2019)收錄農業史相關研究文獻高頻關鍵詞網絡圖譜
數字人文(Digital Humanities)可以追溯到1949 年,當時基督教神父羅伯特·布薩(Roberto Busa)與IBM 公司一起,將圣托馬斯·阿奎那(St.Thomas Aquinas)的所有作品轉為數字形式②[美]克莉絲汀·L.伯格曼:《大數據、小數據、無數據——網絡世界的數據學術》,孟小峰、張祎、趙爾平譯,機械工業出版社,2017年,第130頁。。他本人被公認為數字人文實踐先驅,他的創新性工作被認為是使用計算機進行量化分析的一種全新的人文研究方法,體現出的是方法論上的一種革新。之后,隨著信息與網絡技術的發展和數字化技術的廣泛應用,使得數字人文的研究和應用領域更加寬泛。近十多年來,越來越多的專門“數字人文中心(系)”在北美、加拿大和歐洲成立,并開展了許多跨學科的數字人文項目,涉及歷史、考古、藝術史、英語文學、建筑等多個學術領域。此外,在英美學術圈內也出現了專門的協會組織,這些協會將不同學校及地區的數字人文中心及學者整合起來,形成了一個龐大的國際學術社區,定期組織會議及各種學術活動①陳靜:《歷史與爭論——英美“數字人文”發展綜述》,《文化研究》2013年第4期。。
基礎設施(Infrastructure)原意是指為社會生產和居民生活提供公共服務的物質工程設施,用于保證國家或地區社會經濟活動正常進行的公共服務系統,包括交通、郵電、供水供電、商業服務、醫療衛生、環境綠化、文化教育等等②劉煒、謝蓉、張磊:《面向人文研究的國家數據基礎設施建設》,《中國圖書館報》2016年第5期。。由此引申的概念有信息基礎設施(Information Infrastructure)、網絡基礎設施(Cyberinfrastructure)、數字基礎設施(Digital Infrastructure)、研究基礎設施(Research Infrastructure)以及科研數據基礎設施(Research DataInfrastructure)等。根據2003 年美國國家科學基金會(National Science Foundation)的一篇報告,網絡基礎設施被計算機科學家Dan Atkins 等人定義為支持大規模數字對象的存儲、共享、分析的大型基礎設施,并且他們認為“若基礎設施的建設是為了工業經濟,那網絡基礎設施建設則是為了知識經濟”③D.Atkins,Revolutionizing science and engineering through cyberinfrastructure:Report of the National Science Foundationblue—ribbon advisory panel on cyberinfrastructure,2003.。
相較于美國,歐洲在研究基礎設施(RIs)建設方面走在了全球前列。研究基礎設施被描述為“科研團體為開展研究以及創新培育而使用的工具、資源與服務集合”④L.Candela,D.Castelli,P.Pagano,Virtual research environments:an overview and a research agenda:Data Science Journal,2013,pp.75—81.,例如歐洲網格計算基礎設施European Grid Infrastructure(https://www.egi.eu/)、學術交流基礎設施OpenAIRE(https://www.openaire.eu/)、提供虛擬研究環境的數據基礎設施D4Science(https://www.d4science.org/)等。GRDI2020(Global Research Data Infrastructures 2020)項目專家組將科研數據基礎設施定義為一個以數字化科研數據為中心,包含服務與工具的管理型網絡環境⑤F.Karagiannis,D.Keramida,Y.Ioannidis,et al,Technological and Organisational Aspects of Global Research Data Infrastructures Towards Year 2020:Data Science Journal,2013,pp.1-5.。從概念的范圍來看,“科研數據基礎設施”屬于“研究基礎設施”,兩者皆從屬于“網絡基礎設施”(或“數字基礎設施”),“數字人文研究基礎設施”應從屬于“研究基礎設施”,即支持人文學者在數字環境下開展科研活動的必須具備的基礎設施⑥Alessia Bardi,Luca Frosini,Building a Federation of Digital Humanities Infrastructures.https://ercim—news.ercim.eu/en111/special/building-a-federation-of-digital-humanities-infrastructures.,包括與主題相關的數字化文獻資源、數據、軟件工具、硬件(云存儲),系統平臺等對象,并支持人文科學研究數據分享與重用,促進科研成果在線出版、全球人文學科合作,加速科研創新的生態系統。
近些年,全球尤其是歐洲數字人文研究基礎設施數量急劇增長,大多數研究基礎設施都聚焦于人文學科的特定領域,比如面向考古學的ARIADNE(http://www.ariadne-infrastructure.eu/)、研究大屠殺歷史的EHRI(https://www.ehri-project.eu/)、面向歷史研究的Cendari(http://www.cendari.eu/)、面向語言學研究的CLARIN(https://www.clarin.eu/)、面向藝術與人文學科的DARIAH(https://www.dariah.eu/)以及面向文化遺產研究的IPERION(http://www.iperionch.eu/)等等。這些數字人文研究基礎設施為相關學科領域學者提供了支撐跨學科研究的資源、工具、數據管理與檢索的通用解決方案。
從目前全球數字人文研究的發展階段來看,雖歷經幾十載,除歐盟成立了專門機構來落實數字人文研究基礎設施以外,其他基于國家層面的廣義數字人文研究基礎設施還未能建成。一般是政府表明支持態度,由各類財團、基金會以及一些官方或非官方組織,在各自學科、領域進行相關主題的狹義數字人文研究基礎設施建設。例如美國的數字人文研究基礎設施建設思路就與歐洲截然相反,其建設并非由政府的科技政策制定者與管理者來主導,而是由各學科領域的數字人文研究學者來推動①W.Kaltenbrunner,Digital Infrastructure for the Humanities in Europe and the US:Governing Scholarship through Coordinated Tool Development:Computer Supported Cooperative Work,2017,Vol.26 No.3,pp.1-34.。這種自下而上的建設方式也催生出大量不同學科領域、不同專業方向的優秀成果,盡管這些成果目前可能還存在技術標準化、資源整合、版權等諸多問題。或許在未來,可期更多的組織機構攜手聯合,由國家層面制定并出臺相關標準框架,真正形成體系完整、標準統一、數據共享、跨學科領域的綜合數字人文研究基礎設施。
目前國內外與農史相關的數據基礎設施建設還是以數字化資源存儲項目居多,嚴格意義上來說,大多數還處于數字人文基礎設施的初級階段,相關平臺還缺乏支持諸如文本挖掘、時空分析、社會網絡分析等數字人文研究常用方法的工具與服務模塊。美國農業部(USDA)下屬的國家農業圖書館(National Agricultural Library,NAL)開發了多項農業史數字人文項目,如“Growing a Nation:The Story of American Agriculture”項目(https://growinganation.org/),是以劇本故事的形式來講述美國的農業史,采用了農史編年體、視頻、教師授課計劃等多種多媒體形式來展現;“Homestead Act”項目(https://www.nal.usda.gov/homestead-act),是對林肯當年頒布與實施“宅地法”的相關歷史文獻資源進行了數字化;“Organic Roots Digital Collection”項目(https://naldc.nal.usda.gov/organic_roots/)收集了合成有機物被廣泛應用之前的出版的農業歷史期刊全文,主要是1942年之前的農業技術與有機農業信息。
美國康奈爾大學的“Core Historical Literature of Agriculture”項目(https://digital.library.cornell.edu/collections/chla)是一個收錄了自19世紀早期至20世紀末出版的,涵蓋農業經濟學、農業工程學、動物科學、植物保護學、食品科學、人類營養學、農村社會學以及土壤學等專業領域的各類重要文獻,數字化后支持全文檢索;康奈爾大學還與美國農業部下屬的美國農業統計局聯合開發了“USDA Census of Agriculture Historical Archive”項目(http://agcensus.mannlib.cornell.edu/AgCensus/homepage.do),它對美國農場、牧場以及農民檔案進行了詳細的統計,檔案資料涉及土地利用、土地所有權、經營者的情況、生產實踐、收支情況等等方面。美國國會圖書館建設的“Historical Agricultural News”數字人文項目(http://agnews.net/)可對美國歷史上的農業機構、農業技術以及生產實踐活動等數字化報紙資源進行檢索,這些歷史農業數據還可以支撐諸如經濟實踐、移民活動、語言文字的應用、媒體的影響等其他領域的研究。
科羅拉多州立大學的“Colorado Agriculture and Rural Life”項目(https://lib2.colostate.edu/research/agbib/)對科羅拉多州歷史上重要的農業與農村文獻資料進行了整理,主要包括與農業歷史相關的水資源、教育、礦產、旅游、娛樂產業等主題,文獻類型主要有圖書、期刊、學位論文、地圖、圖片、檔案等。聯合國糧農組織(FAO)根據各國農業科研和生產發展的需要,于1975 年建立的題錄型數據庫ARGIS(http://agris.fao.org/agris-search/index.do),收錄了FAO 編輯出版的全部出版物和180 多個參加國和地區提供的農業文獻信息,特別是第三世界國家農業、林業及相關學科的應用研究方面的文獻,1979年以后部分數據提供了文摘。
在亞洲,日本農林水產省建制的“Agriknowledge”知識庫(https://agriknowledge.affrc.go.jp/)提供了大量日本農業科學與技術相關的信息資源,如論文、研究課題、研究成果、認定品種等,此外還提供明治時代至今百余年的農具檢索,為其平臺特色之一。
國內農史領域的數字人文基礎設施建設項目目前還比較稀少,南京農業大學中華農業文明研究院相關學者之前在此領域做了一些基礎性工作:例如在數據庫建設方面,研制開發的中國農業遺產信息平臺包含農史論文題錄數據庫、農業古籍目錄數據庫、中國農業遺產選集圖文庫、民國資料圖文庫、方志資料圖文庫、農業典籍善本圖文庫、農業古籍全文數據庫及農史論文全文數據庫等若干數據庫,初步實現了各類資源的數字化,在一定程度上促進了資源共享①曹玲、常娥、薛春香:《農史研究的新工具——中國農業遺產信息平臺的設計與構建》,《中國農史》2006年第1期。;曹玲研究了古籍數字化整理方法與過程并列舉了《齊民要術》知識庫的構建實踐②曹玲:《農業古籍數字化整理研究》,南京農業大學博士學位論文,2006年。;王雅戈對民國時期農業文獻數據庫建設展開研究③王雅戈:《民國農業文獻數字化整理及信息組織研究》,南京農業大學博士學位論文,2007年。。在文本挖掘與知識組織方面,黃建年研究并設計出農業古籍自動斷句標點的算法,并實現了農業古籍斷句標點的原型系統④黃建年:《農業古籍的計算機斷句標點與分詞標引研究》,南京農業大學博士學位論文,2009年。;常娥對古籍自動編纂、自動校勘相關智能處理技術展開了研究⑤常娥:《古籍智能處理技術研究》,南京農業大學博士學位論文,2007年。;何琳構建了古農書的本體,提高農史信息資源語義檢索的效果⑥何琳:《古農學本體的半自動構建及檢索研究》,南京農業大學博士學位論文,2007年。;唐恵燕利用GIS 技術對1949-2011 江蘇水稻種植進行了時空變遷的實證研究⑦唐惠燕:《基于GIS江蘇種植結構演變研究(1949-2011)》,南京農業大學博士學位論文,2014年。。
其實在歷史學領域,國內外已經有諸多較為成功的數字人文基礎設施項目,在此圍繞中國歷史研究舉例一二。例如,哈佛大學費正清研究中心與北京大學中國古代史研究中心、臺灣中研院史語所聯合建設的“中國歷代人物傳記資料庫(CBDB)”項目(https://projects.iq.harvard.edu/chinesecbdb),其負責人包弼德教授也多次在各種場合提出要建設服務于中國歷史研究的網絡基礎設施,提出可通過API 分享和文檔分享來聚合網絡上不同的數字資源,也可避免基礎數據建設的重復勞動。臺灣大學數位人文研究中心的“臺灣歷史數位圖書館(THDL)”(http://thdl.ntu.edu.tw/index.html)也是以提供數字人文研究基礎設施為目的來建設的。在THDL中,不但有提供全文檢索、元數據檢索功能的全文數據庫(淡新檔案、明清臺灣行政檔案、古契書),還提供了可服務人文研究的各類軟件工具集,如中西歷日期對照查詢、清代官職表、度量衡單位換算系統、THDL 前后綴詞分析工具等等,其設計理念已經超越了普通的數據庫存儲系統,而是可以幫助研究人員發現新問題的有效平臺。
此外,還有上海交通大學研發的中國地方歷史文獻數據庫(http://dfwx.datahistory.cn/pc/)、復旦大學的中國歷史地理信息系統(CHGIS)(http://yugong.fudan.edu.cn/)、臺灣中研院開發的中華文明時空基礎架構(CCTS)(http://ccts.ascc.net/)等項目,均可作為相關主題研究的數字人文研究基礎設施。從以上案例可窺探出,目前國內外數字人文項目大多數還是以服務特定領域與主題的人文研究為主。在歐洲以外的地區,國家層面主導的數字人文基礎設施建設還存在諸多困難與問題,但是考慮到研究基礎設施建設勢在必行,因此以機構為主導的研究基礎設施項目若在設計之初即著重思考數據的交互、資源的共享、工具的適用、用戶的合作等標準化問題,就有可能在未來與國家級研究數據基礎設施進行對接并成為其重要組成部分。
數字人文研究基礎設施的建設應始終圍繞人文學者的學術研究需求來展開,若要對人文學者的研究需求進行分析,則首先應深刻理解人文研究的活動過程,尤其是在e-Research⑧T.Anderson,H.Kanuka,E-research:Methods,strategies,and issues:Boston:Allyn and Bacon,2003.大時代背景下的虛擬研究環境(Virtual Research Environment,VREs)⑨L.Candela,Virtual research environments:GRDI2020 Scientific Report,2011.之中的學術活動過程。美國數字人文研究學者John Unsworth 早在2000 年一次研討會中就提出“學術基本體”(Scholarly Primitives,也有國內學者翻譯為“學術原語”①劉煒、葉鷹:《數字人文的技術體系與理論結構探討》,《中國圖書館學報》2017年第5期。)的概念,認為具有共同特征的學術活動是超越學科與時代的,具體包括:探索(Discovering)、注釋(Annotating)、比對(Comparing)、咨詢(Referring)、取樣(Sampling)、闡釋(Illustrating)、表達(Representing)等七個方面②J.Unsworth,Scholarly primitives:What methods do humanities researchers have in common,and how might our tools reflect this,Symposium on Humanities Computing:Formal Methods,Experimental Practice,London:King’s College,2000,Vol.13,pp.5-00.。C.L.Palmer 等學者定義了在虛擬網上研究環境中的五個核心學術基本體:搜尋(Searching),收集(Collecting)、閱讀(Reading)、寫作(Writing)與協作(Collaborating),其中每一個學術基本體中又細分為若干個,總計16個二級學術基本體,比如“合作”中又有協同(Coordinating)、聯網(Networking)、咨詢(Consulting)等③C.L.Palmer,L.C.Teffeau,C.M.Pirmann,Scholarly Information Practices in the Online Environment:Themes from the Literature and Implications for Library Service Development,2009.。Tobias Blanke 與Sheila Anderson 等學者基于數字人文研究基礎設施的使用角度,通過對人文研究學者的深度訪談調查④Anderson S,Blanke T,Dunn S,Methodological commons:arts and humanities e-Science fundamentals,Philosophical Transactions of the Royal Society of London A:Mathematical,Physical and Engineering Sciences,2010,Vol.368,pp.3779-3796.,總結出五個核心學術基本體:探索(Discovering)、收集(Collecting)、比對(Comparing)、發布(Delivering)和協作(Collaborating),以及多個細粒度的二級學術基本體⑤T.Blanke,M.Hedges,Scholarly primitives:Building institutional infrastructure for humanities e-Science:Future GenerationComputer Systems,2013,Vol.29 No.2,pp.654-661.。以上學者提出的“學術基本體”研究,可以看成是數字人文研究“方法共同體(Methodological Commons)”⑥W.McCarty,H.Short,Mapping the field,Report of ALLC meeting held in Pisa,2002.的概念化及具體闡釋。雖然在虛擬研究環境中,數字人文研究方法存在一定的共性,但是也要深刻意識到不同人文學科之間的研究對象、研究方法、研究過程的差異性。
中國農史研究有近百年歷史,從工作的主要內容來看主要分為兩大階段:一是20世紀初到20世紀80 年代中期,工作重心為農史研究基本資料的收集與整理,在這期間基本上中國最重要的古農書均已被梳理一遍,這也為現今的數字人文研究基礎設施建設奠定了數據基礎;二是20世紀80年代后期,完成資料收集與整理階段性任務后,逐步向農業科技史和農業經濟史研究,研究方法也更具多元化趨勢。張波對農史學科的研究方法體系進行了詳細劃分,他提出基本研究方法包括傳統的文獻研究方法、考古學與民族學研究方法以及新興的科學研究方法如比較農史研究、計量農史研究、系統農史研究等⑦張波:《試論農史學科層次結構和理論方法體系》,《中國農史》1992年第2期。;王思明認為傳統農史研究主要采用歷史學、文獻學、版本目錄學和古文字學等研究方法,現代的研究開始大量借鑒其他學科的研究方法,如經濟學、社會學、人類學、民族性、計算機科學、統計學、考古學、農學等,特別是吸收了歐美及日本等國的研究經驗與視角,開始注重比較研究方法的運用(時間、空間及時空的綜合比較)、計量學與統計方法的應用等⑧王思明:《農史研究:回顧與展望》,《中國農史》2002年第4期。。
綜合來看,農史學科具有歷史學、生物學、環境科學、土壤學、經濟學等多學科的特征,其跨學科屬性也決定了它與廣義的歷史學研究還存在一定的差異性,近些年許多優秀農史研究成果中定量分析的比重明顯提升,領域學者也開始注重將前期整理的農業古籍資料開始數字化,并運用計算機信息技術諸如文本分析、內容挖掘、地理空間分析、社會網絡分析等對資料進行處理。如南京農業大學科學技術史(農業史)博士點在2003年就開辟了“科技史信息組織”方向,以侯漢清為首的研究團隊取得了令人矚目的研究成果,出版了“中國文化典籍計算機整理與開發技術研究系列”叢書。可以說,相較于其他人文學科,我國農史學者是較早意識到采用數字人文研究的方法來拓展研究領域和內容的,盡管在當時,“數字人文”的概念還未在國內落地與普及。而這些領域學者的研究活動也是具有一定的共同性,也就是上文提到的“學術基本體”,筆者將Tobias Blanke 提出的學術基本體與農史領域已有相關研究成果中的研究情景以及劉煒、葉鷹提出的數字人文技術體系①劉煒、葉鷹:《數字人文的技術體系與理論結構探討》,《中國圖書館學報》2017年第5期。進行映射,結果如表1所示。

表1 農史領域數字人文研究情景、學術基本體與技術體系映射
將領域學者的學術研究活動進行歸納得到學術基本體,而與之相關的資源、工具、服務等,均為研究基礎設施建設需涉及的方面。劉煒等學者提出數字人文研究基礎設施框架應分為三個層次,核心是由文獻資源及其服務機構組成,提供基本研究素材的保障;中間層由基金會、資源庫、機構倉儲、計算設施、系統平臺、工具軟件、領域專家和數據科學家等構成,這一層是數字人文研究活動的主體;外層是數字人文成果發布、與社會交互、產生社會影響的界面層,由門戶或平臺形式呈現②劉煒、謝蓉、張磊:《面向人文研究的國家數據基礎設施建設》,《中國圖書館報》2016年第5期。。對于農史領域的數字人文研究,此框架同樣適用,其核心層文獻資源大致包括史書、古農書、地方志類編物產資料、文人文集游記、農史研究文獻、自然科學研究數據、農業經濟數據等等。
縱觀農史領域前期數字人文研究,大多數為個人的特定選題研究(以學位論文為主),其問題在于多數文獻資源的數字化、數據化乃至知識化的過程存在不可通約性,如元數據標準設計缺乏評價、數據庫構建缺乏規劃、相關本體的不可復用、軟件工具非開源等,這些也導致前期的研究數據無法進一步為其他研究者所用,與其他各類數據源的數據無法融合以及軟件工具的功能擴展性較差等一系列問題。基于此,面向農史領域的數字人文研究基礎設施建設勢在必行。
農史領域數字人文研究基礎設施建設需以文獻資源為核心,資源的獨特性與唯一性是研究基礎設施建設必要性的前提,也是區別其他以機構為導向的研究基礎設施的標志。在農史領域,古籍方志中記載的物產資料是重要的研究史料,是領域學者進行相關研究不可忽視的重要文獻資料。在本節中,筆者以中華農業文明研究院特藏文獻《方志物產》資料為核心資源,結合前期相關研究成果以及未來研究工作計劃談一談面向農史領域的數字人文研究基礎設施建設構想。
方志是歷史研究的必需文獻,從清代開始,已經形成了一門獨立的學問。方志以志為主體,有述、記、志、傳、圖、表、錄等,在歷時性的維度下對特定區域的建置沿革、分野、疆域、城池、山川、坊郭鎮市、土產、風俗、戶口、學校、軍衛、郡縣廨舍、寺觀、祠廟、橋梁、古跡、宦跡、人物、仙釋、雜志、詩文進行描述和記載①倉修良:《方志學通論》,華東師范大學出版社,2013年。。其中的“物產”幾乎一直是方志必載項目,簡稱方志物產。方志物產記載一地的動植物資源(部分方志物產也包含貨物,如礦物資源),方志物產是方志中記載農業最多、最集中的部分,這在以農立國的中國有著更為重要的地位,傳統中國是農業社會,無論是研究古代史還是近代史都或與農業發生聯系。
1924年,主政金陵大學農業圖書研究部的萬國鼎先生,開始計劃輯錄古書中有關農業的資料“片段的農學記載”,匯編為《先農集成》,開始了方志的搜集工作,后由于戰爭中止;1949 年,中國農業遺產研究室成立伊始就開始重啟方志的查抄工作,依舊由萬國鼎先生負責,其工作團隊足跡遍布40 多個大中城市和100 多個文史單位,到1958 年查抄方志工作基本完成,1959 年整理,1960 年初編成《方志物產》449冊、《方志綜合》111冊、《方志分類》120冊,共680巨冊3600余萬字,成為今天中華農業文明研究院的鎮院之寶②萬國鼎:《中國農業史整理研究計劃草案》,載王思明、陳少華主編:《萬國鼎文集》。,其中以《方志物產》價值為最大。
概言之,《方志物產》是上個世紀建國前后,大批有識之士在萬國鼎先生的策劃和組織下集一代人心血精心搜集、挑選和抄寫裝訂起來的大型方志類文獻匯編,具有唯一性和不可替代的豐富性,海內外未見同類型的其它文獻可與之媲美。
本文提出面向農史領域的數字人文研究基礎設施建設可先以方志物產知識庫構建為首要工程,基于該知識庫可對方志物產資料展開知識發現、知識考證以及深度利用研究。方志物產知識庫構建步驟具體可分為四個環節:數字化、數據化、知識化及平臺化。打一個比喻,“數字化”的工作是將活牛進行屠宰與清洗;“數據化”的工作是將牛進行肢解,并將各部位按照用途進行初步加工;“知識化”的工作是將初步加工的部位按照食譜與其他食材按嚴格比例進行烹煮并得到最終的食物,如一塊“菲力”牛排(牛之里脊肉);“平臺化”的工作就是要解決用什么樣的餐具、配合什么樣的美酒或是在什么樣的就餐環境去消費這一塊牛排,讓食客得到更完美的體驗。數據科學家、領域專家這些專業的“廚師”將貫穿在基礎設施的建設過程之中。方志物產知識庫構建框架如圖2所示。
(1)數字化——方志物產資料數字化整理與加工
對手抄孤本《方志物產》進行數字化是其得以保存和利用的重要手段之一。在此基礎上,還需以國內外各種方志目錄為線索,對相關資料進行二次輯錄、整理與查漏補缺,形成更為完整、全面的方志物產資料,這也是數字人文研究基礎設施建設的前期基礎性工作。
《方志物產》原始文本的地域范圍幾乎涵蓋國內所有行政區劃,時間跨度從宋代至民國,內容體系包括目錄、序言、正文和結語。首先,需由數據科學家確定重新整理與輯錄后的方志物產資料數字化的整體框架,針對原始《方志物產》體例進行編碼設計,編制歷史時間索引、來源志書索引、行政區域索引等,選取人工錄入和機器掃描相結合的策略實現方志物產資料的數字化;其次,根據方志物產資料的字詞分布特征,對于文本內容的繁簡呈現、漢字編碼集的確定以及生僻詞造字方法的選擇等相關漢字錄入問題給出行之有效的解決方案;再次,針對方志物產資料的文獻資源內外部特征,借鑒國內外多種元數據標準,例如都柏林核心元數據、國家圖書館地方志描述元數據等,設計方志物產描述元數據;最后,對于錄入的方志物產電子文本,依據行文格式及相關內容設置數據庫字段,同時結合機器掃描的圖像及其相應處理,完成涵蓋序言(序)、檢索樣例說明(敘例)、來源方志名稱拼音檢字、行政區域拼音檢字、年代和正文以及手抄孤本原貌(圖像)的基本素材庫的構建。文獻資源數字化是整個基礎設施建設的基石,其資源數字化的質量決定了后續基礎設施建設的成敗。

圖2 方志物產知識庫構建框架
(2)數據化——方志物產資料多層級標注
在這一環節將要實現數字化文本到數據化語料庫的轉換。首先,在方志物產基本素材庫的基礎之上,由領域專家研究并歸納各時期不同地域方志物產資料的知識書寫的差異性,得到方志物產多特征詞匯底表;再由數據科學家針對詞匯的顯性與隱性語義知識,通過人工標注、機器學習的策略完成方志物產資料數字化文本的分詞、詞性、命名實體和斷句的自動標注,同時構建基于方志物產資料的自動分詞、自動詞性標注、自動命名實體識別和方志自動斷句模型,通過不斷修正模型提升標注數據集質量,實現對方志物產資料中蘊含的“人、時、地、物、事”等命名實體的一體化標注,最終得到一個多層級標注的結構化的方志物產語料庫。一些有豐富軟件開發或工具使用經驗的數字人文研究者可直接利用語料庫中的數據集來展開他們預設的各類主題研究。
(3)知識化——方志物產資料語義知識組織
對方志物產資料文本僅僅進行淺層次的數字化與數據化,并不能滿足領域學者對古籍方志進行文本挖掘、語義分析和知識發現的需求。在這一個階段仍然需要領域專家與數據科學家通力合作,先需對網絡環境下方志物產資料語義知識組織的深度序化機制及實現路徑進行探究;然后在此基礎上構建方志物產領域知識本體,利用本體對相關資源(包括獲取的網絡資源)進行語義標注,建立詞匯間的語義關系,如上位詞(屬關系)、主題詞(用關系)、其下位詞(分關系)、參見詞(代關系)等,并存儲對象類、屬性以及對象之間的語義關系,作為后續方志物產知識庫構建提供深度的語義層面知識。對方志物產資料展開語義知識組織,滿足書目控制和規范控制、數據重用與共享等需求,是數字人文研究基礎設施建設的重要環節。
(4)平臺化——方志物產知識庫平臺構建
“平臺化”是數字人文研究基礎設施的“門戶”建設也是核心部分,即采用關聯數據的一整套技術、方法和流程,實現為領域用戶提供各種知識服務的知識庫系統平臺。首先,基于方志物產知識本體設計關聯數據模型,盡可能復用互聯網已有成熟詞表,對方志物產元數據進行數據清洗,提取概念實體并賦予HTTPURI,基于方志物產知識本體定義的類和屬性來描述實體及實體間的關系,采用機器可讀的RDF序列化格式進行編碼與存儲。接下來,使用關聯數據四原則發布方志物產關聯數據,運用SPARQL查詢語言與語義技術開發框架存取和操作數據,同時運用可視化技術構建知識庫呈現平臺展現數據,提供數據開發接口供其他程序調用,采用關聯數據開放與消費的方式實現知識聚合應用。最后,基于知識庫為領域學者與公眾用戶提供面向數字學術與公眾史學的各項知識服務的軟件應用模塊,實現諸如研究數據存儲、知識檢索與可視化、眾包編輯、專題服務以及社交化應用等平臺功能。
(5)數字人文研究基礎設施的作用——方志物產知識庫深度利用研究
方志物產知識庫的建成將會是面向農史領域的數字人文研究基礎設施的重要組成部分,但基礎設施應是一種生態系統,即需有領域專家以及其他用戶的參與,不斷提出問題與需求,通過迭代在知識庫中解決問題才是一套成熟的基礎設施應實現的“落地”功能。
方志物產知識庫的深度利用應首先建立在知識發現與考證基礎之上,即通過人工甄別與機器比對相結合的方式,對提取的物產數據集進行考證,借助社會網絡分析、地理信息系統等技術方法對知識庫中的隱含知識進行挖掘與分析,如明至民國時期特定植物在全國范圍內的分布情況、不同地區物產的豐富程度以及物產隨時間變遷的消長情況、特定物產在時空框架下的變遷路線、物產與相關人物的關系等。
接下來再由領域專家對獲得的隱含知識采用歷史文獻學的方法進行多輪專業考證,如物產的同名異物、同物異名,不同版本的志書與引書比對,特定物產的消長變化與變遷路線等等問題;在此基礎上,領域學者可運用農學、動物學、植物學、生態學、歷史地理學、農業經濟學、社會學、民族學和人類學等學科理論與研究方法,研究特定物產與人類社會之間的復雜互動的整體關系,例如以下三個主題研究可按此路徑展開:
一是基于環境史對動植物資源的數量和種類的分布及增減加以探源分析。二是中外農業交流路徑上物產的時空變遷問題。進一步梳理一帶一路上的外來作物的傳播時間、路徑及其經濟價值。三是基于社會學及民族學的視野,立足于物產本身,梳理與該物產有關的社會、經濟、文化,從而具而微地展現當地生活文化,解剖當地區域文化、民風民俗的形成與演變,增強文化自信。
同時除面向領域學者以外,還應兼顧政企與公眾需求,圍繞方志物產資料開發與利用模式展開研究,如促進科普知識傳播、擴大旅游資源開發及提升農業遺產保護等。
我國歷史悠久,文化遺產豐富,古代典籍文獻中有許多農業科學技術方面的珍貴資料,可以幫助今人考證農產品與農業技術的歷史起源、辨別有關農業動植物和器物的名實異同,以及為當前農業生產和科學研究提供啟示與借鑒。在農史研究中,古農書與方志向來是農業歷史文獻的主體,萬國鼎先生曾明確指出:輯錄古籍上有關農業的資料,方志最為大宗。
時至今日,各種古農書與方志的搜求、編目、校勘、注釋、今譯、輯佚、典藏、影印等工作已頗具規模且成果累累,但是在數字化、知識庫建置等環節相關研究工作還剛剛起步,未成氣候。數字人文研究基礎設施是一種支持人文科研活動的通用基礎架構,是在數字環境下為開展人文研究而必須具備的基本條件,可以是國家層面的,也可以是地區行業或組織機構層面的。研究基礎設施的建設對于農史乃至歷史學研究均具有深遠的意義,有利于學科中各個項目數據資源的共享與關聯、通用型軟件工具與應用開放接口(APIs)的互操作以及人員協作模式的平臺化與制度化。
目前,對于學界而言比較緊迫的任務是制定一些可持續發展的機制來構建并改進相關研究基礎設施,正如之前在上海哈佛中心舉行的“中國歷史研究的網絡基礎設施國際研討會”就已匯聚國內外諸多領域專家共商此事。
本文提出以中華農業文明研究院的特藏文獻資源《方志物產》為例,通過數字化、數據化、知識化、平臺化等步驟構建方志物產知識庫,以此拉開面向農史領域的數字人文研究基礎設施建設的序幕。可以預期的是,該基礎設施的建成將不僅有助于農史領域內數字人文研究的深入開展,同時也可為未來行業乃至國家層面的研究基礎設施建設添磚加瓦,從而推動具有中國風格的數字人文研究體系的形成。