隨著數字圖書館的發展,越來越多的圖書館將本館擁有的實體特藏資源數字化、網絡化,各大高校圖書館積累了大量數字化的特色資源。網絡化的特藏資源是一筆寶貴的知識財富,不僅有利于特色資源的長期保存,加快人文知識的大眾普及,還能為人文學者的研究提供更好的支持。但是,分散在各高校的特藏資源存在只服務于本校師生的信息孤島現象。打破信息孤島,整合特藏資源,將優化整合后的資源推向更廣泛的用戶平臺,可以為缺乏特藏資源的圖書館提供支持服務,從而提高特藏資源的利用率。整合優化后的特藏資源具有質量高、資料完備的特點,在此基礎上,借助GIS、數據可視化、文本挖掘等信息技術,人文學者可以從整個宏觀的時空范圍和群體角度對特藏資源進行觀察、提出問題和研究。
數字人文的起源可以追溯至1949年的“人文計算”,Roberto Busa使用電腦對神學家St.Thomas Aquinas著作內的字詞進行大規模的處理,繼而經歷了起步、鞏固、新發展和互聯網時代等四個演進階段[1]。2004年《數字人文指南》(A Companion to Digital Humanities)出版,“數字人文”取代“人文計算”,并被廣泛傳播。數字人文的概念難以界定,但是其活動特性可以用發現、標注、比較、引用、取樣、闡釋與呈現等7個原術語來進行概括[2]。早期數字人文的參與者主要集中在文學、計量史學、語言學等領域。隨著數字技術、計算技術的不斷發展,巨量的資料分析、地理空間分析、人員流動軌跡分析成為可能,數字人文深刻地改變了人文學者的研究方式。數字人文受到越來越多的關注,數字人文組織迅速發展。截至2017年,全球范圍內以“數字人文”為名稱的中心、項目、實驗室等有190多個[3],包括斯坦福大學人文實驗室、加拿大維多利亞大學人文計算與媒體中心、英國倫敦大學學院數字人文中心、德國哥廷根大學數字人文中心、日本立命館大學日本文化藝術數字人文中心等。2005年,全球最大的數字人文綜合型研究機構國際數字人文組織聯盟(The Alliance of Digital Humanities Organizations, ADHO)成立,現任成員包括歐洲數字人文協會、計算機與人文協會、加拿大數字人文學會、澳大利亞數字人文協會、日本數字人文協會、數字人文中心,其目的是促進和支持包括藝術和人文學科在內的人文藝術領域內的數字化教學與研究,作為一個基礎平臺,在研究、出版、合作和培訓等方面提供支持[4]。國際數字人文研究的蓬勃發展也推動著國內數字人文研究的發展,2011年武漢大學成立數字人文研究中心,2014年“數字人文與語義技術”研討會在上海圖書館召開,2016年“數字人文論壇”在北京大學召開,同年北京大學數字人文小組成立,2017年上海圖書館年會上復旦大學人文社科數據研究所揭牌。
雖然國內數字人文的研究起步相較于國外較晚,但是近年來不斷快速發展,并且有了自主創新,例如古籍文本的可視化分析,中國歷史地理數據的應用,上海世博會對《清明上河圖》的數字動態再創作等。不難看出,數字人文在國外與國內都受到了極大的關注,數字人文的理論不斷完善,實踐領域不斷延伸。數字人文的出現為歷史學、哲學、文學、宗教學和社會學等一系列學科的發展帶來了機遇。同時,數字人文的發展也需要各學科協同創新、有機融合,學科間的不斷融合,才能有效地促進學科間的資源共享和知識發現,才能為數字人文的發展提供一個知識性、創造性的研究環境,才能為社會發展綿長歷史中人文精神的傳承起到推動作用[5]。
早期的數字人文研究更多的是單個或幾個學者以電腦為工具,用計量方式對文學作品的文本進行分析,如Roberto Busa對St.Thomas Aquinas著作進行的大規模字詞處理,陳炳藻對《紅樓夢》的歸屬研究。隨著數字人文的快速發展,數字人文的開發需要更多的專家學者、普通大眾和機構參與,數字人文系統應運而生。數字人文系統是以典藏機構的數字化資源為核心,在此基礎上由基金會、機構、領域專家等支持開發的系統,系統不僅可以提供保存資料的典藏手段和尋找資料的檢索工具,還可以協助研究者重新組織、分析資料,提供一個探索環境,也可以通過眾包平臺功能、提供API方式等與外界交互,共同發展。典型的數字人文系統有中國歷史地理系統(CHGIS)、中國歷代人物傳記資料庫(CBDB)、唐宋文學編年地圖、上海圖書館家譜知識服務平臺、南京師范大學的華夏民族家譜地理信息系統、“臺灣中央研究院”的中華文明之時空基礎架構(CCTS)、臺灣歷史文化地圖(THGIS)、臺灣歷史數位圖書館(THDL),除此之外,早期的HathiTrust、DPLA(Digital Public Library of America)等基礎設施平臺也開始提供數字人文服務。表1分別從系統創建的資料來源、提供的功能及工具、與外界交互情況列舉了中國歷代人物傳記資料庫(CBDB)、臺灣歷史數位圖書館(THDL)、上海圖書館家譜知識服務平臺等三個較成功的數字人文系統的建設情況。

表1 數字人文系統建設情況
CBDB是由哈佛大學費正清中國研究中心、“中央研究院歷史語言研究所”和北京大學共建,其遠程目標在于系統性收入中國歷史上所有重要的傳記資料,并將其內容毫無限制地、免費地公諸學術之用。截至2016年4月,數據庫共收錄約37萬人的傳記資料。CBDB除可作為人物傳記的一種參考資料外,亦可作統計分析與空間分析之用[6]。THDL由臺灣大學項潔教授團隊主持,2006年完成,2007年開放使用,總共包含了近九萬件和臺灣有關的官方文書和民間契約等,是臺灣史研究最為豐富的資料庫[7]。THDL可以幫助使用者定位資料,提供檢索后分析功能,可進行諸如分類、檢索結果年代分布圖、詞頻統計等初步分析,并提供“自訂文件集”功能和一系列分析工具幫助使用者重新組織、分析資料?!凹易V知識服務平臺”由上海圖書館建立,在充分利用館藏家譜的基礎上,將家譜數字資源以“時間軸”“地圖”等可視化的方式開發出來,可見即可得地展示某一姓氏在某一地理空間范圍內的分布情況[8]。三個數字人文系統平臺有以下共同點:(1)以多來源的或單一來源的數據庫內容為核心。全面的、高質量的資料是數字人文的起點,為了適應各類人文研究的需求,不同的研究者皆需要有適合的、能與之對應的數據庫的建立[9]。(2)在內容的基礎上提供檢索、分析等工具,幫助研究者從大量資料中定位所需資料,分析資料。(3)提供API接口,實現不同數據庫之間、數據庫與互聯網之間的通聯。(4)允許使用者編輯、進行自己的創作,與研究者進行對話,共建數字人文系統。這些系統平臺為建設基于圖書館異構特藏資源的數字人文系統提供了參考。
數字人文系統是以數據庫為核心,必須有正確而完備的典藏和資料庫作為基礎,數字和人文研究才有更進一步合作的可能,數字人文系統的質量取決于資料是否正確、相關的記錄是否皆有收錄[10]。先將分散的、異構的資源整合,在此基礎上構建的數字人文系統提供的數據資源更加全面、完整、權威,質量更高,可以將人文研究學者從繁雜的資料收集、整理和辨偽工作中解脫出來。整合的異構資源系統使得資源可以跨時空、跨典籍立體交叉顯示,支持不同研究領域和研究方向的學者在同一個平臺開展工作,各取所需[11],給人文研究學者提供了一個全新的視角。例如,唐宋文學編年地圖將中國詩詞在地圖上顯示,是文學、歷史和地理的融合,通過平臺,可以直觀地了解詩人在各地的足跡,也可以查看同一地點不同詩人不同時期所做的詩詞。
從圖書館出發,異構資源的整合為圖書館注入了新的活力,提高了公眾對其資源的認知度,改變了其在公眾眼中的封閉形象。在分散的、異構的資源基礎上構建系統,資源利用率低,資源不完備,極大地限制了特藏資源的價值發揮[12]。從經濟角度出發,直接在分散的、異構的特藏資源基礎上構建各自的數字人文系統,其成本是巨大的,不利于功能擴展。先將異構特藏資源整合,在大量數據資料的基礎上構建數字人文系統,并將優化整合后的資源推向更廣泛的用戶平臺,不僅能夠有效提高資源利用率,還增加了用戶訪問資源保存機構的頻率。將存在于不同地點、不同系統的特藏資源整合起來,是建設數字人文系統最基本的工作。
數字資源整合也可稱為數字資源集成,是在各種數字資源自主性、分布性、異構性的基礎上,運用各種集成技術和手段將各類數字資源集成在統一的利用環境下,實現“一步到位”的檢索,讓用戶方便地利用各種數字資源,為其節省時間和精力。為了能夠將異構資源整合在一起,實現統一檢索和訪問,促進資源的發現與共享,圖書館采取了一系列解決方案,如OAI-PMH(The Open Archive Protocol for Metadata Harvesting)協議、Z39.50協議、跨庫檢索、信息鏈接等[13]。具體來看,資源整合的方法有以下幾種。
(1)數據倉庫法,指集成系統將存儲于不同地方的數據收集起來,并經過分析、綜合、轉換等一系列數據加工處理工作,最后裝載入本地的中心數據倉庫進行統一存儲。優點是資源相對穩定,在數據倉庫基礎上可進行信息挖掘,提供更深層次的知識服務;缺點是數據更新不及時,數據重復存儲。DPLA、OAIster、Calis學位論文項目通過OAI-PMH從數據提供方收割數據,并將數據存儲于服務方的數據倉庫中,HathiTrust項目通過FTPS將書目數據提交給Zephir[14]處理,是資源整合的數據倉庫法的典型例子。
(2)聯邦形式。集成系統分為客戶端和服務端,客戶端負責獲取用戶查詢,獲取查詢后發送至各個服務器,服務器解析查詢并從各自的數據源中獲取結果,整合后返回給客戶端,或者利用中間件模式,客戶端與中間層通信,中間層負責與各服務器相互聯系。該方法一般只提供只讀的查詢功能,執行效率不高,但是數據不會重復存儲,適用于被集成的系統規模大、數據更新頻繁、數據實時一致性要求高的情況。Z39.50、SRW/SRU就是屬于此類集成方法的協議。INNOPAC、CALIS OPAC系統,就是將Z39.50作為中間層協議,將系統的具體實現映射到抽象模型上,實現異構系統間的交互式通信。
(3)基于本體的資源整合。本體論通過對概念的嚴格定義和概念之間的關系來確定概念精確含義,表示共同認可的、可共享的知識,成為語義Web中語義層次上信息共享和交換的基礎。基于本體的資源整合是基于領域本體模型對異構數字資源進行語義標注并構建統一的(元數據)知識庫,從而實現對資源的統一語義檢索。本體在其中的作用是提供對資源進行語義標注的詞匯標準[15]。Wache等將基于本體的整合方法歸納為單一本體法、多本體法和混合法三種[16]。單一本體法首先定義一個全局本體,提供一個共享詞匯表作為集成時的參考,分布在各個地方的數據源都有全局共享本體相關聯。多本體法是在各個異構的數據源上建立局部本體,然后在局部本體間建立映射關系?;旌媳倔w法是將單一本體法和多本體法綜合,在多本體的局部本體方法上建立全局本體。本體能解決語義異構的問題,但是本體是領域相關的,對于不同領域內的資源整合較困難。
(4)基于關聯數據的資源整合。伯納斯·李于2006年在語義網基礎上提出了關聯數據(Linked Data)[17]。語義網試圖將數據聯系起來,并產生數據與現實事物的聯系,以方便人與機器閱讀和理解這些數據。關聯數據是第一種可行的語義網表達形式,它采用RDF數據模型,利用URI(統一資源標識符)命名數據實體,來發布和部署實例數據和類數據,從而可以通過HTTP協議揭示并獲取這些數據,同時強調數據的相互關聯、相互聯系以及有益于人機理解的語境信息。由于關聯數據要求采用URI命名數據實體,并可以通過HTTP協議獲取,完全自治的“數據孤島”可通過關聯數據連接起來,實現數據互聯和集成。
(5)本體與關聯數據驅動的圖書館信息資源語義整合框架[18]。歐石燕等將本體與關聯數據結合提出了此方法,旨在實現不同層次和范圍的資源整合。該整合框架有3層結構,第一層是基于本體的文獻資源整合,采用混合本體法實現異構元數據的語義互操作,首先構建一個共享的核心元數據本體,然后針對特定資源構建專門元數據本體;第二層基于關聯數據的圖書館信息資源整合,采用關聯數據發布圖書館信息資源使得每個資源可通過HTTP協議直接訪問,并可沿著RDF鏈接訪問其他相關資源;第三層與外界資源的鏈接與集成,采用關聯數據與其他圖書館的關聯數據或外界的關聯數據(如DBPedia)相關聯。
除了以上幾種典型的整合方法,還有諸如中國知網的跨庫檢索,谷歌、百度等搜索引擎運用自己的計算機程序從網上搜集信息,為用戶提供網頁連接組合等整合方法;通過提供應用程序接口方式(API)與其他系統整合也是一種常用的整合方式?;贕IS的應用,還可通過將不同數據資源與GIS整合。在實踐中,根據自身需求采用不同的整合方法,有時也會組合多種方法實現整合的目的,例如美國數字公共圖書館DPLA項目采用了數據倉庫法,基于本體、關聯數據的整合。
DPLA是通過多種方法將異構資源整合,在此基礎上提供開放服務,為數字人文提供支持的典型案例。DPLA項目于2010年底開始討論、規劃,2013年開放運行,它把檔案館、圖書館、博物館和文化遺產機構、私人收藏機構等分散的資源進行統一集合,最大限度地開放可共享的文化遺產。DPLA整合的過程,首先從它的內容和服務中心收割數據,然后對其數據進行豐富,經MAP(Metadata Application Profile)映射存儲,最后通過API發布數據。
(1)DPLA主要通過OAI收割、以及內容中心或服務中心提供的API收割來自兩個中心的元數據[19]。OAI-PMH是一種獨立于應用的、能夠提高Web上資源共享范圍和能力的互操作協議標準。在OAI-PMH的互操作框架中有兩種主要的角色:數據提供者和服務提供者。數據提供者是元數據的發布方,采用OAI技術框架發布元數據,使得服務提供者可以根據需求對這些元數據進行收割加工;服務提供者是元數據的收割方,使用OAI協議向數據提供方發出請求,并接收返回的元數據作為構造附加服務的基礎。OAI協議被應用于DSpace、WorldCat、NASA、LibGuides、Omeka等一系列組織的分享、收集數據中。DPLA為了更加迅速、更大范圍的收集數據開發了一款新的開源OAI收割器Spark OAI Harvester。Spark是分布式處理引擎,可實現并行處理大量數據,使得處理數據的能力更快。Spark的另一優點是它支持結構化的處理數據,它提供諸如SQL查詢、機器學習算法、圖形計算等一系列內建庫,這使得收割來的數據更容易檢查、分析和操作。在Spark OAI Harvester的幫助下,DPLA收割數據、處理數據更加的方便、簡單。
(2)DPLA收割后的元數據,經過MAP映射,并以關聯開放數據加以強化,呈現和共享元數據。MAP基于Europeana數據模型EDM,并結合DPLA集成美國文化遺產機構元數據的經驗與特定需求。EDM主要使用來自其他命名空間的屬性、加上少數獨特的本地開發屬性,為集成來自歐盟不同機構的多樣化數字對象的元數據而開發,是一開放的、跨領域、基于語義網框架的數據模型[20]。MAP起草于2012年,于2013年初發布為最初的版本v3.0。2014年7月略作更新為v3.1,2015年3月發布的v4.0,2017年12月發布最新版v5。MAP(v5)[21]根據實施過程中的需求及意見在原來的版本上修改而成,其具體情況如圖1所示(引自:https://drive.google.com/open?id=1fJEWhnYy5Ch7_ef_-V48-FAViA72OieG)。MAP(v5)有9個核心類,其中使用了 來 自 EDM 的 Place、TimeSpan、Agent、WebResource,來自skos的Concept,dcmitype的Colllection和ore的Aggregation。對象間的屬性關系也是采用dc、dcterms和edm定義的層級關系。通過MAP映射的DPLA數據在Web上開放、共享,成為具有相互聯系且可參引的數據,可與其他平臺數據直接聯系,形成一個開放的、可無限延伸與擴展的資源整合體系。
(3)DPLA提供統一檢索界面,并提供API接口調用其函數,目前API使用的數據未更新到最新版,仍采用v3.1[22]。其最基本的API調用格式為“https://api.dp.la/v2/items?q=weasels&api_key=”其中“https://api.dp.la/v2”是基本格式,“items”指的是請求的“資源類型”,除“items單條記錄”外還有“collections集合”,“?q”后面跟的是具體參數,“&api_key”后面跟的是你從DPLA取得的32位字符串形式的key。其返回的格式為“JSON-LD”格式,如下所示:

圖1 DPLA MAP概覽

DPLA通過API與其他系統整合,程序開發者可通過API訪問DPLA元數據,DPLA原來的官網上有專門的“Apps”網頁,列舉了34款通過DPLA提供的API接口開發的應用。DPLA整合的方法非常值得借鑒,通過OAI收割數據,并復用EDM、SKO等成熟詞表,發布關聯數據與其他資源整合。DPLA擁有大量經過加工處理的、較為完整規范的元數據信息,是重要的數據基礎設施,可用于文本分析和挖掘,當前許多優秀的數字人文研究案例已開始受益于這些基礎設施[23]。
華東師范大學圖書館(以下簡稱“本館”)早在2014年就對師范聯盟圖書館特藏資源的建設情況進行過問卷調查;2017年又一次基于網絡跟蹤聯盟圖書館網站特色館藏平臺的變化情況。據調研,師范聯盟擁有的特藏資源數據庫中,涉及人文學科(不含文庫、教參及學位論文)的資源數量約占65%[24](表2),圖書館特藏資源的有效開發可以支持為人文學者的研究提供支持。表中列舉的特藏資源是經過師范聯盟圖書館編目,使用商業或自建平臺發布的。特藏數據庫所使用的平臺涉及 TPI、TRS、Apabi-DESi、Apabi-TASi、IDL-ETD、DIPS、超星、麥達等商業平臺,還有一些圖書館使用的是自行開發的平臺。商業平臺中TPI、TRS的后臺數據庫是專有數據庫,而其他系統的數據庫使用的是SQL Server、MySQL等關系型數據庫。特藏資源使用不同的數據庫、不同的發布平臺,彼此異構,在為人文學者提供支持前首先需要選擇合適的整合方法,整合異構的圖書館特藏資源。

表2 師范聯盟成員館特藏資源數據庫統計表[25]
由于整合異構特藏資源的目的是為人文研究提供支持,需要在數據的基礎上提供知識發現作用,因此在綜合考慮整合方法的基礎上,擬采用物化的數據倉庫式進行整合,即對元數據進行收割集中儲存,其系統架構圖如圖2所示。對于已經編目且存儲于類似于MySQL、MS SQL及Oracle的元數據,借鑒DPLA整合模式,使用OAI協議。師范聯盟各成員館是OAI協議中的數據提供方,本館是OAI協議中的服務提供方。首先要求數據提供方按照服務提供方要求的元數據格式進行編目。本館利用OAI收割器生成請求,通過HTTP協議的GET或POST方法向數據提供方發送OAI請求,數據提供方按照請求將數據返回給本館,從而完成元數據的收割。對于未在集成系統內進行編目,以excel、xml文件存儲的元數據,數據提供者可使用FTPS方式直接將元數據提交給本館。本館在獲得元數據后,對數據進行去重、清洗、轉換、合并和融合等加工處理存儲于核心數據庫中。在將采集來的元數據存于數據庫之后,一方面識別元數據的實體,構建知識本體。在知識本體的構建過程中應遵循盡量復用已有的知識本體與術語詞表。目前國際上通用流行的詞 表 有 DC/DCT、Schema.org、 BIBFRAME、RDA、EDM等。選定合適的詞表后,從核心元數據出發,將元數據項與詞表中的類相對應,并以屬性來明確類與類之間的關系,從而形成立體網狀模型。本體構建完成以后使用RDF格式編碼,存儲于專用的RDF存儲庫中,發布為關聯數據,實現與外部世界的自動關聯、復用、共享的目的;另一方面在核心數據庫基礎上構建數字人文系統平臺,借鑒CBDB、CHGIS和上海圖書館家譜知識服務平臺等數字人文系統,該平臺提供統一的檢索功能,基于GIS技術動態顯示資源信息;基于GIS的時空分析功能;提供編輯入口以眾包平臺方式讓使用者參與資源的共建;提供開放數據下載功能;提供API接口供其他程序調用;使用IP控制,供有權限的用戶瀏覽全文等一系列功能,實現資源長期保存、共享及發展。

圖2 基于師范聯盟異構特藏資源的數字人文系統架構圖
以異構特藏資源為基礎構建的數字人文系統,借鑒CBDB、THDL、上海家譜知識服務平臺,應提供包括統一檢索、分析工具、GIS工具、眾包平臺、API接口、全文瀏覽等功能。
(1)統一檢索:數字人文系統聚集大量的數據,為幫助用戶快速定位資源,檢索是系統提供的最基本功能,包括簡單檢索、高級檢索。CBDB除能提供基于人名、地名、官名和關鍵詞的簡單分面查詢,還提供進階查詢功能,通過限定多種條件來構建自己的查詢;THDL檢索提供“相似文件”與相關文件功能,協助使用者查找資料,還提供“檢索后分類”功能,每次檢索后可根據年代、出處、作者、契書分類,并計算每個類別擁有的文件種類,且提供檢索結果的“年代分布圖”可視化顯示;上海圖書館家譜知識服務平臺提供基于字母的分面瀏覽功能。
(2)分析工具:CBDB可以進行群體傳記學的統計分析,還可以進行時空分析,并提供社會關系分析工具進行社會關系網絡分析。THDL提供檢索分析工具、關系探查工具。檢索分析工具包括THDL前后綴詞分析工具、THDL臺灣總督府抄錄契書地區分析及歷史地理信息系統,前后綴詞分析工具可進行詞頻分析;關系探查工具包括THDL契約買賣角色分析,淡新檔案訴訟關系圖。
(3)GIS工具:CHGIS、CCTS、THGIS、上海圖書館家譜知識服務平臺、南京師范大學的華夏民族家譜地理信息系統、全唐詩電子檢索系統等都是基于GIS系統整合專題數據庫,提供服務。廈門大學鄭振滿設計的莆田歷史人文地理信息系統,則是以GIS為平臺整合文獻(民間文獻、地方檔案、書籍)與田野調查資料(實物、建筑、儀式、音色),構成一個跨越史料文類、主題、數據類型的數字人文系統,也可以說是一個時空史料綜合體[26]?;贕IS的系統可提供GIS有關點聚合、時間軸檢索、古今地名對照服務、地圖測距、開放檢索POI和熱力圖等功能。
(4)眾包平臺:眾包平臺可以實現元數據、功能和全文的眾包。上海圖書館家譜知識服務平臺提供編輯、提交入口,用戶可以編輯元數據字段,管理員通過審核后將被采用。數字人文項目“萊比錫開放碎片文本序列(LOFTS)”采用Perseids平臺,允許用戶對引用文本及句法進行標注,實現基于協作眾包的數字人文基礎設施平臺[27]。TDHL允許用戶更正元數據、全文、人地名,管理小組不定期整理,采用后并更新于新版資料庫中。CHGIS可幫助用戶把自己的數據發布在復旦大學歷史地理中心的"禹貢"網站或哈佛地學空間圖書館(HGL)、電子文化地圖集行動計劃(ECAI)和其他元數據信息交換站。
(5)API接口:提供面向程序的服務,即開發可被計算機應用程序調用的數據應用接口。通過API,每個資料庫可以取用其他資料庫的數據,而不必在自己資料庫重新輸入這些資料,實現不同數據庫間的互聯。DPLA開放API,在此基礎上程序員開發各自基于DPLA資源的應用。CBDB之空間分析就是建立在與CHGIS對接整合的基礎上,同時麥吉爾大學的明清婦女著作、“中央研究院歷史語言研究所”的人名權威人物傳記資料使用CBDB的API。
(6)全文瀏覽:系統應盡可能提供全文瀏覽功能,實現開放共享,但是由于版權的限制有些資料只提供給部分用戶瀏覽全文的權限,可采取IP控制,通過IP段授權,將部分功能提供給在IP段內的用戶,從而實現權限控制。
(7)其他功能:CBDB提供郵件訂閱,訂閱后用戶可以通過郵件得知平臺更新情況,提供教學輔助文件下載,幫助使用者更好的利用CBDB資料集;CBDB提供罕用字輸入工具、漢字轉拼音工具,THDL提供蘇州碼轉換器、度量衡單位換算系統等參考工具。
基于圖書館異構特藏資源的數字人文基礎平臺以師范聯盟成員館元數據為基礎,應借鑒CBDB、CHGIS等成熟系統的功能提供一系列數字人文工具和軟件供用戶使用,并與用戶和機器交互,按照由易到難的順序逐漸完善其功能。
數字人文的發展促使人文社科研究模式的改變,數字人文系統的建設需要圖書館的努力。本文是以特藏資源為例對支持人文研究的異構資源整合實踐的初探,借鑒其他集成類系統的經驗,打破信息孤島,建立數字人文活動的系統平臺,在系統基礎上提供數字人文工具,為人文研究者提供支持。但是本文提出的系統對人文研究的支持作用有限,也存在一定的局限性。人文研究學者需要更深入地研究數據資料,如對特藏數據的全文進行識別,標注,抽取資源中的時間、地點、人物及事件等有價值的信息,在此基礎上人文研究學者可以擁有更好的研究視角及體驗,這將是我們下一步努力的方向。