基金項目:系吉林省文化和旅游廳科研課題“數字人文視域下當代詩歌簽名本特藏專題文獻研究”(項目編號:WK2020B164)的研究成果。
摘 要:基于簽名本詩歌特藏資源的圖像數字化、文本化、結構化和語義化,建構當代詩歌簽名本特藏專題文獻創建的意義、思路、流程正進一步明確。創建館藏挖掘與應用管理系統,實現原始數據的清理加工,以此得到結構化數據。通過關聯數據服務平臺、圖像交互式數字系統,實現簽名圖像數字化、特征提取及基于內容的圖像檢索,富有意義。本文闡述數字人文視域下特藏建設與服務的有關概念,剖析存在的問題,提出解決策略,供參考。
關鍵詞:數字人文;特藏資源;深度挖掘;簽名本; 當代詩歌
1數字人文研究與實踐
數字人文旨在數字化重構人文資源,以提升其開放性、共享性、共建性和可訪問性,在海內外學界引起了廣泛關注[1]。國外數字人文實踐有70余年歷史[2],2002年國際數字人文組織聯盟成立,2005年國際數字人文中心網絡成立[3]。對于數字人文的理論探討、應用研究,數據開發層面已經積累了一定的研究經驗,其實踐也頗具規模。近十年國內數字人文研究日益受到重視,2011年武漢大學成立第一個數字人文研究中心[4]。數字人文的主要作用是為人文學科領域中長期存在的問題提供新的研究方法[5]。數字人文領域仍存在需要人文學者和技術人員共同攻克的新課題[6]。
在新型數字化技術、語義網以及人工智能等現代信息技術的推動下,內容上融合學科主題詞表進行語義描述,技術上結合數據科學、數字人文與知識圖譜,誕生了一系列圖書檔案博物機構主導的高質量數據庫[7]。致力于資源保存、文化傳承與知識整序的圖書館將會成為主要責任主體。“積淀與超越:數字人文與中華文化”為主題的2020數字人文年會,一方面展現了數字人文對于實施積極的文獻搶救性保護、提供公共文化服務和專業學術研究等方面的現實意義;另一方面也加速推動圖書館界數字人文研究[8]。
2數字人文視域下特藏資源建設與服務
在數字、網絡信息隨手可得的新時代,圖書館的核心價值依存于其長期保存并不斷綿延發展的文明記憶資源。
目前,圖書館的館藏尤其是數字館藏趨于同質化,但特藏資源是圖書館在發展歷程中產生的兼具學科特色、文化內涵和地域特征的館藏,是難以被模仿和復制的獨一無二的資源,是圖書館最有標志性的資源,是圖書館的獨特標簽。特藏文獻主要分為“特殊館藏”和“特色館藏”,優先尋找本館具有先天優勢的專題和目前業界亟待建設的專題,因其特色性和差異性服務會使圖書館館藏資源建設邁上新的臺階[9]。
受人工智能、可視化、VR等技術的沖擊以及關聯數據、知識圖譜等知識探勘及呈現工具的影響,文獻收藏單位對重要性、唯一性、實時性、脆弱性的珍品進行數字典藏,建置數據庫,既滿足用戶的搜尋檢索習慣,又提供數據彼此間的可能脈絡。國內出現古籍、民國文獻、徽州文書等特藏資源整理與分析的探索與研究。
數字人文有三個維度:學科性、專業性、技術性。數字人文是多維度、立體化的網狀結構,推動形成各學科領域的數字人文學術共同體。挖掘傳統紙質文獻在數字人文背景下的全新變化與潛力,深度融合索引與標注等圖書館學科的專業方法,為數字人文的創新提供新資源[10]。數字人文專題強調的是數字資源利用過程中的稀缺性、獨特性和關聯性,解決的是“如何用”和“用得好”的問題,二者達到理念上的契合。
3當代詩歌簽名本特藏專題文獻創建
3.1創建意義
目前數據和結構化知識已成為必不可少且無處不在的學術輸入和一級輸出,實現可查找、可訪問、可互操作和可重復使用的數據環境目標,促進開放學術[11]。
一是文獻資源的優勢——研究對象的獨特性。“紀鵬文庫”系當代著名詩人紀鵬捐贈,其中中外詩集、散文集以及關于詩歌、散文創作理論、創作技法等內容具有較強的系統性和相對的完整性,涵蓋了從新中國建立初期到21 世紀初的一些重要國內外詩歌作品,從中可以看出這一時期我國詩詞作品演進和發展軌跡。
還有冰心、艾青、臧克家、賀敬之等著名作家、詩人親筆簽名的書籍。書中有人的加入,就有了靈魂與溫度。中國現當代文學研究比較注重初版本,簽名本有可能是初版本。即使不是初版本,其價值和意義仍十分重大[12]。簽名本不僅具有歷史價值、學術價值,而且還具有很高的文化價值,是研究文學檔案的一個新視角[13]。目前,相當比例的簽名本都為私人藏品,亦或散落于圖書市場,而公共藏品只占很小比例。藏書界重視有創意和價值的早期簽名書。一本兼具上下款和作者題詞的簽名書通常是拍賣會上的熱門商品。收藏家通常把重要作家代表作品的簽名本作為文物收藏。使簽名本圖書惠及更多的人,保護傳承這種文化現象,能將個人記憶整理為社會記憶,體現數字的人文關懷。
二是數字人文視域下——研究對象的關聯性。簽名本,包括收藏者本人的簽名,是研究文學史的一個新切入 口:可以考察作者的文壇交往,了解作者的著書緣起等。程千帆、徐有富先生在 《校讎廣義·典藏篇》 中指出: “藏書除有益于讀書、治學、創作外,也豐富了藏書家的生活內容,使他們獲得高層次的精神享受。”這些簽名本,曾被著名詩人紀鵬所有、使用并留有印跡。有“一經品題 身價十倍”之說[14]。既有紀鵬先生的藏書章、長春市圖書館的館藏章、還有部分簽名人的鈐印,有上款、下款和 作者題詞,是最完善最齊備的簽名本。利用關聯數據技術 建立詩人譜系,立體呈現事件之間的關聯性,意味著資源 開拓的更多可能。
3.2創建思路
數字人文背景下,借鑒鄭巧英等編著的 《國家圖書館圖像資源元數據規范和著錄規則》[15]、曾子明等提出的一種面向數字人文的圖像語義描述模式[16]等,先將簽名本詩歌特藏資源盡可能地數字化,包含圖像數字化、文本化、結構化和語義化。對詩詞簽名本信息進行提取、描述、分類、多層次標引,借助于字符識別技術、關聯數據技術和檢索技術,可以從數字化轉向文本化,最終直達本體。深入揭示資源內部知識單元,將數字文獻作為“ 數據” 進行處理和加工,進行知識挖掘與探索。構建起典藏體系并配套數據挖掘、數據分析、海量數據存儲技術,有效促進人文學者對當代詩歌文獻的分析和研究。
研究以收藏、整理當代詩歌簽名本和數字化為起點,揭示文獻之間、文本之間的關系和語義。館藏中的資源并不是彼此孤立存在的,資源彼此間有關聯。以構建關聯數據為目標,數字人文視域下特藏的持續拓展、科學整理和深度研究有待聘請相關領域的專家協助,同多學科背景的研究人員積極展開合作,使之成為精準化學科服務的重要資源,利用關聯數據技術建立詩人譜系,輔助和促進收藏,以立體的方式呈現出各事件之間的關聯性。
通過數字人文相關技術的應用,揭示某一詩人、某一事件或某一流派研究進展之間的關聯,并以可視化的方式呈現,為廣大研究人員提供更行之有效的數據檢索手段,他山之石幫助樹立人際網絡、學科發展歷程以及事件關聯圖譜。數字人文技術的介入,旨在解決三個主要問題:存儲、檢索與關聯。在此基礎上,提供信息檢索與文本標注的功能; 構建內容數據的關聯屬性,賦能文本的量化分析能力;多維展現數字內容,創新文本研究范式。依托圖書館對信息的處理和服務能力,以及對信息來源、信息終端用戶的把握能力,以重要簽名本、歷史人物等為線索,采集保存個人記憶,創立集書籍、印刷品、展覽、講座、數據庫、專藏書架“五位一體”的全新服務模式,為讀者提供一種全方位、立體式的閱讀體驗。
3.3創建流程
構建開放、集成、共享的多元信息整合服務平臺,有序化整理、深入挖掘并實現數據化,明確創建流程。一是對簽名本進行深度、精確的元數據標引;二是簽名信息數字化,通過富集數據和數據關聯,幫助用戶發現新知識、提出新問題;三是以簽名本收錄為開端,通過運維宣傳、查詢使用、評論交流,豐富簽名本資源信息網絡;四是簽名信息挖掘,通過對文獻類別、讀者群體、閱讀時間、內容喜好等數據的甄別分析,從以館員為主到探索與多方合作;五是發掘、搜集、輯錄、整理“簽名本詩論集”“簽名本詩歌作品集”“簽名本詩歌文獻圖像數據庫”及網站運行。
3.4開發館藏挖掘與應用管理系統
按照課題的研究思路、研究方法及規劃設計,設計“數字人文視域下館藏深度挖掘”系統。平臺通過對圖書書目信息、簽名信息及書名頁、版權頁、簽名頁圖像信息上傳,實現信息發布,由讀者在網頁端自由查看或發表閱讀感想書評等,通過讀者的行為操作實現“圖書-讀者-信息”之間關系的深度挖掘。系統的主要特點有:圖書信息展示,平臺權威發布的專家解讀,讀者評論發表,讀者行為統計等。
4存在問題及解決策略
4.1運維及時性與眾包
對數據進行標記、評論,創建并上傳用戶原創內容。一是充分利用網站后臺進行管理,建立針對用戶反饋的及時響應機制;二是設置專題的創作、審稿和維護的流程,讀者和館員共同維護;三是挖掘具有審稿能力的讀者,通過管理員獲取相應權限,參與到專題的勘誤工作,在線修訂專題內容;四是定期擴充與更新資源;五是及時優化網站;六是補充網站功能。
初衷是保護、完善、研究和傳播,形成簽名本詩詞專題庫,面向專業用戶提供開放共享服務。在圖書館網站發布、在線論壇、學術會議上等進行推廣,然后發掘潛在受眾,并邀請志愿者參與。提升讀者的參與度和積極性,擴展資源收集渠道,由讀者進行數字館藏征集與整理的補充,征集更多的影像圖片及文本,貢獻新資源,或豐富、整合及重新配置現有資源,保障專題的多樣性。館員作為數字化資源OCR、數字資源組織描述及發布主體,完成元數據著錄。專題數據經作者創作后,提交審稿人審核并反饋。審核通過后,平臺發布與公眾共享,開展平臺維護和管理工作,保障專題的專業性。
從數據資源、數字技術進而到平臺系統都可以是眾包之源,眾包的志愿群體是實名的,對詩詞感興趣、通曉現代詩詞或具備一定信息技術技能的,且對參與價值認可的成員進行篩選并進行操作培訓。由我們發起,眾包志愿者參與配合,經過相互協作共同保護、傳承和創建開放、互聯和智能的資源。志愿者實現信息技術水平、詩詞素養提升,學到新知識,獲得滿足感。項目以貢獻者排行榜進行激勵,對持續參與者進行鼓勵。
4.2數據結構化與關聯
對圖像數據庫轉錄、修訂、標記與分類,進行標準化加工、組織和管理,轉化成結構化數據。匯集詩歌文獻的封面、版權頁、目錄等出版發行信息,簽名信息,作者簡介、書摘、詩人紀鵬的標注及藏書章、印章、款識、書中閱讀痕跡及館藏信息等。
關聯數據是一種語義知識圖譜,注重知識發布與關聯。基于圖數據庫實現的知識圖譜是廣義上的知識圖譜,注重知識挖掘與計算[17]。嘗試基于圖數據庫實現知識圖譜和關聯數據的結合,對詩詞背景、典故、情感及地域特征,展開詩、人、地、掌故關聯性推理和交互式查詢。最終在圖書館特藏資源建設的基礎上,結合數字技術、公眾力量和社會資源共同完成簽名本詩詞專題數據庫建設。
4.3研究維度薄弱與拓展
專題庫建設是從數據采集、加工、組織、存儲,到評估、開放、共享、利用的全流程。目前我們對詩詞簽名本特藏資源進行了比較充分的分析與梳理,推動搭建面向學科的特藏資源研究與開發平臺,突出館藏特色,努力發揮館藏的數字人文研究價值,但評估、開放、共享、利用及優化思考相對薄弱。
一是數據評估。對項目的平臺建設、宣傳,任務分發、部署,質量控制及風險管理、經費支持等都要進行評估,需要多部門、多學科、多元服務與多元支持,邀請數字人文學者、計算機專業人才、優秀項目管理者及有關領域的法律顧問等,商議具有指導意義的方案。在評估基礎上進一步細化拓展,完成對現代詩詞簽名本的知識組織和開發利用,注意館藏中高質量圖像的保護,后續研究需建立現代詩文文本標注的語料庫。一邊建設,一邊拓寬交流渠道,了解用戶需求與反饋,并及時改進。
二是開源共享。使數據朝著RDF格式轉變,重視API標準化或者為不同類型用戶設置針對性訪問方法。開放的在線專題庫和開放數據平臺無疑會為研究人員提供隨時隨地訪問的便利,考證文獻的真實性、原本性,考證圖書版本演變源流等。但是基于版權的開放程度需應對挑戰,如提供鏈接服務過程中產生的侵權風險,在開發圖片數據庫的過程中的著作權侵權風險,如特定情況下,合理使用及著作權例外并不被法院所認可等[18]。協作和交互技術有待升級,數據安全和數據隱私安全有待保障,數據加密和脫敏技術有待升級。
三是增進流通。簽名本專題庫承載文化信息的流通功能,實現簽名本價值最大程度的體現,達到詩歌文獻信息資源共享。共享和反饋環境以及深度交互的渠道有待進一步探索,數字化技術及數據管理技術要不斷升級。依照一套完整的技術規范,發揮關聯數據的價值,采用url作為唯一能定位的資源標識符,可以實現簽名本資源多平臺共建共享,提升數字人文資源流動屬性。為提升簽名本圖像內容的實用價值,應利用知識圖譜、本體方法論、語義網等技術手段提升文字資源等呈現范式與知識體系構建[19]。
四是提升實用價值。可視化分析、統計分析、關聯分析等會為研究帶來新的發現,帶著情懷的簽名本,有人的故事、也有書的故事,是精神思想交流和私人友誼交往的見證。每本藏書都有溫度,有態度,有故事。講好這些故事,數據分析技術及可視化技術要不斷升級。利用平臺的可視化分析軟件功能使眾包數據、統一檢索與分析數據等功能發現知識發現,實現數據的智慧化使用。
五是資源優化。數字人文研究,圖像是重要的研究資料,包括原照和數字化后的圖像文獻,標準規范地展現詩歌簽名本領域圖像的特性,有待深入研究。項目選擇自建平臺,由項目組成員,按照課題思路,創建獨立的項目網站。版本略低,結構、流程、功能及測試等有待優化。加強機構之間、作者之間的交流,加強與高校、科研機構、圖書館的交流合作,從實體到數字圖像相關技術、圖像數字資源的描述、圖像語義層次的描述、分類及元數據屬性特征、關聯關系予以揭示并進行優化。
參考文獻:
[1]趙宇翔,練靖雯.數字人文視域下文化遺產眾包研究綜述[J].數據分析與知識發現,2021,49(01): 36—55.
[2]朱本軍,聶華.互動與共生:數字人文與史學研究——第二屆“北京大學數字人文論壇”綜述[J].大學圖書館學報,2017,35(04):18—22.
[3]李娜.國際數字人文研究的演化路徑與熱點主題分析[J].圖書館,2021(05):59—67,73.
[4]朱前東,吳育冰.劍橋大學數字人文實踐的合作模式及其圖書館角色[J].圖書館學研究,2021 (11):96—101.
[5]王靜靜,葉鷹.國際數字人文研究中的跨學科知識擴散探析[J].大學圖書館學報,2021,39 (2):45—51.
[6]張玲.“圖書館與數字人文”國際研討會綜述[J].大學圖書館學報,2018,36 (2):5—10.
[7,19]顏佳,楊敏,彭梅.面向數字人文的圖像數據基礎設施建設研究—以我國圖博檔領域為視角[J].圖書館,2021 (05):51—58.
[8]2020數字人文年會圓滿閉幕.[EB/OL].[2020-10-23].https://library.sh.cn/918.
[9]曹珊.特藏專題資源建設路徑初探———以復旦大學圖書館詩歌資料收藏中心為例[J].大學圖書情報學刊,2020,38 (03):89—92.
[10]蔡迎春.數字人文評價:學科性、專業性、技術性[J].中國圖書館學報,2021 (04):86—96.
[11]曲蘊,馬春.研究型圖書館在科研和學習領域采用新興技術的現狀[J].公共圖書館,2021 (02):89—94.
[12]陳子善.簽名本叢考[M].北京:海豚出版社,2017:209—231.
[13]徐瑩.簽名本:文學檔案的另一個視角[J].中國檔案,2018 (06):38—39.
[14]吳海瑛.名人手跡簽名本收藏 保存記憶的方式專訪簽名本收藏者錢永林[J].東方藏品,2015 (7):90—97.
[15]鄭巧英,周晨,彭佳.國家圖書館圖像資源元數據規范和著錄規則[M].北京:國家圖書館出版社,2013.
[16]曾子明,周知.面向數字人文的圖像語義描述模型研究[J]情報理論與實踐,2018 (1):116—121.
[17]李永卉等.基于圖數據庫Neo4j的宋代鎮江詩詞知識圖譜構建研究[J].大學圖書館學報,2021 (2):52—60.
[18]阿力木江·依明.民法典權利救濟視域下圖書館著作權侵權困境、緣由及其對策[J].圖書情報工作,2021 (12):130—138.
作者簡介:林忠娜 (1969— ),碩士研究生學歷,吉林省長春圖書館研究館員,研究方向:信息資源建設。