徐 毅 錢智勇
2021年,國家“十四五”規劃綱要草案提出實施文化產業數字化戰略。2022年5月22日,中共中央辦公廳、國務院辦公廳印發《關于推進實施國家文化數字化戰略的意見》(以下簡稱《意見》),成為推動實施國家文化數字化戰略、建設國家文化大數據體系的框架性、指導性文件。《意見》提出的重點任務包括:促進文化機構數字化轉型升級,推動圖書館等收藏機構加強公共文化數字資源建設,統籌推進國家文化大數據體系、全國智慧圖書館體系和公共文化云建設,增強公共文化數字內容的供給能力,提升公共文化服務數字化水平。《意見》要求到“十四五”期末基本建成文化數字化基礎設施和服務平臺,形成線上線下融合互動、立體覆蓋的文化服務供給體系。文化資源經過數字化加工整理,通過多終端廣泛傳播,就會走出博物館、圖書館、檔案館,打破時空限制,讓人們隨時共享悠久璀璨的中華優秀文化成果。因此,國家文化數字化戰略的實施將極大地推進圖書館數字化轉型和服務創新。
自上世紀90年代后期開始,館藏資源數字化建設使得圖書館積累了豐富的數字化技術應用經驗,從光盤存儲到聯機數據庫,再到網絡數據庫,20余年的資源共建共享和數據庫建設極大地豐富了傳統館藏資源,實現了基于文本的館藏文獻紙電一體化全文檢索和共享利用。隨著大數據技術、語義網技術、區塊鏈技術、人工智能技術、虛擬現實技術等在智慧圖書館的廣泛應用,圖書館業務組織也面臨數字化管理、技術與傳統工作的融合、跨學科跨機構合作等重要問題。如果技術只是服務于傳統的圖書館工作方式,而不能利用技術創新提升圖書館業務和服務模式,必然會放緩圖書館數字化建設的進程[1]。圖書館傳統業務和服務模式向數字化轉型,實現業務工作與信息技術同步發展,已成為圖書館貫徹落實國家文化數字化戰略和加快自身數字化發展的必然選擇。本文借鑒國內外圖書館數字化建設成果,結合南通城市記憶文化遺產“張謇學瀕危稀見文獻”數字化保護和利用實踐,探索了南通大學圖書館在貫徹落實國家文化數字化發展戰略,以及數字化轉型、技術路徑和服務模式上的創新舉措,并為圖書館數字化的可持續發展提供經驗。
文獻是了解歷史文化信息的一把鑰匙,保護好文獻遺產是城市文化傳承不可或缺的一環,更是城市文化高地建設中至關重要的基礎,收集和保存人類文化遺產是圖書館擔負的社會職能。在信息化社會里,對文獻文化遺產進行數字化保護和利用是新時代圖書館社會職能的擴展,是確保圖書館始終成為人類文化遺產的儲存中心的重要立足點[2]。圖書館近二十年的文化遺產數字化研究與建設實踐為本文研究提供了理論方法和技術指導。
國內于20世紀末就開始了古籍數字化建設,并取得了一系列成果。上海圖書館早期開發了“古籍影像光盤制作及檢索系統”[3],國家圖書館構建了“館藏善本古籍文獻書目總庫”[4];又如地方特藏古籍書目數據庫有成都圖書館特藏善本古籍目錄數據庫[5]、南京農業大學“民國農業書目數據庫”[6]等等。國外中文古籍數據庫亦有不少亮眼建設,如哈佛大學古籍善本特藏、東京大學圖書館“漢籍目錄”、韓國國立漢城大學圖書館“奎章閣古籍檢索系統”、大英圖書館“中文圖書聯合檢索”等[7]。而今,大型全文古籍數據庫也有了較成熟的發展。公共服務共享資源庫有中國國家數字圖書館“中華古籍資源庫”,商業古籍資源庫有“中國基本古籍庫”“雕龍古籍數據庫”“鼎秀古籍數據庫”等等,已經實現了分類檢索、條目檢索、全文檢索、二次檢索等古籍基本檢索功能。
隨著古籍數字化建設的不斷發展,相關標準規范也開始為人關注。中山大學在構建“嶺南記憶”網絡平臺時,提出了嶺南文化遺產資源數字化優先策略[8];蘭州大學圖書館探索了甘肅非物質文化遺產的數字化保護策略[9];上海交通大學圖書館構建了地方歷史文獻的數字化管理和規范體系[10]。此外,已有的文獻文化遺產數字化保護和利用相關標準有國際標準《信息與文獻文化遺產信息交換的參考本體》(ISO21127:2014)、國家標準《古籍著錄規則》(GB/T3792.7-2009)、行業標準《古籍元數據規范》(WH/T66-2014)等等。這些標準規范對地方文獻文化遺產數字化標準化建設,實現異構文獻文化遺產資源數字化共建共享和語義互操作等方面具有重要指導作用。
由于信息技術日新月異,很多新的數字技術開始應用于古籍數字化保護之中。翟珊珊等研究基于關聯數據技術聚合文化遺產資源[11],王曉光等通過建立敦煌壁畫敘詞表揭示了敦煌圖像的語義[12],陳濤等致力于IIIF與AI結合的文化遺產圖像資源組織研究[13]。哈佛大學燕京學社與北京大學合作構建了中國歷代人物傳記資料庫(CBDB),為數字人文提供了基礎數據資源[14];英國牛津大學的研究人員阿塞爾·雅尼斯等利用深度神經網絡模型,對被破壞的古希臘文獻遺產中的銘文段落進行了文字修復和深度還原[15]。德國埃爾朗根-紐倫堡大學的丹尼爾·斯特羅默等利用計算機斷層掃描的新方法,將竹簡和木簡上的文獻數字化,使得隱藏的文字內容變得可讀[16]。新技術應用對瀕臨毀壞的文獻遺產進行修復和揭示,實現了基于時空信息的文化遺產數字化和語義化知識組織、存儲、保護、利用。
初景利認為確立圖書館服務戰略轉型的核心是真正確立“以用戶為中心”的服務理念,積極推動嵌入式學科知識服務[17]。吳建中提出大學圖書館數字化轉型應主動融入大學整體發展、推進圖書館數字化轉型、創新的全素養教育[18]。何秀全等認為圖書館應在學校整體轉型發展中實現圖書館的數字化轉型[19]。姚曉霞等認為圖書館應以用戶為中心、以服務為抓手、以數據為核心、以技術為基礎、以人才為根本,積極開展數字化轉型和服務創新實踐[20]。劉嘉琪等提出圖書館應關注國際實踐,合作共建數字借閱資源共享平臺,推進實體館藏數字化服務轉型[21]。
文獻文化遺產數字化保護和利用是圖書館貫徹實施國家文化數字化戰略的重要舉措。本文以地域文獻文化遺產——張謇學瀕危稀見文獻數字化保護和利用為例,探索圖書館文化遺產數字化保護創新實踐。張謇為清末狀元,是“中國近代第一城”——南通的締造者[22]。1956年2月毛澤東主席在接見黃炎培時,就認為提起民族工業,在中國近代史上有四個人不能忘記,其中“輕工業不能忘記海門的張謇”。2020年習近平總書記在南通考察時指出:“張謇在興辦實業的同時,積極興辦教育和社會公益事業,造福鄉梓,幫助群眾,影響深遠,是中國民營企業家的先賢和楷模。”張謇一生致力于創實業、辦教育、興修水利、海防、邊疆、墾牧等早期城市現代化建設,南通地區留存了大量有關張謇的近代史文獻文化遺產和歷史遺跡,收藏于圖書館、博物館、檔案館等機構。還有許多張謇學瀕危稀見文獻散落在國內外或流落民間。一些近代城市建設中的水利、海防、邊疆等方面文獻和遺跡遺存,隨著自然環境的變化,城鎮建設的加快,一部分已經消亡,幸免的遺跡也面臨消亡的危險,這些被人忽略的城市記憶歷史遺跡、流落民間的文物、域外漢籍中的資料等等,是張謇學基礎文獻不可或缺的部分,其文獻價值獨特而重要。
利用數字化技術對張謇學瀕危稀見文獻進行保護就是為了尊重歷史、搶救和保護典籍,其初心是讓張謇學瀕危稀見文獻走出圖書館、走出博物館、走出檔案館,更好地為大眾服務,更好地、全方位地展示歷史上地張謇。這不僅可以服務于學術研究,而且可以面向普通大眾,從而實現中華優秀傳統地域文化在最大范圍內的傳承和利用。南通大學圖書館以國內瀕危的重要張謇歷史遺跡、民間文物及稀見的域外張謇學文獻為重點發掘和保護對象,組織跨學科的學術團隊,探索張謇學瀕危稀見文獻數字化保護路徑,構建數字人文研究平臺。通過項目驅動促進圖書館數字化業務模式創新、技術路徑創新和服務創新發展。
張謇學瀕危稀見文獻具有多類型、多語言、跨學科等特征,對這些珍貴的文獻遺產進行收集整理和數字化處理的工作量及難度非常大,技術要求高,必須采用新的研究方法和技術手段進行數字化保護和利用。這就需要更新觀念,大膽創新,突破傳統的圖書館管理模式,以項目驅動跨學科跨機構合作,通過圖書館業務數字化轉型,嵌入式培養館員數字素養,提升數字化服務水平和能力。
2.1.1 項目驅動跨機構跨學科合作
國家文化數字化戰略需求和地方文化遺產數字化保護與利用的內在需要必將促進圖書館、檔案館、博物館等文化記憶機構之間的協同合作。文化記憶機構可以通過合作申報各類國家級和省市地方文化數字化項目,以項目驅動和促進文化結構之間的業務協作。本項目以南通大學圖書館原有張謇研究特色數據庫(該數據庫曾獲CALIS全國高校專題特色庫子項目驗收評比二等獎)為基礎,以申報國家冷門絕學重大團隊項目為契機,組織由圖書館館長(張謇學文獻域外漢籍專家)領銜的跨學科學術團隊,邀請政府文化部門領導、南通市圖書館、檔案館、博物館領導及張謇嫡孫張緒武先生等一批張謇學研究專家作為核心成員擔任項目指導,由南京大學域外漢籍研究所古典文獻學、域外漢籍專家,以及南京大學江蘇省數據工程與知識服務重點實驗室數據技術權威專家、上海圖書館數字人文領軍學者等組成跨學科團隊,多方合作共建張謇學城市記憶文化遺產數字化保護項目。項目組聚集了一批文史專家、民間收藏家和一批朝氣蓬勃、年富力強的青年學者。所涉及學科包括圖書館學、古典文獻學、域外漢籍、歷史學、博物館學、檔案學、信息科學等多學科交叉領域,以項目建設驅動城市記憶文獻文化遺產的跨機構跨學科合作。通過項目契約合同和平等協作機制,在共同目標興趣和利益需求的驅動下,不同機構合作者有較強的自主意愿,可有效促進南通地域文化資源互補,人力和技術共享,實現效益最大化。同時,通過項目可以增強城市文化記憶機構之間的業務交流與合作,提升機構的業務水平和資源共享服務能力,強化特色地域文化的數字化保護和傳承利用,加快地方文化資源融入國家文化大數據體系,實現地域文化資源的數字化共建共享和傳播利用。
2.1.2 促進圖書館業務數字化轉型
在貫徹實施國家文化數字化戰略的進程中,數字資源的組織、新技術的應用、服務的創新等等都需要改革圖書館傳統業務運作模式,從傳統服務模式向數字化轉型是圖書館現代化進程中的必然選擇。南通大學圖書館圍繞地方文化遺產“張謇學瀕危稀見文獻”的數字化保護和利用,在項目實踐中探索圖書館業務工作數字化轉型的方式與具體實現方法,采用自上而下的項目管理與自下而上的扁平化組織相結合的方法推進圖書館業務工作的數字化轉型(圖1)。

圖1 項目驅動圖書館業務數字化轉型
首先,建立自上而下的管理機制。圖書館領導集體以高度一致的思想、行動引導項目的正確方向,將其納入南通大學圖書館“十四五”規劃重點工作。成立了南通大學“張謇學數字人文研究平臺”建設中心,由分管副校長、南通市政協副主席擔任中心主任,邀請張謇的嫡孫張緒武先生擔任總顧問。將“張謇學數字人文研究平臺”的建設作為南通大學圖書館的“一把手”工程來組織管理。每月召開平臺建設匯報推進會,書記、館長輪流主持,各個項目組分別匯報一個月以來的工作進展,側重于成效與困難,館長布置平臺建設的下一個月工作任務,會后形成《工作簡報》。圖書館基層黨組織完全融入張謇學術團隊,黨建與學術“雙核”推進,在張謇學研究中切實發揮黨員甘于奉獻、敢為人先的先鋒作用,科學而扎實地推進項目建設和業務工作數字化轉型。
其次,構建項目驅動的自下而上的扁平化組織結構。大數據環境下,圖書館傳統流程被附加了更多網絡化、主題化、語義化的新內容,傳統組織結構已不能滿足多部門協同聯動的業務方式,以職能方向為基礎的扁平化組織結構有利于減少協調溝通成本,有效提高業務運行效率[23]。南通大學圖書館以文化遺產數字化保護項目為驅動,推進實施以項目組為載體的圖書館業務工作扁平化管理。圍繞張謇學瀕危稀見文獻數字化保護和利用,成立了張謇研究資源建設、張謇原典收集與整理、域外張謇文獻及研究、國內張謇文獻及研究、張謇數字人文研究、張謇數據庫技術、張謇研究著作解題等七個工作組,成員來自全館各個部門,打破圖書館部門之間的業務界線,發揮館員的不同專長,同時將項目建設與業務工作相結合,促進部門之間的業務交叉,加快了圖書館業務工作的數字化轉型。
2.1.3 實現館員數字素養嵌入式培養
數字素養是指個人在數字時代所需具備的數字意識、數字知識、數字能力與數字倫理等方面的綜合素養[24]。館員的數字素養具體指在數字環境下利用數字技術手段和方法,發現和獲取信息,組織與管理信息、理解與評價信息、整合與利用信息、交流與共享信息的綜合素養。培養館員的數字素養是圖書館數字化轉型能否順利實現的基礎,也是數字化建設的重要目標之一。圖書館可以采用項目驅動的嵌入式方法培養館員的數字素養。項目驅動式又稱項目引領式培養,它是建立在建構主義理論基礎上的培養模式,與傳統的培養模式相比,項目驅動式培養能更大地激發館員的學習興趣和求知欲望,在項目研究過程中學習并掌握數字化技能與方法,培養自主學習、分析和解決問題的能力。
圖書館采用項目驅動的跨學科嵌入式培養模式,以需要解決的主要問題為導向,以項目實施為牽引,對館員采用在職研修的嵌入式數字素養培養模式,將數字技術、多媒體技術、語義技術、軟件工程等模塊嵌入數字人文課程體系和數字化項目培訓。圍繞項目實踐設立館員嵌入式培養目標,注重培養項目組織實施能力、數字化技術操作能力及館員跨學科知識多元化應用能力。構建項目虛擬共享學習平臺,館員和文獻學專家、信息技術專家及其他領域的專家學者進行實時在線的學習和交流。建立不同任務小組進行基于任務的合作學習和實踐,在數據采集、數據組織、標注算法、數據關聯、數據挖掘、數據呈現、數字版權、內容傳播等方面進行研討和學習。這種開放式的培養模式一方面有利于館員在項目研究進程中學習數字技術和研究方法,另一方面可以增強學科館員與不同學科專家的溝通和協作,在提升信息技術應用能力的同時,推進項目的順利進行。通過長期的項目實踐,不斷提高館員的數字素養,促進圖書館業務數字化轉型和文化遺產數字化項目的可持續發展。
張謇學瀕危稀見文獻搜集、輯佚和數字化保護工作需要解決稀見張謇古籍文字識別,多語種多媒體類型的元數據語義標注、實體關系抽取、關聯數據轉換發布,時空知識圖譜及文獻文物遺產的虛擬化展示與語義關聯等諸多技術問題。本文提出以融入國家文化遺產大數據體系和地方文化遺產數字化產業需求為導向,以構建“張謇學瀕危稀見文獻數字化保護和數字人文研究平臺”為具體目標的技術實現路徑。首先通過案例調研和專家訪談,明確張謇學數字人文研究平臺的功能需求,分析歸納需要解決的技術難題和可行性;然后與數據庫技術開發商、上海圖書館、南京大學等多方合作進行平臺開發,平臺采用邊建設,邊開發,邊實踐,再總結,再開發完善的探索性的開發建設思路。初步設計了三層架構平臺,分別為信息資源層、整合支撐層、應用層(圖2)。

圖2 張謇學瀕危稀見文獻數字人文研究平臺
2.2.1 第一層,信息資源層
信息資源層是依據數字化加工規范對收集的文獻進行數字化加工、識別、分類標引和內容發布。數字化加工規范參照國內外最新的數字化技術標準制定,具體有《張謇古籍資源采集和加工規范》 《張謇檔案資源采集和加工規范》《張謇圖像資源采集和加工規范》等等。文本識別是先依據數字加工規范對收集到的張謇瀕危稀見文獻進行掃描存儲,再完成古籍識別、編輯、審校。內容發布是對數字化的張謇文獻進行元數據標引和內容發布。信息資源層的難點是對張謇古籍文獻、張謇手稿、碑刻及實物文獻的數字識別。首先,利用現有漢字計算機編碼標準和字庫進行OCR自動識別,最新的《古籍印刷漢字規范》(2022年5月1日實施)給出了14250個古籍印刷通用字形、字音及在國際編碼字符集ISO/IEC10646中的碼位,可識別大部分傳世古籍的印刷體通用漢字。
部分張謇手書、楹聯、題跋、碑刻、木刻等珍稀文獻的文字排版、間距、行距規整,資料信息完整度高,底板顏色與文字顏色對比度高,底板顏色純凈,文字及字體規范的資料識別效果好(圖3.1)。對一部分難識別的稀見文獻可通過以下方法提高識別率:針對底色雜亂、底色高飽和的圖像(圖3.2),將RGB彩色圖像轉為灰度圖像,并做直方圖均衡化處理增強圖像對比度,凸顯目標文字形狀特征,減少干擾像素數據,提升識別速度和精度(圖3.3);陰刻的文獻資料需先做像素反相處理(圖3.4);再進行前述步驟(圖3.5);最后將處理過的圖像上傳平臺,針對文本排版錯雜或文本密集的情況,逐頁或逐列切分文本區域,點擊自動OCR,系統將調用漢王OCR、書同文OCR等外部字庫資源自行動識別文本,點擊保存JOCR,保存識別結果為所選區域的文本標注內容。

圖3 張謇學瀕危稀見文獻OCR識別
張謇瀕危稀見文獻中還有許多手書字體、字跡模糊破損、異體生僻字等識別難度更高的文字,采用傳統的“預處理—切分—特征提取—識別”的路徑方法識別率很低。目前,基于深度學習的漢字識別技術性能較好,如經典的深度學習神經網絡結構——卷積神經網絡(CNN),利用機器替代人工完成提取特征的步驟,在精度和效率上都有質的提升。難度更高的手寫草書、異體字、異形字、破損殘缺字的識別,主要采取聯機和脫機兩種方法。聯機的方法可以通過網絡眾包模式,利用人工識別抄寫轉錄,如上海圖書館盛宣懷檔案手稿文本化就是采用眾包模式,由網上用戶進行注冊登陸完成識別抄錄[25]。在人工書寫過程中還能獲取筆畫順序信息,再結合機器學習,將會識別效果更佳。脫機的方法由于缺少筆順信息,又受圖像分辨率、背景噪聲等因素影響,還有很大的探索空間。
2.2.2 第二層,整合支撐層
整合支撐層的主要作用是以元數據規范、資源描述框架和本體規范、國際圖像互操作框架等技術標準規范為基礎,支持張謇瀕危稀見文獻的數字資源描述、語義知識組織和數字人文研究(圖4)。

圖4 張謇學文獻知識組織整合支撐技術路徑
(1)數字資源描述規范。描述文獻文化遺產的主要元數據規范包括:DC(都柏林核心元素)、《古籍著錄規則》 (GB/T3792.7-2009)、《檔案著錄規則》(DA/T18-2022)、《國家圖書館拓片元數據規范與著錄規則》、《可視化藝術品資源元數據規范》 (VRACore)、《地理信息元數據》 (GB/T19710-2005)等等。以這些標準與規則規范為基礎,建立張謇著述古籍文獻、檔案文獻、信札手稿文獻、碑刻文獻、家譜文獻、圖像文獻、音視頻文獻、以及其他史跡文獻等元數據描述框架,建立元數據標注模型。基于通用性、可擴展性原則,結合張謇學文獻的不同特征,從載體和內容兩個維度構建張謇學文獻元數據框架和描述規則。
(2)語義知識組織。文化遺產語義知識組織常用技術規范和標準包括:由國際萬維網聯盟(簡稱W3C)發布的可擴展標記語言(XML)與資源描述框架(RDF)、本體語言(OWL)與描述邏輯(DLs),國際圖像互操作框架(IIIF),以及人工智能(AI)、虛擬現實(VR)、增強現實(AR)、混合現實(MR)等技術標準。其中RDF是用來描述文化遺產資源及相互關系的數據模型,它是語義網技術體系的基石[26]。RDF通過三元組結構<主語謂語賓語>描述某一資源的特定屬性與屬性值。OWL是基于描述邏輯的本體建模語言。本體是共享概念的明確的形式化的規范說明[27]。通過領域本體,可以在資源元數據描述的基礎上,實現不同元數據類型之間的語義化描述和語義互操作。國際圖像互操作框架標準(IIIF)是一組用于定義文化記憶機構互操作性框架的標準,IIIF通過標準的應用程序編程接口(API),提供在Web上描述和訪問圖像資源的統一方法,通過應用程序API接口,采用基于本體和RDF的圖像語義標注,可以實現張謇學文獻文化遺產的圖像對象資源和外部關聯數據集的語義關聯,還可進一步實現更廣范圍的文化遺產知識關聯和知識發現。文化遺產數字化保護還可使用虛擬現實(VR)、增強現實(AR)、混合現實(MR)等技術方法對張謇學瀕危文獻遺產進行數字恢復、數字還原,場景再現等數字化保護和利用。
2.2.3 第三層,應用層
應用層主要功能是基于張謇學瀕危稀見文獻的語義化知識組織,構建張謇知識圖譜、張謇研究學譜、張謇行跡地圖、張謇訊息博物館等應用場景,集成數字人文研究工具,幫助學者利用數字技術進行張謇學數字人文的跨學科應用研究。
本文案例選取《張謇辭典》文本進行基于元數據的內容標注,該辭典由國內40多名張謇研究知名專家學者歷經10余年編纂完成,收錄張謇學相關人物、事件、地名、典制、業績、著述、史跡等方面詞條1693條,較全面地反映了與張謇相關的人、時、地、物、事件、業績、著述等歷史資料,是了解張謇、研究張謇的重要工具書[28]。根據《張謇辭典》內容分類構建張謇知識本體,定義本體的10個實體概念類分別為:人物、事件、地名、典制、業績、史跡、研究、行跡、其他類,再分別定義每個類的屬性,見表1。

表1 張謇學瀕危稀見文獻知識本體類屬性表
(1)構建張謇知識圖譜。首先通過本體建模元語,設計本體類、屬性、屬性關系,構建張謇知識文獻知識本體。然后依據本體對《張謇詞典》文本進行實體、關系標注和抽取,再通過由節點、關系、屬性、標簽等元素構建的數據模型,將結構化《張謇詞典》文本數據存儲為由關系連接的圖數據庫。圖5中詳細展示了張謇知識本體中與張謇有“生意合作”關系的人物知識圖譜,通過對象屬性關聯到人物、業績、典制、著述等本體類,可實現多維度張謇本體知識關聯檢索。張謇知識圖譜以可視化圖形效果增強了張謇知識搜索的關聯性和瀏覽趣味性,還可以逐層打開探索事件內部關聯,再通過知識圖譜的查詢推理獲得更多的張謇人物、事件、地點、時間等未知關系的知識發現。此外,通過對張謇著述和張謇研究文獻的語義標注和知識關聯,構建張謇學譜,從時間、空間和不同主題、不同類型等多個維度可視化、系統地展示張謇學研究成果。

圖5 張謇人物關系知識圖譜
(2)構建張謇行跡地圖。依據“編年”與“系地”并重的理念,對張謇行跡進行數據建模,依據模型標注原始文獻中的編年信息和地理信息,標注內容主要包括時間、地點、地點經緯度、事件概述等幾個部分。對《張謇年譜》中的時間、地點等結構化信息,可依據規則匹配,利用正則表達式標注,獲得較高精確率,使用自動標記功能給出段落標記,再將已獲取的地點信息去重,使用歷史地名查詢工具(TWGIS)逐一獲取經緯度信息;然后在Excel中使用vlookup函數將具有相同段落標記的時間、地點和事件信息對應,將地點名稱與經緯度信息對應,事件概述使用規則標記并提取每段第一句描述性文本;再將標注結果導出為張謇行跡Excel表;最后利用ARCGIS地圖工具轉換Excel表數據,將經緯度添加到圖層中完成地圖構建。圖6展示了張謇晚清時期的行跡歷程。利用關聯數據屬性URL可以將張謇行跡地圖與知識圖譜進行關聯,通過時間維度檢索和呈現張謇出生地、經行地、科舉地、任職地、經商地、與友人交往地等等不同地方的人物、經歷和事件。

圖6 張謇行跡歷程圖
(3)構建張謇虛擬博物館。張謇虛擬博物館融合移動互聯網、虛擬現實、三維全景、多媒體和數字陳展等技術,采用三維虛擬漫游技術,設計虛擬展廳三維模型,為虛擬展廳提供空間載體。所有展品均陳列在虛擬展廳的展位或展示架。再基于三維展廳設計創建三維虛擬展廳地圖,地圖支持場景漫游、尋路算法、角色對話、信息熱點綁定等功能(圖7)。系統通過虛擬空間全景沉浸式體驗模式展示展館內的所有影像信息。在720VR中嵌入電子書,可在720度全景視角中,直接翻頁閱讀文獻。通過靈活的交互方式來提升用戶體驗感,同時支持掛接視頻資源,讓整個展館動起來、活起來,讓用戶體驗身臨其境欣賞數字展館之美。此外,系統還將富媒體技術與虛擬現實技術相融合,利用多媒體手段,通過加載聲像資料、口承傳統資料等,展示城市記憶歷史文化,促進張謇學特色地域文化的歷史傳承。

圖7 張謇學瀕危稀見文獻虛擬博物館
2.3.1 文化遺產資源跨平臺服務模式創新
文化數字化戰略目標是實現各類文化資源的數字化成果全民共享,文化遺產資源數字化保護和利用需要進行跨領域跨部門協作,圖書館、博物館、檔案館等城市記憶機構通過項目驅動模式,實現不同機構服務功能的兼容與整合。需要整合多個元數據方案,通過復用現有元數據標準,構建文化遺產元數據規范核心元素集。然后再基于元數據規范,標注圖書、檔案、文物遺產等資源,細粒度組織碎片化、結構化的張謇文化遺產資源,通過同類聚合將張謇學研究相同或相近學科、領域的文獻資料進行集成式分類整理,開發成專題數據庫,利用文本標注和關系抽取將文獻中的知識進行分解與整序,通過概念層次關系和對象屬性關系尋求知識之間的潛在關聯,探索張謇文獻中的城市記憶知識。還可將本體詞表嵌入關系數據庫系統,實現跨平臺語義檢索,如當搜索一個實體如“大生紗廠”時,通過設計好的本體屬性自動鏈接到該詞的關聯實體,計算機會根據結構化查詢語言進行匹配查找,自動搜索有關“大生紗廠”的輔助產業,如“通海墾牧公司”“大達外江輪船公司”“復興面粉廠”“資生鐵廠”等等實體企業,相關產業如“同仁泰鹽業公司”“廣生油廠”“大隆皂廠”“大昌紙廠”等等企業的檔案文獻、研究文獻、文物文獻。還可將文獻中相關實體企業的創建時間、創辦歷程、事件、地點、相關人物、相關檔案、相關圖片、音視頻等等歷史記憶抽取出來,以可視化的圖譜形式呈現給讀者。再將張謇學文獻與外部資源如中國歷代人物傳記資料庫(CBDB)、上海圖書館盛宣懷檔案知識庫等進行人物實體關聯,發現更多的人物和歷史檔案證據。學者利用張謇知識圖譜和行跡地圖將南通城市記憶的發展軌跡與現代城市發展連接起來,對清末最大的民營企業大生紗廠及其附屬企業創立的社會因素進行梳理與總結,可以較完整地把握南通近代實業產生的歷史背景與發展的社會推動力。再與現代實體企業研究進行比較分析,發現新問題,提出新觀點,借古通今,探索數字經濟時代的城市實體經濟發展的強國之路。
2.3.2 文化遺產資源跨媒介傳播方式創新
跨媒介傳播的內涵在于不同媒體之間的交叉與融合,合作與共生,可以促使信息資源在不同媒體之間交叉傳播與整合,綜合利用各種媒介資源,提高信息傳播效率,最大限度地擴大信息資源的受眾覆蓋面[29]。在地域文化傳播方面,跨媒介傳播表現出地域文獻文化遺產的多元載體創作及數字化賦能、注重擬人化及地域特色傳達等創意特點,呈現出傳播主體多元化、傳播方式多樣化、傳播手段智能化、傳播內容的文化價值與產業價值并重等趨勢。移動互聯環境下的跨媒介傳播可通過眾包參與、人機交互等方式,采用全方位、多角度、多層次、多時空的展示手段,豐富沉浸式體驗、互動式體驗等活態傳播形式。還可以利用VR、AR等技術實現城市記憶文化遺產場景和實物的數字化重現,利用計算機3D模型生成逼真的三維視、聽、觸等感覺,使讀者通過移動終端進行沉浸式場景感受和虛實互動的體驗。如利用張謇行跡地圖結合增強現實、虛擬原生、鏡像孿生等技術,虛擬復原張謇在南通創辦的企業、學校、醫院、史跡場所、影劇院、博物館、檔案館、圖書館、街道、公園、景點等等近代城市場景,打造“中國近代第一城”的元宇宙空間。讀者利用傳感設備或移動網絡設備,以虛實互動的方式徒步或騎行穿越近代南通城市街區和史跡景點,獲得極具真實感的旅行體驗。系統還能與張謇知識庫關聯,讀者在行走的過程中接收到語音提示及所到場所的實時解說,通過圖像敘事手段,讀者在行走的過程中實時了解到更多張謇興辦企業、規劃城市建設、發展教育、創辦公益等多項全國第一的功績,一方面使讀者了解張謇和近代南通歷史人物、城市面貌、社會生活、藝術人文等方面知識,另一方面使讀者在對城市記憶文化遺產身臨其境的感知中,激發認同地域文化,傳承南通文化遺產的意愿,同時也讓讀者在虛擬體驗和游戲中受到了鄉土教育、人格教育、民族精神教育和多元文化教育,增強了文化自覺、文化自信和民族自豪感。系統平臺還支持多語種標簽切換的中、英、日、韓文張謇文獻資源的語義聚類搜索和可視化呈現,既方便張謇學專家學者的多維度數字人文研究需要,也方便外國留學生和其他讀者參與互動,以圖文聲像多媒體方式體驗和了解以南通為代表的中華優秀特色地域文化,增強中國在周邊國家及其他國家中的影響力,增強民族自豪感,厚植文化自信。
特色鮮明的地域文化,是源遠流長的中華文化的有機組成部分,是中華民族的寶貴財富。本研究以極具地域特色的南通城市記憶文化遺產“張謇學瀕危稀見文獻”為對象,面向國家文化數字化戰略需求和特色地域文化資源的數字化保護傳承和利用的實際需要,探索圖書館數字化轉型、技術路徑創新和智慧化服務的實踐。提出了以項目驅動跨學科跨機構合作、圖書館業務數字化轉型、嵌入式館員數字素養培養等創新舉措。研究并初步構建了城市記憶文獻文化遺產數字化保護和數字人文研究平臺。該平臺由信息資源層、整合支撐層、服務層三層架構組成。信息資源層包括文獻文化遺產數字化采集加工和知識倉儲系統;整合支撐層集成多種元數據規范、國際圖像互操作框架、語義技術規范,以及文本標注、自然語言處理、文本分析等數字人文研究工具,支持文化遺產資源語義聚合、智能檢索和知識發現;應用層包括構建張謇知識圖譜、張謇行跡地圖、張謇虛擬博物館等應用場景。最后探討了文化遺產跨平臺數字化服務的新模式和跨媒介數字化傳播的新方式。
隨著國家文化數字化戰略的推進實施,新技術應用的不斷發展,項目將在四個方面持續進行拓展研究:一是以項目驅動圖書館數字化轉型的深入進行,不斷調研和學習國內外圖書館數字化轉型的先進管理經驗,探索項目制管理與圖書館業務工作的無縫連接,建立基于服務的績效考核機制,提升館員數字素養,提高圖書館數字化服務質量;二是對張謇學瀕危稀見文獻的持續發掘、整理和數字化處理,重點是對張謇著述、檔案、瀕危遺跡文獻及域外漢籍中張謇與友人交往的尺牘、序跋、唱酬詩等稀見文獻進行數字化發掘、保護和利用;三是對張謇學文獻細粒度語義知識的組織,以《張謇辭典》語義知識圖譜和《張謇全集》文本標注為基礎,選擇重點張謇學文獻,如張謇檔案、手稿、日記等進行基于不同主題、不同維度的語義標注,補遺和完善知識圖譜和行跡地圖,構建張謇學譜;四是不斷豐富跨學科數字人文研究的手段和方法,將人工智能、自然語言處理、虛擬復原、場景重構等新技術應用于文化遺產資源數字化保護和利用,不斷將文化遺產資源中的實物、文字、圖畫、聲音、影像、遺跡等對象元素轉換為不同主題內容的數字化形態,讓收藏在博物館里的文物、陳列在廣闊大地上的遺產、書寫在古籍里的文字都活起來,再借助于多種數字化媒介,在互通、互融的過程中逐漸形成特色地域文化遺產資源的全球共享,進而推動中華優秀地域文化成果在世界的廣泛傳播利用。